谷歌到底還是缺一個王炸

本文作者：畢安娣，編輯：王靖，原文标題：《谷歌 I/O 大會，眼花缭亂，但缺王炸》，題圖來自：視覺中國

五月真熱鬧，OpenAI 才開了春季發布會，谷歌 I/O 大會也如期召開了。

實話實說，觀看主題演講直播的過程中，腦海不禁會浮現曾被谷歌内部員工洩露的梗圖——谷歌 AI 産品和項目一個又一個不同又相似的名字令人頭大。

主題演講的關鍵詞仍舊是 AI，谷歌還自己在現場給出了提到 "AI" 的次數，在 120 次以上。

在萬衆矚目的 AI 領域，谷歌宣布了若幹新消息。

AI 大模型升級了兩個，Gemini 1.5 Pro 雙下文窗口拓展到 200 萬 token、Gemini Nano 增加多模态理解能力；新發布了三個，更輕更快的 Gemini 1.5 Flash、新架構下的 Gemma 2.0，以及視覺語言模型 PaliGemma。

另有文生圖模型叠代至 Imagen 3，還新發布了一個文生視頻模型 Veo。

AI 的具體應用延展上，谷歌這次憋了不少招。

谷歌的核心産品搜索中，發布 AI Overviews，加強版 AI 搜索摘要功能将率先上架美國。谷歌搜索中還将加入制定計劃、視頻搜索等多重 AI 驅動的功能。

此外，Gemini 還被塞進谷歌照片以及即時通訊應用 Google Messages 等産品中。

讓人聯想到 OpenAI 才發布的 GPT-4o 的，是谷歌旨在打造未來通用 AI 助理的新項目 Project Astra，以及 Gemin 的新功能 Live。Gemini Live 支持與 AI 語音聊天，年内預計加入相機功能，和 AI 實時 " 視頻通話 "。

有點尴尬的是，在第三方拉流的直播間裏，觀衆直呼 " 無聊 "，并對眼花缭亂的名字感到困惑。CNET 的評論員指出，谷歌需要精進講故事的能力，而不是一上來就将各個部分盡數展開。

一

OpenAI 趕在谷歌 I/O 大會前一天開春季發布會，原本盛傳的搜索産品沒來，但 " 人類級别響應 " 的 GPT-4o 讓人一窺新一代 AI 助理大戰的輪廓。

難以想象要是沒有 OpenAI 的狙擊，谷歌會有多開朗。

本次谷歌 I/O 大會上，原本最具驚喜的也是 AI 助理方面的進展。

首先，谷歌公布了一個新項目，名爲Project Astra。用谷歌 Deepmind 負責人哈薩比斯（Demis Hassabis）的話說，這是真正通向 AGI 的萬能助手項目。

相比于谷歌上一代 AI 助手 Google Assistant，Project Astra 的 AI 助手模式多樣，且能實時交互。沒有煩人的喚醒詞，也沒有尴尬的延遲。看你所看，爲你排憂解難。

演示視頻中，用戶打開手機攝像頭，對準任意物品，AI 可以準确說出物品的名稱，如 " 這是一個音響 "。用戶可以實時視頻的同時，在屏幕上塗畫、進一步向 AI 提問，如畫一個箭頭指向音響的某個部分，詢問是什麽。當用戶将鏡頭對準窗外時，AI 則直接根據景色猜測出用戶所在的地點。

在攝像頭匆匆掃過場景的情況下，用戶求助 " 眼鏡放在哪兒 "，助手準确識别并回答 " 你的眼鏡在紅蘋果的旁邊 "。

去年 12 月，Gemini 就曾發布通過視頻和 AI 互動的視頻，但事後承認視頻經過剪輯，谷歌爲此沒少被戳脊梁骨。

有意思的是，這次在演示視頻的一開頭，谷歌就鄭重承諾，視頻是實時、一次性拍攝的。

不過，谷歌尚未針對 Project Astra 給出明确的時間線，隻是含糊地表示今年晚些時候其中的一些功能将更新到 Gemini 及其他應用中。

谷歌在 AI 助手方面還有更看得見、摸得着的進展——Gemini Live，也就是對 Gemini 産品進行多模态功能拓展。Gemini Advanced 用戶将可以用語音和 Gemini 進行對話，對話更流暢自然，延遲更低，可以随時打斷，預計夏天上線。谷歌還表示，今年年内将加入相機功能，實現實時視頻。

可以說這一次，谷歌被 OpenAI 精準狙擊—— GPT-4o 不僅早一天發布，而且現場演示，未來幾周就會開放給全部用戶。

二

近日外界都在盛傳 OpenAI 将推出搜索類産品，與谷歌一戰，但這樣的情況并沒有發生，而谷歌自己也已經馬不停蹄地升級了谷歌搜索。

搜索作爲谷歌的核心産品，即将迎來一次大升級——搜索摘要功能 AI Overview，同時包含多步推理功能 Multi-Step Reasoning、在搜索中做計劃 Planning in Search，以及用視頻提問 Ask With Video。

AI Overview，顧名思義，是指用戶鍵入文本、點擊搜索之後，出現在最上方的将是 AI 幫忙整理的信息摘要。其中包含用自然語言對搜索結果的總結和概括，以及推薦的鏈接。從前這被谷歌稱爲 " 搜索生成式體驗（SGE）"。

多步推理 Multi-step reasoning則可以用來做計劃。當用戶在搜索框鍵入 " 附近最好的瑜伽館 " 時，AI 摘要會将附近瑜伽館依照評分、課程、距離等信息分類成塊，更清晰地展示給用戶。Planning in Search 則允許用戶直接用谷歌搜索做計劃，如在搜索框中鍵入飲食計劃的需求，搜索引擎會給你自動生成一份。

想要搜索商品的時候，AI 同樣會發揮作用，在搜索框鍵入 " 有上下坡的五英裏通勤自行車 "，搜索引擎會在上方給出選購自行車的思路建議，并給出若幹商品推薦。

從一個又一個詳盡的演示不難看出，谷歌已經下定決心重塑搜索體驗。

不過，AI 搜索在很多競品中都已經被應用，更有專做 AI 搜索的 Perplexity.AI。谷歌對搜索體驗作出的重大升級，放在 2024 年的 5 月已經不大能帶來新鮮感。

應用生态的其他新動作更像是補齊，如 Gmail 郵箱、Google Messages 通訊、谷歌照片等，Gemini 逐漸拓展到越來越多的谷歌應用中，大有 "Gemini 無處不在 " 的态勢。

三

AI 背後的模型，谷歌這次也是大手一揮，升級的升級，新發布的新發布，Gemini 家族不斷壯大。

三個月前發布的 Gemini 1.5 Pro 終于 " 發貨 " 了，即日起正式開放給訂閱了 Gemini Advanced（類似 ChatGPT Plus）的用戶。

Gemini 1.5 Pro 支持 100 萬 token 的上下文窗口，今年晚些時候将會增加到 200 萬 token。更形象地說，升級後的 Gemini 1.5 Pro 能同時處理 22 小時音頻、2 小時視頻、超過 60000 行代碼或 140 萬個單詞。

新發布的模型中，Gemini 1.5 Flash 原本有明星潛質，但被 OpenAI 狙擊。GPT-4o 驅動的 ChatGPT 狙擊 Project Astra 和 Gemini Live，GPT-4o 狙擊 Gemini Flash。

Gemini 1.5 Flash 主打更輕更快，反應速度和效率是其主打特色，擁有多模态推理能力，擅長總結、聊天、圖像、文檔數據提取、視頻字幕等。但這些特點，顯然和 GPT-4o 撞車了。

除此之外，谷歌的開源模型 Gemma 也發布了新版本，Gemma 2.0 有 270 億參數，并拓展出多模态版本 PaliGemma。

多模态生成式模型，谷歌在 I/O 大會上公布了三個，涵蓋圖像、音樂和視頻。

文生圖模型谷歌此前就有，此次做了叠代，發布Imagen 3。Imagen 3 對提示詞的理解更加準确細緻，可以生成更逼真的圖像。在演示中，Imagen3 從一長段提示詞中提取了 8 個細節信息，并在生成的圖像中一一體現。

音樂生成模型 Music AI Sandbox是全新的，用戶可以用小段 Demo 拓展延長，也可以按照文本提示對音樂進行再創作，改變和調整音樂風格等。鑒于谷歌旗下還有 YouTube 等 UGC 平台，此類模型将很好地服務于創作者。

更惹眼的其實是谷歌此次新發布的文生視頻模型 Veo。

谷歌 Veo 可接收文本、圖像和視頻提示，生成 1080p 規格、60s 的高質量長視頻。

年初 OpenAI 曾發布 Sora，雖未正式對公衆開放使用，但演示視頻和小範圍的測試已經讓 Sora 獲得了不小的追捧。從演示的效果來看，Veo 可與 Sora 一戰。

這屆 I/O 大會，谷歌交出了誠意滿滿的 " 成就清單 "，大模型仍在進步和創新中，AI 應用生态也不斷發展。

但新名詞轟炸之後，能留給人深刻印象的東西并不多。比起前一天發布 GPT-4o 讓外界感歎科幻電影照進現實的 OpenAI，谷歌到底還是缺一個王炸。