本文作者:畢安娣,編輯:王靖,原文标題:《谷歌 I/O 大會,眼花缭亂,但缺王炸》,題圖來自:視覺中國
五月真熱鬧,OpenAI 才開了春季發布會,谷歌 I/O 大會也如期召開了。
實話實說,觀看主題演講直播的過程中,腦海不禁會浮現曾被谷歌内部員工洩露的梗圖——谷歌 AI 産品和項目一個又一個不同又相似的名字令人頭大。
主題演講的關鍵詞仍舊是 AI,谷歌還自己在現場給出了提到 "AI" 的次數,在 120 次以上。
在萬衆矚目的 AI 領域,谷歌宣布了若幹新消息。
AI 大模型升級了兩個,Gemini 1.5 Pro 雙下文窗口拓展到 200 萬 token、Gemini Nano 增加多模态理解能力;新發布了三個,更輕更快的 Gemini 1.5 Flash、新架構下的 Gemma 2.0,以及視覺語言模型 PaliGemma。
另有文生圖模型叠代至 Imagen 3,還新發布了一個文生視頻模型 Veo。
AI 的具體應用延展上,谷歌這次憋了不少招。
谷歌的核心産品搜索中,發布 AI Overviews,加強版 AI 搜索摘要功能将率先上架美國。谷歌搜索中還将加入制定計劃、視頻搜索等多重 AI 驅動的功能。
此外,Gemini 還被塞進谷歌照片以及即時通訊應用 Google Messages 等産品中。
讓人聯想到 OpenAI 才發布的 GPT-4o 的,是谷歌旨在打造未來通用 AI 助理的新項目 Project Astra,以及 Gemin 的新功能 Live。Gemini Live 支持與 AI 語音聊天,年内預計加入相機功能,和 AI 實時 " 視頻通話 "。
有點尴尬的是,在第三方拉流的直播間裏,觀衆直呼 " 無聊 ",并對眼花缭亂的名字感到困惑。CNET 的評論員指出,谷歌需要精進講故事的能力,而不是一上來就将各個部分盡數展開。
一
OpenAI 趕在谷歌 I/O 大會前一天開春季發布會,原本盛傳的搜索産品沒來,但 " 人類級别響應 " 的 GPT-4o 讓人一窺新一代 AI 助理大戰的輪廓。
難以想象要是沒有 OpenAI 的狙擊,谷歌會有多開朗。
本次谷歌 I/O 大會上,原本最具驚喜的也是 AI 助理方面的進展。
首先,谷歌公布了一個新項目,名爲Project Astra。用谷歌 Deepmind 負責人哈薩比斯(Demis Hassabis)的話說,這是真正通向 AGI 的萬能助手項目。
相比于谷歌上一代 AI 助手 Google Assistant,Project Astra 的 AI 助手模式多樣,且能實時交互。沒有煩人的喚醒詞,也沒有尴尬的延遲。看你所看,爲你排憂解難。
演示視頻中,用戶打開手機攝像頭,對準任意物品,AI 可以準确說出物品的名稱,如 " 這是一個音響 "。用戶可以實時視頻的同時,在屏幕上塗畫、進一步向 AI 提問,如畫一個箭頭指向音響的某個部分,詢問是什麽。當用戶将鏡頭對準窗外時,AI 則直接根據景色猜測出用戶所在的地點。
在攝像頭匆匆掃過場景的情況下,用戶求助 " 眼鏡放在哪兒 ",助手準确識别并回答 " 你的眼鏡在紅蘋果的旁邊 "。
去年 12 月,Gemini 就曾發布通過視頻和 AI 互動的視頻,但事後承認視頻經過剪輯,谷歌爲此沒少被戳脊梁骨。
有意思的是,這次在演示視頻的一開頭,谷歌就鄭重承諾,視頻是實時、一次性拍攝的。
不過,谷歌尚未針對 Project Astra 給出明确的時間線,隻是含糊地表示今年晚些時候其中的一些功能将更新到 Gemini 及其他應用中。
谷歌在 AI 助手方面還有更看得見、摸得着的進展——Gemini Live,也就是對 Gemini 産品進行多模态功能拓展。Gemini Advanced 用戶将可以用語音和 Gemini 進行對話,對話更流暢自然,延遲更低,可以随時打斷,預計夏天上線。谷歌還表示,今年年内将加入相機功能,實現實時視頻。
可以說這一次,谷歌被 OpenAI 精準狙擊—— GPT-4o 不僅早一天發布,而且現場演示,未來幾周就會開放給全部用戶。
二
近日外界都在盛傳 OpenAI 将推出搜索類産品,與谷歌一戰,但這樣的情況并沒有發生,而谷歌自己也已經馬不停蹄地升級了谷歌搜索。
搜索作爲谷歌的核心産品,即将迎來一次大升級——搜索摘要功能 AI Overview,同時包含多步推理功能 Multi-Step Reasoning、在搜索中做計劃 Planning in Search,以及用視頻提問 Ask With Video。
AI Overview,顧名思義,是指用戶鍵入文本、點擊搜索之後,出現在最上方的将是 AI 幫忙整理的信息摘要。其中包含用自然語言對搜索結果的總結和概括,以及推薦的鏈接。從前這被谷歌稱爲 " 搜索生成式體驗(SGE)"。
多步推理 Multi-step reasoning則可以用來做計劃。當用戶在搜索框鍵入 " 附近最好的瑜伽館 " 時,AI 摘要會将附近瑜伽館依照評分、課程、距離等信息分類成塊,更清晰地展示給用戶。Planning in Search 則允許用戶直接用谷歌搜索做計劃,如在搜索框中鍵入飲食計劃的需求,搜索引擎會給你自動生成一份。
想要搜索商品的時候,AI 同樣會發揮作用,在搜索框鍵入 " 有上下坡的五英裏通勤自行車 ",搜索引擎會在上方給出選購自行車的思路建議,并給出若幹商品推薦。
從一個又一個詳盡的演示不難看出,谷歌已經下定決心重塑搜索體驗。
不過,AI 搜索在很多競品中都已經被應用,更有專做 AI 搜索的 Perplexity.AI。谷歌對搜索體驗作出的重大升級,放在 2024 年的 5 月已經不大能帶來新鮮感。
應用生态的其他新動作更像是補齊,如 Gmail 郵箱、Google Messages 通訊、谷歌照片等,Gemini 逐漸拓展到越來越多的谷歌應用中,大有 "Gemini 無處不在 " 的态勢。
三
AI 背後的模型,谷歌這次也是大手一揮,升級的升級,新發布的新發布,Gemini 家族不斷壯大。
三個月前發布的 Gemini 1.5 Pro 終于 " 發貨 " 了,即日起正式開放給訂閱了 Gemini Advanced(類似 ChatGPT Plus)的用戶。
Gemini 1.5 Pro 支持 100 萬 token 的上下文窗口,今年晚些時候将會增加到 200 萬 token。更形象地說,升級後的 Gemini 1.5 Pro 能同時處理 22 小時音頻、2 小時視頻、超過 60000 行代碼或 140 萬個單詞。
新發布的模型中,Gemini 1.5 Flash 原本有明星潛質,但被 OpenAI 狙擊。GPT-4o 驅動的 ChatGPT 狙擊 Project Astra 和 Gemini Live,GPT-4o 狙擊 Gemini Flash。
Gemini 1.5 Flash 主打更輕更快,反應速度和效率是其主打特色,擁有多模态推理能力,擅長總結、聊天、圖像、文檔數據提取、視頻字幕等。但這些特點,顯然和 GPT-4o 撞車了。
除此之外,谷歌的開源模型 Gemma 也發布了新版本,Gemma 2.0 有 270 億參數,并拓展出多模态版本 PaliGemma。
多模态生成式模型,谷歌在 I/O 大會上公布了三個,涵蓋圖像、音樂和視頻。
文生圖模型谷歌此前就有,此次做了叠代,發布Imagen 3。Imagen 3 對提示詞的理解更加準确細緻,可以生成更逼真的圖像。在演示中,Imagen3 從一長段提示詞中提取了 8 個細節信息,并在生成的圖像中一一體現。
音樂生成模型 Music AI Sandbox是全新的,用戶可以用小段 Demo 拓展延長,也可以按照文本提示對音樂進行再創作,改變和調整音樂風格等。鑒于谷歌旗下還有 YouTube 等 UGC 平台,此類模型将很好地服務于創作者。
更惹眼的其實是谷歌此次新發布的文生視頻模型 Veo。
谷歌 Veo 可接收文本、圖像和視頻提示,生成 1080p 規格、60s 的高質量長視頻。
年初 OpenAI 曾發布 Sora,雖未正式對公衆開放使用,但演示視頻和小範圍的測試已經讓 Sora 獲得了不小的追捧。從演示的效果來看,Veo 可與 Sora 一戰。
這屆 I/O 大會,谷歌交出了誠意滿滿的 " 成就清單 ",大模型仍在進步和創新中,AI 應用生态也不斷發展。
但新名詞轟炸之後,能留給人深刻印象的東西并不多。比起前一天發布 GPT-4o 讓外界感歎科幻電影照進現實的 OpenAI,谷歌到底還是缺一個王炸。