作者 | ZeR0 程茜
編輯 | 漠影
OpenAI 的 12 天 " 聖誕大禮包 " 還沒熄火,谷歌突然 " 插隊 " 放出年末大招!
智東西 12 月 12 日報道,今日,谷歌重磅發布其迄今最強大的 AI 大模型Gemini 2.0,新功能包括原生圖像生成和音頻輸出的多模态輸出,并支持原生調用谷歌搜索、地圖、Lens 等工具。
其第一款新模型是Gemini 2.0 Flash 的實驗版本,速度是 1.5 Pro 的兩倍。谷歌稱,這款新模型專爲 AI Agent 時代而設計,主打多模态 +AI Agent。
基于 Gemini 2.0 Flash,谷歌推出一大波 AI Agent 新品,包括今年 5 月轟動業界的通用 AI 助手原型 Project Astra,還有能夠作爲實驗性擴展在谷歌浏覽器中完成多步驟複雜任務的 Project Mariner,以及實驗性 AI 編程 Agent Jules、遊戲 Agent。
Gemini 2.0 的發布,打響了邁向 AI Agent 新世界的關鍵一槍。
谷歌 CEO 桑達爾 · 皮查伊(Sundar Pichai)說:" 如果說 Gemini 1.0 是關于組織和理解信息,那麽 Gemini 2.0 是關于使其更加有用。"這也是其專注于 AI Agent、多模态輸出的原因所在。
Gemini 和 Gemini Advanced 用戶可在桌面端的模型下拉菜單中選擇聊天優化版 Gemini 2.0 來試用。開發人員可通過 Google AI Studio 和 Vertex AI 在 Gemini API 中開始使用此模型進行構建。
本周,谷歌開始在搜索的 AI 概覽中測試 Gemini 2.0。1 月份,Gemini 2.0 Flash 将全面上市,同時将推出更多模型尺寸。明年年初,谷歌會将 Gemini 2.0 擴展到更多谷歌産品中。
Gemini 2.0 背後的核心硬件也正式揭曉——Trillium TPU。
谷歌宣布其最強 AI 芯片 Trillium TPU 普遍可用,還詳細介紹了谷歌雲 AI 超級計算機架構,包括可集成超過100,000 顆Trillium 芯片的 Jupiter 網絡。Trillium 不僅在訓練密集型大語言模型、MoE 模型上性能更強,而且 AI 訓練和推理性價比更高。亞洲 AI 大模型獨角獸AI21 Labs已使用 Trillium 來開發語言模型。
此外,谷歌發布了一款名爲Deep Research(深度研究)的全新 AI 工具。該工具擅長做研究工作,相當于一位 AI 研究生,幫你隻用幾分鍾就能完成原本需要數小時的研究。
用戶輸入問題後,它會創建一個多步驟研究計劃,在用戶修改及批準後開始調用 Gemini 機器人深入分析來自網上的相關信息,并根據其關鍵發現生成一份詳細的綜合報告,并列上信息來源鏈接。用戶可以要求 Gemini 擴展某些領域或調整報告,并将 AI 生成的研究導出到谷歌文檔。
該工具當前僅向 Gemini Advanced 訂閱者提供英文版,并将于明年年初在移動 App 中提供。
一、Gemini 2.0 首款模型發布!多模态輸出、原生調用工具、四大 Agent
谷歌的官方博客顯示,Gemini 2.0 Flash 在關鍵基準測試中的速度是 1.5 Pro 的兩倍。
除了支持圖像、視頻和音頻等多模式輸入外,Gemini 2.0 Flash 現在還支持多模态輸出,例如與文本混合的原生生成的圖像和可操縱的文本轉語音(TTS)多語言音頻,還可以原生調用谷歌搜索、代碼執行以及第三方用戶定義函數等工具。
爲了幫助開發人員構建動态和交互式應用程序,在此基礎上,谷歌還發布了具有實時音頻、視頻流輸入以及使用多個組合工具的能力的 Multimodal Live API。
在 AI Agent 方面,谷歌宣布了對實驗性功能的更新,包括通用 AI Agent Project Astra、多步驟任務 AI Agent Project Mariner、AI 編程 Agent Jules、遊戲 Agent。
1、通用 AI Agent Project Astra:記住 10 分鍾視頻,更強 agent 能力
還記得谷歌今年 5 月展示的通用 AI 助手研究原型 Project Astra嗎?
這是一個全視、全聽和全記憶的實驗性 AI 助手,展示了通用 AI 助手的未來功能。你通過安卓 App 或原型眼鏡來記錄看到的世界,AI 助手可以實時處理文本、圖像、視頻、音頻,分析它所看到的内容并回答廣泛的問題,還精通多國語言。
由 Gemini 2.0 提供支持的Project Astra 更新版本,可以實現 Agent(代理)能力。其最新改進包括:
更好的記憶:今年 5 月谷歌展示了早期版本隻能記住 45 秒的視頻,現在它已經能記憶10 分鍾的視頻了,可以記住用戶與其進行的更多對話和個人偏好,更具個性化。
更好的對話: 能使用多種語言和混合語言進行交談,并且能夠更好地理解口音和不常見的單詞。
新工具用途:使用 Gemini 2.0 的内置 Agent 框架,通過文本、語音、圖像和視頻回答問題并執行任務,在需要時調用谷歌搜索、Lens、地圖等應用。
改善延遲:借助新的流媒體功能和本機音頻理解,Agent 以與人類對話相同的延遲理解語言,使對話感覺更自然。
谷歌正在擴大 Project Astra 的測試範疇,将新的反饋納入更新中,包括優化其對各種口音及不常見單詞的理解、減少延遲、将其集成到一些谷歌産品(如搜索、Lens、地圖等)。
* 後文有更詳細的功能演示。
2、多步驟任務 AI Agent Project Mariner:最佳工作結果 83.5%,爲保證安全目前需人類介入
Project Mariner是谷歌在 Gemini 2.0 模型基礎上發布的一個實驗性功能, 其可以完成多步驟的複雜任務。
作爲研究原型,Project Mariner 能夠理解和推理浏覽器屏幕上的信息,包括像素和文本、編程、圖像和表單等網絡元素,然後通過實驗性的谷歌擴展程序使用這些信息完成任務。
谷歌官方博客顯示,根據 WebVoyager 基準進行評估,該基準測試 Agent 在端到端真實世界網絡任務上的性能,Project Mariner 作爲單一 Agent 設置實現了 83.5% 的最佳工作結果。
在演示中,Project Mariner 可以同時完成獲取表單、找到公司官網、聯系方式等多步驟任務,Agent 會自動執行在谷歌搜索中查找電子郵件的過程,且這一過程中用戶可以随時點擊暫停和停止。同時,用戶可以看到 Agent 每一步行動的推理步驟和計劃。
盡管目前 Project Mariner 執行任務時較慢且并不總是準确,但從技術上講,這表明了在浏覽器中導航已經成爲可能。
目前,該代理在完成任務時需要人類介入,如 Project Mariner 隻能在浏覽器的活動選項卡中鍵入、滾動或點擊,并且它會在用戶執行某些購買等敏感操作之前要求用戶進行最終确認。
3、AI 編程 Agent Jules:直接集成 GitHub,長期目标是構建通用 Agent
谷歌還在探索 Agent Jules 的更新。Jules 是一種直接集成到 GitHub 工作流程中的實驗性 AI 驅動的編程 Agent。
Jules 可以解決問題、制定計劃并執行它,所有過程都在開發人員的指導和監督下進行。在這一領域,谷歌的長期目标是構建在所有領域(包括編程)都有幫助的 AI Agent。
4、遊戲 Agent:視頻遊戲導航,根據遊戲動作推理、實時對話充當遊戲交流
谷歌使用 Gemini 2.0 構建了遊戲 Agent,可以幫助用戶在視頻遊戲的虛拟世界中導航。Agent 可以僅根據屏幕上的動作來推理遊戲,并在實時對話中提供下一步操作的建議。
目前,研究人員在與 Supercell 等遊戲開發商合作,探索這些 Agent 從《部落沖突》等策略遊戲到《Hay Day》等農業模拟器,在各種遊戲中解釋規則和挑戰的能力。
未來,谷歌還在試驗可以通過将 Gemini 2.0 的空間推理功能應用于機器人技術來在物理世界中提供幫助的 Agent。
三、通用 AI 助手原型升級!能存儲 10 分鍾視頻,開啓 Agent 時代
谷歌發布了由 Gemini 2.0 提供支持的Project Astra 更新版本的新演示視頻。
測試者拿着安裝了最新測試版 Project Astra 的 Pixel 手機,在倫敦附近遛彎并進行測試。比如收到包含公寓信息的電子郵件,你可以讓 AI 助手告訴你門的密碼,并記住它。洗衣服時,把衣服标簽、機器圖标拍給 AI 助手,它會告訴測試者正确的洗衣服方式。
測試者把推薦列表拍給 AI 助手,它能搜索列表中的地點,給出相應的信息。
當測試者走在街道上,掃過食物、雕塑或花卉,AI 助手都能爲詢問作出解答。
測試者還把朋友在讀的書發給 AI 助手,讓它推薦符合朋友喜好的禮物,并讨論朋友可能感興趣的點。
當偶遇一輛公交車,測試者問 AI 助手 " 那輛公交車能帶我去唐人街附近嗎?"AI 助手會回複說:" 是的,24 路公交車經過萊斯特廣場,離唐人街很近。" 測試者繼續追問路上有什麽路标,AI 助手也作出流利地回複:" 你可能遇到的著名地标是威斯敏斯特大教堂、大本鍾和特拉法加廣場。"
除了使用手機外,測試者也戴上原型眼鏡來使用 Project Astra,并提出讓它查看天氣預報、詢問旁邊的公園是什麽、查詢能否騎自行車進入、這條路是否有超市等問題。
目前該 AI 助手仍有很多局限性,比如無法訪問個人的電子郵件或照片,在嘈雜的環境中難以區分多個聲音,并且無法執行設置計時器等操作任務等。
Project Astra 産品經理 Bibo Xu 說:" 它正在融合我們這個時代一些最強大的信息檢索系統。"
四、基于 AI Agent,探索保護用戶敏感信息、遵循用戶指令策略
在安全方面,谷歌在對多個實驗原型進行研究的基礎上,正通過叠代實施安全培訓、與測試人員和外部專家合作,進行廣泛的風險評估以及安全和保證評估。
谷歌與責任與安全委員會 (RSC) 合作以識别和了解潛在風險。
Gemini 2.0 的推理功能使其 AI 輔助紅隊方法取得重大進步,包括從簡單地檢測風險到自動生成評估和訓練數據以減輕風險的能力。
由于 Gemini 2.0 的多模态功能增加了潛在輸出的複雜性,其将繼續在圖像和音頻輸入和輸出方面評估和訓練模型,以幫助提高安全性。
通過 Project Astra,谷歌正在探索針對用戶無意中與代理共享敏感信息的潛在緩解措施,并且其已經内置了隐私控制功能,使用戶可以輕松删除會話。他們還在繼續研究以确保 AI 代理充當可靠的信息來源,并且不會代表您采取意外操作。
通過 Project Mariner,谷歌正在努力确保模型學會優先考慮用戶指令,而不是第三方的提示注入嘗試,以便它可以識别來自外部來源的潛在惡意指令并防止濫用。這可以防止用戶通過電子郵件、文檔或網站中隐藏的惡意指令等方式受到欺詐和網絡釣魚攻擊。
五、Gemini 2.0 背後的硬件功臣:谷歌最強 AI 芯片 Trillium TPU 普遍可用
全新 Gemini 2.0 由谷歌今年發布的 Trillium TPU 訓練而成。Trillium 是谷歌第六代 TPU,也是迄今性能最高的 TPU。
其相比上一代芯片的優化包括:超過4 倍的訓練性能,高達3 倍的推理吞吐量,能效提高67%,每顆芯片峰值計算性能提高4.7 倍,HBM 容量翻倍,單個 Jupiter 網絡有10 萬顆TPU,高至2.5 倍的每美元訓練性能、1.4 倍的每美元推理性能。
今日,谷歌宣布如今 Trillium TPU 面向谷歌雲客戶普遍可用。
Trillium TPU 是谷歌雲 AI 超級計算機的關鍵組成部分,其架構采用了性能優化的硬件、開放的軟件、領先的機器學習框架和靈活的消費級模型的集成系統。谷歌還對開放軟件層進行了增強,包括對 XLA 編譯器和流行框架的優化,以在 AI 訓練、調優和服務方面實現大規模的領先性價比。
此外,使用大量主機 DRAM(補充 HBM)進行主機卸載等功能,提供了更高的效率。
每個 Jupiter 網絡結構超過100,000 顆Trillium 芯片,具有 13Pbps 的對分帶寬,能夠将單個分布式訓練任務擴展到數十萬個加速器。
以色列 AI 大模型獨角獸AI21 Labs已使用 Trillium 來加速開發下一代複雜語言模型。
1、擴展 AI 訓練工作負載
Trillium 通過部署 12 個包含 3072 顆芯片的 pod 實現了 99% 的擴展效率,并在 24 個包含 6144 顆芯片的 pod 中展示了 94% 的擴展效率,以預訓練 gpt3-175b。
谷歌使用 4 片的 Trillium-256 芯片作爲基準,使用 1 片的 Trillium-256 芯片作爲基準,當擴展到 24 個 pod 時,仍可獲得超過 90% 的擴展效率。
在訓練 Llama-2-70B 模型時,測試表明,Trillium 以 99% 的擴展效率實現了從 4 片 Trillium-256 芯片 pod 到 36 片 Trillium-256 芯片 pod 的近線性擴展。
2、訓練密集型和 MoE 大模型
與前幾代産品相比,Trillium TPU 具有更好的擴展效率。下圖表中,其測試展示了與同等規模的 Cloud TPU v5p 集群相比,Trillium 在 12 pod 規模下的 99% 擴展效率(總峰值 FLOPS)。
與上一代雲 TPU v5e 相比,Trillium 爲密集大語言模型(如 Llama-2-70b 和 gpt3-175b)提供高達 4 倍的訓練速度,爲 MoE 模型提供了比上一代雲 TPU v5e 快 3.8 倍的訓練。
與 Cloud TPU v5e 相比,Trillium TPU 提供了 3 倍的 DRAM。在訓練 Llama-3.1-405B 模型時,根據模型 FLOPs 利用率(MFU)測量,Trillium 的主機卸載功能可将性能提高 50% 以上。
3、優化推理性能和收集調度
Trillium 也爲圖像擴散模型和密集大語言模型提供了最佳的 TPU 推理性能。其測試表明,與 Cloud TPU v5e 相比,Stable Diffusion XL 的相對推理吞吐量(每秒圖像)提高了 3 倍以上,Llama2-70B 的相對推理吞吐量(每秒 token)提高了近 2 倍。
Trillium 是谷歌在離線和服務器推理用例中性能最高的 TPU。下圖顯示,與 Cloud TPU v5e 相比,Stable Diffusion XL 的離線推理相對吞吐量(每秒圖像數)提高了 3.1 倍,服務器推理相對吞吐量提高了 2.9 倍。
除了更好的性能,Trillium 還引入了一個新的集合調度功能。這個特性允許谷歌的調度系統做出智能的作業調度決策,從而在一個集合中有多個副本時提高推理工作負載的總體可用性和效率。
它提供了一種管理運行單主機或多主機推理工作負載的多個 TPU 片的方法,包括通過谷歌 Kubernetes Engine(GKE)。将這些片分組到一個集合中,可以很容易地調整副本的數量以滿足需求。
4、提高嵌入密集型模型性能
第三代數據流處理器 SparseCore 更擅長加速動态和數據依賴操作。引入第三代 SparseCore 的 Trillium 将嵌入密集型模型的性能提高了 2 倍,将 DLRM DCNv2 的性能提高了 5 倍。
5、提高訓練和推理性價比
Trillium 還旨在優化每美元的性能。迄今爲止,在訓練密集大語言模型(如 Llama2-70b 和 Llama3.1-405b)中,Trillium 的每美元性能比 Cloud TPU v5e 提高了 2.1 倍,比 Cloud TPU v5p 提高了 2.5 倍。
在 Trillium 上生成 1000 張圖像的成本比離線推理的 Cloud TPU v5e 低 27%,比在 SDXL 上進行服務器推理的 Cloud TPU v5e 低 22%。
結語:大模型狂飙沖向 Agent 時代
通用人工智能(AGI)熱戰在年末愈演愈烈。從亞馬遜、OpenAI、Meta 到谷歌,一系列重磅發布将大模型的競争格局推向了新的高潮。
其中谷歌是少有的同時在大模型、雲端基礎設施、端側智能方面同時占據優勢的頭部大模型企業。
在如火如荼的大模型競賽中,執掌安卓操作系統的谷歌對端側智能理解距離最近、理解最深。通過今日的一系列發布,谷歌進一步強化了 Agent(代理)在智能手機、智能眼鏡等端側設備上的誘人前景。在更強大模型加持下,Agent 将能夠更廣泛地爲人類代勞,幫人類了解周圍世界,提前進行多步驟思考,并在人類的監督下采取行動。
但 AI 系統仍具有相當多的不可控性。包括谷歌在内,大模型公司在将世界推向 Agent 時代的同時,必須竭力确保低風險,控制好安全的方向盤。