圖片來源 @視覺中國
文 | 矽基研究室,作者|山核桃
鴿了太久的谷歌大模型 Gemini 終于來了。
北京時間 12 月 6 日,谷歌在深夜發布了此前備受科技圈關注的 Gemini 1.0,不僅一口氣推出了 Ultra、 Pro 和 Nano 三個版本,同時也在應用層,Gemini 也與谷歌的生态相融合,例如類 ChatGPT 應用 Bard 也已升級到了 Gemini Pro 版本,針對移動端的 Gemini Nano 版本也已接入谷歌旗下的智能手機 Pixel 8。
在 Gemini 對外展現的各項能力測試中,也暗戳戳地劍指 OpenAI。谷歌提供的技術報告顯示,在 MMLU 90%(大規模多任務語言理解)測試框架中,Gemini Ultra 的得分高達 90.0%,超過 GPT-4 的 86.4%。同時,Gemini Ultra 在推理、數學、代碼等方面的表現也都高過 GPT-4。
而作爲首個「原生多模态」模型,在一系列多模态基準測試中,對标 GPT-4V,Gemini Ultra 也展現出了先進的性能。
圖源:谷歌新聞稿
在 chatGPT 發布一周年之際,谷歌通過 Gemini 趕了個晚集,想要再度證明自己在 AI 時代「霸主候選人」的實力。而 OpenAI 和谷歌,一個是經曆了「宮鬥」後的屠龍少年,另一個則是領先的搜索霸主,在關于誰究竟能成爲大模型時代的最終赢家這一問題上,也存在兩極分化的觀點。
有人認爲,在經曆了風波之後的 OpenAI,解決了過往管理層的風險,憑借着與微軟間的聯盟,會持續擴大身位優勢。而有的人則認爲,AI 時代未來仍将屬于谷歌,盡管被質疑「行動緩慢」,但在應對巨大的外力挑戰面前,谷歌總是能夠出招給對手緻命一擊。
01、爲了 Gemini ,谷歌有多拼?
正如英偉達資深科學家 Jim Fan 在社交媒體上所期待的:" 我想要看到一群使用 GPT-4 的人和 Gemini Ultra 的人玩一局《太空狼人殺》,這将會是一場史詩級的對抗。"
圖源:X 截圖
爲什麽姗姗來遲的 Gemini 會被視爲是 GPT-4 的有力勁敵,谷歌又爲什麽有底氣在官方新聞稿直接寫:"Gemini :我們規模最大、能力最強的 AI 模型 "。原因其實有三點:
一是,Gemini 是原生多模态的,這也是與 GPT-4 形成差異的關鍵。 GPT-4 盡管一種多模态模型,但 GPT-3.5 是一種自然語言處理模型。而 Gemini 從一開始就使用多模态數據(包括文字、音頻、圖片、視頻、PDF 文件等)進行了預訓練和微調。
二是,多平台部署的靈活性,Ultra、 Pro 和 Nano,實現從數據中心到移動設備的高效運用。 比如,谷歌已在升級 Pixel 8 Pro 使用了 Gemini Nano,可提供總結與歸納手機語音等功能。
三是,基礎設施的創新。 Gemini 是由谷歌 TPU V5e 和 TPU V4 訓練,其中 TPU v5e 專爲提供大中型訓練與推理所需的成本效益和性能而設計。根據此前 Google Cloud Next 2023 大會上的信息,TPU v5e 的成本不到 TPU v4 的一半,但可以讓更多企業訓練和部署更大、更複雜的 AI 模型。
Google 數據中心内一排 Cloud TPU v5p AI 加速器超級計算機。
除此以外,在訓練過程中也展現出工程化創新。根據民生證券的分析,如将 4096 個 TPU V4 每個芯片連接到一個專用的光學交換機,可以在大約 10 秒内動态重新配置 4x4x4 芯片立方體爲任意的 3D 環形拓撲結構的超級節點,對 Gemini Ultra 還有熱維護等功能的針對性部署。
而 Gemini 所呈現出的能力躍升,得益于過去一段時間内谷歌的行動。我們來看看谷歌究竟做了什麽:
一是,搭建超級團隊。 在今年 4 月,Google 的 CEO Sundar Pichai 就宣布合并 DeepMind 和 Google Brain,成立 Google DeepMind,集合 Google 在 AI 領域的人才、算力等資源,開啓對标 GPT-4 的研究。當時,Google DeepMind CEO Demis Hassabis 在接受采訪時就表示,當時他們所面臨的問題是兩個團隊之中如何協調,形成一個「超級團隊」。
Hassabis 曾在播客中表示:" 我們作爲一個領導小組讨論了大量需要考慮的因素,然後從中得出結論,并采取行動:包括合并、未來幾年的計劃是什麽以及合并後的重點是什麽?"。在這之中,靈魂人物的回歸也起到了關鍵作用,比如谷歌聯合創始人 Sergey Brin 就重返谷歌工作。根據外媒的報道,他通常每周到谷歌山景城的辦公室工作三到四天,和研究人員密切合作,還研究 AI 程序「損失曲線」之類的問題。
二是,明确差異化路線。 從谷歌官宣 Gemini 開始,無論從官方口徑還是媒體的報道,一直都是專注多模态路線以及安全性,這也是谷歌的天然優勢。今年 7 月,當被問到正在采取哪些措施來防止濫用 Gemini 時,谷歌發言人就指出,谷歌做出了一系列承諾,以确保其所有産品中負責任的人工智能開發。
三是,發揮垂直生态的優勢。 此前 5 月的開發者大會上,谷歌已經帶來了諸多的軟硬件更新。8 月,谷歌雲又發布了生成式 AI 關鍵的基礎設施進展,以及與英偉達的合作。可以說,在 Gemini 發布之前,谷歌已經做好了從基礎算力到應用層的全部準備。
正如《晚點 LatePost》的評價,谷歌的 AI 大計劃某種程度上與蘋果類似,都是讓「大模型變小、嵌入每一個産品」。
02、谷歌與 OpenAI 邁入同一條河流
事實上,谷歌已經不止一次被問到與 OpenAI 之間的競争。此前, Pichai 就被問到:" 沒搶在 ChatGPT 前發布 Bard,你錯過了什麽?" 當時的他回答說,谷歌不是第一個做出搜索引擎,也不是第一個做出浏覽器。
" 有時候成爲第一很重要,但有時候無關緊要。"
至少從現在與 OpenAI 的競争來看,搜索霸主與屠龍少年,正在邁入同一條河流。
首先,是對模型推理能力的強調。 在 Gemini 的演示中,谷歌展示了其手寫數學問題,識别錯誤,并提供解釋的能力,而這也是 OpenAI 關注的焦點。此前,被曝出的 OpenAI 神秘的名爲 Q* 的模型,該模型也能夠解決以前從未見過的數學問題。
其次,是大模型與消費硬件的結合。 我們看到,谷歌在 Pixel 8 Pro 中使用了 Gemini Nano,而消費硬件也是 Sam Altman 十分感興趣的領域。Altman 此前投資了前蘋果高管創立的企業 Humane,這家企業在 11 月初發布了首款接入 chatGPT 能力的 AI 硬件産品—— AI Pin。除此以外,Altman 還投了一家 AI 初創公司 Rewind AI,該公司計劃制作一種項鏈,可以記錄人們所說和聽到的内容。
除了尋求更精準的推理能力和探索消費硬件外,算力也是雙方關注的焦點。 不久前,根據美國《連線》雜志的報道,OpenAI 正從 Altman 投資創企 Rain 采購 AI 芯片。今年 8 月,行業分析機構 SemiAnalysis 在一篇報告中提到,谷歌擁有的算力資源比 OpenAI、Meta、亞馬遜、甲骨文和 CoreWeave 加起來還要多。不過,算力一向是谷歌的優勢,畢竟從 2014 年開始,谷歌就已經開始招兵買馬開發 TPU 了。
03、工程師文化 VS 矽谷暴徒,群衆路線與個人英雄主義
新的 AI 時代,站上浪潮之巅的究竟是谷歌等技術巨頭,還是如 OpenAI 這樣的新貴?沒人能給出答案。
如文章開頭所提到的,有人認爲,在經曆了風波之後的 OpenAI,解決了過往管理層的風險,憑借着與微軟的聯盟,會持續擴大身位優勢。而有的人則認爲,AI 時代未來仍将屬于谷歌這樣的企業,盡管被質疑「行動緩慢」,但在面對巨大的外力挑戰面前,它們的行動與反擊是往往是更有力的。
外界一向認爲谷歌因工程師文化而在競争的戰術中始終保守,但如果了解谷歌的曆史,就會知道其一直都是進攻姿态。在《浪潮之巅》中,作者這樣寫到:" 谷歌在規模很小時,遭受很多比自己大的公司的圍攻,它把自己放在一個挑戰者的位置,不斷挑戰對手,也挑戰自己。"
因此,你也不難理解 Pichai 所說的:" 有時候成爲第一很重要,但有時候無關緊要。" 像谷歌這樣強調工程師文化的企業,熱衷于做出技術好的産品,有些時候忽略産品體驗也沒關系,這在此前谷歌與亞馬遜的雲計算之争中落敗就能看出。
工程師文化走的是群衆路線,團隊通過形成共識,集中資源攻克技術,待産品成熟後再推廣,這是谷歌的路徑。但 OpenAI 就不同了,無論從這家企業的誕生曆史,還是不久前的宮鬥大戲,這家企業身上都充滿着極強的個人英雄主義色彩,與早期的谷歌很像。
不過,ChatGPT 誕生之初,Altman 在一次采訪中否認了其對谷歌搜索的取代:" 我更感興趣的是思考搜索以外的新應用。" Pichai 也在接受《麻省理工學院技術評論》時提到,與 GPT-4 的競争,「并不是一個零和遊戲」。
" 想想看,向人工智能的轉變是多麽深刻,我們還處于早期階段,前方充滿了無限的機會。"Pichai 這樣說。
可以看出,盡管商業化程度不一,技術與合作模式也不同,但至少在通往 AGI 的道路上,谷歌與 OpenAI 殊途同歸。