背水一戰狙擊GPT-4，谷歌Gemini終發布，聽說讀寫全能選手

最有希望超越 GPT-4 的模型來了——美國矽谷時間 12 月 6 日上午，谷歌 CEO 劈柴正式宣布，" 大殺器 "Gemini 1.0，正式上線。

Gemini 是一個原生多模态大模型，谷歌在今年 5 月的 I/O 大會宣布開始研發後，Gemini 的傳說不斷：将谷歌大腦和 DeepMind 部門合并，數百人攻堅，幾乎耗盡谷歌内部計算資源……如此種種，隻爲和 OpenAI 一戰。

但一直等到大半年後，OpenAI 的 GPT-4 上線，GPT 商店也把矽谷炸了一圈，Gemini 才在千呼萬喚中面世。

△圖源：谷歌

一個月前，英偉達的資深科學家 Jim Fan 就爲 Gemini 捏了把汗：" 人們對谷歌 Gemini 的期望高得離譜！"

他表示，Meta 要驚豔世界的話，隻要讓 Llama 3 開源就好了。但谷歌想要重奪當年 AlphaGo 的輝煌，Gemini 不僅要 100% 達到 GPT-4 的能力，還要在成本或速度上比 GPT-4 更好。

△圖源：X

這次發布中，Gemini 終于揭開了面紗——展現了其文本、圖像、視頻、音頻和代碼的五大能力，一口氣推出了大中小三個版本，從雲上到手機、平闆都可以跑。

并且，Gemini 還有大量的酷炫用例：AI 對一段視頻可以做出準确反應，AI 能和你玩你畫我猜……簡單來說，越來越像一位真正的人類助手了。

Gemini 1.0 上下文窗口爲 32k，基于谷歌自家的 TPUs v4 和 v5e 進行大規模訓練。這次，谷歌順勢推出了新的 TPU 系統 Cloud TPU v5p，希望爲訓練 AI 模型的客戶提供支持。

△ Google 數據中心内，一排 Cloud TPU v5p AI 加速器超級計算機

AI 圈子裏，也是一片相愛相親的景象。Gemini 官宣發布後，甚至不少 OpenAI 的研究員也都發文祝賀谷歌：

△來源：X

聽說讀寫樣樣行，多項性能超越 GPT-4，有任務首次超越人類

"Gemini，從第一天起就是多模态大模型——跨越文本、圖像、視頻、音頻和代碼的無縫推理。" 谷歌官網上，這是介紹 Gemini 的第一句話。

這是 Gemini 1.0 最重要的特點：一位更強大的 " 全科選手 "。

如果和 OpenAI 做對比，OpenAI 的 GPT-3.5 一開始是純文字的大語言模型，到 GPT-4 才上了視覺等多模态能力，更像是組件的拼裝，好比先學了語文，再學數學。

但 Gemini 從第一天起就設計成原生多模态結構，相當于 " 所有科目一起學 "。這其實也是人類認識世界的方式。這意味着，Gemini 可以抽象和理解、操作和組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻等等。

一個直觀的例子是，在理解圖像信息時，Gemini 基于圖像就可以馬上進行理解。但如果是非原生多模态結構模型上，就需要先借助 OCR（光學字符識别技術）先 " 認出來 " 圖裏是什麽——轉成文本，再放到語言模型中進行語義理解。

Gemini 可以做到端到端的理解，信息不會在 " 轉錄 " 過程中丢失。正因如此，Gemini 的應用實例演示顯得尤爲絲滑：

演示者一邊畫畫，Gemini 一邊辨認，認出了剛開始的曲線形狀。畫出鴨子後，Gemini 也能馬上識别 " 鴨子是藍色的，正在水裏遊泳 "。

Gemini 幾乎是實時就完成辨别，并且用自然、流利的語音和演示者對話。

在演示者拿出藍色的橡皮鴨實物後，它甚至還會幽默地打趣：" 看來藍色的鴨子比我想象中更常見。"

在通用的文字聊天場景裏，Gemini 聰明了不少。在演示視頻裏，Gemini 挺像《Her》裏的高級人工智能，可以與人類自如地進行交互。

在一個實例中，演示者向 Gemini 詢問關于女兒生日派對的靈感。Gemini 先是詢問演示者：" 可以告訴我她對什麽東西感興趣嗎？"

得到足夠的信息後，Gemini 自行撰寫了 PRD（産品需求）文檔，并且開始不再以文本形式回複——而是迅速寫代碼，幫用戶定制了一個圖文并茂的小組件。上面包含建議的派對主題、活動、食品建議等，讓演示者在上面滑動，查看自己最感興趣的選項。

辨認環境、物體等等場景，Gemini 也不在話下。給它一張充滿陽光的房間照片，Gemini 還可以推理出來這個房間是朝南朝北，甚至告訴你房間裏的植物應該要怎麽照顧。

△ Gemini 識别房間朝向

之所以能夠做到更自然的交互，和 Gemini 的原生多模态架構密不可分。

Google 解釋了部分的訓練細節。比如，Gemini 的團隊從一開始就針對不同的模态進行預訓練，然後再使用額外的多模态數據對其進行微調，以進一步提升其能力。

在性能上，Gemini 相當強悍。Google 放出了一系列測試結果，從自然圖像、音頻和視頻理解到數學推理，在大型語言模型 ( LLM ) 研發中使用的 32 個廣泛使用的學術基準上，Gemini Ultra 的性能在 30 項上都超過了當前最先進的模型。

更驚人的是，在MMLU（大規模多任務語言理解）任務上，Gemini Ultra 的得分高達 90.0%，是首個超越人類專家的模型。MMLU 是測試 AI 模型知識和問題解決能力的最主流測試，結合數學、物理、曆史、法律、醫學和倫理學等 57 個科目的問題。

編程，則是大模型衡量能力的重要維度。基于 Gemini，谷歌本次還推出了更先進的編程系統 AlphaCode 2，它能理解、解釋并生成 Python、Java、C++ 和 Go 等編程語言的高質量代碼，還擅長解決一些超出編程範圍、涉及複雜數學和理論計算機科學的編程競賽問題。

比如，和上一代産品 AlphaCode 相比，AlphaCode 2 解決的問題數量幾乎是原來的兩倍，其表現優于 85% 的競賽參與者，AlphaCode 的這一比例接近 50%。如果程序員通過爲代碼示例定義某些屬性來與 AlphaCode 2 協作，它的性能還會更好。

" 這是我們目前規模最大，性能最強的大模型，Gemini 可以像我們一樣，理解我們周圍的世界。" 谷歌 DeepMind CEO Demis Hassabis 表示。

這次發布，谷歌一口氣提供了 Gemini 的三個尺寸模型：Ultra、Pro 和 Nano，分别對其進行了優化：

Ultra 是性能最強的模型，适用于高度複雜的任務，在雲上運作；

Pro 是可擴展各種任務的最佳通用模型；

Nano 是針對端側設備的小模型，比如在手機、家電等各類消費設備上跑。Nano 還細分了兩種型号尺寸：Nano-1（18 億參數）和 Nano-2（32.5 億參數），分别針對低内存和高内存設備。

谷歌先将 Nano 搬到了自家的終端上。現在，Gemini Nano 已經可以跑在谷歌Pixel 8 Pro手機，Pixel 8 Pro 是爲 Gemini Nano 設計的首款谷歌智能手機，不用聯網，就可以離線調用。

Pixel 8 Pro 先上了兩個自帶功能，一是把手機錄音内容自動歸納總結；二是在 WhatsApp 上聊天時，谷歌鍵盤可以根據聊天内容，自動給出推薦回複的文字。

△鍵盤自動生成回複語

Gemini Pro 就先被用在谷歌聊天機器 Bard 的升級上。谷歌稱，這是 Bard" 自推出以來最大的升級 " ——在理解、總結、推理、編碼和規劃等方面的能力更強。Bard 集成 Gemini Pro 之後，已經在超過 170 個國家和地區提供英語服務。

爲了展現升級後的 Bard 有多強，谷歌甚至請了一個油管教育博主 Mark Rober，全程使用 Bard 作爲輔助工具，從零開始畫圖紙，最後真的造出了一架巨大的紙飛機！

△來源：谷歌

△紙飛機穿越火環，挑戰成功

Google 根據許多行業标準基準，對 Pro 版本進行了測試。結果顯示，在 8 個基準測試中的 6 個裏，Gemini Pro 的表現優于 GPT-3.5。

不過，性能最強的 Ultra 還要再等等。谷歌表示，他們還要先給客戶、開發者、合作夥伴以及安全和責任專家進行早期實驗和反饋，預計在 2024 年初，Ultra 版本會先向開發者和企業客戶提供服務。

谷歌還給大家畫了個餅。2024 年初，谷歌還将計劃推出 Bard Advanced，會由 Gemini Ultra 提供支持，能夠快速理解文本、圖像、音頻、視頻等多模态輸入并采取行動。看起來，和現在火熱的 AI Agent（智能體）初級形态就非常類似了。

AI 上限又提高了，AI 競賽仍充滿變數

Gemini 的發布無疑是 AI 界又一個裏程碑，這意味着 AI 大模型浪潮進入到一個全新階段。

比起大語言模型，多模态模型的運作模式，才是人類最自然的和世界交互的方式：用眼睛看到東西，用耳朵聽到聲音，再把這個東西的語義用聲音 / 文字輸出，再做出決策。

Gemini 的發布，隻是掀起了多模态領域的一角。

多模态領域還在技術探索初期，技術路徑還未确定。比起大語言模型，多模态模型增加了音頻、視頻、圖片這些數據，訓練難度也很大。

值得注意的是，視頻内容已經是信息時代的主流，據思科的年度互聯網報告——視頻已經占據互聯網超過 80% 的流量。

這些數據的訓練還遠未到頭，意味着大模型的天花闆上限還很高。如果 AI 領域的尺度定律（Scaling law）一直奏效，随着訓練規模不斷擴大，我們還有許多可以期待的能力湧現。

" 長期以來，我們一直希望從人們理解世界和與世界互動的方式中汲取靈感，建立新一代 AI 模型，"Google DeepMind CEO 和聯合創始人 Demis Hassabis 表示，" 今天，當我們推出 Gemini 時，我們離這一願景又近了一步。"

站在現在這個時間節點，距離 ChatGPT 震撼世界的發布剛好過去一年。這一年裏，全世界的 AI 公司夜以繼日地奮鬥，或多或少都爲了回答一個問題：到底還能有誰，可以超越 OpenAI？

Meta 旗下的 Llama 試圖以開源路線，集衆人之力；而在和 OpenAI 一樣的閉源路線上，谷歌是當仁不讓的最強大對手。

谷歌是這輪大模型技術突破的先驅，GPT 模型的核心 Transformer 架構正是出自谷歌之手。但在今年的 AI 大戰中，谷歌一直被稱爲 " 起個大早趕個晚集 "。

和 OpenAI 的對線中，谷歌的回應總慢一拍，對标 ChatGPT 的聊天機器人 Bard 匆忙上線，此前并沒有獲得很大的市場聲量，客戶拓展也很緩慢。

痛定思痛的谷歌，将 AI 研究原來的 PaLM 2，全線切換到 Gemini，并開始調遣精兵強将反擊。今年 8 月，谷歌将谷歌大腦（Google Brain）和 DeepMind 兩路人馬合并，數百名 AI 精兵開始瘋狂沖刺，才有了 Gemini 的誕生。

從如今公布的參數和使用效果來看，谷歌的 "AI 家底 " 還是不菲。Gemini 發布後，谷歌算是可以揚眉吐氣了。

而 Gemini 發布的當下，全球的 AI 大模型競賽進入了新一輪競争，戰局又變得面目模糊。

雖然 OpenAI 占有先機，通過 ChatGPT 獲得了大量訓練數據反饋，谷歌也依然有着自己的優勢。The Information 此前報道，Gemini 至少在一個方面比 GPT-4 強：除了來自網絡的公共信息之外，Gemini 還利用了來自旗下産品的大量 Google 專有數據。因此，在理解用戶特定查詢的意圖時更準确，而且錯誤答案（即幻覺）也似乎更少。

不過，即使 Gemini 放出來的效果驚人，但現在的谷歌還不是特别有底氣，Gemini 的實際應用效果也有待驗證。

據 CNBC，Gemini 發布前，谷歌還是猶豫不定，曾多次推遲發布日期，如今又因爲市場壓力突然決定發布。谷歌的高管們在媒體溝通會上表示，Gemini Pro 的性能優于 OpenAI 的 GPT-3.5，但回避了有關 Gemini 與 GPT-4 相比的問題。

TechCrunch 更是直言："Gemini 并不是我們所期待的大模型 "，表示谷歌有點吹噓過度。雖然 Gemini 在 30 項測試中都獲得了最好成績，但實際上，很多項都是略略高于 GPT-4 和 GPT-4 with Vision 等模型而已。

作爲大公司，谷歌要想繼續追趕，困難還有很多。The Information 表示，谷歌正在努力解決在非英語查詢等任務上的困難，并且内部對 Gemini 的提前發布意見不一，對 Gemini 的盈利策略也沒定下來，商業化難辦。

而在 OpenAI 那邊，因爲董事會解雇 CEO 又回歸的戲碼，公司尚在艱難的 " 災後重建 " 中，剛推出的 GPT 高級版無限期暫停，GPT 商店更是延後到了明年。此前，OpenAI 還放棄過一個重要大模型項目 Arrakis 的訓練，側面反映了還有不少技術難題等待解決。

如今，一些新勢力也悄然冒頭。比如馬斯克的 xAI 就進展飛快，正在計劃融資 10 億美元，接下來一周内，還會向訂閱會員上線使用權限。

在歐洲，也出現了立志再造 OpenAI、" 開源一切 " 的 Kyutai，以及 Mistral AI 等公司，後者也同樣是由來自 Google、Meta、Hugging Face，曾經深度參與過 Llama 研發的尖端人才參與創立。

這場 AI 新勢力的競賽，真是越來越精彩了。