Google 剛發布的 AI 模型 Gemini，這些特點值得關注

圖片來源 @钛媒體

文 | 電廠，作者 | 張勇毅 , 編輯 | 高宇雷

北京時間 12 月 6 日晚，Google 給近期稍顯沉寂的 AI 模型戰場扔下了一顆新的炸彈：号稱多模态任務處理能力首次超越人類的 AI 模型，Gemini 1.0 正式發布。

在昨晚正式發布之前，外媒就有諸多關于 Google 這款全新 AI 模型的消息流出，Google 最早在今年五月的 IO 大會期間透露了 Gemini 的存在，但與之前外界預期的不同，Google 聲稱 Gemini 的發布并未因爲任何内部原因而延期，表示其 AI 模型的研發進程從 2012 年已經開始，直到最近 2023 年發布 PaLM2 與 Bard 之後，就開始爲 Gemini 的正式發布做準備。

DeepMind 本就是 AI 領域頂尖研究機構，早在 OpenAI 踏入聚光燈下之前，DeepMind 就憑借 AI 圍棋棋手 —— AlphaGo 赢得了全世界對 AI 時代的關注，如今名爲「雙子座」的新一代 AI 大模型正式對外發布，也頗有搶回 AI 模型領域主導地位的感覺：雙子座在神話本身就對應着「快速思維」的能力，同時也有着包羅萬象、善于溝通等寓意。

多模态能力

在實際表現上，Gemini 号稱是史上第一款原生支持多模态能力的 AI 模型，換言之在 Gemini 之前的多模态 AI 模型，處理同時包括視頻 / 文字 / 音頻 / 照片兩種以上的輸入信息時，邏輯是分别訓練不同模态對應的組件，然後将其理解出的語義拼接在一起，從而模拟人類在處理多模态場景問題時的反應。

這種架構雖然已經足夠驚豔，但在面對複雜邏輯問題時難免會顯得有些笨拙，因爲在這種架構下 AI 模型的算力并未得到最高效的使用。Google 的解決方案則是将 Gemini 設計爲原生多模态，從一開始就在不同模态上進行預訓練。利用額外的多模态數據對其進行微調，以進一步提高其有效性。

這種訓練架構上的颠覆，讓 Gemini 從最初的輸入階段就能對人類的的各種内容進行快速理解并推理，這一點在處理複雜問題上優勢尤爲突出：在發布 Gemini 的同時，Google 還宣布 Gemini Ultra 在行業标準 MMLU （多任務語言理解）基準測試中拿到了 90% 的成績。

這不僅是 AI 模型有史以來第一次超越人類專家的測試結果，也超過了此前 GPT-4 同類測試中 86.5% 的結果。同時在九項獨立基準測試中分别擊敗包括 LLAMA-2 GPT-4 在内的一衆競争對手。

Google 也準備了幾個演示場景，展示 Gemini 的多模态理解能力：視頻中一位測試者正在用簡筆畫視頻的方式，給 Gemini 輸入信息，在演示中 Gemini 能根據簡筆畫的每一筆改變，實時對最新的畫面内容作出解讀與描述。以及根據輸入視頻中出現的毛線顔色比例，給測試者推薦合适的編織玩具、以及跟 Gemini 玩猜硬币遊戲，猜錯了硬币在哪個手掌下之後，立即反應出這是測試者的把戲等場景。

同時處理多種形态的信息輸入，是 Gemini 比起目前市面上其他的生成式 AI 模型最大的區别，在處理數學、計算機等複雜學科中這種優勢能體現的更加明顯，Google 也強調了 Gemini 在數學領域的複雜理解能力：在其中一個演示中，就展示了通過視頻輸入一道數學題，交由 Gemini 輔助解決的場景。

這樣一個看似簡單的需求中其實包括了對指令語義的準确理解以及手寫圖像識别，與此同時處理複雜邏輯的數學問題，這就是一個典型的多模态大模型應用場景。

可拓展性

到 2023 年下半年，不同體積的大模型并行發展已經成爲行業主流，尤其是模型完全運行在本地的端側大模型，更是生成式 AI 行業應用中炙手可熱的前景。包括 vivo、小米 OPPO 等手機品牌都已經推出了面向普通智能手機用戶的端側大模型與雲端大模型的結合應用。

Gemini 也沒有落下這一特征：在 Gemini 1.0 中，Google 一共發布了三個版本，其中 Gemini Ultra 最聰慧，但同時需要更大的計算量，Pro 是其中最均衡、适用于最多場景的版本，而 Nano 則是體積最小最高效的版本，同時也是主打部署在 Android 手機等設備上的端側大模型。

Google 并未直接向記者介紹 Gemini Nano 模型的體積，但據 DeepMind 介紹，Gemini Nano 具有完全在端側離線運行的能力，目前 Google 已經針對 Pixel 系統自帶的錄音 App 進行了 Gemini 的适配，即使沒有網絡連接，也能自動根據錄制的對話、采訪、演示等内容生成 AI 摘要。

除了系統自帶 App，Gemini Nano 的能力還被整合進 Android 系統中，第三方應用的開發者也能通過應用适配的方式調用手機自帶的 Gemini 模型能力：例如手機自帶的輸入法能根據适配 Gemini 的聊天 App 中，對方發送給你的文字信息自動爲你生成合适的快捷回複。

Google 研發人員同時提到未來還有将 Gemini 登陸其他 Android 智能手機的計劃，但這部分适配工作涉及到手機硬件的算力适配，因此目前暫時隻有 Pixel 8 Pro 是 Gemini 的适配機型。

至于不少人關心的問題：Gemini 能完全超越 GPT 4.0 嗎？記者現場也詢問了 Google DeepMind 研發團隊，雖然 Google 并未正面回應這個提問，但重新強調了 Gemini Ultra 在 MMLU 中獲得的評分相比 GPT-4 更高，也是目前唯一超越人類專家測試結果的 AI 模型。

新硬件，新架構

每次提到 Google 在生成式 AI 領域的硬件技術，往往少不了介紹 TPU（張量處理單元）的内容：這是 Google 專爲開發神經網絡機器學習的專用硬件，從 2015 年發布 TPU v1，迄今爲止已經叠代了五個大版本。目前現階段 Google 展示的 Gemini 1.0，就是基于 Google 數據中心的 TPU v4 和 TPU v5e 大規模陣列訓練而來。

這些 TPU 陣列不僅用于訓練 Gemini，它們也已經應用在 Gmail、YouTube、Google Play 等 Google 生态應用中有近十年的曆史。同時也從 2018 年開始開放給第三方客戶使用。也有不少人工智能初創公司選擇其作爲訓練大模型的硬件基石。Google 同時也提到在 TPU 上，Gemini 的運行速度也明顯優于早期體積較小的模型。

如今 AI 模型參數仍然在呈指數級增長 —— 頂級的 AI 大模型已經擁有數千億甚至是萬億級參數，即使是最頂級的 GPU 配置搭配不差錢地堆砌 GPU 數量，訓練出如 GPT-4 這樣的大模型也需要長達數月以上。可以說高性價比的高算力平台，是目前行業内最迫切的需求。因此适用于下一代 AI 訓練的硬件架構其實也已經呼之欲出：在發布 Gemini 1.0 的同時，Google 同時向外界展示了最新的 TPU v5p 系列。

Google 數據中心内的 TPU v5p ｜Google Blog

比起 Gemini 訓練的「底座」、同時也是目前應用主力的 TPU v4 與 v5e，v5p 進一步增強了可拓展性，同時爲了應對複雜模型的推理訓練與調整需求，設計了新的硬件架構，可以根據性能需求靈活部署，每個 Pod 計算單元中的芯片數量加倍，由共計 8960 顆芯片互聯構成。浮點運算能力相比 v4 提升了兩倍，訓練速度相比 v4 能提升 2.8 倍以上。

随着 TPU v5p 一并推出的還有代号爲「AI Hypercomputer」的超級計算機架構：據 Google 介紹，這是一個經過優化的技術系統，可以與 Google Cloud 計算中心的硬件協同工作，支持現代 AI 模型開發的工作負載。

AlphaCode 2：全新代碼生成工具

AlphaCode 是 Google 在兩年前發布的一款 AI 代碼生成系統，彼時誕生于生成式 AI 尚未掀起巨浪，代碼輔助類 AI 機器人仍然占據主流視野的時代，今天 Google 在 Gemini 的基礎上發布了 AlphaCode 2。

第一代 Gemini 可以理解、解釋和生成目前世界上最流行的編程語言（如 Python、Java、C++ 和 Go）的代碼。在此基礎上的 AlphaCode 2，同樣擅長解決那些不僅需要編碼能力而且也需要複雜數學和理論計算機科學知識的競賽性編程問題。

與最初的 AlphaCode 在同一個平台上進行評估時，AlphaCode 2 表現出了巨大的改進。它解決的問題數量幾乎是 AlphaCode 的兩倍，性能比 AlphaCode 高出将近 50%。當然這些暫時還都隻是演示内容，雖然第一代 AlphaCode 實際上從未發布過，但 DeepMind 實際上已經透露了這款産品未來投向市場的可能。

發布時間線

最後是 Gemini 的開放時間，三種不同模型尺寸的 Gemini 在具體開放使用時間、使用場景上都不盡相同：其中 Gemini Pro 将會最先落地，在 12 月 13 日，用戶就能以 Bard with Gemini Pro 的形式體驗。Google CEO 皮查伊更是表示 Gemini 會是 Bard 的一次全面升級，多模态能力将賦予 Bard 輸入輸出圖像、音頻視頻内容的能力。

升級後的新版 Bard 将在 170 多個國家 / 地區提供基于 Gemini Pro 的英文服務，目前 Gemini Pro 版本的尚不支持更多語言，Google 表示更多的語言支持正在開發中。同時目前開放的版本中用戶暫時隻能以文字指令的方式體驗 Gemini，Google 同時也表示會在「未來幾個月内」允許用戶使用音頻與圖像交互能力。

而 Gemini Nano 除了登陸 Pixel 8 Pro 手機上之外，從即日起也将開放給所有 Android 14 開發者，開發者可以以 AICore 的形式，在手機系統中調用 Gemini 的能力，用在自己的 App 中嘗試 AI 功能。

至于綜合能力已經超過 GPT-4 的 Gemini Ultra，則到明年年初才能逐步開放測試，首先将會開放給部分客戶以及開發者用于早期實驗反饋，後續普通用戶将會以 Bard 的下一代升級叠代版本 —— Bard Advanced 的形式，體驗到 Gemini 模型的全部能力。