谷歌深夜發布全球最強開源大模型Gemma，性能“吊打”130億的Llama

就在剛剛，谷歌扔下 " 震撼彈 "。

北京時間 2 月 21 日晚 21 點，美國科技巨頭谷歌（Google）宣布推出全球性能最強大、輕量級的開源模型系列 Gemma，分爲 2B（20 億參數）和 7B（70 億）兩種尺寸版本，2B 版本甚至可直接在筆記本電腦上運行。

谷歌表示，Gemma 采用與 Gemini 模型相同的研究和技術，由 Google DeepMind 和谷歌其他團隊開發，專爲負責任的 AI 開發而打造。谷歌聲稱，Gemma 模型 18 個語言理解、推理、數學等關鍵基準測試中，有 11 個測試分數超越了 Meta Llama-2 等更大參數的開源模型。

平均分數方面，Gemma -7B 的基準測試平均分高達 56.4，遠超過 Llama-13B（52.2）、Mistral-7B（54.0），成爲目前全球最強大的開源模型。

請輸入圖說

谷歌和 Alphabet 公司 CEO 桑達爾 · 皮查伊（Sundar Pichai）表示，Gemma 展示了強大的性能，從今天開始，該模型将在全球範圍内提供，并可在筆記本電腦、工作站或谷歌雲上運行。

Google DeepMind CEO Demis Hassabis 表示，輕量開源的 Gemma 是同類尺寸中性能最佳的模型。

如今，谷歌不僅将對手瞄向 OpenAI，而且打算占據一切，新模型将比紮克伯格的 Llama-2" 遙遙領先 "。

性能超越 Llama-2 開源模型，谷歌 Gemma 爲何那麽強？

自 Gemini 發布至今，谷歌持續在 AI 方面 " 狂飙 "。

2023 年 12 月，谷歌推出全球最強大、最通用的多模态通用大模型：Gemini，中文稱 " 雙子座 "，共包括三個不同尺寸版本：Ultra（超大杯）、Pro（大杯）和 Nano（中杯），全面内置最新、最強大的自研 AI 超算芯片 Cloud TPU v5p。

谷歌表示，在六項基準測試中，Gemini Pro 性能表現優于 GPT-3.5；而在 30 項性能基準測試中，Gemini Ultra 超越了目前最強模型 GPT-4，甚至在數學、物理、法律等 57 個領域測試中成爲全球第一個超越人類專家水平的 AI 模型。

如此強大的 AI 技術，谷歌必然要持續推進。

所以，谷歌不僅統一了 AI 人才和算力資源，而且全力投資 Gemini。今年 1 月，谷歌宣布全球一項大模型基準測試中 Gemini 超越 GPT-4；2 月，谷歌宣布對标 ChatGPT 的 AI 聊天機器人平台 Google Bard 更名爲 Gemini，并推出安卓版本的獨立 App，以及發布史上性能和功能最強大的 Gemini Ultra 1.0 模型等。

然而，2 月中旬 Gemini 1.5 發布的同時，OpenAI 全新視頻生成模型 Sora 突然亮相，一經面世瞬間成爲頂流，話題熱度隻增不減。所有人都在讨論 Sora 爲行業帶來的改變，但這讓谷歌在 AI 領域的努力一下子 " 黯然失色 "。

僅過了不到半個月，如今，谷歌卷土重來，正式推出全球最強大的開源模型 Gemma。

相比 ChaGPT 和 Gemini，Gemma 可能更适合較小規模的任務，例如簡單的 AI 聊天或摘要。

谷歌表示，Gemma 其靈感來自于此前谷歌發布的 Gemini 大模型，名字在拉丁語中意爲 " 寶石 "。

具體來說，谷歌此次主要展示 Gemma 模型架構、性能表現、自研芯片、訓練基礎設施、軟件工具、碳減排、安全和評估、負責任等多個方面的努力。

其中，模型架構方面，Gemma 基于谷歌 Gemini 模型以及 Transformer 自注意力機制的深度學習技術研發，Gemma 2B 和 7B 分别針對來自網絡文檔、數學和代碼的 2T 和 6T 規模英文标注數據進行訓練。與 Gemini 不同，這些模型不是多模式的，也沒有針對多語言任務的最先進性能進行訓練。

不僅如此，Gemma 還使用了改進後的多頭注意力、RoPE 嵌入、GeGLU 激活函數等新的技術，旨在文本領域實現通用能力，同時具備最先進的理解和推理技能。

性能表現方面，根據技術文件，Gemma 在 MMLU、MBPP 等 18 個基準測試中，有 11 個測試結果超越了 Llama-13B 或 Mistral-7B 等模型。

自研芯片方面，谷歌 Gemma 使用自研 AI 加速芯片 TPUv5e 進行訓練。其中 7B 模型在 16 個 Pods 上訓練，2B 模型在 2 個 Pods 上訓練，每個 Pod 可占用的 256 個芯片更少，v5e 經過優化，可以成爲轉換器、文本到圖像和卷積神經網絡 ( CNN ) 訓練、微調和服務的最大價值産品。

而通過 TPUv5e，Gemma 模型可在文本領域實現強大的通用能力，同時具備最先進的理解和推理技能。

值得一提的是，谷歌今天還宣布與英偉達（NVIDIA）展開合作。這意味着，Gemma 不止使用 TPUv5e 芯片，而且使用 NVIDIA GPU 來優化 Gemma 模型。

軟件工具層面，谷歌發布了全新 AI 軟件工具包，名爲 Responsible Generative AI Toolkit，從而幫助開發者和研究人員優先構建安全和負責任的 AI 應用。此外，Gemma 提供 Keras 3.0、原生 PyTorch、JAX 和 Hugging Face Transformers 多個框架工具，并支持基于 Google Cloud 的優化，以及在筆記本電腦、台式機、物聯網、移動設備和雲端等多個跨設備中兼容，從而讓 Gemma 實現推理和微調。

除了上述提及的層面，谷歌還在碳減排、安全和評估、負責任等方面有新的進展。其中，預訓練 Gemma 模型的碳排放量大大減少，約爲 131000 噸二氧化碳；同時 Gemma 使用過濾後的預訓練數據集，以減少不安全内容的風險；以及通過監督式微調和基于人類反饋的強化學習（RLHF）進行微調。

谷歌表示，在人類偏好評估中，Gemma 在遵循指令和基本安全協議方面的表現優于 Mistral v0.2 7B Instruct 模型。

另外，Google DeepMind 采取結構化的方法來确保模型的負責任開發和部署，包括評估潛在的社會影響。

谷歌 DeepMind 産品管理總監 Tris Warkentin 表示，由于擔心開放模型存在部分風險，該公司 " 對 Gemma 進行了更廣泛的紅隊（專家、開發者等内部對抗性測試的外部團隊）"，從而提前挖掘出了更多 AI 系統存在的缺陷和風險。

署名研究人員高達 57 人，其中 31 人來自亞洲

技術論文顯示，此次參與谷歌 Gemma 開源模型的研發人員數量高達 57 位。

其中包括核心貢獻者（Core Contributors）14 人，參與者（Contributors）達 35 人，産品管理（Product Management）2 人，項目管理（Program Management）1 人，執行贊助人（Executive Sponsors）5 人。此外，谷歌還對内部其他多個團隊進行感謝。

據钛媒體 AGI 通過 Kimi Chat 提供的信息、研發者名字進行梳理和猜測，此次參與 Gemma 模型研發的 57 人中，可能有大約一半以上（31 人）的開發者來自亞洲，或與華人或具有華人血統的個人有關。

例如，谷歌 Gemma 團隊當中的 Le Hou（侯樂）博士，曾是谷歌 FLAN-T5 技術的作者。

在加入谷歌之前，侯樂在紐約州立大學石溪分校獲得了博士學位。博士在讀期間，他專注于分析高分辨率圖像，如衛星和醫學圖像。

侯樂在谷歌的研究主要集中于 NLP 方面，包括高效的語言模型訓練、指令微調和提示工程等，核心能力是通過更好的微調和提示工程來提高最先進語言模型的推理能力。

而谷歌 Gemma 團隊另一位華人 Geng Yan，也是 AI 領域大神級人物。他畢業于浙江大學計算機科學系，随後在美國美國卡内基梅隆大學完成計算機視覺專業的碩士學位。

Geng Yan 曾在商湯、亞馬遜等公司任職過，主要研究 AI 機器算法技術，曾在谷歌參與研發 Google Facemesh 追蹤面部的 AI 模型，在谷歌相機自拍、手機支付等多個場景中發揮更大作用。

事實上，據 The Information 報道稱，目前谷歌公布的最新論文中，Gemini 的研發團隊超過 800 人。因此，參與 Gemma 研發人員占比可能隻有 Gemini 團隊的 7.1%。

人員少，但 Gemma 性能毫不遜色。

然而，谷歌在技術報告中也坦言，盡管 Gemma 模型在性能、安全性和負責任開發方面實現了突飛猛進的進展，但谷歌承認 " 此發布是不可逆轉的 "，并且開放模型造成的危害尚未明确定義。谷歌仍需要進一步研究來創建可靠、按預期執行的穩健、安全的模型。

" 因此我們将繼續采取與這些模型的潛在風險相稱的評估和安全緩解措施。" 谷歌表示，Gemma 在 6 個安全基準以及人類并行評估方面均優于競争對手。

Warkentin 表示，Gemma 模型目前先适配了英語這一廣泛語言，但他也指出，未來谷歌團隊也 " 希望能夠與社區共同努力，滿足英語任務之外的市場需求。"

目前，開發者可以在 Kaggle 中免費使用 Gemma，首次使用 Google Cloud 的用戶将獲得 300 美元的積分，并可申請高達 50 萬美元的 Google Cloud 積分來使用這些模型。具體可通過 ai.google.dev/gemma 進行查詢。

另外，谷歌方面今晨還宣布，Google One AI Premium 正在将 Gemini 整合到谷歌 Gmail、Docs、Sheets、Slides 和 Meet 當中，提供書寫、校對和生成圖像等 AI 增強功能。而作爲賬戶付費産品，前兩個月免費使用，之後每月 19.99 美元。

小結：谷歌拼命 " 卷 "，隻想成爲王者

三個月發布三款大模型系列，谷歌 AI 技術産品的更新叠代之快，讓人始料未及。

OpenAI CEO 奧爾特曼（Sam Altman）曾私下表示，與谷歌相比，OpenAI 在算力上處于劣勢。

在 AI 三要素中，谷歌在算力、算法、數據方面都具有很明顯的技術領先優勢。那麽如今，谷歌連續發布 Gemini、Gemma 模型，覆蓋開源和閉源方向，希望成爲 "AI 行業王者 " 的野心暴露無遺。

我們預計，接下來 Gemma 将成爲開源社區的關注焦點。

谷歌開發者 X 副總裁兼總經理、谷歌開發者關系主管 Jeanine Banks 認爲，Gemma 模型 " 感覺像是谷歌從 TensorFlow 等工具開源 AI 開發技術的曆史的延續 " 的最新 AI 系統，從 PaLM2、AlphaFold 到 Gemini，最後形成了 Gemma。

" 我們認爲，如果谷歌能夠成爲 API 和開放模型的唯一提供商，爲社區提供最廣泛的功能集，那就完美了。"Jeanine Banks 表示。

接下來，我們就看 " 剛剛跌落神壇 " 的開源模型 Meta Llama 如何再接招了。

（本文首發钛媒體 App，作者｜林志佳）