谷歌大模型,開源了!
一夜之間,Gemma系列正式上線,全面對外開放。
它采用 Gemini 同款技術架構,主打開源和輕量級,免費可用、模型權重開源、允許商用,同時筆記本可跑。
共有 2B 和 7B 兩個版本,性能全面超越開源标杆 Llama 2。
每種規模都有預訓練和指令微調版本,可在 Kaggle、Colab Notebook、Google Cloud 中訪問。
而且支持 JAX、PyTorch 和 TensorFlow 通過原生 Keras 3.0 進行推理和監督式微調(SFT),适應多種開發需求和環境。得益于對 JAX 的支持,它還能進行快速推理。
目前模型也同步上線 Hugging Chat,可在線體驗試玩。
發布幾個小時裏,Gemma 火速成爲圈内最熱話題,成爲議論焦點。
Keras 作者 Fran ç ois Chollet 高呼:最強開源大模型,剛剛易主。
大神卡帕西第一時間趕來解析技術報告。
AI 圈内大佬更是表示,谷歌做開源是明智之舉啊。
網友們都很興奮,已經有人開始問考慮推出更多語言版本嗎?
還有人提出 2B 的規模,是不是意味着也能支持安卓 /iOS 本地推理?
多性能超越同規模開源模型
具體來看 Gemma 的技術報告。
在 18 個任務中,Gemma 在 11 個任務上表現優于同規模優質開源模型。
Gemma 包含兩種規格。
7B 版本參數量約 78 億,面向 GPU 和 TPU 上的高效部署和開發,2B 版本參數量約 25 億,用于 CPU 和端側應用程序。
它基于 Transformer 解碼器架構,關鍵模型參數如下。
相比于基礎 Transformer,Gemma 進行了一些升級。
7B 版本使用多頭注意力機制,2B 版本使用多查詢注意力機制。
在每一層中使用旋轉位置嵌入代替絕對位置嵌入;使用 GeGLU 激活函數替代标準 ReLU 非線性。
同時對每一個子層的輸入和輸出都進行歸一化。
Gemma 2B/7B 分别使用了 2T 和 6T token 進行訓練,主要來自網絡文檔、數學和代碼,不過這些數據不是多模态的。
爲了兼容,谷歌使用了 Gemini 的 SentencePiece tokenizer 子集,它可以分割數字,不删除額外的空格,并對未知 token 進行字節級編碼。
大神卡帕西關注了 Tokenizer 部分,他表示,Gemma 的 tokenizer 和 Llama 2 的不同,但和 GPT 一緻。
Fran ç ois Chollet 認爲 Gemma 最大的特點是谷歌擁有 SOTA 級測試集過濾機制,這意味着基準數據能相當準确地反映了模型在實際環境中的表現。
谷歌也報告了 Gemma 在 MMLU 等基準上的表現。
最後,谷歌還強調了 Gemma 的安全隐私性能。
實驗數據顯示 Gemma 不會存儲敏感數據,但可能會記住一些潛在隐私數據。不過報告表示這個數據可能因爲工具原因有所誤報。
網友已開始實測
開放以後不少網友已經上手實測 Gemma。
有人反饋寫代碼的速度非常快。
關于技術細節的讨論也很多。
不少人關注到 Gemma 做到了 " 以小博大 ",2B 版本性能超越 Mistral2 7B。
也有人覺得 Gemma 使用的數據量有點大……
但對于谷歌開放模型的态度,大家是一律拍手稱贊。
通過幾十個開源項目,每個人都有機會打敗巨頭。
現在壓力再次給到 "CloseAI" ……
也有人猜測,按照兩大巨頭互掐的規律,OpenAI 新大招可能就在路上了。
參考鏈接:
[ 1 ] https://ai.google.dev/gemma
[ 2 ] https://x.com/Jason/status/1760331908762751330?s=20
[ 3 ] https://twitter.com/karpathy/status/1760350892317098371