出品|虎嗅科技組
作者|齊健
編輯|王一鵬
頭圖|DALL-E 3
全世界都在爲 Sora 驚豔,而谷歌卻仍在默默地發語言模型。
當地時間 2 月 21 日,谷歌推出了基于 Gemini 研究和技術開發的新型開源模型系列 "Gemma"。與 Gemini 相比,Gemma 展示了更高的效率和輕量化設計,同時依然免費提供全套模型權重,并明确允許商業使用。
本次發布的模型包括 Gemma 2B 和 Gemma 7B ,20 億和 70 億兩種規模版本。每個版本都提供了預訓練模型和針對特定指令進行微調的模型。用戶可以通過 Kaggle、谷歌的 Colab Notebook 或 Google Cloud 平台輕松訪問這些模型。
谷歌的技術報告中稱 Gemma 已經在一系列關鍵基準測試上超越主流的開源模型,包括 LLaMA-2 的 7B 和 13B 版本,以及 Mistral 7B 模型。特别是在指令遵循、創意寫作、編碼任務和基本安全協議測試中,Gemma 都展現了良好的性能。
此外,谷歌還發布了一系列工具和指南,旨在鼓勵開發社區協作并負責任地使用這些模型,推動 AI 技術的健康發展。
谷歌發布開源 Gemma 之後,OpenAI 成了唯一一個在這波 AI 熱潮中沒有發布過開源模型的 AI 公司。在 Google Deepmind 聯創兼 CEO Demis Hassabis 的發布貼下,就有人 @Sam Altman 質疑 OpenAI 何時才能 Open。
Gemma 有何不同?
Gemma 模型提供了預訓練模型以及針對對話、指令遵循、有用性和安全性微調的 checkpoint。其中,7 億參數的模型優化了 GPU 和 TPU 上的高效部署和開發,而 2 億參數的模型則更适用于在 CPU 上運行,滿足不同的計算限制、應用程序和開發人員需求。
Gemma 對比 LLaMA 2-7B、13B,以及 Mistral-7B
Gemma 模型的架構基于 Transformer 解碼器,針對其核心參數進行了優化,訓練時的上下文長度爲 8192 個 token。
此外,谷歌在原始 Transformer 理論的基礎上進行了幾項重點改進,優化了模型的處理效率、模型大小、性能和訓練穩定性方面。
多查詢注意力機制:相比傳統的多頭注意力,多查詢注意力機制在 2 億參數模型中的應用提高了處理效率和模型性能,特别是在參數規模較小的情況下,能夠更有效地捕捉和處理信息。
旋轉位置嵌入(RoPE):使用 RoPE 代替傳統的絕對位置嵌入,以及在輸入與輸出之間共享嵌入的策略,有效減小了模型規模,同時保持或提高了模型的性能,尤其是在處理序列數據時的位置敏感性方面。
GeGLU 激活函數:替代傳統的 ReLU 激活函數,GeGLU 提供了更強的非線性處理能力,這對于增強模型捕捉複雜模式和關系的能力是非常重要的,特别是在小模型中盡可能地提高性能。
歸一化位置的創新應用:通過在每個 Transformer 子層的輸入和輸出處都應用歸一化處理(使用 RMSNorm),Gemma 模型提高了訓練的穩定性和效果,這種方法的創新在于它提供了一種更加有效的訓練深層網絡的手段,有助于提高模型的泛化能力和減少過拟合的風險。
Gemma 另一個值得一提的特點在于對安全性的重視。
Gemma 模型的全面安全評估中,包括對模型行爲的深入分析和測試,以确保其在不同的應用場景中能夠安全可靠地運行。同時,Gemma 的開發過程中融入了負責任的 AI 實踐,包括确保模型的公平性、透明性和可解釋性。這有助于減少 AI 系統可能帶來的偏見和不公平現象,提高用戶對模型輸出的信任度。
随 Gemma 模型一同發布的還有一套詳細的安全使用指南,指導用戶如何安全、有效地使用 Gemma 模型。這包括建議的使用案例、潛在風險的警告以及如何緩解這些風險的策略。
作爲開源模型,Gemma 項目也鼓勵社區合作和反饋,通過開源的方式讓研究人員和開發者能夠貢獻自己的見解和改進意見。這種開放的合作模式有助于及時發現并修複安全漏洞,提高模型的整體安全性。
事實上,在今天快速叠代的 LLM 開發環境中,一款輕量化開源模型的安全性能,是模型能夠開放到更多應用場景的重要前提。
落到手機、電腦、汽車上的 AI
谷歌在 Gemma 的說明頁面中提出,要實現先進人工智能模型的 " 民主化訪問 ",并特意強調 Gemma 可以部署在資源有限的環境中,例如筆記本電腦、台式機或用戶自己的雲基礎設施,
如今,輕量化的 AI 模型在業内的受關注度正在快速升溫。
2023 年 6 月,微軟就放出了一款 17 億參數的輕量化模型 Phi,此後的 Phi-2 版本參數擴充到了 27 億。國内則有兩家公司推出了 7B 以下的輕量化 LLM,包括面壁智能的 MiniCPM-2B,以及阿裏 Qwen1.5 中的 0.5B、1.8B 和 4B 三個版本。
面壁智能的 MiniCPM-2B 模型就直指手機端,且已經在多款常見的手機上測試了模型的真實落地效果。
MiniCPM 在手機端的運行情況
雖然同爲 20 億參數,但相比于可以運行在 4G 内存手機中的 MiniCPM-2B,Gemma-2B 的模型存儲容量明顯有點大,一般的手機可能很難運行,目前 Gemma 的技術報告也沒有提及在個人設備上的輸出速度。
Gemma 在 hugging face 的下載頁面
運行速度快、成本低、高端設備依賴性不強,這些特點使輕量化模型明顯更容易商業化落地,最典型的就是落地到手機、電腦、車機這些端側設備的 AI。
目前,主流、非主流的消費電子、汽車企業都在積極布局 AI。
國内 OPPO 和魅族兩家手機廠商剛剛更新了 AI 戰略,其中魅族甚至要放棄傳統手機,隻做 AI 手機;聯想、戴爾、惠普、華碩等都公布了自己的 AI PC 戰略,英偉達最近推出了一款可以在本地運行的 Chat with RTX,顯卡要求 7G 顯存,其中主要調用的就是 Mistral 的 7B 模型;車機方面,奔馳、寶馬、大衆等也都推出了融合 AI 大模型的車機系統,國内的比亞迪,也在近期推出了全新的整車智能化架構 " 璇玑 " 及其 AI 大模型 " 璇玑 AI 大模型 "。
Gemma、MiniCPM、Qwen1.5 等開源輕量化的推出,給這些設備生産公司提供了一個不必自研大模型,也能在設備上部署 AI 的路徑。
事實上,在複雜的算法研究和高昂的訓練成本面前,多數企業并不具備從零開始開發大模型的能力。
基于 LLaMA 等開源大模型的再訓練或微調成爲了一個更實際和成本效益更高的選擇。通過 Continue Pretrain、finetune 等方法,開發者可以在現有模型的基礎上進行改進和定制,以适應特定的應用需求。這種方法不僅減少了開發成本,也加速了模型創新的過程,使得即使是資源有限的團隊也能參與到大模型開發的競争中來。
國内大模型創業的主流形态正是基于 LLaMA 等開源模型的再訓練或微調。盡管從零開始自研大模型在技術上具有一定的吸引力,但如專家所言,這需要極高的成本和專業知識,且過程複雜且容易出錯。因此,利用和貢獻于開源大模型社區,不僅是實現快速叠代和創新的有效途徑,也是促進技術共享和行業進步的重要手段。
一直以來,AI 大模型開發和模改的主流生态都被 LLaMA 占據,直到 Mistral 出現才略有改觀。此番谷歌放出開源 Gemma,給開發者提供了更多選擇和靈活性,注定會對開源生态起到巨大的刺激作用,促進了開源大模型技術的發展和應用創新。