文|武靜靜
編輯|鄧詠儀
炮轟 OpenAI 閉源,甚至與 OpenAI 對簿公堂的馬斯克,說到做到,真的把自家的 Grok 開源了。
經曆了一周的造勢,當地時間 3 月 17 日,Grok-1 開源版本如約而至。從參數來看,Grok-1 是目前參數量最大的開源大語言大模型之一,其參數規模達到了 3140 億,超過 GPT-3.5 當時 1750 億的參數量。
圖片來自 Grok 博客
目前 Grok 沒有語言之外的其他能力,但 xAI 稱,計劃未來将 Grok 打造成多模态的大模型。
從 ChatGPT 發布後,馬斯克就站在 OpenAI 對立面,成爲排頭兵,xAI 也是爲此而成立。不少人對 Grok-1 報以期待,想迫不及待試試。
截圖自社交媒體平台 X
好于 GPT-3.5 可商用,但難以叠代
xAI 是馬斯克 2023 年創立的大模型公司,其設計初衷是模仿科幻小說《銀河系漫遊指南》,提供尖銳的回複。目前 Grok 技術已集成到社交媒體平台 X 中,可以根據用戶的帖子進行回複,訂閱 X 高級功能的用戶可以直接向 Grok 提問。
從整體測試效果來看,這次開源的 Grok-1 可以說 " 比上不足,比下有餘 " ——在各個測試集中呈現的效果要比 GPT-3.5、70b 的 LLAMA2 和 Inflection-1 要好,但距離 Claude2 和 GPT-4 仍然差了一大截。
不過,由于 Grok-1 是 xAI 從零開始訓練,在 2023 年 10 月就已經結束了預訓練,且沒有針對任何特定應用(如對話)進行微調,所以目前無法直接體驗到對話的應用。
在社交媒體上,有人評論稱,Grok-1 沒有對特定任務進行微調,提高了用戶使用它的門檻," 市場需要特定的工具,而不是通用的人工智能。"
也有人認爲,Grok-1 這種方式可以适應多種不同的任務和應用場景,更适合那些想要用開源模型打造自己專有模型的開發者。
技術架構上,和 GPT-4 一樣,Grok-1 采用了大規模參數的專家混合模型(Mixture-of-Experts, MoE)架構,可以将大型網絡分解爲多個 " 專家 " 子模塊,每個子模塊負責處理不同類型的信息或任務。
底層技術上,Grok-1 選擇使用了基于 JAX(一個由 Google 開發的用于高性能機器學習研究的庫)和 Rust(一種注重安全性和并發的系統編程語言)的自定義訓練堆棧。
這并不是大型語言模型中常見的選擇。大多數知名的大模型比如 OpenAI 的 GPT 系列或 Google 的大模型通常是基于 TensorFlow 或 PyTorch 這樣的主流深度學習框架開發的,且有豐富的 API 和社區支持,能讓模型開發和訓練變得更高效。
但 Grok-1 将 JAX 和 Rust 的結合,優勢在于能夠在模型性能、效率和可伸縮性方面有所優化。但這也意味着,xAI 可能需要投入更多的資源來維護和支持這種非主流的技術棧。
效率上,Grok-1 模型也找到了更高效訓練的方法。在 Grok-1 模型中,隻有大約 25% 的權重在任何給定時刻是 " 活躍 " 的,可以把 " 權重 " 理解爲參與信息處理的 " 工具 ",這種" 活性權重 "可以減少不必要的計算,提高處理速度,同時也減少了冗餘。
此外,Grok-1 的權重和架構是在寬松的 Apache 2.0 許可下發布的,這使得研究者和開發者可以自由地使用、修改和分發模型,打開了更多開放合作和創新的可能性。
眼下,Grok-1 面臨的最迫切問題是模型參數太大(3140 億),這需要巨大的計算資源,所以開源社區無法對 Grok-1 進行叠代。
不過,目前,對話搜索引擎公司 Perplexity CEO Aravind Srinivas 已經在社交媒體上發文稱,将會基于 Grok 的基礎模型,進行對話式搜索和推理的微調。
OpenAI 對立面:不斷壯大的開源力量
Grok-1 的開源也意味着馬斯克已經選邊站,站在開源這一頭,身體力行的參與對抗 OpenAI。
也有人認爲,這是馬斯克搞的又一次營銷噱頭。" 一家營利性公司開源的東西往往表明它還不夠好。"
但不論動機如何,馬斯克此次确實給開源力量增加了有分量的籌碼。
一直以來,開源和閉源的争議從未停止。市場争議主要集中在兩端,OpenAI 認爲閉源能夠讓技術更安全的被使用,避免技術濫用;開源一方則認爲技術不應該掌握在某家公司手中,需要更透明、更公開。幾天前,蘋果發布的多模态大模型 MM1,也提到要緻力于讓技術更透明化。
用更直白的話來說,面對一騎絕塵的的 OpenAI,模型層閉源的意義可能并不大,不如開放給社區一起叠代。因此,開源成爲更多公司 " 團結起來 " 的選擇。
一個典型例子是,Sora 大火之後,中國創業公司潞晨科技團隊就火速自研,推出了開源全球首個類 Sora 架構視頻生成模型 「Open-Sora 1.0」,該模型包括整個訓練流程,包括數據處理、所有訓練細節和模型權重。
目前開源力量最大的參與方是 Meta,也成爲了 AI 開源社區中的 " 一面旗幟 ",2023 年 7 月,Meta 發布了免費可商用版本大模型 Llama 2。最近,已經有不少媒體報道稱,Meta 正在加緊開發新的大語言模型,預計在今年推出能力對标 GPT-4 的開源大模型。馬克 · 紮克伯格此前還公開透露,會在 2024 年底前購買約 35 萬張英偉達最先進的 H100 AI GPU。
另一個有競争力的公司是法國生成式 AI 獨角獸 Mistral AI,今年 2 月,Mistral AI 發布全新旗艦模型 Mistral Large。Mistral Large 在基礎測試中的表現出色,以 81.2% 的分數超越了谷歌 Gemini Pro、GPT-3.5、Meta Llama 2-70B 三款模型。成爲僅次于 GPT-4、世界第二大可通過 API 訪問的 AI 大模型。
更多公司正在加速參與到大模型開源中,試圖瓦解 OpenAI 閉源路線構建起的技術圍牆。
歡迎來聊~