出品 | 虎嗅科技組
作者 | 王一鵬
頭圖 | 視覺中國
4 月 5 日上午,一個來自 MIT、普林斯頓等研究機構的華人團隊發布了自己的大模型 JetMoE ,宣布用 10 萬美元的訓練成本,就可以訓練出媲美 LLaMA2 級别的大模型——後者成本高達數十億美元。賈揚清第一時間進行了轉評贊,直指其核心在于 MoE 架構。
此前,MoE 架構始終是一個位于輿論水面下的大模型技術,人們醉心于大模型的技術突破,而以吃瓜的心态看待其背後的成本問題。但當 Stability AI CEO 及核心團隊相繼離職,公司被曝每月運營成本高達 800 萬美元以上,完全入不敷出時,大家才真正的認識到:不是中國 AI 圈窮,而是全球 AI 圈都真的沒錢了——大模型就像個 " 碎鈔機 ",無論矽谷公司,還是中國公司,都難以承受。
因此,MoE 作爲一種可以降低運營成本、提升訓練效率的架構,驟然成爲全世界大模型公司的關注重點。
去年 12 月,Mistral AI 發布 8x7B-MoE 模型,成爲全球首個開源的 MoE 大模型;今年 1 月,Minimax 宣布發布國内首個 MoE 大語言模型 abab6;在接下來的幾個月,Google、APUS、達觀、階躍星辰等企業以及馬斯克,都紛紛發布了自己的 MoE 模型。考慮到研發周期的問題,至少在 GPT-4 剛發布的時間(2023 年 3 月),有遠見的公司就已經确定了 MoE 的架構方向。
即便是 OpenAI ,當下對其 GPT-4 技術猜測的主流觀點也認爲,他們一定采用了 MoE 架構。
MoE 不太省心,但确實可以降本
MoE 架構的中文名稱是混合專家架構,是神經網絡的一種架構模式。它将神經網絡拆分成多個專家子網絡,面對一次輸入,既可以指定某一位 " 專家 " 來回答,也可以要求多位 " 專家 " 回答,甚至全部參與回答,最終依據權重綜合給出結果。
這使得 MoE 架構的可擴展性優秀,開發者可以在一個巨型模型上,繼續增加參數量,進行橫向擴展。同時因爲 MoE 可以選擇隻啓用部分專家子模型,也在保持性能的同時,降低了推理成本。另外 MoE 架構允許數據在多個專家模型之間進行分配和并行處理,因此可以提高模型的訓練和推理速度。
聽起來全是優點,但是 MoE 架構的訓練難度很大。
一個最主要的問題是,MoE 架構很難保證每個 " 專家 " 都能得到充分訓練。決定了哪些 " 專家 ",以多大權重參與回答的核心部件是門控網絡(Gate Network)。如果門控網絡傾向于選擇某些特定的 " 專家 ",可能會導緻其他 " 專家 " 得不到充分的訓練,從而造成訓練不穩定。而且在 MoE 架構中,不同的 " 專家 " 可能會被分配到不同數量的輸入樣本。如果某些 " 專家 " 被分配的樣本過多或過少,可能會導緻負載不平衡,影響模型的訓練效率和最終性能。
但對于全球 AI 企業,尤其是中國企業而言,這已經是兩年來的最好局面了——至少我們可以用軟件技術解決問題,而不是看着芯片和賬戶幹着急。
從實際情況來看,國内 MoE 架構的産品進展也較爲樂觀。
MiniMax 作爲最早發力 MoE 架構的主兒,一直在幹悶聲發大财的事兒,投資人看重的有場景、有客戶等幾個要點,MiniMax 都具備。根據其官方爲數不多的、對外透露的信息顯示,金山辦公、小紅書、騰訊、小米、閱文集團都是其客戶。盡管這類大客戶很可能同時采購了多個基礎模型服務,但依然顯示出 MiniMax 進展好像不錯。今年 3 月,阿裏被曝參與 MiniMax 下一輪融資,領投 6 億,據稱紅杉也承諾将參與本輪融資。某種程度上,這也代表着頭部資本對 MoE 這一技術路線的認可。
而就在 4 月 1 日,APUS(麒麟合盛) 放出的信息更加露骨地說明了這一問題——其聯合新旦智能訓練的大模型 APUS-xDAN 大模型 4.0(MoE)将于近日宣布開源。
在早期放出的信息中,APUS 重點提到了兩點:
● 參數規模爲 1360 億,國内開源模型中參數規模最大;
● 是國内首個支持在 4090 低端算力上訓練的千億參數開源大模型;
說白了,便于橫向擴展,是事實,但可能不是主要因素,物美價廉,才是核心。
不玩 MoE,就搞小模型
這種降本的決心貫徹的有多徹底,再看看不搞 MoE 架構的廠商就知道了。
面壁智能 2 月份發布了自己的端側模型 Minicam,官方稱該模型以 2B 的尺寸可以超越 Mistral-7B,媲美 Llama2-13B。虎嗅 3 月邀請了面壁智能曾國洋參與 AI 内參會聊到該模型,曾國洋表示,現在業内普遍沒有将小尺寸模型的潛力挖掘幹淨,面壁追求的是如何實現更合理的訓練,而不是單純的堆模型參數量。
從産品定位上來講,當然可以說這是做端側模型的應有之義。但從成本價角度而言,這也是除開 MoE 架構外的又一次降本嘗試。CEO 李大海在面壁的發布會上重點聊過這個問題:成本是大模型的隐形競争力。面壁 MiniCPM 在端側的部署中,可以支持 CPU 推理,同時發布的量化版本,可以做到壓縮 75%,性能基本無損。如果使用骁龍 855 芯片,成本約 600 元人民币,按照運行 5 年計算,每秒 7.5 tokens,那麽 170 萬 tokens 的推理成本需人民币 1 元。成本爲 Mistral-Medium 的百分之一。
小模型這套路能走多遠,是否因爲短期的苟且,導緻在 AGI 層面的發展繼續落後?如果之前還存在這個疑惑,那麽 AI PC、AI 手機熱潮的興起,多少給大家增加了些信心。
盡管現在 AI PC、AI 手機是噱頭成分居多,真正在 C 端有決定意義的價值點較少。但這趟列車已經綁定了太多的人:高通、英特爾、三星、聯想……以及一系列基礎模型廠商、模型中間件廠商。某種意義上,這是 " 元宇宙 Plus" 版的概念列車,必須找到終點,也必須駛到終點。與當年元宇宙的情況不同的是,大模型當下的技術發展曲線,仍在陡峭上升中——
至少在 GPT-5 發布前,所有的商業故事,都會如約講下去。