" 隻需 "10 萬美元,訓練 Llama-2 級别的大模型。
尺寸更小但性能不減的MoE模型來了:
它叫JetMoE,來自 MIT、普林斯頓等研究機構。
性能妥妥超過同等規模的 Llama-2。
△賈揚清轉發
要知道,後者可是數十億美元級别的投入成本。
JetMoE 發布即完全開源,且學術界友好:僅使用公開數據集和開源代碼,用消費級 GPU就能進行微調。
不得說,大模型的打造成本,真的比人們想的要便宜更多了。
Ps. Stable Diffusion 前老闆 Emad 也點了贊:
10 萬美刀實現 Llama-2 性能
JetMoE 啓發于 ModuleFormer 的稀疏激活架構。
(ModuleFormer,一種基于稀疏專家混合 ( SMoE ) 的模塊化架構,可提高大模型效率和靈活性,去年 6 月提出)
它的注意力層中仍然使用了 MoE:
80 億參數的 JetMoE 一共有 24 個區塊,每塊包含 2 個 MoE 層,分别是注意力頭混合 ( MoA ) 和 MLP 專家混合 ( MoE)。
每個 MoA 和 MoE 層又有 8 個專家,每次輸入 token 激活 2 個。
JetMoE-8B 使用公開數據集中的1.25T token進行訓練,學習率 5.0 x 10-4,全局 batch size 爲 4M token。
具體訓練方案遵循 MiniCPM(來自面壁智能,2B 模型就能趕超 Mistral-7B)的思路,共包含兩階段:
第一階段使用線性預熱的恒定學習率,用來自大規模開源預訓練數據集的 1 萬億個 token 進行訓練,這些數據集包括 RefinedWeb、Pile、Github data 等等。
第二階段則使用指數學習率衰減,用 2500 億個 token 訓練來自第一階段數據集和超高質量開源數據集的 token。
最終,團隊使用96 × H100的 GPU 集群,花費 2 周時間、約 8 萬美元搞定 JetMoE-8B。
更多技術細節将在不久後發布的技術報告上揭露。
而在推理過程中,由于 JetMoE-8B 僅具有22 億個激活參數,因此計算成本大大降低——
同時,它還收獲了不錯的性能表現。
如下圖所示:
JetMoE-8B 在 8 個評測基準上獲得了 5 個 sota(包括大模型競技場 Open LLM Leaderboard),超過 LLaMA-13B、LLaMA2-7B 和 DeepseekMoE-16B。
在 MT-Bench 基準上得分 6.681,也超過了 130 億參數的 LLaMA2、Vicuna 等模型。
作者介紹
JetMoE 一共 4 位作者,分别是:
Yikang Shen
MIT-IBM Watson Lab 研究員,研究方向 NLP。
本碩畢業于北航,博士經曆于 Yoshua Bengio 創辦的 Mila 研究機構。
國振 ( Gavin Guo )
MIT 博士在讀, 研究方向爲 3D 成像的數據高效機器學習。
UC 伯克利本科畢業,去年夏天作爲學生研究員加入 MIT-IBM Watson Lab,導師爲 Yikang Shen 等人。
蔡天樂
普林斯頓博士在讀生,本科畢業于北大應用數學和計算機科學,目前也是 Together.ai 的兼職研究員,與 Tri Dao 合作。
Zengyi Qin
MIT 博士在讀,同時在創業,MyShell的 AI 研發主管。
這家公司剛剛融資了 1100 萬美元,投資者包括 Transformer 的作者。
傳送門:
https://github.com/myshell-ai/JetMoE
參考鏈接:
https://twitter.com/jiayq/status/1775935845205463292
— 完 —
【 火熱報名中】中國 AIGC 産業峰會
定檔 4 月 17 日
峰會已經邀請到數位代表技術、産品、投資、用戶等領域嘉賓,共論生成式 AI 産業最新變革趨勢。
最新确認嘉賓包括:商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等,。
峰會将全程線上下同步直播,歡迎預約直播 ⬇️
點這裏關注我,記得标星噢
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~