國産大模型首次在公開榜單上超過 GPT-4o!
就在剛剛," 大模型六小強 " 之一的零一萬物正式對外發布新旗艦模型——Yi-Lightning(閃電)。
在大模型競技場(Chatbot Arena)上,Yi-Lightning 性能直沖總榜單并列第6,數學分榜并列第 3,代碼等其它分榜也名列前茅。
總成績幾乎與馬斯克最新 xAI 大模型 Grok-2-08-13 持平,超越 GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet 等頂流。
同時,國内清華系大模型公司智譜 AI 的GLM-4-Plus也殺進了總榜,位居第 9位。
該榜單結果來自全球累積超千萬次的人類用戶盲測投票。
前段時間大模型競技場還剛剛更新了規則,新榜單對 AI 回答的長度和風格等特征做了降權處理,分數更能反映模型真正解決問題的能力。
這次 Yi-Lightning 殺出重圍,Lmsys 團隊特意發帖子,稱這是競技場上的大新聞:
大模型競技場總榜第六、國産第一
細看大模型競技場分類榜上的 " 賽況 ",Yi-Lightning 各項能力都排在前頭。
在中文能力上,Yi-Lightning 和 GLM-4-Plus 兩個國産大模型都名列前位。
Yi-Lightning 躍居并列第二,和 o1-mini 相差無幾。
數學能力,Yi-Lightning 和 Gemini-1.5-Pro-002 并列第 3,僅次于 o1-preview、o1-mini。
代碼能力 Yi-Lightning 排名并列第 4。
另外在Hard Prompts和Longer Query分榜,Yi-Lightning 也都排在第 4 位。
最後同樣值得關注的是,競技場新功能風格控制過濾,确保分數反映模型真正解決問題的能力,而不是用漂亮的格式、增加回答長度。
在對長度和風格等特征做了降權處理後,所有模型分數均有下降,Yi-Lightning 排名變化不大,整體還與 GPT-4o、Grok-2 同一梯隊。
發布會上,零一萬物創始人兼 CEO 李開複博士展示了 Yi-Lightning 在不同場景上的能力。
Yi-Lightning 主打一個 " 推理速度更快,生成質量更好 "。
相比上半年 Yi-Large,Yi-Lightning 首包速度提升 1 倍,推理速度也提升了 4 成。
像是翻譯下面這種文學作品,Yi-Lightning 不僅速度更快:
而且用詞更精準,更具文學色彩:
那麽 Yi-Lightning 是如何做到的?
好用還得極速
Yi-Lightning 采用MoE混合專家模型架構。
底層技術上,Yi-Lightning 在以下方面進行了提升。
首先是優化混合注意力機制(Hybrid Attention),隻在模型的部分層次中将傳統的全注意力(Full Attention)替換爲滑動窗口注意力(Sliding Window Attention)。
由此以來,模型在保證處理長序列數據高性能表現的同時,還能大大降低推理成本。
Yi-Lightning 還引入了跨層注意力(Cross-Layer Attention, CLA),允許模型在不同的層次之間共享鍵(Key)和值(Value)頭,減少對存儲需求。
這使得 Yi-Lightning 能在不同層次之間更有效地共享信息。
總的來說,KV cache 縮小了 2-4 倍,同時将計算的複雜度從 O ( L ² ) 降至 O ( L ) 。
其次,Yi-Lightning 還采用了動态 Top-P 路由機制。
也就是說,Yi-Lightning 可以根據任務的難度動态自動選擇最合适的專家網絡組合——
訓練過程中會激活所有專家網絡,使模型能學習到所有專家知識;而推理階段,根據任務的難度,模型會選擇性激活更匹配的專家網絡。
另外,之前有一些傳言稱國内大模型 " 六小強 ",有一些已經不做預訓練了,李開複博士這次在發布會上直接 " 辟謠 ":
零一萬物絕不放棄預訓練。
而且在模型預訓練階段,團隊還積累了豐富的多階段訓練方法,将整個訓練分爲兩塊,一塊做好以後就把它固定起來,然後在這個固定的模型上再做後段訓練。
訓練前期,更注重數據多樣性,使得 Yi-Lightning 盡可能學習不同的知識;訓練後期更重内容更豐富、知識性更強的數據。
同時團隊還在不同階段采用不同的 batch size 和 LR schedule 保證訓練速度和穩定性。
李開複博士還表示,零一萬物開發模型講究 " 模基共建 ",也就是共建模型和基礎架構。
模型的訓練、服務、推理設計,與底層的 AIInfra 架構和模型結構必須高度适配。
這樣做的目的,不僅是讓模型更好,而且讓它在推理的時候能夠更便宜。
再加上以上種種擡升 " 性價比 " 的技術加持,所以 Yi-Lightning 這次也是打到了白菜價——
0.99 元每 1M token
在中文等方面,Yi-Lightning 比肩 OpenAI 的 o1-mini,o1-mini 的定價是每百萬輸入 3 美元,每百萬輸出 12 美元。
Yi-Lightning 每百萬 token 隻需 0.99RMB 也是打到了骨折。
但李開複博士表示,即便這樣也:不虧錢。
除了發布新模型,零一萬物這次還首發了AI2.0 數字人方案。
目前該數字人已接入 Yi-Lightning,實時互動效果相比以往更強更自然了,belike:
最後談起和國外頭部大模型的差距,李開複博士表示這次 Yi-Lightning 的排名證明了國産大模型跟矽谷最頂尖模型的差距縮小到了五個月。
去跟追上美國最頂尖的模型,縮短這個時間差非常困難,要付出很大的努力和有獨特的打法。在國内不少公司都在努力," 模基共建 " 則是零一萬物自己摸索的獨特路徑。
參考鏈接:
[ 1 ] https://x.com/lmarena_ai/status/1846245604890116457
[ 2 ] https://x.com/01AI_Yi/status/1845776529185476613