百模大戰,最備受期待的一位選手,終于正式亮相!
它便是來自李開複博士創辦的 AI 2.0 公司零一萬物的首款開源大模型——Yi系列大模型:
Yi-34B和Yi-6B。
雖然 Yi 系列大模型出道時間相對較晚,但從效果上來看,絕對稱得上是後發制人。
一出手即問鼎多項全球第一:
Hugging Face 英文測試榜單位居第一,以 34B 的大小碾壓 Llama-2 70B 和 Falcon-180B 等一衆大尺寸大模型;
唯一成功登頂 HuggingFace 的國産大模型;
C-Eval 中文能力排行榜位居第一,超越了全球所有開源模型;
MMLU、BBH 等八大綜合能力表現全部勝出;
拿下全球最長上下文窗口寶座,達到 200K,可直接處理 40 萬漢字超長文本輸入。
……
值得注意的是,零一萬物及其大模型并非是一蹴而就,而是醞釀了足足半年有餘。
由此不免讓人産生諸多疑問:
例如爲什麽要憋半年之久的大招,選擇在臨近歲末之際出手?
再如是如何做到一面世即能拿下如此之多的第一?
帶着這些問題,我們與零一萬物做了獨家交流,現在就來一一揭秘。
擊敗千億參數大模型
具體來看,零一萬物最新發布開源的Yi 系列大模型主要有兩大亮點:
" 以小博大 " 擊敗千億參數模型
全球最長上下文窗口支持 40 萬字
在 Hugging Face 英文測試公開單 Pretrained 預訓練開源模型排名中,Yi-34B 以 70.72 分數位列全球第一,超過了 LLaMA-70B 和 Falcon-180B。
要知道,Yi-34B 的參數量僅爲後兩者的1/2、1/5。不僅 " 以小博大 " 問鼎榜單,而且實現了跨數量級的反超,以百億規模擊敗千億級大模型。
其中在 MMLU(大規模多任務語言理解)、TruthfulQA(真實性基準)兩項指标中,Yi-34B 都大幅超越其他大模型。
△Hugging Face Open LLM Leaderboard ( pretrained ) 大模型排行榜,Yi-34B 高居榜首(2023 年 11 月 5 日)
聚焦到中文能力方面,Yi-34B 在 C-Eval 中文能力能力排行榜上超越所有開源模型。
同樣開源的 Yi-6B 也超過了同規模所有開源模型。
△C-Eval 排行榜:公開訪問的模型,Yi-34B 全球第一(2023 年 11 月 5 日)
在 CMMLU、E-Eval、Gaokao 三個主要中文指标上,明顯領先于 GPT-4,彰顯強大的中文優勢,對咱們更知根知底。
在 BooIQ、OBQA 兩個問答指标上,和 GPT-4 水平相當。
另外,在大模型最關鍵評測指标 MMLU(Massive Multitask Language Understanding,大規模多任務語言理解)、BBH等反映模型綜合能力的評測集上,Yi-34B 在通用能力、知識推理、閱讀理解等多項指标評比中全面超越,與 Hugging Face 評測高度一緻。
△各評測集得分:Yi 模型 v.s. 其他開源模型
不過在發布中零一萬物也表示,Yi 系列模型在 GSM8k、MBPP 的數學和代碼測評中表現還不及 GPT 模型。
這是因爲團隊希望在預訓練階段先盡可能保留模型的通用能力,所以訓練數據中沒有加入過多數學和代碼數據。
目前團隊正在針對數學方向展開研究,提出了可以解決一般數學問題的大模型 MammoTH,利用 CoT 和 PoT 解決數學問題,在各個規模版本、内外部測試集上均優于 SOTA 模型。其中 MammoTH-34B 在 MATH 上的準确率達到 44%,超過了 GPT-4 的 CoT 結果。
後續 Yi 系列也将推出專長代碼和數學的繼續訓練模型。
而除了亮眼的刷榜成績外,Yi-34B 還将大模型上下文窗口長度刷新到了 200K,可處理約 40 萬漢字超長文本輸入。
這相當于能一次處理兩本《三體 1》小說、理解超過 1000 頁的 PDF 文檔,甚至能替代很多依賴于向量數據庫構建外部知識庫的場景。
超長上下文窗口是體現大模型實力的一個重要維度,擁有更長的上下文窗口則能處理更豐富的知識庫信息,生成更連貫、準确的文本,也能支持大模型更好處理文檔摘要 / 問答等任務。
要知道,目前大模型的諸多垂直行業應用中(如金融、法律、财務等),文檔處理能力是剛需。
如 GPT-4 可支持 32K、約 2.5 萬漢字,Claude 2 可支持 100K、約 20 萬字。
零一萬物不僅刷新了業界紀錄,同時也是首家将超長上下文窗口在開源社區開放的大模型公司。
所以,Yi 系列是如何煉成的?
超強 Infra+ 自研訓練平台
零一萬物表示,Yi 系列煉成的秘訣來自兩方面:
自研規模化訓練實驗平台
超強 Infra 團隊
如上二者結合,能讓大模型訓練過程更加高效、準确、自動化。在多模混戰的當下,節省寶貴的時間、計算、人力成本。
它們是 Yi 系列大模型爲何會 " 慢 " 的原因之一,但也因爲有了它們,所以 "慢即是快"。
首先來看模型訓練部分。
這是大模型能力打基礎的環節,訓練數據質量和方法如何,直接關乎模型最終效果。
所以,零一萬物自建了智能數據處理管線和規模化訓練實驗平台。
智能數據處理管線高效、自動、可評價、可擴展,團隊由前 Google 大數據和知識圖譜專家領銜。
"規模化訓練實驗平台" 可以指導模型的設計和優化,提升模型訓練效率、減少計算資源浪費。
基于這一平台,Yi-34B 每個節點的預測誤差都控制在0.5%以内,如數據配比、超參搜索、模型結構實驗都可以在上面進行。
由此,與過往的 " 粗放煉丹 " 訓練比較,Yi 系列大模型的訓練進階到 "訓模科學":變得更加細緻、科學化,實驗結果可以更加穩定,未來模型規模進一步擴大的速度也能更快。
再來看 Infra 部分。
AI Infra 是指人工智能基礎框架技術,它包含了大模型訓練、部署方面的各種底層技術設施,包括處理器、操作系統、存儲系統、網絡基礎設施、雲計算平台等——是大模型領域絕對的硬技術。
如果說訓練環節是爲模型質量打地基,那麽 AI Infra 則是爲這一環節提供保障,讓地基更加牢固,亦是直接關乎大模型底層的部分。
零一萬物團隊用了一個更加形象的比喻解釋:
如果說大模型訓練是登山,Infra 的能力定義了大模型訓練算法和模型的能力邊界,也就是 " 登山高度 " 的天花闆。
尤其在業内算力資源緊張的當下,如何更快、更穩地推進大模型研發,非常關鍵。
這就是爲何零一萬物如此重視 Infra 部分。
李開複也曾表示,做過大模型 Infra 的人,比作算法的人才還要稀缺。
而零一萬物的 Infra 團隊曾參與支持多個千億級大模型規模化訓練。
在他們的支持下,Yi-34B 模型訓練成本實測下降 40%,模拟千億規模訓練成本可下降多達 50%。實際訓練完成達标時間域預測的時間誤差不到 1 小時——要知道,一般業内都會預留幾天時間作爲誤差。
團隊表示,截至目前零一萬物 Infra 能力實現故障預測準确率超過 90%,故障提前發現率達到 99.9%,無需人工參與的故障自愈率超過 95%,能有力保障模型訓練順暢進行。
李開複透露,在完成 Yi-34B 預訓練的同時,零一萬物千億級參數模型訓練已正式啓動。
而且暗示更大模型的面世速度,很可能超出大家預期:
零一萬物的數據處理管線、算法研究、實驗平台、GPU 資源和 AI Infra 都已經準備好,我們的動作會越來越快。
後發制人的的零一萬物
最後,我們來回答一下最開始我們提到的那幾個問題。
零一萬物之所以選擇在年底搭乘 " 晚班車 " 入局,實則與它自身的目标息息相關。
正如李開複在此次發布中所述:
零一萬物堅定進軍全球第一梯隊目标,從招的第一個人,寫的第一行代碼,設計的第一個模型開始,就一直抱着成爲 "World ’ s No.1" 的初衷和決心。
而要做到第一,需是得能耐得住性子,潛心修煉紮實的功底,方可在出道之際做到一鳴驚人。
不僅如此,在零一萬物成立之際,它的出發點便與其它大模型廠商有着本質的不同。
零一代表的是整個數字世界,從零到一,乃至宇宙萬物,所謂道生一……生萬物,寓意 " 零一智能,萬物賦能 " 的雄心。
這也與李開複關于 AI2.0 的思考判斷一以貫之,在 ChatGPT 帶動大模型熱潮之後,他就曾公開表示過:
以基座大模型爲突破的 AI 2.0 時代,将掀起技術、平台到應用多個層面的革命。如同 Windows 帶動了 PC 普及,Android 催生了移動互聯網的生态,AI2.0 将誕生比移動互聯網大十倍的平台機會,将把既有的軟件、使用界面和應用重寫一次,也将誕生新一批 AI-first 的應用,并催生由 AI 主導的商業模式。
理念就是 AI-first,驅動力是技術願景,背靠卓越的中國工程底蘊,突破點是基座大模型,覆蓋範圍包含技術、平台到應用多個層面。
爲此,零一萬物從成立以來選擇的創業路線便是自研大模型。
雖說發布時間較晚,但在速度上絕對不算慢。
例如在頭三個月的時間裏,零一萬物就已經實現了百億參數規模的模型内測;而再時隔三個月,便可以用 34B 的參數規模解鎖全球第一。
如此速度,如此高目标,定然也是離不開零一萬物背後雄厚的團隊實力。
零一萬物由李開複博士親自挂帥、任 CEO。
在早期階段,零一萬物已經聚集起了數十名核心成員的團隊,集中在大模型技術、人工智能算法、自然語言處理、系統架構、算力架構、數據安全、産品研發等領域。
其中已加入的聯創團隊成員包含前阿裏巴巴副總裁、前百度副總裁、前谷歌中國高管、前微軟 /SAP/Cisco/ 副總裁,算法和産品團隊背景均來自國内外大廠。
以算法和模型團隊成員爲例,有論文曾被 GPT-4 引用的算法大拿,有獲得過微軟内部研究大獎的優秀研究員,曾獲得過阿裏 CEO 特别獎的超級工程師。總計在 ICLR、NeurIPS、CVPR、ICCV 等知名學術會議上發表過大模型相關學術論文 100 餘篇。
而且零一萬物在成立之初便已經開始搭建實驗平台,構建了個數千卡 GPU 集群,進行訓練、調優和推理。在數據方面,主打一個提高有效參數量和使用的高質量數據密度。
由此,不難看出零一萬物 Yi 系列大模型敢于後發制人的底氣何在了。
據了解,零一萬物接下來還将 Yi 系列大模型爲基礎,快速叠代開源更多量化的版本、對話模型、數學模型、代碼模型和多模态模型等。
總而言之,随着零一萬物這匹黑馬的入局,百模大戰已然變得更加激烈與熱鬧。
對于 Yi 系列大模型還将在未來颠覆多少 " 全球第一 ",是值得期待一波了。
One More Thing
爲什麽取名 "Yi" ?
命名來自 " 一 " 的拼音,"Yi" 中的 "Y" 上下颠倒,巧妙形同漢字的 " 人 ",結合 AI 裏的 i,代表 Human + AI。
零一萬物相信 AI 賦能推動人類社會前行,AI 應本着以人爲本的精神,爲人類創造巨大的價值。