開源大模型這個圈子,真是卷到不行——
國内最新紀錄來了,直奔千億量級,達到1026 億。
這便是來自浪潮信息最新的開源大模型,源 2.0;話不多說,直接來看下測試結果 ~
在業界公開的數據集上,源 2.0 與 GPT-4、Llama 2 同台競技的結果如下:
△采用與源 2.0 相同的輸入調用 ChatGPT 測試的結果,測試時間是 11 月
不難看出,在代碼、數學、事實問答等各項的成績,除了 GPT-4(閉源)之外,源 2.0 均處于領先地位。
而且浪潮信息此次還一口氣發布了三款型号的模型,均完全開源:
" 中杯 ":源 2.0-2B,參數量爲 21 億;
" 大杯 ":源 2.0-51B,參數量爲 518 億;
" 超大杯 ":源 2.0-102B,參數量爲 1026 億。
縱觀今年百模大戰的下半場,開源圈可謂是熱鬧非凡,每隔一段時間便會有新的開源大模型殺出重圍。
但浪潮信息所開源的源 2.0,不僅是第一個觸及千億參數規模,更是做到了發布即徹底開源。
那麽它能夠做到如此的底氣又是什麽?
算法、數據、計算全升級
首先我們進一步來看下源 2.0 的具體表現。
例如在多輪對話和知識問答方面,我們先給它投喂一句:
請解釋一下 " 烏鴉反哺 " 的涵義。
源 2.0 便可精準答出這個成語的意思和所形容的内容。
在此基礎之上,我們繼續讓它用這個成語作詩,源 2.0 也是信手拈來:
由此可見,在知識問答、多輪對話領域,源 2.0 是完全能夠 hold 得住的。
我們繼續加大難度,上數學題——求解曲線某點處的切線方程!
從源 2.0 的作答中,我們可以看到它不僅是給出正确答案那麽簡單,更是将解題步驟一點一點地詳細羅列出來。
再來一道,答案同樣是非常有邏輯且清晰。
在生成代碼方面,源 2.0 亦是不在話下:
上述的案例也對應了源 2.0 在各項國際評測中的高分,那麽源 2.0 又是如何做到的呢?
我們發現,此次浪潮信息在把大語言模型開源之際,也将背後的相關技術論文也一并亮了出來。
縱觀這篇論文,我們可以将浪潮信息的改進歸結爲三大方面。
01、數據的改進
" 數據質量的高低直接決定大語言模型輸出結果的好壞 ",這一點是已然業界達成共識。
因此,相比于源 1.0 版本,浪潮信息将此前占比最大的網頁數據(CC)的比重降低,增加了百科、書籍、期刊數據,同時還引入了代碼和數學數據。
這便是源 2.0 能在數學邏輯能力上大幅提升的原因之一。
與此同時,浪潮信息還在數據增強和合成方面使出了殺手锏——造大語言模型,也 " 利用 " 大語言模型。
具體來說就是用大語言模型作爲訓練數據生成器,構建高質量數學、代碼合成數據集,即用于源 2.0 的預訓練中,也用于微調。
其目的就是生成高質量的指令數據,從而降低人工标注成本大、質量不可控的因素。
02、算法的改進
在算法方面,源 2.0 采用了一種新型 Attention 結構:局部注意力過濾增強機制(Localized Filtering-based Attention,LFA)。
傳統 Attention 機制是對所有輸入文字一視同仁,不假設自然語言相鄰詞之間更強的語義關聯。
比如 " 我想吃中國菜 " 這個句子,分詞後變成 " 我 / 想 / 吃 / 中國 / 菜 "。
傳統 Attention 機制會同等對待這 6 個 token,而 LFA 的升級在于,會假設相鄰詞間具有更強的依賴。
通過強化相鄰詞之間的關聯,然後再計算全局管關聯,能更好處理自然語言的語序排列問題,對中文語境的關聯語義理解更準确。
在消融實驗中,相比傳統注意力結構,LFA 模型精度提高 3.53%。
同時經過工程化驗證,LFA 算法在提升模型精度的同時,有效降低了模型參數量,進而減小内存開銷,實現降本增效。
基于 LFA 的模型結構,源 2.0-102B 模型訓練 288B 的 Tokens,最終 Training Loss 爲 1.18;源 1.0-245B 模型訓練 180B 的 Tokens,最終 Training Loss 爲 1.64. 從源 1.0 到源 2.0,Training Loss 降低 28%。
03、計算的改進
相較于源 1.0 的計算方案,源 2.0 也進行了升級。
它在 3D 并行策略的基礎上,提出了非均勻流水并行 + 優化器參數并行(ZeRO)+ 數據并行的策略。
采用源 2.0 的分布式訓練算法,性能幾乎不随帶寬變化(0.4%),模型預測的源 2.0 模型每步計算總耗時與實測值的相對誤差僅爲 3%。
而在經典 3D 并行中,當芯片之間連接的帶寬從 400GB/s 降低至 100GB/s,性能會降低約 85%。
具體方案中,非均勻流水并行,能有效環節流水線頭部與尾部的内存瓶頸。
優化器參數并行,能進一步降低流水線每個階段的參數量,通信複雜度與數據并行類似。
綜上,源 2.0 的面世還伴随着算法、數據、計算三方面更底層的創新。
随着源 2.0 的開源、論文上線,這些創新也能直接向整個社區輸出。
浪潮信息此次推出了開源共訓計劃。
爲了讓開源模型更符合開發者應用需求,這個計劃支持開發者提出自己的應用或場景需求,由浪潮信息來準備訓練數據并對源大模型進行增強訓練,訓練後的模型依舊在社區開源。
開發者提出的需求沒有具體格式要求,隻要表達清楚應用場景、對大模型能力的需求以及 1~2 條示例即可。
不過一直以來,浪潮信息在行業内的角色定位都更偏向于算力基礎設施方。
自源 1.0 之後,此時浪潮信息的 " 新一輪大模型入世之道 " 劍指何方?而它爲什麽能帶來這些創新?
背後打造者
實際上,源 2.0 大模型是浪潮信息 AIGC 整體規劃的一部分。
作爲算力行業龍頭玩家,浪潮信息通過開放共享自身的算力平台、技術、實踐經驗,構建算力基礎設施 + 算法基礎設施,從技術和基礎設施支撐方面,降低 AI 開發壁壘和門檻。
換言之,浪潮信息不僅提供大模型所需的算力資源,更提供大模型開發應用的一系列服務。
爲此浪潮信息持續布局基礎算法、訓練加速、算力調度管理等方面。源 2.0 大模型的推出,正是整體戰略中的最新舉措。
2021 年浪潮信息推出 " 源 1.0" 大模型,成爲國内最早布局大模型的企業之一。
" 源 1.0" 是中文 AI 巨量模型,規模達 2457 億參數,一度問鼎全球最大單體大模型。
同時團隊還完成了 5TB 高質量中文數據集清洗工作,建立了完整的從公開數據爬取到數據清洗、格式轉化、數據質量評估的完整流程和工具鏈。
随後," 源 1.0" 落地南京智算中心,也成爲國内首個(城市級)開放提供領先的智能大模型服務。
過去 2 年中,浪潮信息也不斷向行業輸出大模型開發應用的能力。
比如助力網易伏羲中文預訓練大模型 " 玉言 " 登頂中文語言理解權威測評基準 CLUE 分類任務榜單,并在多項任務上超過人類水平。
2022 年底 ChatGPT 趨勢爆發,一時之間,百模興起。
大模型的算力需求成爲今年業内最熱門話題之一。
無論是想要煉成一個大模型、提升模型智能水平,還是擴大應用,都和算力投入直接相關,業内也一度興起了 " 囤算力 " 熱潮。
但擁有足夠算力隻是第一步,怎麽用好才是更關鍵的,也更困擾行業。
大模型訓練過程比傳統分布式訓練更複雜,訓練周期長達數月,容易出現訓練中斷、集群計算效率低、故障頻發且複雜等問題。
作爲算力行業龍頭玩家,浪潮信息在今年 8 月推出了大模型智算軟件棧 OGAI" 元腦生智 "。
它能提供 AI Infra 能力,提供從集群系統環境部署到算力調度保障和大模型開發管理的全棧全流程的軟件,從而大幅提升大模型算力效率。
AI Infra 的本義是 AI 基礎設施,但目前業内更傾向于将其定義爲軟件層面。浪潮信息的 OGAI(Open GenAI Infra)處于智算硬件之上、AI 應用之下的軟件層,強調系統環境部署、算力調度保障、模型開發管理三方面能力。
OGAI 由 5 層架構組成,從 L0 到 L4 分别對應于基礎設施層的智算中心 OS 産品、系統環境層的 PODsys 産品、調度平台層的 AIStation 産品、模型工具層的 YLink 産品和多模納管層的 MModel 産品。
能實現自動化部署和彈性擴展,具備大模型斷點續訓能力,提供經過驗證的數據治理、大模型預訓練和微調開發工具,還能對多模型進行管理評估,加速模型部署和應用。
這些能力組合,可以解決最備受關注的三方面問題:
算力資源的高效性:相同時間相同資源下更快完成訓練,或者相同時間内處理更多任務。
算力集群的可擴展性:随着模型參數量、數據集擴大,對計算資源的需求增大,需要算力集群可靈活擴展。但是由于并行計算必定會造成損耗,盡可能保持線性性能擴展,也是充分挖掘算力的一部分。
算力系統的可持續性:大模型訓練中因爲故障出現訓練中斷,就需要從最新的 Checkpoint 重新載入繼續訓練。每一次中斷都需要花費時間修複,也會消耗資源,所以要盡可能提高算力系統的可持續性,提高效率降低成本。
在實際能力上,OGAI 支持斷點續訓恢複、平均故障處理時間小于 5 分鍾;千億模型千卡集群平均計算峰值效率提升 54%;支持多元算力,可穩定接入 40+ 多元算力。PODsys 還是業内首個開源的 AI 算力集群系統環境部署方案。
至此,浪潮信息不僅積累了大模型開發能力,還成功向行業輸出大模型訓練部署管理經驗,加速整個生成式 AI 浪潮的演進速度。
如今推出源 2.0 正是例證,它诠釋了 " 如何讓算力更好地匹配智能湧現 "。
用最先進大模型作爲底座,從垂直場景針對性切入,構建技能模型、進而落地行業模型,也是當前業内已經确定的發展路徑,是走向 AGI 的必經之路。
顯然,源 2.0 發布的意義,已經不局限于 " 一個新模型誕生 "。
源 2.0 意味着什麽?
對于浪潮信息自身而言,源 2.0 的推出意味着智算力的再次升級。
大模型趨勢的核心,還是要看最終能給産業帶來何種影響,即大模型的應用落地。
源 1.0 在 To B 領域的深度融合,已經驗證了路線的正确性。源 2.0 的推出,便是在此前基礎上進一步升級,之後可以提供更加滿足生成式 AI 趨勢的模型、算力、應用需求。
對于大模型趨勢而言,源 2.0 給行業增加了一個基座的選擇。
目前業内已經達成一個共識,在 " 百模大戰 " 初期,百花齊放是利好的。這能更大程度上釋放生産力,推動行業發展。
而且源 2.0 在算法、計算、數據上的創新,也向前推動了技術發展。
比如 LFA 的創新,給 Transformer 架構上限挖掘提出了一種參考;非均勻流水并行 + 優化器參數并行(ZeRO)+ 數據并行策略的提出,改進了源 2.0 的計算,也爲行業提出了緩解内存 / 計算瓶頸方案。
對于全行業而言,源 2.0 全面開源,讓生态更加繁榮。
優秀開源模型是吸引開發者、繁榮生态的關鍵因素,它能讓創新進行指數級增長,避免 " 重複造輪子 " 問題,加速創新叠代速度,給行業提供紮實底座和成長土壤。
最後,随着源 2.0 的推出,浪潮信息的 AIGC 戰略版圖變得更加清晰,也向業内展示了從算力角度出發,可以爲行業提供怎樣的解決方案。
目前,國内 " 百模大戰 " 開始進入下半場。
後續還會有新模型入場,已發布模型也在繼續不斷擴大規模,同時推理需求也開始加速增長。
整體市場的算力需求變得更加複雜多樣化。
在這樣的激烈變化之下,國産算力供應方還會向行業交出哪些答卷,值得關注。