3 月 22 日,在昇思人工智能框架峰會 2024 上,昇思 MindSpore 2.3 正式發布。華爲公司 ICT Marketing 總裁周軍表示,華爲将從三方面推動昇思 MindSpore 的發展,首先是聚焦根技術支持夥伴孵化原生大模型,其次是面向行業場景加速大模型應用落地,最後是使能開發者成長成功,打造開源社區。
大模型已經成爲了通用人工智能的關鍵路徑,參數達到了萬億級别,華爲預計,未來幾年大模型參數會達到百萬級别,真正達到通用人工智能的程度。
但是受摩爾定律的限制,算力的增長非常緩慢,與大模型的需求形成了鴻溝,嚴重制約了大模型的快速發展,人工智能框架的并行計算能力、簡潔編程能力、便捷部署能力等,逐漸成爲大模型訓練的關鍵成功要素。
大模型訓推挑戰
昇思 MindSpore 技術總經理于璠在會上提到,目前大模型分布式訓推的過程當中,主要存在幾個關鍵挑戰,開發效率、訓練性能以及推理運行成本。
他表示,在使用萬卡集群訓練的時候,系統之間需要頻繁通信,導緻計算利用率急劇下降,當前業界平均水平也就達到了 40%。此外,在千億參數模型訓練的過程中,大概 18-19 個小時就會有一次故障,故障恢複大概要耗時 3-4 個小時。
有觀點認爲,未來萬卡集群、十萬卡集群的訓練中,故障頻率可能會進一步提高,可能接近小時級,算力真正有效的時間不足四分之一,這是極大的浪費。
當大模型訓練好之後到生産環境做推理,轉換過程也要耗費海量成本,如果用以前的技術手段,把大模型導出再部署到端側、邊側的設備上,有經驗的工程師需要以月爲周期的時間完成,嚴重拖累大模型的部署。
大模型在推理側依然要面臨成本問題,于璠透露,SORA 剛剛發布時,華爲使用 SORA 進行一次推理的時候,大概 60 秒的視頻推理時間要 1 個小時,花費幾十美金。
此外,在性能和成本之外,大模型的開發也面臨着一些新的挑戰。科學家或者開發者既要懂算法,又要懂并行技術,而且在調試過程中每次訓練的時間也非常長,開發側的隐形成本非常高,目前業内很難實現快速大模型快速落地。
昇思 MindSpore 2.3 發布
華爲于 2020 年 3 月 28 日開源了昇思 MindSpore 框架,開源後訪問量數千萬,社區核心貢獻者超過 2.5 萬,社區貢獻比例超過 20%,MindSpore 社區開源 500 多種模型,支持夥伴孵化,适配 50 多個大模型。
從 2020 年發布 1.0 版本到 2023 年發布 2.2 版本,昇思 MindSpore 從支持端、邊、雲,全場景,到原生支持大模型分布式訓練,到部署的全流程,并成爲業界首個原生支持科學智能的人工智能融合框架,超過 687 萬用戶下載安裝使用。
大模型技術快速叠代演進,業界主流模型也從千億的稠密走向萬億的稀疏模型,昇思 MindSpore 2.3 的升級也對應這些需求。
周軍表示,昇思 MindSpore 提供開源開放的訓推全流程的開發套件,支持夥伴基于昇思孵化原生大模型,在模型開發階段提供 20 多個開箱即用的業界主流訓練模型,模型開發的周期縮短 30%
昇思 MindSpore 通過原創的多副本、多流水交織等 8 種并行技術,使集群線性度達到 90%(業界不足 60%),通過整圖優化及下沉執行等,使得算力利用率達到 55%(業界不足 40%);針對集群故障率高,恢複時間長的普遍問題,通過編譯快照,确定性 CKPT 技術實現 20 分鍾完成故障恢複。
爲了幫助行業場景加速大模型應用落地,昇思 MindSpore 人工智能框架作爲算法應用和硬件算力之間的橋梁,推出訓推一體解決方案。
在大模型部署方面,昇思通過訓推一體的架構升級實現腳本、分布式策略,運行時的統一,Baichuan2-13B 的推理部署隻需 1 天。在大模型推理上,通過 LLM Serving 實現推理吞吐提升 2 倍多;升級模型壓縮工具金箍棒 2.0 實現千億大模型壓縮至十倍。
爲降低開發門檻,昇思持續升級 MindSpore TransFormers 大模型套件,并提供 MindSpore One 生成式套件,全流程開箱即用,一周即可完成大模型全流程的開發。
在 AI for Science 方面,MindSpore 已在 AI 生物計算探索多年,聯合頂級科研機構和夥伴打造了 AI 生物計算套件,包含蛋白質結構預測、生成等 20 多個 SOTA 模型,加速相關領域創新。
從行業維度觀測,企業和開發者選擇開源框架主要關注模型整體的豐富度以及訓練的速度,與此前的 AI 開發者相比,大模型和 AIGC 開發者還會關心基于框架算法的領先性,部署性價比、落地效果以及芯片的适配度,這也将成爲未來一段時間人工智能框架發展的主線。
(本文首發钛媒體 APP 作者|張帥,歡迎添加作者 mr3right 爆料、交流)