建一座殿堂之前,首先要立起足夠支撐其屋頂重量的支柱。
段玉裁在《說文解字注》裏說," 柱之言主,屋之主也 "。也就是說,支柱是一座屋子最主要,最基礎的東西。支柱不牢,再美好的雕梁畫棟也會歸爲泡影。
在今天,我們正在以拳拳之心建設一座名爲 AI 大模型的穹頂。預訓練大模型通用性好、泛化性強的優勢,讓各個行業都看到了走向智能化的曙光,點燃了社會經濟的熾熱追尋。根據相關數據,幾天之前在上海舉辦的世界人工智能大會上,就有超過 30 款中國 AI 大模型集中亮相。通觀整個中國,更是來到了 " 百模大戰 " 的盛況。根據科技部新一代人工智能發展研究中心等機構發布的《中國人工智能大模型地圖研究報告》顯示,中國研發的大模型數量排名全球第二,并且在一些垂直領域實現了全球領先。
仰望大模型的穹頂固然重要。但此時更該去思考,這座穹頂的支柱是否堅實可靠,能撐起多大的重量?在傳輸、算力兩大 AI 基礎設施之外,存力對大模型發展的支撐意義,正在引發更多關注。
(華爲數據存儲産品線總裁 周躍峰)
7 月 14 日,大模型時代華爲 AI 存儲新品發布會舉辦。期間,華爲詳盡展示了大模型帶給存儲底座的挑戰,以及華爲在技術、産品、生态上選擇的應對之道。
華爲數據存儲産品線總裁周躍峰在 " 數據新範式,釋放 AI 新動能 " 主題分享中表示:" 大模型時代,數據決定 AI 智能的高度。作爲數據的載體,數據存儲成爲 AI 大模型的關鍵基礎設施。華爲數據存儲未來将持續創新,面向 AI 大模型時代提供多樣化的方案與産品,攜手夥伴共同推進 AI 賦能千行百業。"
當世界醉心于建設大模型的穹頂,存儲産業需要先樹起能夠支撐智能世界的支柱。面對大模型時代,華爲存儲選擇了自己的擔當。
假想:缺乏存力支撐的
大模型時代會怎樣?
我們都知道,發展 AI 大模型還有很多層面的問題需要解決。比如可供訓練的中文語料、數據集不足;大模型過于依賴人工調優,落地成本過大;對高端算力有依賴,算力資源稀缺等。
但在這些問題之外,我們必須正視這樣一個現實:假設大模型缺乏适配的存儲産品與存儲資源,那麽結果可能也不容樂觀。在華爲看來,在 AI 發展的不同領域與階段,面臨着數據存儲方面的 4 大挑戰。
首先是數據歸集太慢。大模型有着龐大的數據規模,且需要用到大量的非結構化數據進行訓練。這就導緻 AI 訓練需要從跨地域的多個數據源,進行大量的原始數據拷貝,如果這個過程過于複雜,效率過低,就會導緻 AI 開發進度被擱置。尤其會嚴重限制那些本地數據規模龐大的行業落地大模型。
其次是數據預處理周期長。AI 訓練首先需要進行大量的數據預處理。尤其大模型數據規模龐大,數據預處理的工作量也随之遞增。一個典型的百 TB 級大模型數據集,數據預處理工作經常要超過 10 天,占 AI 數據挖掘全流程的 30%。如果沒有針對性的存力幫助,随着模型的不斷增大,數據預處理的工作量、工作時長以及消耗算力将持續增大,導緻大模型的訓練愈發艱難。
然後是數據集加載慢,訓練易中斷。大模型的訓練參數、訓練數據集規模特别龐大,這就導緻多種狀況都會影響到數據集的加載,從而導緻模型訓練的中斷甚至重來。尤其在訓練複雜的模型結構時,數據加載不順暢,易出錯會導緻巨大的工作開銷增加。
比如根據相關數據,OpenAI 在 GPT-4 的訓練使用了約 25000 個 A100 GPU 的算力,進行了 90 到 100 天的訓練。其模型 flops 利用率僅有 32% 到 36%。大量故障導緻重新啓動檢查點,就是其算力利用率低的主要原因。如果不能解決這個問題,大模型不斷發展就意味着無盡的算力資源與人力資源将消耗在數據故障當中,讓大模型的應用成本難以承受。
此外還有一個挑戰,是模型的推理實時性和精準度低。大模型在推理部署時,需要将最新的數據随時聯接進來,而目前主流方法訓練時間長且成本高。如果不能克服這個挑戰,将讓大模型的推理部署效果大打折扣,從而影響智能化的最終落地效果。
由此可見,大模型時代各家不僅需要比算法,比算力,比數據,更需要比存力。具體而言,就是比拼存儲資源,比拼存儲體系應對大模型需求的準确性,比拼在數據側提升大模型訓練推理效果的軟硬件适配。如果缺少存力這根支柱,就像缺少 AI 算力、缺少數據、缺少落地場景一樣,大模型時代是根本是不成立的。
建立:針對 AI 大模型的
存儲支柱
好在,針對這樣的現實,存儲産業已經行動了起來。比如面對大模型時代的 AI 存儲,就可以提供 4 大能力:針對數據歸集難題,華爲可以通過數據編織能力,實現跨系統、跨地域、跨雲的全局統一數據視圖和調度;針對數據預處理周期長的問題,華爲打造了近存計算能力,讓數據在存儲完成數據準備,更好釋放 AI 算力資源;針對訓練易中斷等問題,華爲通過預處理加速、AI 訓練 / 推理加速等技術,實現訓練過程 0 等待 。
把這些長期建設的技術能力與針對性解題思路聚合在一起,最終形成能夠應對大模型存力挑戰,适配大模型的開發與部署需求的産品與解決方案——這就是華爲存儲爲大模型穹頂,建立存儲支柱的方式。
這些技術能力,最終凝結成了本次發布的兩款産品:面向 AI 全流程,提供領先性能的 OceanStor A310 深度學習數據湖存儲,以及能夠大幅降低 AI 使用門檻的 FusionCube A3000 訓 / 推超融合一體機。
面向數據量不斷擴張,模型日新月異的 AI 大模型,高性能、有針對性的數據存儲底座是發展的必要條件,OceanStor A310 深度學習數據湖存儲就爲此而生。其具備超高可擴展性,混合負載高性能,多協議無損融合互通,能夠實現數據歸集、預處理、訓練、推理的 AI 全流程海量數據管理。
面對 AI 計算與 HPC 合流的産業趨勢,OceanStor A310 可以提供面向 AI、HPC、大數據場景的同源數據分析能力,最大支持 4096 節點擴展,單框 5U 支持業界最高的 400GB/s 帶寬以及 1200 萬 IOPS 的最高性能,支持多協議無損融合互通,實現數據的 0 拷貝,全流程效率提升 60%。OceanStor A310 存儲通過近存計算,可以實現訓練數據的預處理,預處理效率提升 30%。利用全局文件系統 GFS,接入分散在各地域的原始數據,簡化數據歸集流程,從而将華爲應對 AI 大模型的存儲能力集中釋放,一次性接觸 AI 開發全流程的數據難題與存力挑戰。
未來,AI 将融入千行百業,重塑千行百業。這也就導緻能夠适配更多行業場景、應用場景的超融合一體機将成爲産業智能化進程中的剛需。
爲此,華爲推出了FusionCube A3000 訓 / 推超融合一體機,面向行業大模型訓練 / 推理場景,針對百億級模型應用,集成了 OceanStor A300 高性能存儲節點、訓 / 推節點、交換設備、AI 平台軟件與管理運維軟件,爲大模型夥伴提供拎包入住式的部署體驗,實現一站式交付,做到開箱即用,2 小時内即可完成部署,可以說是打通了大模型落地的最後一公裏。
訓 / 推節點與存儲節點均可獨立水平擴展,以匹配不同規模的模型需求。同時 FusionCube A3000 通過高性能容器實現多個模型訓練推理任務共享 GPU,将資源利用率從 40% 提升到 70% 以上。
在這兩款産品的加持下,無論是探索智能化天花闆的大模型開發訓練,還是實現智能化落地的場景化部署,AI 大模型都将得到有力的存力支持。
存力支柱,就這樣樹立在 AI 大模型時代的穹頂下。
未來:存儲支柱向上生長
AI 穹頂指向天宇
面向縱深性、長期化的 AI 大模型發展,存儲産業如何提供持續的支持與幫助?對于這個問題,華爲在發布會當中也給出了自己的答案。在華爲看來,大模型爆發并不應該僅僅成爲存儲産業的短期機遇。長期來看,AI 與存儲應該彼此促進,互爲助力,形成長期積極發展的良性局面。
爲此,華爲首先将積極投入未來,持續在 AI 數據存儲方面進行研究和準備。發布會現場,周躍峰與華爲天才少年張霁進行了對話,讨論了華爲在數據歸集、數據訓練、數據推理等方面如何提升存儲能力,幫助 AI 開發與落地做到更好。
比如說,面向跨地域歸集的數據安全流轉難題,華爲正在研究被稱爲 " 數據方艙 " 的技術。這項技術使得數據及其訪問權限、憑證信息實現全封裝,從而确保在流轉過程中數據處于安全、可靠的環境當中。
這類對于未來 AI 技術發展趨勢的預判與研發投入,将成爲華爲在 AI 存儲領域持續打開産業空間的鑰匙,也将成爲推動存儲産業迎接 AI 時代機遇的新動力。
另一方面,想要适配 AI 大模型帶來的産業發展空間,存儲産業必須依靠合作,建設生态,從而才能夠向用戶提供綜合性、行業性的解決方案。
在生态化發展的驅動下,用戶開發大模型、應用大模型過程中多樣性、複雜性的軟硬件需求将得到持續滿足,從而确保模型開發、落地暢通無阻。
整體而言,華爲存儲既爲火爆的 AI 大模型,提供了即刻能夠解決問題、實現資源滿足的存儲解決方案,也着眼未來發展,在存儲技術、生态上進行不斷的革新、生長。AI 大模型與存儲底座,就像是穹頂與支柱的關系,支柱越來越高,穹頂的高度也自然提升,智能化的極限才能不斷被打破。
爲了能夠建好 AI 大模型的穹頂,華爲存儲帶來了三方面的價值,真正實現了以存儲爲支柱的産業擔當。
首先,面對數據歸集、數據訓練中斷等一系列真實存在 AI 訓練部署難題,華爲存儲以更好的技術帶來了解題思路,提供了應對策略,從而在存儲與 AI 兩個技術領域間架起了橋梁,達成了供需之間的溝通。
其次,華爲面向大模型訓練與落地,都提供了資源更加充沛、利用更加合理的存儲底座。這将有助于優化大模型的綜合成本,提升各行業利用大模型,适配大模型的可能性。
再次,華爲在存儲領域推動的開放合作方案,可以推動存儲生态與 AI 生态相互促進。讓更多軟硬件企業加入到 AI 大模型的機遇中,分享智能時代紅利,從而全面促進存儲産業的發展與進化。
向下紮到根,向上捅破天的 AI 存儲支柱,在這些價值的凝聚下逐漸成型。
用好這根支柱,可以支撐 AI 大模型發展,提升大模型從訓練到推理的全流程效率。
發展這根支柱,可以助力千行百業的智能化落地,打造出智能時代新的基礎設施。
站在這根支柱上,我們能夠看到第四次工業革命的晨光破曉。