" 我們的 AI 大模型,在萬卡集群上訓練,三小時就出一次錯。别笑,這已經是世界先進水平了。" 某次行業峰會上,一位清華大學的院士科學家,講出了 AI 大模型訓練的 " 大實話 "。
風靡全球的 AI 大模型,是今年毋庸置疑的風口,數量不斷增長,達到了驚人的水平。" 百舸争流 " 之下,大家卻經常會忽略一個關鍵問題:AI 大模型帶來的數據激流,也比想象中更加洶湧。
" 三小時出錯一次 ",聽起來不可思議的故障率,卻是大模型從業者要面對的常态,甚至是 " 優等生 "。目前業界的普遍做法,是寫容錯檢查點 checkpoint。既然三小時就報錯,那就 2.5 小時停一次,寫好檢查點,把數據存起來,再開始訓練。一旦出現故障,可以從寫好的檢查點恢複,避免 " 從頭開始 "、全部白幹。而檢查點需要存儲的數據多,會耗費大量的時間。該院士團隊基于 llama 2 架構研發的大模型,數據存一次硬件,就需要十個小時,存儲效率直接影響了開發進度。
如果說大規模的異構數據,是肆意奔湧的激流,存儲系統就是承載着數據流量的河道,其寬闊堅固程度直接決定了數據是否會淤塞甚至停滞,從而卡住 AI 大模型的生命線。可以說,整個大模型行業的生産力和效率,都被存儲規定了 " 上限 "。
這也是爲什麽,存儲作爲 AI 數據基礎設施,受到越來越多關注。
11 月 29 日," 數智創新 AI 未來 "2023 中國數據與存儲峰會在北京舉辦。曙光存儲發布了面向 AI 大模型的存儲解決方案。
借此機會,我們一起了解一下,AI 大模型浪潮來襲,給存儲帶來的承載挑戰,以及曙光存儲是如何爲智能産業引航,助推 AI 大模型百舸揚帆。
AI 大模型駛入産業深水區
傳統存儲的數據之殇
最近我去了一趟雲南,發現不僅北上廣等科技重地的大模型建設如火如荼,在昆明、大理等二三線城市,甚至邊疆地區,都在積極地探索大模型行業應用。
各行各業走向智能化,幾乎都點燃了對大模型的熾熱興趣。這時候,一個關鍵問題也顯露了出來:AI 大模型的産業化風潮,需要升級存儲基礎設施。
模型開發者的每一次訓練,數據都在向存儲系統發起多種挑戰:
1. 數據洪潮的沖擊。随着大模型的産業落地,許多行業都開始訓練專屬模型,大量行業數據、專有數據、新的标注數據被輸送給大模型,澎湃的數據數量對存儲系統提出了挑戰。雲南某數據科技公司提到,行業大模型要用高質量的數據集、文檔、客戶私有數據進行訓練,每個項目都是單獨成立标注組,數據規模持續增大,存儲訴求和成本也随之增加。
2. 數據淤塞的桎梏。超大規模數據預處理的速度慢、耗時長,采集、歸類、搬遷等過程費時費力,一旦存儲性能跟不上,海量文件吞吐慢、多讀少寫,檢查點 Checkpoint 等待耗時久,會延緩開發進度,增加開發成本。
3. 數據複雜的暗湧。此外,AI 大模型要用到大量異構數據,文件格式複雜、數據集類型多樣,數據數量激增,傳統存儲難以應對數據複雜性的挑戰,容易産生消化不良的問題,造成數據訪問效率低,從而造成模型運行效率下降,訓練算力消耗增多,無法充分 " 壓榨 " 昂貴的 GPU 算力資源。比如雲南當地的太陽觀測站,通過讓 AI 科學計算模型學習海量圖片,呈現太陽真實的樣子,每天産生 2TB 的圖片數據,當前存儲的吞吐效率低,會導緻訓練集加載慢、數據處理周期長,拖慢研究進程。
4. 數據安全的隐憂。目前,AI 大模型已經深度滲透各行業之中,在訓練開發及應用落地過程中需要海量的數據支撐,其中包含行業或個人敏感信息的數據,如果沒有合理的數據脫敏和數據托管機制,則可能造成數據洩露,給行業和個人造成損失。同時,模型安全風險也需重視,比如,插件可能被植入有害内容,成爲不法分子欺詐和 " 投毒 " 的工具,危及社會和産業安全。
AI 大模型駛向産業深水區,欣喜的是,這一技術創新正在高度融入千行萬業,滿足智能化需求,生命力旺盛。擔憂的是,數據工程貫穿大模型的全生命周期,從收集、清理、訓練、推理部署、反饋調優等各個階段,都需要用到大量數據。存儲成爲瓶頸,意味着 AI 大模型的各個階段都需要消耗在大量的數據淤塞、故障、低效之中,這會讓大模型的開發周期與綜合成本極高,是産業所無法承受的。
疏浚存儲 " 河道 ",避免數據淤塞,爲大模型的産業揚帆提供支持和滋養,曙光存儲帶來的新解決方案,讓我們發現了有價值的參考案例。
高質數據 " 航道 "
曙光存儲給大模型行業一個答案
經過與 AI 大模型開發者的交流,我得出了一個清晰的結論:構建一個适配 AI 大模型的全新存儲體系,已經不再是需要讨論的問題,關鍵是誰能率先完成方案升級、給出實用解法。
洞察行業的存力需求,曙光存儲打造了以 ParaStor 大模型專用存儲爲底座的 AI 大模型存儲解決方案,寫下了自己的答案。
曙光存儲 AI 大模型存儲集群,擁有異構融合、極緻性能與原生安全三大領先能力。
首先,可提供千億級文件存儲服務,接近無限擴展規模。針對數據訪問協議多樣性問題,同時支持文件、對象等多種存儲協議,避免數據跨存儲系統複制。
其次,針對 AI 大模型開發過程中對數據處理效率的高需求,曙光存儲 AI 大模型存儲集群可提供多級緩存加速、XDS 數據加速及智能高速選路等多種數據 IO 性能優化能力。
最後,爲保障全流程數據安全,曙光存儲節點還提供芯片級安全能力,并支持國密指令集,通過多級可靠性,保障存儲集群在訓練開發全周期内穩定運行,符合政策和未來安全趨勢。
有人可能會問了,市面上的存儲方案這麽多,有的也宣傳爲模型開發提供專業支持。曙光存儲的方案有哪些差異化價值?
如果對各家的技術名詞和産品細節雲裏霧裏,大家不妨用幾個詞,記住曙光存儲 AI 大模型存儲集群的差異化價值:
1. 先進。異構融合,極緻性能,芯片級原生安全,展現了曙光存儲的技術先進性,也針對性地解決了大模型開發的數據量大、數據形态複雜多樣、吞吐效率低、存算時間長等實實在在的痛點。
2. 可靠。高性能 AI 數據基礎設施基于曙光存儲的自研創新,更加可靠安全,符合信創政策和未來安全趨勢,可以幫助國内大模型服務商規避海外供應鏈風險,從供應鏈安全、數據安全、模型安全等多個角度,爲大模型産業的發展護航。
3. 全面。曙光存儲打造了涵蓋從網絡、計算到平台的全維度 AI 解決方案,支持訓練開發全周期内穩定運行,可以降低綜合成本,讓大模型開發者和行業客戶無憂前行。
總結一下,在曙光存儲構建的高質 " 航道 " 上,大規模數據高效吞吐,AI 大模型加速開發,因此,行業和企業可以快人一步,将大模型與垂直場景和業務深度融合,率先獲得通往智能時代的船票。
第五範式的新起點
看百舸争流、萬業揚帆
圖靈獎獲得者吉姆 · 格雷(Jim Gray),曾提出第四範式,核心是數據驅動。而随着大語言模型 " 智能湧現 "," 智能驅動 " 的第五範式,更側重于數據和智能的有機結合,成爲支撐科學革命、産業革命的新底層邏輯。
所有過往,皆是序章。AI 如此,存儲亦如此。
此次大會上,憑借 20 年行業深耕,與在 AI 存儲技術突破、液冷存儲研發等領域的領先實踐,曙光存儲公司總裁惠潤海獲評 " 存儲先鋒 "。在其領導下,多年來曙光分布式文件存儲在市場中持續領跑,市場份額名列前茅。面向 AI 大模型的數據存儲解決方案,讓曙光存儲又一次站到了時代前沿。
曙光存儲的 AI 大模型存儲集群,正是積極踐行範式轉換,對應數據新範式,用數據基礎設施的飛躍,助推大模型産業化的漲潮。
接下來,在存儲行業的新範式、新起點,在曙光存儲的高質數據 " 河道 " 上,我們會看到,行業大模型百舸争流,AI 應用千帆競渡,加速駛向智能中國。