圖片系 AI 生成
當前,大模型最顯著的特征之一就是參數量呈指數級增長。根據 Scaling Law(尺度定律)的規則,人工智能神經網絡的參數量越多,模型越大,對于知識的總結歸納和推理泛化能力就越強。因而,從 ChatGPT 出現驗證了 " 湧現 " 能力,到如今的兩年裏,業内首要關注的就是算力,怎樣突破硬件算力,怎樣以盡可能少的 Token 數量訓練好一個模型。但在這一顯著挑戰之外,數據量猛增帶來的數據存儲,可能是僅次于算力的另一大技術難點。
大模型 " 卷 " 向存儲
年初,一位長期關注 AI 大模型應用的 CTO 與钛媒體 APP 交流中表示:" 企業使用外部數據訓練大模型,長文本是關鍵思路之一。但問題是,長文本處理特别消耗内存和硬件,因爲模型訓練和推理的内存變大,模型效果才能更好。這也導緻在其每次查詢的成本高于 GPT-4,而後者基于微調。這不是 ToB 企業能夠負擔得其起的。"
他對钛媒體 APP 解釋:微軟提出了大模型的 " 不可能三角 ",如果希望模型的微調能力很強,那麽模型參數就不會很大,或者小樣本的學習能力不會很強。長文本的邏輯是,讓小樣本學習的能力變強,同時放棄微調,這樣模型參數肯定就會相應擴大。
彼時,正值國内長文本熱潮。除了最早的 Kimi,阿裏巴巴、百度、360 等衆多廠商相繼宣布進軍長文本,從最初的可處理 200 萬字上下文,迅速擴張至 1000 萬字長文本能力。而在這股熱潮中,也同樣遺留了諸多待解決的問題。
根據技術博客 Medium 上一位 AI 工程師 Szymon Palucha 的記錄:
以阿裏開源的 Qwen2-7B(7 億參數)大模型爲例。目前 GPU 顯存大小基本在 80GB(以英偉達 A100 爲例),那麽如果拿不到更好的 A100 時,他根據公式:參數模型内存 =7B*32 位 =7B*32/8 字節 =28B 字節 =28GB,測算出運行該模型至少還需要 28GB 内存,這還不算推理過程中對存儲産生的額外開銷。
爲此,最簡單的辦法是降低參數精度,因爲現在多數大模型可以半精度使用,而不會顯著影響準确性。這意味着大模型在實際運行時,需要一定的内存或存儲空間來存儲和處理數據,大模型所需的内存量會根據上下文窗口的大小而變化。窗口越大,所占用的内存也就越多。
钛媒體注意到,這也是當下大模型應用廠商在破解算力問題之外,遇到的另一大技術困難點,去年還沒有太多人關注——數據量猛增帶來的數據存儲、内存帶寬、時延等一系列問題。并且随着需求的爆發,已經帶來一些技術側産品側的演進。
支持萬卡算力和萬億參數 LLM,存儲兩道檻
目前全球的科技巨頭都在布局萬卡算力集群和萬億參數規模的大模型訓練,對于這些集群而言,高性能的計算、存儲和網絡缺一不可。從存儲層面來看如何提供支撐?一是要至少達到 TB 級帶寬、百萬級 IOPS 的存儲性能,未來可能會演變爲數十 TB、上億級 IOPS 的需求;二是要提升數據跨域調度、數據安全、數據可持續性訪問等能力。
回顧過去兩年間大模型帶來的存儲挑戰,可以從三個階段總結:
2022 年初:大模型爆發初期,國内有超過 100 家的大模型公司開始迅速進行市場布局。在這個階段,模型訓練追求的就是 " 快 ",通過 IT 基礎設施的方案優化,有效地提升 GPU 效率,加速模型的訓練并得到市場認可,即可搶占市場先機。
爲此,模型訓練的數據加載、模型訓練過程中的斷點續訓要盡可能地降低對計算時間的占用,在萬卡算力集群萬億參數的大模型的快速訓練時,小于 1 分鍾斷點續訓,需要存儲提供 TB 級的帶寬,同時小模型的訓練推理則對 IOPS 提出更高要求,存儲系統需提供超過百萬級的 IOPS。
2023 年底到 2024 年初:随着模型在各行業落地的需求,在很多的行業場景裏,行業數據缺少積累,過去分散在各終端、地域數據的誇協議、誇地域高效率共享整合。這就要求存儲具備數據跨域調度,通過異構納管實現全局命名空間管理,提升數據彙集、分析的效率。
2024 年下半年開始:模型的真實落地,對數據質量要求更高,語料公司需要将數據彙集并進行精加工。大模型的行業化落地過程中,爲了提升通用模型的專業化能力,訓練出精度更高的模型,要求有更高質量的數據集。爲得到高質量數據,原始數據要經過粗加工、精加工等多個作業環節。這個階段,對數據的安全存儲和數據可持續性訪問提出了更高要求。
浪潮信息存儲産品線副總經理劉希猛指出,模型參數量、訓練數據量、GPU 算力、網卡性能、GPU 規模近些年均在飛速增長,原有存儲不足以應對 AI 的快速發展。無論是海量訓練數據加載、PB 級檢查點斷點續訓,還是高并發推理問答等,存儲性能直接決定了整個訓練推理過程中的 GPU 利用率。特别在萬卡集群規模下,較差的存儲性能會嚴重增加 GPU 閑置時間,導緻模型落地困難、業務成本劇增。因此,現代存儲已經由傳統的數據載體和數據倉儲,轉化爲 AI 發展的關鍵組件。存儲系統正逐漸演進到提供更高的吞吐量,更低的時延,更高效的數據管理。
AI 存儲何時爆發?
既然針對 AI 場景的存儲系統在前幾年并沒有得到太多重視,從需求側,何時會迎來新的爆發點?" 過去一年,存儲的增量市場基本全部來自于 AI 場景。" 劉希猛對钛媒體 APP 解釋。
如果将未來的 AI 市場分爲大緻兩類:一類是 AI 産業化的市場,在 AI 産業化進程中,更多的關注點可能集中在了模型訓練,緊随其後的是語料生産,然後是算法優化。那麽,存儲首先就會在模型訓練、語料生産領域産生價值,特别是語料,從今年開始就已有迹象,并在接下來兩年裏實現快速增長。
在劉希猛看來,從目前來看,大模型訓練中最緊缺的是數據,各行業在可能都會開始着手收集各自領域的數據,并進行相應的數據加工處理。算力方面,盡管有人認爲算力建設已接近泡沫階段,甚至有些用力過猛。這一判斷可能在一定程度上具有方向性的正确性。接下來,算力的發展可能會進入一個相對平穩的階段。
第二類是産業的 AI 化,即大模型真正落地到行業并産業實際價值,可以觀察到一些領域已經先行一步。例如,金融領域的量化交易、證券交易,在科研領域,AI 也開始被用來輔助科研工作。此外,制造業也是 AI 應用的一個重要領域。這兩方面都會對 AI 存儲市場帶來比較好的促進作用。
劉希猛還指出,當前 AI 存儲面臨的挑戰尚未完全解決,若繼續向前發展,其實還是要從性能、效率以及可靠性三方面入手。一是高性能,以解決混合 AI 負載對存儲讀寫帶寬、IOPS,以及低時延的要求;二是高效率,通過存儲支持文件、對象、大數據等非結構化協議融合互通,全局命名空間等,減少多份數據重複存儲,以及數據誇協議、誇區域、誇系統調度檢索的問題;三是高韌性,通過故障的快速恢複、故障前的精準預測降低系統異常時的性能影響,以及服務的連續性,同時強化數據保護與安全防護能力,保證數據的完整、一緻、持續可訪問。
目前國内外在建千卡集群、萬卡集群,且未來可能還會出現更大規模的集群。想要達到同等算力,若是采用國産 GPU,可能需要不僅達到十萬卡規模,而是更爲龐大的集群。
随着集群規模的擴大,除了存儲本身面臨的挑戰外,還将帶來存儲整體方案的挑戰。這涉及從存儲到前端網絡,再到算力節點的整個鏈條。其中,網絡的選擇成爲一個關鍵問題。國内之所以更多地使用 RoCE 網絡,是因爲國内的集群規模需求更大,而 IB 網絡在擴展規模上有所限制。RoCE 網絡與存儲及上層之間的協同性,尤其是超大規模集群的協同性上,可能會成爲新的關注點。
钛媒體注意到,RDMA ( Remote Direct Memory Access ) 全稱遠程内存直接訪問技術,是一種數據傳輸技術。目前算力集群對網絡的建設在 2022 年之前基本會選擇 " 二層虛拟網絡 ",随着 AI 應用的爆發,2023 年至今已經在嘗試智能無損網絡和以太網,并且往往圍繞性能、成本、生态系統和兼容性等方面進行權衡。RoCE 就是一項基于以太網的 RDMA 技術。
甲骨文公司中國區技術咨詢部高級總監嵇小峰與钛媒體 APP 交流中同樣指出,大規模集群除了 GPU 數量多之外,同時具備網絡低延時和高帶寬的特性。從基礎設施角度來看,大量 GPU 集中部署會帶來供電和冷卻方面的巨大挑戰。同時,在訓練過程中,對存儲的需求同樣至關重要。因爲訓練往往涉及成千上萬塊 GPU 的協同作業,一旦有少數 GPU(如一塊或兩塊)出現故障,整個訓練進度可能會因此延誤。
例如,今年 9 月亮相的 Oracle Zettascale 算力集群,目前可提供 13 萬多顆 GPU,相當于可提供 2.4 ZFLOPS 的雲端算力。爲進一步增強網絡的低延遲和高帶寬,Oracle 采用支持兩種網絡協議:InfiniBand 和 RoCEv2,這是一種增強版的以太網。這兩種技術均具備一種核心繞行機制,能讓網絡流量避開常規路徑中必須穿越的某些組件,以實現更迅速的傳輸至目标地。這樣的設計促進了數據更快地抵達 GPU,進而提升了處理效率。
随着 AI 存儲需求的不斷湧現,包括 GPU、模型架構、存儲解決方案及網絡技術的各大廠商,正紛紛加速布局,力求在構建超大規模集群的浪潮中搶占先機。(本文首發于钛媒體 APP,作者 | 楊麗,編輯 | 蓋虹達)