Gartner 預計,到 2028 年,企業軟件應用程序包含具備自主性 AI 從不到 1% 提高到 33%,30% 的企業機構将把數據變現或數據⼊表納入其數據戰略。數據對于企業将越來越重要已經成爲共識;另一方面,随着生成式 AI 的應用不斷湧現,其訓練、推理所産生的數據量也在不斷增加。
從本質上看,人工智能的發展離不開算力、算法、數據這三大要素,算力的需求,以及算法的優化僅是一方面,當下對于人工智能發展來說,最迫切的需求在于高質量的數據集。
AI、數據要素衍生存儲新需求
人工智能在重塑各行各業的過程中,作爲底層支撐的數據中心也再被人工智能重構着,IDC 向着 AIDC 邁進的過程中,作爲承載數據的 " 媒介 ",存儲行業也再發生着變革。
在數據中心的這場變革中,數據中心在逐漸 " 回歸本質 ",在經曆過以 " 人 " 爲中心,以 " 服務器 " 爲中心之後,數據中心真正來到了以 " 數據 " 爲中心的時代。
從整個 IDC 行業發展上看,目前 IDC 産業發展可以大緻分爲算力、運力、存力三個部分。關于存力部分,今年中國算力大會上,中國信息通信研究院院長餘曉晖曾指出,在過去的一年中,中國存力規模持續擴大,先進存力占比不斷提升。具體來看,截至 2023 年底,中國存力規模達到約 1200EB,同比增加 20%;先進存儲容量占比超過 25%, 同比增加 20%。
中國電子技術标準化研究院發布的《AIGC 數據存儲研究報告》(以下簡稱《報告》)中指出,AIGC 促使 " 以數據爲中心 " 的趨勢更加凸顯,數據的按需流動和存儲是支撐這一劃時代技術變革的關鍵基石之一。
在浪潮信息存儲首席架構師孫斌看來,随着 AI 應用的不斷發展,以及國家層面主推的數據要素市場化進程的推進,數據的重要性會越來越高;與此同時,對于存儲而言,會有越來越多近數據計算需求的湧現,而這些需求也進一步要求了數據在調用過程中的速度," 就浪潮信息觀察來看,我們認爲爲了滿足近數據計算的需求,需要将數據存儲在計算場景更近的地方。" 孫斌指出," 這也就導緻了原先數據存儲架構已經不能滿足當下數據應用的需求,我們需要構建新的存儲架構來滿足需求。"
從當下用戶的需求來看,目前存儲行業已經不僅僅是解決數據的存儲就足夠的了。一方面,存儲還需要具備并行存儲的能力,以及解決數據流動的問題,并在此基礎上,爲了滿足用戶對速度的要求,還需要提升數據訪問的效率;
另一方面,随着大模型應用的落地,無論是企業内部産生的數據量,還是社會公共數據量都呈現出幾何倍數式增長,如何做到更高效的存儲,節約數據存儲空間,也是企業在完成數據創造價值的同時,實現降本增效的過程中,不可避免的話題。
除此之外,《報告》中還指出,AIGC 場景下,存儲面臨性能、效率和韌性方面的挑戰,存儲底座需要 " 六維 " 協同并進:" 六位一體 " 畫像,即需要具備數據流動(富元數據管理)、處理(數控分離、智能緩存優化和多核并行優化)、共享(非結構化融合互通)、容納(4U60、5U105 高密設計、QLC)、安全(故障恢複,系統故障預測)、管理(全局文件系統)六種能力,從産品和方案上滿足 AIGC 對存儲的需求。
從介質到架構,存儲行業的變革
新的需求自然也就推動存儲行業向前邁進,存儲架構進入了變革的時期,存儲系統已經不再是單純的數據存儲容器,而是成爲了推動 AI 發展的核心組件,爲了提高 GPU 的利用效率 , 存儲系統必須能夠提供 TB 級的高帶寬和百萬級的高 IOPS, 以确保模型訓練的高效運行。
存儲行業不能光解決數據訪問性能、容量的問題,還要解決數據流動的問題," 若想解決數據流動的問題,數據中心内部就需要一套全新的存儲架構,支撐混合負載,并通過一套系統,統一各個來源的數據(比如交換來的、采集到的、合成數據等),實現數據全生命周期的應用。" 孫斌指出。
以清華大學的某個生命科學研究項目爲例,在研究過程中,研究人員會在小鼠血液中加入熒光劑,然後會使用 RUSH 中的 28 台相機,以每秒 30 幀、連續 72 小時的方式對小鼠進行拍攝,最後将這些圖片拼接成三維圖像序列。
由于小鼠是活體的,其血液無時無刻不在流動,相機需要去追蹤每一個細胞的流動曲線,即使出現一幀的丢失,也會讓研究人員無法跟蹤到全過程,3D 成像的拼接也無從談起,會導緻耗時、耗資巨大的拍攝項目功虧一篑。清華大學範靜濤表示:" 清華腦科研項目對于存儲的要求不僅在于容量,更大的挑戰是存儲要實時在線,不能丢幀。"
除此之外,RUSH 腦成像項目對于存儲系統所帶來的挑戰還有很多。比如,RUSH 腦成像系統的攝像儀器每秒鍾會産生 840 個文件、每個文件 24MB,這些海量的小文件非常考驗存儲系統的處理能力;又如,在某些生命科學成像觀測中,長達 72 小時的觀測會産生海量的文件,而且從第一個文件到寫滿,不能丢幀,這就需要确保長時間的穩定寫入;再如,RUSH-II 無法采用冷數據備份,所以需要采用創新數據冗餘機制,确保數據不丢失。
此外,随着 AIGC 走進各大高校,成爲研究課題,也讓高校的師生對存儲系統有了新的要求,在某高校的 AIGC 案例中,原先利用高性能計算機計算一次僅需幾個小時,但是前期準備數據、調取數據的時間卻長達幾天," 系統需要重新全部調取數據,數據量大,移動效率低," 孫斌指出," 而師生研究項目也要向學校租用服務器,耗時幾天調取數據,會造成資源浪費和科研成本上升等問題。"
面對這些挑戰,對于存儲行業而言,首先需要解決的就是——如何在更小的空間内,存儲更多的數據。一方面,通過對存儲系統的優化,可以讓空間利用率更高,對此,孫斌表示,AI 技術在存儲優化方面也有一些應用場景,比如在緩存方面,通過 AI 技術,感知數據模式,從而重新調整緩存的調動,實現智能緩存;
另一方面,新的存儲介質也成爲了各個産業重點布局的焦點,目前比較常見的兩種存儲介質就是 HDD 和 SSD。HDD 有大容量、低成本和長期可靠性等優點,适合存儲冷數據和歸檔數據;而 SSD 因其高性能、低延遲和抗震性等特點,正在逐漸成爲主流。随着 QLC、 SSD 等新型 SSD 技術的不斷發展,SSD 的容量和成本将進一步優化,使其在數據中心中的應用更加廣泛。對此,浪潮信息認爲,在混合負載的場景中,閃存正在逐漸成爲重要的支撐手段。
除了存儲介質在發生轉變以外,存儲架構也在 AIGC 的影響下,發生了變革。基于此,浪潮信息存儲于近期提出了可組合分布式融合存儲(CDFS)的新模式,打造了三層三面兩體的可組合架構, " 三層 " 分别爲:數據編織層、微服務化功能層和硬件資源層;
" 三面 " 分别爲:控制面,進一步增強控制面,向全場景化方向演進,并實現多介質、多協議存儲融合控制。數據面,解決 CPU 對數據 I/O 五類算子處理效率不高問題,突破單節點百萬級 IOPS 性能上限。智能面,通過智能節點,提供全局 AI 的能力,實現數據就緒。" 兩體 " 則是爲存儲平台本體和管理編排體。
兩極化發展
在 CDFS 存儲架構的基礎上,浪潮信息存儲還根據不同的場景,細分成了機櫃級存儲底座(BoR)和數據中心級存儲底座(BOD)。存儲兩極化的趨勢,也恰好對應了當下數據中心的兩極化發展。
從目前趨勢上看,一方面,一些企業側應用的簡單的通算和用于模型推理使用的算力服務器,呈現出邊緣化、規模小等特點,而用戶需求則是在更小的空間内,實現更高效、更低成本的近數據計算。這也就對應了 BoR 的存儲架構,BoR 底座下,領域專用硬件節點減少東西向交互帶寬 50% 以上,節約網絡資源、處理器資源,并通過定制化閃存模組,提供 PB 級存儲,機櫃空間和功耗都能相對降低 40% 左右。
談及 BoR 面向的應用場景時,孫斌分享了一個比較典型的場景——數據空間應用場景。該場景下,數據要素落地進入終端應用的時候(" 數據要素 X"),相對來說是偏向近計算邊緣存儲的一個場景。" 比如有一個需要使用某一行業數據的單位(邊緣,數據規模小)和一個數據交易所(中心,數據規模大),那麽這個單位把數據從交易所拿過來放在本地來做自己的應用時,對存儲等硬件層面的需求就是我們 BoR 所瞄定的場景。打個比方來理解,水電費、煤氣費這些代收費用在銀行裏都有一台前置機(BoR)來統管,大多數自來水公司、煤氣公司也都有一套前置機業務系統用來就近開展業務。"
在前文提到的清華大學的案例中,清華大學就使用了浪潮信息提供的基于分布式存儲平台 AS13000 的存儲解決方案,該方案提供了 40 個節點的存儲服務,存儲空間約爲 5PB,滿足 20.16GB/s 數據通量、最長拍攝時間 72 小時、拍攝過程中不丢幀等嚴格要求。
此外,RUSH 腦成像系統還部署浪潮信息智能統一存儲管理平台 infinistor,在數百萬個文件的環境下,通過人工智能技術實現存儲部署、運維、管理、調優的自動化,實現了對于故障盤 90% 以上的預測準确率。
另一方面,對于通用大模型訓練、調優等場景下,需要萬卡,甚至十萬卡的超大型數據中心或數據中心集群協同計算。在這個場景下,用戶需要實現跨雲、跨系統,甚至跨地域的協同計算能力。衆所周知,如果在協同訓練的過程中,某台服務器宕機了,訓練将會終止,并重啓,這就對服務器單體的穩定性和協同集群的穩定性都提出了更高的考驗。對于爲服務器輸送、保存數據的存儲系統而言,也就提出了更多的要求。
這種趨勢下,用戶需要一個能實現跨雲、跨域、跨系統的,統一智能數據管理平台,以及一套融合多種協議,多樣算力,多類别存儲介質的分布式存儲融合架構和一項全局全域的數據編織存儲能力。其中分布式融合架構是支撐架構,包含協議融合、算力融合、介質融合三種融合,通過融合實現了存儲資源的協同處理,按需分配;在分布式融合架構之上,通過設備全生命周期管理、元數據統一視圖以及數據統一編排等,實現了設備統一、元數據統一和數據統一三個維度統一的智能數據管理平台,簡化了數據管理複雜度,提升了數據流動效率," 這也是浪潮信息存儲推出 BoD 底座的核心理念。" 孫斌如是說。
随着推理市場逐漸升溫,未來用戶使用 BoR 架構的場景會越來越多," 未來,企業會有越來越多近數據計算的需求,也就催生了近數據存儲的需求,用戶逐漸希望單機櫃能實現的數據計算和處理的數據量級能有大幅提升,這也就推動了 BoR 在更多的場景落地。" 孫斌強調。(本文首發于钛媒體 APP,作者|張申宇,編輯丨蓋虹達)