存力與算力要兩條腿走路。
在 2024 年的今天,人工智能已經滲透到各個領域,從醫療診斷到智能交通,從金融分析到智能家居,AI 技術的發展正以前所未有的速度改變着我們的生活和工作方式。
這一背景下,算力和存力成爲了支撐人工智能發展的兩大關鍵要素。究竟算力與存力誰更重要,成爲了一個備受關注的問題。
01 何爲算力與存力?
算力,顧名思義,是指計算能力。
算力是數字時代的核心驅動力之一。随着人工智能、大數據等技術的不斷進步,算力的需求呈現出爆炸式增長。從雲端的大規模數據處理到邊緣設備的實時計算,算力的提升使得我們能夠更快地處理數據、更準确地模拟複雜現象。
存力即數據存儲能力。海量的數據需要安全、可靠的存儲空間,而存力就是提供這一空間的關鍵。大數據、雲存儲、區塊鏈等技術的發展,使得數據的存儲和管理變得更加高效。同時,随着數據價值的不斷提升,存力的重要性也日益凸顯。強大的存力不僅可以保證數據的安全性和可靠性,還能夠爲數據分析和挖掘提供堅實的基礎。
除了算力與存力,還有 " 一力 " 與這二者并稱爲 " 數據時代的三把利劍 ",即運載力,簡稱運力。
運力是信息傳遞的關鍵。在數字世界中,數據的快速傳輸和高效共享至關重要。高速的網絡連接、穩定的帶寬以及低延遲的通信,這些都是運力的體現。
去年,工信部等六部門聯合印發《算力基礎設施高質量發展行動計劃》,提出到 2025 年,計算力方面,算力規模超過 300EFLOPS,智能算力占比達到 35%,東西部算力平衡協調發展。運載力方面,國家樞紐節點數據中心集群間基本實現不高于理論時延 1.5 倍的直連網絡傳輸,重點應用場所光傳送網(OTN)覆蓋率達到 80%,骨幹網、城域網全面支持 IPv6,SRv6 等創新技術使用占比達到 40%。存儲力方面,存儲總量超過 1800EB,先進存儲容量占比達到 30% 以上,重點行業核心數據、重要數據災備覆蓋率達到 100%。
算力、存力與運力皆舉足輕重,而要論誰最重要,恐怕多數人都會覺得是算力。
畢竟," 算力緊缺 " 的氣氛常常被渲染起來。
02 争搶 GPU,以期獲得更多算力
那麽,如何獲取更多的算力呢?當下,主流的途徑是通過堆積算力芯片來實現,包括 CPU、GPU、FPGA、ASIC 等,其中 GPU 的應用最爲廣泛。
在 AI 大火之際,科技巨頭們紛紛投身于一場激烈的 GPU 争奪戰中。值得注意的是,由于單卡算力相對有限,爲了縮短訓練時間,通常采用分布式訓練技術,通過多台節點構建出一個計算能力和顯存能力超大的集群。從建設進度上看海外頭部廠商在 2022 年、2023 年已經完成萬卡集群搭建,國内頭部互聯網廠商和電信運營商也加速萬卡集群建設布局。
2023 年 5 月,谷歌推出的 AI 超級計算機 A3,搭載了約 26000 塊英偉達 H100 GPU。
在 2022 年,META宣布了一個由 1.6 萬塊英偉達 A100 GPU 組成的集群。到了 2024 年初,META 進一步擴大規模,建成了兩個各含 24576 塊 GPU 的集群,并設定了宏偉目标:到 2024 年底,構建一個包含 35 萬塊英偉達 H100 GPU 的龐大基礎設施。
2023 年 8 月,特斯拉上線了一個集成 1 萬塊英偉達 H100 GPU 的集群。
亞馬遜的 Amazon EC2 Ultra 集群采用了 2 萬個 H100 TensorCore GPU。
騰訊推出的星脈高性能網絡,能夠支持高達 10 萬卡 GPU 的超大規模計算,網絡帶寬高達 3.2T。
字節跳動提出的 MegaScale 生産系統,支撐 12288 卡 Ampere 架構訓練集群。中國移動計劃今年商用哈爾濱、呼和浩特、貴陽三個自主可控的萬卡集群,總規模接近 6 萬張 GPU 卡。
中國電信計劃在 2024 年上半年在上海規劃建設一個達到 15000 卡、總計算力超過 4500P 的國産萬卡算力池,這将是國内首個超大規模國産算力液冷集群。2024 年 3 月,天翼雲上海臨港國産萬卡算力池已正式啓用。
中國聯通計劃在今年内,在上海臨港國際雲數據中心建成中國聯通首個萬卡集群,這一集群的建成,将爲中國聯通在數據中心和雲計算市場提供新的競争優勢。可以看到,萬卡集群的建設正如火如荼地進行着。然而,當擁有如此衆多的算力芯片時,它們是否已充分發揮出最大潛力呢?
就目前狀況而言,答案似乎是否定的。
因爲算力的釋放并非僅僅關乎 GPU 等算力芯片,而是需要全面考慮數據存儲、處理速度、網絡傳輸等多個環節的協同作用。
在此背景下,存力作爲算力釋放過程中的重要一環,其潛力和價值逐漸受到重視。
這時候,或許會有讀者發問:存力是否能成爲提升算力水平、優化算力利用的關鍵因素?存力究竟能在哪些方面爲算力提供助力?以及,爲了更有效地支持算力的提升,存力又該如何發展?
03 存力,如何助力算力?
如今随着大模型進一步演進,不同要素的資源配置情況逐步發生了改變。其中,數據的重要性正提到了前所未有的高度,由此也正在帶來對存儲越來越嚴苛的要求。
在一個全新的視角下,數據與其背後的 " 存力 ",正在成爲影響大模型創新整體過程的關鍵因素。
存力給算力帶來的助力主要有以下幾點:
首先,高效的存儲能力直接促進了數據處理速度的飛躍。随着大模型訓練過程中數據量的爆炸性增長,快速、穩定的數據讀取與寫入成爲提升模型訓練效率的關鍵。存力通過優化存儲架構、采用高性能存儲介質以及智能數據管理技術,實現了數據訪問的低延遲與高并發,極大地縮短了數據處理周期,使得模型能夠更快地從海量數據中汲取知識,加速叠代與優化。
其次,存力增強了數據的安全性與可靠性。在大數據時代,數據洩露與丢失的風險日益增加,而強大的存力體系通過加密存儲、多副本冗餘、容災備份等機制,确保了數據的完整性和安全性,爲模型的持續運行提供了堅實後盾。
再者,存力還促進了數據的高效共享與協同。在大模型研發過程中,跨團隊、跨領域的數據合作日益頻繁,高效的存力系統能夠支持數據的快速傳輸與無縫對接,打破信息孤島,促進知識融合與創新。通過構建統一的數據管理平台,實現數據的集中管理、按需分配與權限控制,不僅提高了數據資源的利用效率,也加速了科研成果的轉化與應用。
最後,存力的發展還推動了智能化存儲解決方案的誕生,爲大模型提供了更加靈活、智能的數據支撐。借助 AI 算法與機器學習技術,智能存儲系統能夠自動識别數據特征、優化存儲布局、預測并滿足數據訪問需求,從而進一步提升數據處理的智能化水平。這種智能化存儲與大模型的深度融合,将爲未來的科技創新帶來無限可能。
通俗來講,在人工智能的蓬勃發展進程中,僅僅擁有強大的 GPU 還遠遠不夠。畢竟數據在處理之前,需要先 " 搬過來 "。有數據顯示,一個規模達 20 億的數據集,拷貝準備大約整整 30 天。這就意味着倘若沒有出色的存儲系統作爲支撐,GPU 也 " 巧婦難爲無米之炊 "。再者,在後續的加密存儲以及數據共享等方面,存力皆爲算力帶來諸多強大助力。
倘若用建造高樓大廈舉例子,算力便是高聳入雲的建築主體,而存力則是堅實的地基,隻有地基穩固,大廈才能拔地而起。
因此,倪光南院士也曾表示,算力中心的計算能力由存力、算力、運力三個因素決定。倪光南院士認爲,用廣義算力去定義一個算力中心,才更準确。
04 需要什麽樣的存儲?利用 SSD 來取代 HDD
從存儲方式來看,近些年中國數據量的發展十分迅猛,每年的複合增長率約是 30% 左右。主要采用機械硬盤 HDD,先進半導體存儲技術滞後。閃存和 SSD 都屬于半導體存儲範疇,前者指存儲介質 ( 閃存顆粒 ) 後者指存儲設備 ( 固态硬盤 ) 。
從存儲領域的閃存市場占比情況來審視,在全球範圍内,閃存平均水平達到了 41.3%。而美國在這一領域表現突出,閃存占比高達 56.4%。相比之下,中國的閃存市場占比僅爲 20.3%,與全球平均水平和美國相比仍存在一定差距。
海量數據的增長,對我國存儲提出了更高的需求,先進存力成爲了存力的重要發展方向。先進存力主要是指企業級存儲中更加先進的存力,其以 " 大容量、高性能 " 爲基礎,以 " 先進介質、高效架構 " 爲支撐,以 " 開放生态、綠色低碳、安全可靠 " 爲關鍵,可應用于更廣泛的關鍵場景的存儲能力。
針對這一現象,中國存儲可以做出的改進之一便是利用 SSD 來取代 HDD。
當前 SSD 的演進主要通過兩方面:一方面是容量,另一方面是性能和功耗。
在容量方面,AI 時代對于高容量的 SSD 需求正在快速上升。需要 SSD 不僅有更大的存儲容量,還要能夠在不犧牲性能的前提下,通過技術的改進等提高 NAND 密度。另外,随着 TLC 閃存架構開始達到原始存儲容量的極限,QLC 代表了希望不斷突破主流消費 SSD 容量極限的 SSD 制造商的未來。目前,諸多存儲廠商都已經發布 QLC 閃存。
在性能和功耗方面,随着數據中心對于存儲設備速度要求的不斷提升,SSD 需要提供更高的 IOPS(每秒輸入輸出操作次數)和帶寬(GBPS),在保證高性能的同時必須有效控制功率消耗,實現單位性能所需的能耗降低。
可喜的是,中國已經有一些主流的存儲芯片公司可以提供達到一線的水平和生産能力的存儲産品,在 SSD 主控芯片方面,國内也已經有十幾家廠商的産品得到商用。随着 SSD 成本的不斷下探,有望爲存力市場作出更大貢獻。
采用先進的存儲介質和技術
一些先進的存儲介質和技術也可給算力帶來一些助力,比如通過研究和開發如相變存儲器(PCM)、阻變存儲器(RRAM)和磁性存儲器(MRAM)等新型 NVM 技術。這些存儲器具有高速讀寫、低功耗、高耐用性和非易失性等優點,可以作爲傳統存儲設備的補充或替代,提高存力和算力。
探索基于新型材料的存儲技術,如二維材料(如石墨烯)。這些材料具有獨特的物理和電子特性,有望實現更高的存儲密度和性能,爲未來的存力和算力提升提供新的途徑。
發展大容量的光存儲技術也是一個不錯的想法,光存儲具有長期保存數據、高容量和低成本等優點,可以作爲離線存儲或歸檔存儲的選擇,釋放其他存儲設備的空間,提高存力并爲算力提供更多的可用存儲資源。
通過以上多種方法的綜合應用,可以有效地提升存力,進而爲算力的提升提供堅實的基礎和強大的支持。
05 存力中心建設,如火如荼
眼下算力中心興起的同時,還要建設先進的存力中心。
數與算、存與算存在失衡現象,也導緻了數據割裂在不同數據中心中,數據歸集難、融合彙聚難、有效治理難、使用加工難、共享流通難,導緻算力和應用缺乏有效的高質量數據供給,算力的潛能被抑制,對算力和産業的賦能價值沒有充分發揮,數據中心的商業和産業持續正向閉環存在巨大挑戰。
基于此,華爲作爲全球領先的信息與通信技術(ICT)解決方案供應商,緻力于建設高性能、高可靠的存力中心,以滿足企業數字化轉型和智能世界建設的需求。華爲通過整合自身在存儲技術、雲計算、人工智能等領域的優勢,爲客戶提供全方位的存力解決方案,包括數據存儲、數據管理、數據保護等服務。
随着雲計算業務的不斷發展,阿裏巴巴也在積極建設大規模的存力中心。通過采用先進的存儲技術和架構,如分布式存儲、軟件定義存儲等,阿裏巴巴能夠爲客戶提供高可用、高可靠、高擴展性的存儲服務。同時,阿裏巴巴還在不斷探索新的存儲技術和應用場景,如邊緣存儲、雲原生存儲等,以滿足不同客戶的需求。
騰訊在雲計算、大數據、人工智能等領域擁有強大的技術實力和豐富的經驗,也在積極建設存力中心。騰訊通過優化存儲架構、提高存儲效率、加強數據安全等措施,爲客戶提供高效、穩定、安全的存儲服務。同時,騰訊還在積極探索新的存儲技術和應用模式,如智能存儲、區塊鏈存儲等,以推動存儲行業的創新發展。
中國科學院計算技術研究所作爲國内頂尖的科研機構,其在存儲技術領域擁有深厚的技術積累和強大的研發實力。該研究所緻力于建設先進的存力中心,開展存儲技術的研究和開發,包括新型存儲介質、存儲系統架構、存儲算法等方面的研究。通過與企業合作,将科研成果轉化爲實際應用,爲我國存儲産業的發展提供技術支持。
清華大學計算機科學與技術系在存儲技術領域也有着卓越的研究成果和豐富的教學經驗。該系積極參與存力中心的建設,開展存儲技術的研究和教學工作,培養存儲技術領域的專業人才。同時,清華大學還與企業合作,開展産學研合作項目,推動存儲技術的創新和應用。
算、存、運在數據時代至關重要。如果說存力已經開始逐漸受到重視,那麽國産運力相對來說可能還是一個 " 小透明 "。在大力發展算力、支持存力的過程中,請同步關注 " 運力 " 的重要性。
本文來自微信公衆号 " 半導體産業縱橫 "(ID:ICViews),作者:豐甯。