2023 年大煉模型興起,全球範圍内都出現了算力供不應求、一卡難求的情況。各地紛紛興建數據中心、智算中心,來解決國産大模型的算力短缺問題。
今年算力市場又倒向了另一個方向,算力開始過剩和大量閑置了。
主要體現在,高端顯卡囤積居奇的生意不好做了,"GPU 倒爺 " 的朋友圈已經從 " 欲購從速,過時不候 ",變成了 "A100/H100 滞銷,幫幫我們 "。而算力租賃市場,理想情況下的上架率應該是 80%,但很多集群隻能達到 30% 甚至更低,投入大量資金建設的算力閑置,租不出去。
于是一種聲音開始甚嚣塵上,認爲算力荒已經緩解了,供過于求,應該放慢自主化智算的建設。還有人說,智算中心建的太多了,大模型都用不完了。
發展自主化智算,到底還有沒有必要?
還記得 2023 年算力荒焦灼、智算建設突飛猛進的時候,倪光南院士曾提到過:各地盲目建設各種低水平智算中心,讓人唏噓不已,一定要警惕 " 技術房地産 " 和 " 數字爛尾樓 "。所謂 " 技術房地産 ",就是算力資源賣不出去,隻能變成一堆放着服務器的磚頭水泥房子,閑置在那裏。
短短一年多時間,從算力短缺到算力過剩,究竟是怎麽發生的?目前來看,閑置算力主要集中在三種情況:
1. 用不起。英偉達的高端顯卡 GPU 是 AI 訓練的首選,2023 年一度一卡難求。以 N 卡爲主的智算資源閑置,一是因爲巨頭們此前已經大量囤積采購了 GPU,需求減少;二是炒作之後價格昂貴,即使價格回落,中小企業還是用不起。在很多讨論 " 算力過剩 " 的評論區,我們總能看到 " 降價試試 " 的留言,說明高端 AI 算力的需求仍在,隻是昂貴的 N 卡被價格勸退了。
2. 不好用。國産卡組成的算力集群,也存在上架率不高、資源閑置的問題,主要是不好用。因爲國産卡的集中度不高,一個千卡或萬卡集群,往往是由各類國産算力卡組成的,異構算力之間的協同調度,涉及大量工程化細節,沒有做好就無法開箱即用。勉強用了,又時不時出現業務中斷、算效不高、恢複訓練慢等各種問題,導緻客戶流失。這類被迫閑置的國産算力,正是沒有考慮配套,盲目建設的低水平智算中心。
3. 用不上。" 百模大戰 " 之後,企業不再大煉模型,預訓練的算力需求也就大幅下降,算力市場開始轉向以推理算力爲主。但推理市場的爆發,需要一個過程,目前 AI 的行業滲透率還比較低,總體不到 10%,很多企業對 AI 的投入以嘗試爲主,還沒有大規模爆發。所以,訓練用算力開始出現閑置,而推理用算力還未大規模崛起,因此短缺問題尚未完全顯現。
低水平算力的閑置與過剩,再一次警醒我們:一個繁榮健康的算力市場,關鍵不是建出來,而是用起來。
這種情況下,仍然大力發展自主化智算,還有必要嗎?
我們認爲,這個問題的答案不該有猶豫,要旗幟鮮明地,鼓勵自主化智算基礎設施的繼續建設、加速建設。
首先,從長期看,國内智算屬于後發,基礎仍然薄弱。
中國智算的進步速度是很快的,但也要客觀看到,美國這樣的 IT 先行者,從 20 世紀 90 年代以來就在 IT 建設上大力投入。根據彼得森國際經濟研究所的消息,在 2024 年美國在電子制造業建設方面(主要是芯片)的投資,就超過了 1996 年至 2020 年(24 年的時間跨度)的總投資。而産業界,xAI、Meta、OpenAI 等海外 AI 巨頭,都在積極布局十萬卡、五十萬卡規模的智算集群。
所以,國内自主化智算近年來的發展雖然迅猛,也是在積極補課,打牢基礎。這時候如果停止,不僅會前功盡棄,還會讓中美在 AI 基礎設施上的差距進一步拉大。
從近期看,自主化 AI 算力需求仍然沒有得到充分滿足,算力荒仍在。
一方面,海外 AI 算力進口受到限制,極不穩定。目前,國内 AI 訓練芯片市場英偉達占據了 80%~80% 的市場份額,要避免威脅供應鏈安全,這種情況必須盡快改變。上海的 " 算力浦江 " 智算行動實施方案(2024 — 2025 年)要在 2025 年,實現新建智算中心的國産算力芯片使用占比超過 50%;《北京市算力基礎設施建設實施方案(2024 — 2027 年)》則提出,2027 年要具備 100% 自主可控智算中心建設能力。
三年左右,從不到 20% 發展到 100%。所以,如今的自主化智算不是太多了,而是還不夠。
與此同時,算力需求仍在增長。大模型的規模法則仍在繼續,以 Sora 爲代表的視頻生成模型對算力的需求量是 LLM 大模型的數倍,已經出現了 " 一棟樓放不下一個模型 "" 一個模型需要多個集群 " 的情況,超萬卡智算中心是必不可少的基礎設施,目前國内的十萬卡集群還遠遠不足。
此外,大煉模型的階段雖然結束了,但基礎模型的市場集中度提高和能力提高,又會釋放 AI 應用需求,促進 AI 的行業滲透率、普及率,導緻 AI 推理算力的需求爆發,急需要更多高質量算力來滿足。目前部分國産 AI 算力集群的利用率極高,西安昇騰智能科技有限公司的人工智算中心算力使用率就高達 98.5%;曙光在長沙的 5A 級智算中心,也吸引上百家企業入駐,實現萬餘個商業應用接入。因此,随着産業智能化升級的繼續推進,國産 AI 算力荒不是已經解決,而是從現在開始重視和應對。
互聯網産業的核心,當然不是寬帶和機房,但沒有 " 寬帶高速公路 ",就沒有美國互聯網經濟的爆發;移動互聯網的核心,也不是基站,但沒有廣泛覆蓋的 4G 基站,就沒有智能手機和移動應用軟件的興起。AI 大模型也是一樣, AI 作爲一種依附在基礎設施之上的軟件技術,核心不是智算,但沒有自主化智算,國内 AI 絕不可能獨善其身、獨自蓬勃發展。
因此,自主化智算并不存在過剩,更不該就此放慢發展。
綜上," 國内 AI 算力過剩 ",是個假問題," 如何合理地推進自主化智算的建設 ",才是真問題。
解決這個真問題,國内智算産業已經來到了承上啓下的新階段。不僅要追求把智算中心 " 建起來 ",還要能運營好、用起來。
因此,智算廠商的競争,也從售賣硬件資源與智算解決方案,轉變爲多維度、綜合性、長期服務的競争。比如華爲昇騰 AI 全棧、中科曙光的 " 立體計算 "、甯暢的 " 全局智算 "、聯想的 " 萬全生态 ",新華三的 "1+N" 智算等,以更全面的能力,支撐自主化智算的建設運營。
追求全面,并不意味着胡子眉毛一把抓,目前來看,智算廠商們主要集中解決自主化 AI 算力的幾個痛點問題:
1. 異構問題。目前,國産 AI 芯片還無法規模化出貨,市場集中度較低,因此都是以混合算力的形式,來加入智算集群。多元異構算力的協同調度、管理、算效、業務可靠性等,面臨很多技術挑戰。如果一個企業或開發者,要針對 ABCD 不同廠商的卡進行适配開發,是不可能的。所以,就需要智算廠商提供相應的系統平台,屏蔽底層異構硬件的複雜性,讓大家用好國産算卡。比如聯想的萬全異構智算平台,實現異構化 AI 算力的管理與調配;新華三面向異構智算的智能管理平台,一站式應對多樣化的 AI 應用場景。
2. 算效問題。解決 " 低質量算力過剩,自主化高質量算力不足 " 的結構性問題,需要進一步提高國産 AI 的性能。面對工藝制程的限制,可以通過軟硬件系統的無縫配合,從而實現國産算卡性能的充分釋放。以昇騰爲例,就與昇思緊密結合,爲各類智算場景提供高性能的自主化 AI 算力,深圳鵬城實驗室的 " 鵬城雲腦Ⅱ " 就依托昇騰實現了中國首個自主可控的 E 級智能算力平台,可以提供不低于 1000Pops 的整機 AI 計算能力。
3. 運營問題。如今,一些地方在智算中心建設之前,開始提出上架率、收益率等要求,需要保證項目投運後有一定的使用率。同時,也會要求建設方提供設計、使用、運營等一體化服務,避免智算中心因無人運營而成爲 " 數字爛尾樓 "。以用促建、以服促用,已經是自主化智算發展的必然潮流。比如新華三與杭州市合作,打造 " 圖靈小鎮 ",培育 AIGC 産業和數字人才;中科曙光 " 立體計算 " 主張 " 算力建設、應用賦能、生态共生 " 三位一體,推動多元算力向新質生産力轉化,目前已經在 5A 級智算中心落地實踐。
回顧這一年多來,國内智算的發展突飛猛進,取得了舉世矚目的成績,我們不必再爲算力荒而憂心忡忡。但人無遠慮必有近憂,AI 算力的自主化之路不能就此戛然而止,而要一鼓作氣,再加把勁,把已經取得的成果夯實,爲接下來的智能浪潮做好準備。
避免低質量算力過剩,與加速自主化智算發展,這兩件事可以并行不悖,也應該理性分開看待。