大模型,是數據中心産業十年一遇的變革。
相比于以 GPT 爲代表的大模型帶來的現象級熱度,數據中心産業太不「性感」了。長久以來,數據中心産業較爲成熟,但是重資産、長周期、年折舊額高的屬性,注定了它不是一門互聯網式的快生意,也缺少激動人心的故事。
但不論是互聯網,還是如今的大模型,數字世界都得依靠物理基礎。簡而化之,AI 産業的最上層是各種應用,如人臉識别、工業大腦、智能客服,當然還有 ChatGPT,支撐這些應用的則是雲計算平台,承載了大模型和算力調度等軟件功能,數據中心在更下一層," 風、火、水、電 " 基礎設施,加上芯片、服務器等,海量數據的存儲和計算都在此發生。
上層應用技術,直接影響底層數字基礎設施,數據中心層級的變化往往容易被忽略,實際上,通信、互聯網、雲計算和大模型的發展,分别對應機房、數據中心、雲數據中心、智算中心(AIDC)的不同形态,尤其是大模型代表的人工智能技術,可能比此前所有的影響加起來還要大。
中國信息通信研究院雲計算與大數據研究所所長何寶宏表示," 今天的數據中心仍然是傳統技術和創新技術混合,再過大概十年,我們會進入數據中心原生的時代,這些技術是土生土長專用于數據中心,比較有代表性的如液冷技術、智算中心的飛速發展。"
2023 年,數據中心行業之間的交流頻率明顯多了起來,在産業變換的關鍵節點,一面是客戶需求驅動下的 " 大幹快上 ",另一面則是未被厘清的新技術路線,大模型讓數據中心廠商隐約嗅到了行業洗牌的味道。
" 數據中心大幹快上,就等 GPU 了 "
過去一年,中國數據中心産業開啓了一場算力進化的新征程,國家政策點名了方向。2023 年 10 月份,工信部六部委印發《算力基礎設施高質量行動計劃》,首次提出了算力中心相關的概念和發展要求,将通用數據中心、智算中心、超算中心都納入了算力基礎設施的内涵。
其中明确到 2025 年,算力規模要超過 300EFLOPS,智能算力占比達到 35% 以上,重點行業的核心數據、重要數據的災備覆蓋率要達到百分之百,每個重點領域要打造 30 個應用标杆等。
與此同時,數據中心全面智算化,截至 2023 年上半年,全國在用的數據中心總規模超過 760 萬标準機架,算力總規模達到了 197EFLOPS,已經位居全球第二。新增的算力設施中,智能算力的占比超過了 50%,成爲了增長的新熱點。
根據科智咨詢最新統計的數據,2023 年 1 月份到 12 月份初,全國立項規劃建設的智算中心的項目數量達到 118 個,其中規劃算力大于 1000P 的項目 16 個,大于 500P 以上的 26 個,大于 100P 以上的項目 56 個。
而對于大部分數據中心服務商來說,今年的主旋律就是一邊大幹快上新建智算中心,一邊等 AI 算力卡,更準确地說,是主要依賴 GPU 供應市場份額 90% 的英偉達,否則隻能選擇性能和産能不足的其他供應商。
數據中心服務的核心是服務器,其架構設計也是圍繞服務器,當服務器發生任何一種變化,數據中心就要相應做出調整,結合客戶預算和需求做兼容或創新的改變。大模型火爆之前,純 GPU 服務器的數據中心很少,充其量就是大規模數據中心有少數幾個 GPU 服務器機房,而且由于 GPU 的成本高昂,隻有大型互聯網等企業才有相應儲備。
一位數據中心業内人士提到,"2023 年是算力大元年,全行業都在搶 GPU 卡,而且是瘋狂地搶,因爲受到貿易政策的影響,現在進入到暫緩供應的階段,目前大家還是在積極部署數據中心,預計未來一段時間行業會有非常大的發展空間。"
" 理論上客戶需求的緊迫性走在我們前面,但是客戶也受限于上遊 GPU 的供應,能不能按計劃拿到足量的算力卡是關鍵。我們與算力客戶先做算力中心規劃設計,先把符合需求的算力中心樓建造出來,分階段交付機電等,讓客戶有卡就能立馬上架 ",普洛斯數據中心平台産品部副總裁韓玉說。
韓玉透露,今年接到的需求中,超過七成以上都是智算中心的需求,由于大模型對算力的需求異常旺盛,大模型廠商對數據中心建設的時間表也一再壓縮。
在 2014 年左右,雲數據中心的建設從空地開始,到機電交付是 11 個月,在 2019 年,行業領先的水平大概能做到 9 個月左右,今天數據中心可以做到從空地開始建設,到測試完成上架大概在 7 個半月左右。
以普洛斯今年交付的某項目爲例,該客戶布局大模型之後需要自己的智算中心,4 月下訂單,8 月底安裝完,9 月底做驗收,10 月份整個項目已經投入運營,數據中心整體建築采用了大量預制模塊,包括鋼結構的預制樓、預制制冷模塊、電力組合标準模塊、預制機櫃及通道密封預制化,從而實現快速交付。
大模型如何改變數據中心
爲了滿足大模型的訓練需求,智算中心有幾大明顯的變化,首先是服務器和機櫃功率顯著提高,傳統 x86 架構的通用計算服務器,标準形态是 2U2 節點或 4 節點,一台服務器功率 600W — 900W,四十多 U 的機櫃空間裏插 12 — 15 台服務器,其餘部分是交換機、電源等模塊。到了智算時代,一台 GPU 服務器八張 GPU 卡加兩個 CPU,至少 10 千瓦、12 千瓦起步。
以前一台服務器裏既有 CPU,又有内存和硬盤,今天的 GPU 服務器更像一種純算力的堆疊,在一定規模下,大模型訓練效率随着 GPU 數量增加而提高,前提是網絡時延足夠低。
智算中心的第二大變化,便是短距離傳輸,降低網絡時延。韓玉表示,通用服務器架構設計需要算力經網卡互聯造成轉換速率較慢,英偉達實現了 CPU 直連 GPU 的直接通信的架構設計,算力效率數量級提升,更高功率、更短距離、更低時延、更可靠的 GPU 互聯,是大模型訓練的基礎。
" 今天的智算業務集群裏,網絡成本超過 20%,短距離高可靠性的低延時,是大家願意投入去創新優化的環節,因爲足夠有性價比。" 他說。
第三,目前智算中心還未完全定型,架構設計要具備高度兼容性。合盈數據 CTO 周天宇提到,芯片、功率密度、風液混合,三者均存在變數,一個數據中心 的壽命如果以 20 年計,基礎設施如何應對由于芯片,不同制冷方式帶來的散熱挑戰,也是行業面臨的共性問題。
周天宇說,美國芯片禁令一次次嚴峻,從 V 系列到 A 系列,再到 H 系列,加上國産芯片以華爲爲代表的昇騰 910B,一紙禁令就可能導緻某款芯片斷貨,數據中心要能兼容不同類型、不同品牌、不同系列的芯片,不同芯片的采用直接影響服務器的功率密度,而高功率密度呼喚更高效率的制冷方案。
前述人士認爲,國外要封鎖中國的 AI 算力,隻能是短期封鎖,國内一些集成電路廠商或者 GPU 廠商正在加速發展,大概需要 1 — 2 年的時間緩沖,原來數據中心适應的是國外 GPU 服務器,現在開始考慮适應國内 GPU 和 CPU 服務器,機遇遠遠大于挑戰。
科華數據股份有限公司高級副總裁鄒建忠也表示,機櫃功率密度越大,芯片液冷散熱的比重就會越高,結合南北方的天氣因素,北方氣候條件比較好,對液冷需求相對沒那麽高,南方則必須要有液冷,政策嚴格限制 PUE 在 1.2 到 1.3 左右,傳統風冷方案遠遠沒辦法滿足,隻要功率密度上升,液冷是必經之路。
大模型訓練消耗了高昂的電力成本,而推理對于算力的需求可能是訓練的 10 倍。從電力成本的角度考量,無論是面向訓練還是推理,行業内形成了基本共識,支持大模型訓練的智算中心,大家基本上傾向于到相對偏遠、電費比較低的地方,推理還是放在離城市比較近的區域,更多是環一線城市。
韓玉解釋道,雲計算中心的業務本身就需要很短的數據交互和災備切換,大量業務在做實時計算,大模型所在的智算中心則不同,當一家大模型廠商有上億用戶,用戶問的問題分類相同,推理和計算需求大緻相同的基本都算過了,隻需要很小的網絡接入的服務就可以,計算和推理可以适度解耦,後台專注大模型大需求算力,前台推理分布布局。
新型智算中心的建設邏輯
" 如果今天我們想做新一代的智算中心,一定不要想着‘穿舊鞋走新路’,一定要有新的思維、新的方法來應對智算中心的需求和發展。" 周天宇道出了行業的集體思考。
智算中心的建設牽一發而動全身,十幾兆瓦的傳統數據中心,已經算大規模數據中心,有時需要一兩年,甚至兩三年才放滿服務器,但是今天在建的智算中心,十幾兆瓦是起步,算力集群規模越來越大,就算是七十兆瓦的智算中心,十幾萬張 GPU 就能吃光電力。
傳統雲計算中心承載的是同城兩點之間可漂移的雲業務,今天的算力集群完全不同,很多數據中心已經把網絡連到了推算一體,單一數據中心體量特别大。
據悉,美國純 CPU 的數據中心機櫃在 15 千瓦左右,GPU 機櫃平均在 25 千瓦,國内很多大廠單個機櫃的密度能上升到 70 — 100 千瓦,風液兼容是比較大的趨勢。随着 AIGC 時代的到來,美國一個數據中心園區能達到 200 兆瓦— 500 兆瓦,單棟數據中心考慮到網絡、GPU、光纖等因素,數十兆瓦規模更多。
" 我們遇到最新需求是要在一個園區裏直接做一個 5 萬卡的大集群、60 兆瓦的一個單體,跟雲計算分成幾個樓和若幹集群是完全不一樣的概念,結果就是單機功率很高,單元區越來越大。這時候優先需求維度是算力效率怎麽最大化和算力最佳性價比,其次才是優化 PUE。解決方案就是堆高功率密度和集中空間,結合最短光纖直連。所以智算時代,基礎設施彈性就是最大的挑戰。" 韓玉說。
爲了滿足高密度兼容彈性需求,普洛斯智算中心的建築模型在規劃階段,就把建築外部空間到機櫃内部空間,做成幾個模式組合,比如說 40 個 10 千瓦或者 10 個 40 千瓦服務器,怎麽在一個空間裏承載,在更短距離實現收斂,同時兼容風冷和液冷的不同制冷方式,冷水系統也可做到全預制化,上下均可堆疊,液冷機櫃可以前布線也可以後布線,并在建築上方預留出制冷空間,解決風冷或者液冷的擴展問題。
鄒建忠提到,闆式液冷和浸沒式液冷,是行業不同的創新方向,取決于現階段客戶評估的收益,過去的英偉達 H800 等芯片原生不支持液冷也就沒有大批應用,如果新機房長期功耗特别大,浸沒式液冷會更合适,但是如果從投資收益來看,前期投資太高,浸沒式液冷的投資收益并不好。
钛媒體了解到,也正是因爲成本高等原因,行業普遍傾向于用闆式液冷作爲過渡,目前 20 千瓦左右的機櫃占主流,闆式液冷能夠較好滿足散熱需求,阿裏雲此前大力推進浸沒式液冷,但從今年開始,加大了對闆式液冷的投入,根本原因也是行業沒有達成共識,阿裏雲自身要付出的成本高昂。
不過浸沒式液冷依舊在小規模試驗,例如,字節跳動在東南亞就采用浸沒式液冷來保證服務器的穩定性,雖然單體功耗不高,但是東南亞氣候炎熱,浸沒式液冷的投入産出比有所提高,闆式液冷和浸沒式液冷無所謂領先與否,還是要結合應用場景具體選擇。
數據中心産業已經很久沒有如此熱鬧,既有挑戰封鎖的躍躍欲試,也有迎接新技術浪潮的興奮感,無可否認的是,未來很長一段時間,數據中心将被大模型重塑。
(本文首發钛媒體 APP 作者|張帥,歡迎添加作者 mr3right 交流,钛媒體作者張申宇對本文亦有貢獻)