圖片來源 @視覺中國
引入全液冷冷闆系統設計,采用服務器 100% 液冷散熱模式,實現數據中心的 " 去空調化 ",是最近一段時間業内提出的新方案。
不過,從現實情況來看,使用常規冷闆式液冷散熱,将生成式 AI 工作負載或其他雲負載運行在數百張 GPU、CPU 或加速卡搭載的服務器集群上。這才是當下大規模數據中心設計時的主流選擇。
而最終的命題是找到适合于本地用戶需求場景的散熱方案,放眼全球都适用。
中國,液冷最大的試驗場
IDC 發布的《中國半年度液冷服務器市場(2023 上半年)跟蹤》報告數據顯示,中國液冷服務器市場在 2023 年仍将保持快速增長。2023 上半年中國液冷服務器市場規模達到 6.6 億美元,同比增長 283.3%,預計 2023 年全年将達到 15.1 億美元。IDC 預計,2022-2027 年,中國液冷服務器市場年複合增長率将達到 54.7%,2027 年市場規模将達到 89 億美元。未來,中國将成爲液冷技術應用最大的試驗場,據測算,預計到 2025 年中國液冷數據中心市場規模将達 20% 以上。
在中國市場,過去幾年爲響應國家 " 雙碳 " 号召,以及東數西算等算力政策的牽引,頭部超大規模數據中心(主要是頭部互聯網企業和三大運營商)在積極推動液冷的使用,希望在綠色算力領域有所創新。
最新公布的一份白皮書中,施耐德電氣闡述了适應當下 AI 工作負載的數據中心設計指南,其中包括數據中心配電升級至 240/415 V,液冷 CDU 的投入使用,采用更寬更深的機架以容納配電單元和液冷歧管等等。
從海外局面來看,目前北美地區企業主要是微軟、亞馬遜、谷歌、Meta 的互聯網超大規模數據中心在使用液冷技術,而歐洲地區則主要局限在一些科研院所。
例如,去年 AWS 與英偉達的合作項目 Project Ceiba 中,AWS 數據中心配備了英偉達 Grace Hopper 超級芯片,用于支撐 GH200 NVL32 的 DGX Cloud,而該數據中心還是 AWS 首個采用液冷技術的 AI 基礎設施,原因就在于确保高密度服務器集群能夠以最佳性能高效運行;更早地,在 Ignite 大會上,微軟宣布推出的兩款爲數據中心定制設計的 AI 芯片和相關集成系統,其中也用到了液冷技術。
在中國市場,市場對液冷的态度還存在一些不确定性。由于目前老舊數據中心保有量比較大,也沒有跟上液冷改造的步伐,在改造難度和成本上都存在一定挑戰。尤其是對于某些不可改造液冷的數據中心,隻能通過其他途徑降低數據中心 PUE 值。浪潮信息服務器産品線總經理趙帥的觀察是," 現在液冷市場很熱,但真正落地的還沒有那麽大,基本在 10% 的市占率。"
在技術層面,相變冷闆液冷、鋁冷闆全液冷、針對異構加速的冷闆等等技術方案,目前仍處于研究探索和測試驗證階段。
冷闆式液冷,占九成
在液冷技術領域,大緻分爲噴淋式液冷、浸沒式液冷、冷闆式液冷。其中,冷闆式液冷提供了靈活的解決方案:CPU、GPU、DIMM 等核心發熱部件與冷卻液之間沒有直接接觸,其他部分散熱通過風冷精密空調來輔助冷卻,對現有服務器芯片組件及部件改動小,因而也是目前應用成熟度較高的液冷散熱模式。
相較之下,傳統的風冷散熱難以跟上數據中心設備散熱的需求,綠色數據中心正摒棄這種做法。而噴淋式液冷能達到最低的能耗,但目前技術尚不成熟,浸沒式液冷技術是将發熱器件直接浸沒在絕緣性液體中,将熱量從發熱器件傳導至液體,但當前技術成本頗高。钛媒體此前與國内某服務器産品專家交流獲悉," 通常一台液冷整機櫃的成本大概在數百萬,對于普通的服務商是很難接受的,互聯網公司即便有資本去做這件事情,也基本會采用組合式方案。"
IDC 數據顯示,冷闆式液冷已經成爲液冷數據中心的主流,在中國液冷服務器市場中的占比達到 90%。
整體來看,單機櫃功率超過 20KW 時,采用冷闆液冷技術具備高效散熱、低能耗、低 TCO、低噪聲、低占地面積等顯著優勢。當單機櫃突破 100KW 時,在浪潮信息數據中心産品部副總經理李金波看來,冷闆式液冷方案的換熱能力依然存在極大的優勢," 無論是單相式冷闆還是兩相式冷闆液冷,還沒有達到換熱瓶頸。"
從更微觀的角度來看,例如同樣是單相式浸沒和單相式冷闆進行對比,參照系數是流過散熱器的冷卻液(前者是油和氟化液,後者一般是水)表面的傳熱系數。通過計算可以得知,要達到相同的冷卻程度,浸沒式液冷是遠高于冷闆式液冷所需液體流量的 4 倍之多。這種換熱能力優勢,其實在兩相式液冷中同樣存在。
不過,在英特爾解決方案咨詢顧問李昌中看來," 全球用戶對綠色高效算力的追求是一緻的,隻是受限于各地域用戶所處環境。"另外,他還提到一些區域性用戶特點:如東南亞、印度等熱帶地區用戶,對冷闆式液冷的采用會更加積極;在一些環境比較惡劣的地區,在邊緣服務器産品可能還直接用上浸沒方案。
憑什麽是全液冷
由于液冷産業标準不完善,産業鏈上各個企業技術路徑多種多樣、産品規格千差萬别,産品質量良莠不齊,各液冷模塊無法兼容,讓用戶難以選擇,獲取成本和使用門檻高,液冷産業發展面臨阻礙。
因而,中國液冷市場的最大的機會還是在于,通過本土企業的創新和實踐,形成産業标準,繼而推廣到全球市場。
趨勢上看,冷闆式液冷中的冷闆主要覆蓋 CPU、GPU、DIMM 等核心發熱部件,爲進一步提高冷闆液冷覆蓋率,滿足數據中心高能效、高密度綠色發展需求,冷闆液冷技術發展正逐步向全液冷演進。
目前浪潮信息與英特爾聯合發布的全液冷冷闆服務器參考設計,實現了對 CPU、高功耗内存、NVMe 硬盤、OCP 網卡、電源、PCIe 轉接卡和光模塊等服務器主要發熱部件的冷闆全液冷覆蓋,PUE 降至接近于 1 的水平。同時,該産品針對不同部件的結構、材質、工作溫度等差異化需求,設計了諸多系統部件級液冷解決方案,包含 PSU、内存、硬盤、擴展模塊等,靈活性更高。
例如,浪潮信息已 All in 液冷,其目的是希望客戶用上全棧液冷産品。這種策略其實也容易理解:在客戶真實場景中往往是多種服務器并存,針對不同業務需求提供不同液冷服務器,供客戶靈活選擇。同時,全液冷實現了系統極簡,隻用一套管理系統,并且除了硬件系統之外,浪潮信息還在通過數據中心的管理軟件對機房内外圍及各節點進行統一控制,實現整個數據中心能效的最優化及維護上的便利性。
這可能也是客戶遇到但尚未意識到的痛點,可盡可能減少客戶顧慮,推進快速落地。
而更進一步地,對于算力基礎設施供應商而言,将可以通過設計開放,爲産業探索全液冷冷闆解決方案提供新思路,推動形成開放标準,加速全液冷冷闆技術的普及和規模化應用,解決液冷産業化能力的最核心挑戰。
随着綠色算力建設的推進,液冷技術突破的瓶頸其實還遠遠沒有到來。
(本文首發钛媒體,作者 | 楊麗)