圖片來源 @視覺中國
文 | 光錐智能,作者 | 姚悅,編輯 | 王一粟
一進入部署了液冷服務器的數據中心,不僅沒有嘈雜的風扇聲,甚至在不開空調的夏日也完全沒有悶熱感。
在大模型引發 " 暴力計算 " 的熱潮下,數據中心的上下遊,正在加緊推進液冷 " 降溫 "。
半年來,服務器廠商在液冷産品上紛紛推出新的解決方案。比如,中興通訊的新 G5 系列服務器,支持不同的冷闆式液冷方案,從 CPU 液冷到内存條散熱 +VR 液冷;聯想升級海神溫水水冷系統,可實現服務器全水冷無風扇設計;新華三也發布全棧液冷解決方案,包含 G6 系列服務器、核心路由器、接入交換機;中科曙光子公司曙光數創 8 月發布了 " 冷平衡 " 戰略,是特别針對數據中心算力、成本、能耗三元平衡問題,推出的全棧液冷數據中心技術與全生命周期一站式服務;去年年底華爲推出全場景液冷 " 天成 " 多樣性算力平台。今年,華爲昇騰再推集成天成液冷的算力集群,可以支持萬卡規模。
" 在‘東數西算’‘雙碳’大背景下,不斷提升的功率密度和 PUE(能效指标,越接近 1 越優)設計要求已成爲行業面臨的主要問題,液冷技術具有高密低碳等優勢,已經成爲應對數據中心散熱壓力和節能挑戰的必由之路。" 中興通訊數據中心産品線規劃總工翁建剛表示。
而就在去年,面對液冷,當上遊設備廠商活躍時,中遊的數據中心還顧慮重重,保持觀望。但現在,像企商在線這樣的中遊企業也已經積極規劃液冷設施,足見液冷已經成爲行業共識。
企商在線 IDC 能力中心售前經理徐濤對光錐智能表示,公司已經在接管客戶的一些 AI 業務,AI 服務器的功耗是通用服務器功耗的十倍左右,風冷的局限性日漸明顯,必須嘗試液冷。
服務器廠商的積極布局,很大程度上來源于客戶的需求逐漸明朗。
數據中心占有半壁江山的三大電信運營商在 6 月親自下場,聯合發布《白皮書》,提出 " 三年景願 ":即 2023 年開展液冷技術驗證;2024 年開展規模測試,新建數據中心項目 10% 規模試點應用液冷技術,推進産業生态成熟;2025 年及以後開展規模應用,50% 以上數據中心項目應用液冷技術。
" 現在液冷基本上所有内容已經通過驗證,進入一個規模擴張的階段。"近期,工信部直屬研究機構賽迪顧問的液冷領域分析師袁钰明确當前液冷所處階段。
其實,液冷并不是新技術,其早已被應用于工業、航空領域。一說,阿波羅登月計劃,就将液冷用于宇航員體溫控制。在數據中心領域,液冷在上世紀 60-90 年代就嶄露頭角。但後來随着計算技術叠代功耗下跌,又被 " 冷落 "。
從被 " 冷落 " 到 " 翻紅 ",液冷經曆了什麽,又将面對什麽新挑戰?
" 暴力計算 " 亟需液冷降溫
風冷是過去很長時間内,數據中心的主流溫控方案,以空氣爲冷卻媒介。液冷和風冷最大的區别,就是冷卻媒介不同," 液冷 " 利用礦物油、氟化液等絕緣低沸點的冷卻液作爲冷媒,通過熱交換将服務器的熱量排出。完全絕緣、無腐蝕性的冷液,單位體積價格堪比茅台、五糧液。
液冷之所以被數據中心重新重視,根本原因是,後摩爾定律時代,芯片、服務器的功耗再呈上升趨勢,随之産生更高的溫度。
" 那一次更讓我深刻理解了溫度對于服務器的影響。" 有着十餘年 IDC 售前經驗的徐濤回憶從業過程中遇到的設備散熱對服務器運行影響的問題," 客戶規劃的服務器功耗 100 多瓦,實際裝的 300 多瓦,而且單機櫃實際密度也比規劃高,結果測出服務器溫度到了六七十度,直接導緻故障率是原來的 10 倍。"
圖源曙光數創招股書
針對數據中心高溫問題,頭部設備廠商更加大力推進液冷,目的大多集中在降低 PUE,具體則從技術、方案等不同角度着力。
據媒體此前報道,中興通訊建設的全液冷數據中心項目中,液冷散熱的比例已經達到了 70%。公司今年 1 月發布的 G5 系列服務器新品支持液冷散熱技術,采用冷闆式液冷散熱,可實現數據中心 PUE 降至 1.1,冷闆 & 管路高可靠連接,全管路智能監控,漏液秒級告警。
聯想則從液體溫度着眼,首創海神溫水全水冷技術。不同于常見的 45-50 攝氏度的技術,聯想通過數據分析,認爲進水 50 攝氏度、出水 60 攝氏度,可以獲得最佳能耗比。海神溫水全水冷技術實現了服務器全水冷無風扇設計,支持多類型 GPU,散熱效率達 98%,甚至可以支持數據中心 PUE 降至 1.1 以下。
後摩爾定律時代,芯片的功率越來越高。尤其是大模型帶來的 " 暴力計算 ",例如,用于訓練 ChatGPT 的英偉達 A100 服務器的最大功耗已達 6.5kW。而此前,傳統的服務器功率 400W 左右已經算很高。
與此同時,AI 産業快速發展,緻使算力需求飙升。但受制于建設面積等客觀因素,增加單機櫃功率密度,成爲調和快速的算力需求與有限數據中心承載力的共識方案。
服務器功耗越來越大,溫度越來越高,所占空間越來越小。可以想象一下,一堆愛出汗的人,擠在狹小的屋子。
越來越高的溫度對于服務器來說是非常大的隐患。
" 芯片溫度每升高 10 度,故障率就會翻倍,壽命也會減半。" 徐濤說,所以散熱已經是當前智算面臨的最大問題之一。
但是,風冷已經被逼近甚至突破極限。每機櫃 15-25kW 的功率密度是 " 未使用背闆換熱器等其他制冷設備 " 的風冷解決方案上限,僅勉強扛得住 2-4 個 NVIDIA A100。
華爲集群計算業務副總裁王振華表示,當芯片的典型功耗超過 300W,每平方厘米的功耗超過 90W 的時候,風冷難以爲繼。而當前業界的主流芯片産品,功耗已經超過這個阈值。
" 機櫃密度不斷提升,會帶來整個制冷系統的造價成本提升。" 曙光數創總裁何繼盛表示," 甚至單機櫃的功率密度達到一定程度,繼續增加投資都不能滿足數據中心的散熱需求。"
另一方面,随着 " 碳達峰 "、" 碳中和 " 等戰略落地,國家到地方對于 PUE 明确的 " 紅線 ",成爲刺激液冷産業加速更爲直接的原因。
4 月,多部門發文,2023 年 6 月起數據中心 PUE 不高于 1.4,2025 年起數據中心不高于 1.3,當前行業平均 PUE 爲 1.5。更多的地方政策,則對數據中心提出了更加嚴格的要求。
相比之下,液冷的單位體積的比熱容足有風冷的 1000 倍以上。(比熱容越大的物質,溫度每上升 1 攝氏度,所吸收的熱量越多);液冷 PUE 普遍在 1.1,甚至不斷逼近 1.0。
新華三已經設計了 PUE
新華三集團液冷服務器産品經理何偉宇認爲,随着産品的快速叠代,單機櫃功率密度的持續演進,對于數據中心的散熱系統提出了更高的要求,像北上廣深等一線城市對于空間和散熱的需求則更爲嚴苛,普通風冷機房的制冷效率已經大大制約了新技術和高算力的演進,這在一定程度上也推動了液冷技術在數據中心的發展和普及。
液冷作爲更有效解決數據中心高密度散熱的新興技術,已經成爲了行業的共識和确定趨勢。
" 去年被業内稱作是數據中心液冷元年,今年已經有越來越多的客戶開始接受液冷方案,液冷在整個市場滲透率有望做到 20%-30%。" 甯暢總裁秦曉甯曾表示。
行業格局來看,海外液冷廠商具有先發優勢,中國廠商後來居上實現突圍。2015-2018 年,中科曙光、華爲、聯想、阿裏巴巴等一衆國産廠商,先後實現了液冷服務器大規模商業應用項目的落地,實現彎道超車。
據《中國液冷數據中心發展白皮書》在 2020 年對于中國液冷數據中心廠商競争力的研究,基于産品營收、市占率、客戶反饋等指标,中科曙光爲市場的絕對領導者,華爲、阿裏巴巴、聯想緊随其後。
液冷的 " 成本賬 "
" 三年前接到調研任務時,液冷還是 ' 黑科技 ',但現在已經進入了應用拓展階段。" 袁钰近期表示。
液冷 " 殺回 " 數據中心,進入拓展期,重要原因之一就是能算得來成本賬。
液冷技術按照液體與發熱器件的接觸方式,可分爲 " 間接接觸型 " 和 " 直接接觸型 " 兩大類。冷闆式液冷是最典型的間接接觸型液冷技術;直接接觸型主要有浸沒式液冷和噴淋式液冷兩種技術,浸沒式液冷最爲典型。通俗講,對應就像人降溫措施,冷敷、冷水淋浴或直接泡冷水澡一樣。
浸沒式和噴淋式液冷技術冷卻效果更好,但由于冷闆式的服務器芯片等發熱器件不用直接接觸液體,所以冷闆式液冷對現有服務器芯片組件及附屬部件改動量較小,可操作性更強、目前成熟度最高、應用最廣泛,最重要的是成本更低。
翁建剛表示,測算來看,功率密度到達一定程度,液冷方案相比風冷已具備經濟優勢,3 年左右能夠實現投資收益平衡。不僅如此,随着液冷市場規模的擴大,相關基礎設施成本也将進一步降低。
曙光數創副總裁張鵬近期也表示,服務器把散熱器去掉,換上冷闆,可能成本會有一些上升,但不需要冷機、空調,以及工程上的一些東西,初投資的時候已經省錢。
據招商研報,數據中心 TCO(總成本),在不計算服務器折舊與服務器運營成本的情況下,當單機櫃功率 >15kW 時,冷闆式液冷 TCO 優勢明顯,當單機櫃功率 >30kW 時,浸沒式液冷開始出現優勢。
此外,無論任何一種液冷路線,相較風冷,都已經在節省電和空間上具備成本優勢。
根據開源證券研究所的統計結果,一個數據中心的能耗分布中,散熱系統的占比高達 40%。也就是說,數據中心每耗費一度電,隻有一半用在了 " 計算 " 上,其他的則浪費在了散熱、照明等方面。計算和散熱幾乎陷入了一場零和博弈,計算量越大散熱消耗的電量越大。
華爲昇騰 AI 計算集群也已經采用液冷散熱。液冷方案本就比傳統風冷方案更省電,昇騰采用了直接把冷夜注入每塊芯片的精準供給方式,相比浸沒式,可以降低日常運維的成本。
" 精準供給取決于芯片闆卡上都設置傳感器、電控閥門,再加上中央控制,可以實現爲不同芯片在不同的負荷下,提供精細化冷量輸送。" 北京昇騰人工智能生态創新中心 CTO 楊光向光錐智能介紹。
華爲昇騰門頭溝數據中心,拍攝:光錐智能
阿裏雲技術專家王鵬曾表示,如果全國的數據中心都采用浸沒液冷技術,預計到 2025 年,一年可節省上千億度電。
液冷散熱效果強大,數據中心不用采用疏密手段。尤其是對于一二線的數據中心來說,液冷的空間成本更突出。
徐濤透露,他們有數據中心,因爲接了一些 AI 業務,原來規劃 246 個機櫃,但現在 GPU 服務器增多,爲了避免數據中心溫度過高,隻能進行疏密,所以一下就砍到了六七十個機櫃。但石景山區的數據中心上了液冷設備空間利用率就會大幅提升,同時可以降低數據中心的 PUE,降低能耗水平。
" 二三線城市的建築成本爲數千元,北京的建築成本爲數萬元,空間成本可以說非常高。" 徐濤表示,雖然目前液冷單千瓦成本較風冷高,但考慮到空間利用率以及節省的電費,液冷制冷方案,還是值得投入的。
規模擴張還需跨越 " 百标大戰 "
雖然已經初步跨過降本這道欄,接下來液冷擴張卻還要面臨新的問題—— " 百标大戰 "。
以冷闆式液冷爲例,主要包括機櫃與服務器,交付方式分爲兩種,一體化交付與解耦交付。解耦交付是液冷機櫃與液冷服務器之間遵循用戶統一制定的接口設計規範,機櫃與服務器解耦,可由不同廠商交付;一體化交付是液冷整機櫃(包括機櫃和服務器)由廠商自定标準進行集成設計開發,整機櫃由同一廠商一體化交付。
液冷産業鏈尚不成熟,當前業内尚無服務器統一接口标準,各廠商産品及配件設計标準各異。兩種交付背後充滿了各方博弈。
對于廠商來說,一體化解決方案的成本一定是更低,開發和交付周期大幅縮短。更重要的是,爲了形成客戶壁壘,廠商也多選擇以産品一體化的交付模式爲主。這導緻各廠商的産品之間兼容性差。
不過,數據中心用戶會對一體化交付充滿顧慮。
一方面,用戶會有遷移需求,比如達成新戰略合作,或者原本就是臨時租用機櫃,以及後續機櫃需要擴容等。如果液冷的設施綁定,遷移成本會增加。另一方面,設備與設施綁定,可能會讓用戶失去議價權。一次性批量采購,設備更新速度快,大概率隻能保持固定供應商,如果選擇其他産品,還需要對基礎設施進行改造。
因此,考慮到用戶需求,數據中心不願意接受一體化方案,就會要求設備廠商解耦。畢竟設備廠商目前還處于充分競争階段,廠商也就不得不解耦交付。
當前超聚變、華爲、浪潮、曙光、新華三等主要液冷服務器廠商皆擁有自己的一體化交付方案與解耦交付方案。
不過,解耦是能解,解耦也可帶來供應商多樣化,有助于控制成本,能夠讓各供應商發揮自身優勢。但是解耦要求甲方協調各個供應商做好對接,過程就會非常耗時耗力。" 每一個環節都得多方密切溝通,也得緊盯落實,一旦出現一點差錯,就導緻系統性問題。" 徐濤說,相對于一體化交付,沒有行業标準,解耦就會變成項目制。
各方拉鋸中,首當其沖的就會是設備廠商。
曙光數創是國内最早布局液冷的企業,液冷基礎設施市占率接近 6 成。但曙光數創今年年中報顯示,冷闆液冷數據中心基礎設施産品,營收收入同比減少 42.55%,營收成本同比減少 33.63%,毛利率同比減少 11.14%。年報中解釋,收入波動的原因是,公司産品是非标準産品,但目前數據中心建設标準各異。
繼而,下遊會因爲種種問題,猶豫嘗試液冷方案,導緻液冷推廣遇阻。
曙光數創也呼籲行業統一标準。張鵬表示,首先如果行業标準對于供水的溫度、溫差、壓力等能夠統一,對液冷成本進一步下降是非常有意義的,也是他們在實際落地中遇到的問題。
不過,行業的标準形成并不會一蹴而就。而徐濤認爲,各方博弈的滾動過程,行業的發展難免會有波折很有可能 " 進三步退一步 "。當然,這也是新興技術必然經曆的過程。
華爲昇騰已經宣布将會發布業界首個萬卡級的集群,也将配套液冷方案,使用天成平台采用的 " 液冷 + 電源 + 網絡 " 三條總線的設計思路。
企商在線石景山公共算力中心預計明年 8 月就交付,雖然還沒有行業标準落實,企商在線則選擇部分高功耗算力采用液冷方式一體化建設,然後直接租算力給客戶。
徐濤表示,後續随着行業發展一定會有新的方案,考慮到芯片功耗越來越高,風冷能力有限,同時 " 碳達峰 "" 碳中和 " 的要求,液冷作爲确定趨勢,當前先做起來比較重要。