2023 開年,浪浪山的一隻小豬妖火出了圈,在《中國奇譚》這部國漫的第一個單元中,小豬妖躊躇滿志,想要做出一番事業,結果費盡千辛萬苦,自己的工作成果卻被否定,然後,小豬妖說出了那句經典台詞 " 我想離開浪浪山 "。
小豬妖的遭遇,戳中了當代打工人的隐痛,也像極了數據中心裡那些鮮為人知,又百抓撓心的困境。
近年來,我們能夠在很多論壇、峰會、發布會商聽到一些高瞻遠矚、提綱挈領的話,比如 " 計算力就是生産力 "、" 數字經濟的基礎設施 "、" 上雲用數賦智 " 等,這些宏觀層面的趨勢、路線支撐着雲數據中心、智算中心等計算集群的快速發展,我們也在此前的文章中分析過很多。
不過,實際建設過程中,會面臨這樣那樣的具體挑戰,可能是坐在辦公室 / 研究所,對着 PPT 指點江山的人很難想象的。
比如西部某高校中計算中心的一個女工作人員曾告訴我,服務器散熱主要靠風冷,維持降溫會加大送風風力,她們女員工進機房都是沒法穿裙子的;機房内的噪音很大,常年負責運維的同事,聽力也受到了損害。
這些細節而真實的難題,構成了數據中心必須翻越的浪浪山,否則就會像小豬妖一樣疲憊且做無用功,而這些問題,隻能從紮根在腳下的土地中來,從與一線人員交流中來。今天我們就結合一些實地見聞來聊一聊,數據中心正在等待翻越哪些山巒。
第一重山:電
談到數據中心的中美差異,你會想到什麼?芯片、架構、軟件、産業鍊?有一個容易被忽略但很重要的因素是:供電。
益企研究院自 2018 年來實地考察了多個國内雲數據中心,發現 2 路 2U 是國内服務器市場上的主流規格,IDC 的服務器市場追蹤報告也證實,2018 — 2021 年,機櫃式服務器中 2U 規格占據了 70% 左右。然而,美國市場上,1U 反而更受歡迎。
1U 和 2U 究竟是什麼?到底是什麼原因導緻了這種差别?又意味着什麼呢?
(中國電子信創雲基地(順義)機房的 2U 服務器)
我們知道,随着 IT 設備技術的變化,現代數據中心采用的服務器高度一般為 1U 或 2U,U 指的是機架式服務器的厚度,1U 是 4.45 厘米,而早期數據中心的機架式服務器高度一般在 3-5U。
U 的數字越少,服務器高度越低,單機計算密度越高,1U 服務器的計算密度可以達到 2U 服務器的兩倍。然而,東數西算工程中對數據中心集群的要求,京津冀、長三角、粵港澳大灣區、成渝這幾個樞紐節點都強調了 " 高密度 "。因為隻有密度更高,才能在有限的土地面積上供給更多的算力,提高土地資源效益。
這樣看,1U 應該是更好的選擇,但實地走訪得到的結果,卻是 2U 規格在中國雲數據中心的占比較多,這是為什麼呢?這裡有一個決定性因素——供電能力。
因為 1U 比 2U 更耗電,支撐約 18 台 2U 服務器的單機櫃供電量需要達到 6kW,如果換成部署 36 台 1U 服務器,那供電量就要達到 12kW。如果單機櫃的供電能力達不到,就無法充分發揮 1U 的密度優勢。
(和林格爾東方超算雲數據中心内景)
而目前,我國數據中心的機櫃功率還是普遍偏低的,主流功率以 4-6KW 為主," 東數西算 " 工程的宣傳中,甚至還可以看到 "2.5 千瓦标準機架 " 的配置,6kW 以上的機櫃占比隻有 32%。
數據中心的供電系統,既有舊疾,也有新患。舊疾在于,傳統數據中心的各個機電系統分别運行,采集精度不足,調控範圍也有限,供電能力和 IT 需求無法精細化對等,一旦單機櫃功率密度加大,電源連續運行的可靠性就可能受到影響,發生停機中斷的風險也會增大。對于雲服務商來說,雲數據中心斷電會直接導緻客戶業務終端,帶來經濟損失,這是不可承受之重。
新患在于,國家提出 " 雙碳 " 戰略後,建設綠色節能數據中心已經成為共識,而單機功率密度的增加,會直接提高制冷要求,從而增加空調設備和空冷用電。以 2021 年數字中國萬裡行考察過的雲數據中心為例,騰訊雲懷來瑞北數據中心使用 52U 機櫃,UCloud(優刻得)烏蘭察布雲基地使用 47U 和 54U 的機櫃,如果都改用 1U 服務器,不僅不能真正提高密度,反而會增大服務器散熱設計的挑戰。
已知數據中心必須提高計算密度,那就要提高單櫃密度,單機櫃功率需要更高可靠、高可用的供電能力來保障,因此可以得出,供電能力接下來會是中國數據中心必須翻越的一重山。
第二重山:冷
前面提到,機櫃功率密度的提升,會讓制冷用電上升。可能有機智的小夥伴會問,采用更高效節能的制冷方式,不就可以解決這個問題,順利向高密度進化了?
确實如此,數據中心行業為了更加節能的制冷系統,可謂是操碎了心。一方面是加速 " 西算 ",充分發揮烏蘭察布等西部地區的氣候優勢,建設新數據中心,利用室外自然冷源。" 數字中國萬裡行 " 實地考察了 7 個數據中心集群,發現張家口數據中心集群、和林格爾數據中心集群的數據中心,一年有 10 個月以上的時間可以使用自然冷源,年均 PUE 可達 1.2。
另外就是發揮液體冷卻在降低能耗上的優越性,逐步用液冷服務器替代風冷。比如阿裡巴巴 2018 年在河北省張家口市張北縣部署了一個浸沒式液冷(Immersion Cooling)機房,一個卧置的 54U 機櫃,部署 32 台 1U 雙路服務器和 4 台 4U 的 JBOD。開篇我們提到,風冷機房給女員工着裝上帶來的小困擾,液冷技術就能很好地解決這個問題。
這是不是意味着,液冷技術很快會在數據中心行業普及呢?結束 2021 年數字中國萬裡行後,益企研究院推出的《2021 中國雲數據中心考察報告》,給出了 " 謹慎觀望 " 的答案。
我們認為,原因有三:
1. 成熟期的生态問題。
液體冷卻雖然制冷效率遠高于風冷,但長期以來,風冷機房在數據中心建設中占據了主流,幾十年一貫制的風冷服務器已經形成了成熟的生态鍊,建設和運營成本都有優勢,因此一些氣候優越的地區,風冷方案就可以滿足降 PUE 的需求,比如華為烏蘭察布雲數據中心就以 8 千瓦的風冷機櫃為主。此外,在一些東部中部地區有引入液冷的需求和意願,但也要考慮成本,如果能夠通過優化 UPS 架構,采用智能化能效管理方案等,取得顯著的節能效果,那麼能風冷就風冷。
2. 過渡期的技術問題。
當然,對于 HPC、AI 等計算,采用液冷的優勢很大,因此也有一些公司希望嘗試液冷技術,但又不想改造風冷機房,于是從風冷升級到液冷的過渡期,出現了 " 風液混布 " 的市場需求。
我們知道,風冷服務器可以與制冷設備松耦合,環境适應性、靈活度很高,而浸沒式液冷需要将服務器的闆卡、CPU、内存等發熱元器件完全浸沒在冷卻液中,噴淋式液冷則需要對機箱或機櫃進行改造,二者帶來的成本都比較高。過渡期中,冷闆式液冷與風冷混合使用,是比較适合的方案。但是,冷闆式液冷要将冷闆固定在服務器的主要發熱器件上,依靠流經冷闆的液體将熱量帶走,全密封和防洩漏要求高,設計和制造難度很大。
(華為雲東莞松山湖數據中心部署的 Atlas 900 集群,采用風液混合技術散熱)
3. 産業鍊的協作問題。
液冷數據中心需要産業鍊上下遊的協同創新,包括制造、設計、材料、施工、運維等各個環節。風冷模式也正因為松耦合,導緻制冷行業和數據中心行業是比較割裂的,推動數據中心向液冷變革,必須要構建一個新的生态,加強各角色的聯系,降低液冷服務器的前期制造成本和後續維護成本。這需要一個多方磨合、配合的過程,不是一朝一夕能夠實現的。
從這些角度來看,液冷數據中心雖然是大勢所趨,但還有較長的路要走,整個行業都在持續關注變化。
第三重山:芯
如果說供電效率、風冷液冷,是雲數據中心機房基礎設施的重要變化,那麼芯片可能就是 IT 基礎設施的重點關注對象。
2021 年,由安謀科技獨家冠名贊助的數字中國萬裡行,在考察貴州、内蒙古烏蘭察布、和林格爾期間發現了一個新的現象——中國 " 芯 " 力量正在崛起,國産技術的成熟度和應用程度正在提升,追趕主流。阿裡雲的倚天 710、AWS 的 Graviton、Ampere 的 Altra 等,都獲得了長足的發展與應用。
造成這一局面的原因很多,比如雲全棧走向自主化,為中國 " 芯 " 提供了市場支撐;政務、金融、交通、電力、制造等行業的數字化加快,為中國 " 芯 " 提供了應用落地場景;x86 與 Arm 并存,為中國 " 芯 " 基于新架構進行定制和優化提供了研發基礎。
但必須指出的是,月亮都有暗面。中國 " 芯 " 崛起的背後,也要看到中國半導體領域還艱難中探索。
首先,是制程工藝的枷鎖。我們知道,摩爾定律的延續是基于制程工藝的推進,然而半導體制程工藝的提升已經觸達天花闆很久了,跟不上芯片規格提升的速度。所以,雲數據中心開始采用 " 堆 CPU" 的做法來提升機櫃密度,但是靠堆料帶來的性能提升是有邊界的,不能止步于此。
于是後摩爾時代,小芯片(Chiplet)開始被很多國産芯片廠商選中。這種新的芯片設計模式,可以把多個矽片封裝在一起,組成一個芯片網絡,x86 和 Arm 生态系統都在采用這項技術。但需要注意的是,目前的 IP 重用方法中,對 IP 的測試和驗證已經有比較成熟的方法,但多個 Chiplet 封裝後如何測試、良率怎麼保證,還是中國 " 芯 " 必須解決的問題。
更主要的是,小芯片的封裝依靠先進的封裝技術,芯片 I/O 接口可以和封裝協同設計并優化,對于芯片性能的提升非常重要。這就要求先進封裝設計與芯片設計有較強的交互性,同時也對設計工具提出了一定的要求,我們知道,EDA 工具一直是我國半導體領域的 " 軟肋 " 之一,這一點不解決,在 Chiplet 越來越重要的當下,中國 " 芯 " 很難高枕無憂。
目前看來,數據中心集群作為數字基礎設施的重要組成部分,正在發生一系列變化,究竟幹得怎麼樣,有哪些待解問題,是一個必須回答又不容易回答的問題。
不識廬山真面目,隻緣身在此山中。很多事情,隻有在貼近實地一線,再抽離出來縱覽全局,才能看到困住數據中心前進腳步的一重重 " 浪浪山 "。
2023 數據中心需要跨越的山巒還很多,盡管道阻且長,但隻要一直行在路上,總有海闊天空任鳥飛的那天。