目前,人工智能按照進化階段分爲了弱人工智能(ANI)、通用人工智能(AGI)和超人工智能(ASI)三個階段。自 1956 年麥卡錫、明斯基等科學家首次提出 " 人工智能(Artificial Intelligence,簡稱 AI)" 這一概念,标志着人工智能學科的誕生;到 2017 年,谷歌 Transformer 模型的發布颠覆了傳統的自然語言處理模型,奠定了生成式 AI 的基礎;再到 2022 年,OpenAI 正式發布 ChatGPT 并在短短 2 個月内實現了用戶數破億,大量類 ChatGPT 的通用人工智能随之湧現,正式揭開了 AGI 時代的序幕。正如微軟 CEO 薩提亞 · 納德拉所說,"AI 的黃金時代正在到來,并将重新定義我們對工作的全部認識 "。在各個行業中,必将湧現出無數基于類似 GPT-4 這樣的通用 AGI 平台的創新應用,重構行業的産品、服務和流程,進而影響我們每一個人的工作、生活和學習。
新華三集團副總裁、互聯網事業部總經理李喬
人工智能的三要素包括數據、算法及算力。作爲 AI 原料的數據是十分有限的,可利用的公域數據在 2026 年之前就會被大模型全部訓練完成。場景化 AI 訓練、微調的數據來源将尤其依賴于有價值的私域數據,但私域數據往往是不開放的,隐私計算和聯邦學習則将成爲打破數據孤島極爲可行的方案,同時合成數據技術的應用也将成爲必然。此外,算法複雜度呈指數級增長,模型層數、參數規模快速膨脹的同時也在不斷突破。當下,三要素中的算力成爲了很多應用落地的最大瓶頸。那麽,AI 算力基礎架構具體面臨哪些挑戰與機遇?
PART.1
挑戰
在 AGI 時代,數據大模型的參數規模呈現出快速增長的态勢。GPT 從 2018 年的 1.17 億發展到 2020 年的 1750 億,文心一言 3.0 參數規模達到了 2600 億,Google 的 Palm 2 參數量也超過 3400 億。随着參數模型的日益龐大、摩爾定律陷入瓶頸。對計算效率精盡的追逐,使得馮•諾依曼模型的先天性不足被成倍放大。計算牆、内存牆、通信牆、能耗牆成爲了 AGI 算力基礎架構的四大挑戰。
首先談談 AI 計算的主角 GPU:大模型并行計算量巨大,以 GPU/TPU 代替 CPU 進行大量簡單重複計算,雖然計算效率有了明顯的提升,但單卡算力和大模型所需總算力之間仍然存在巨大差距。以 GPT-3 爲例,每進行一次訓練叠代需要消耗 4.5ExaFlops 算力,而主流 GPU 卡單卡算力隻能達到 TFlops 級别,百萬級别的算力差距便産生了算力牆。分布式訓練在一定程度上解決了算力牆問題,但綜合考慮 TOC 及不同的 AI 場景,使用專業的芯片和異構計算架構将成爲突破算力牆的另一個必要方向。
參數量是衡量模型大小的最關鍵指标,參數越多對内存的需求越大。以 1750 億參數的 GPT-3 爲例,參數量(FP16 精度)需要 350GB 内存(175B*2Bytes),梯度(FP16 精度)需要 350GB 内存(175B*2Bytes),優化器狀态(FP32 精度)需要 2100GB 内存(175B*12Bytes),總計需要 2800GB 内存(350GB+350GB+2100GB),而主流的 GPU 卡僅能夠提供 80GB 顯存,單個 GPU 無法裝下如此龐大的參數量。此外,現有的計算架構以 CPU 爲中心,CPU 主内存與 GPU 本地内存無法統一尋址,内存資源相互隔離,GPU 無法高效的使用 CPU 主内存資源,最終導緻産生内存牆。
我們在利用大型分布式訓練解決算力牆和内存牆問題的同時,又産生了通信牆。不同的并行訓練方式下,服務器内及服務器間會分别引入 AllReduce、AlltoAll、梯度數據聚合與分發等通信需求,通信性能強弱将影響整體計算速度的快慢。以千億級參數規模的大模型訓練爲例,單次計算叠代内梯度同步需要的通信量就達到了百 GB 量級。此外,AI 大模型訓練是一種帶寬敏感的計算業務,測試數據表明,采用 200G 網絡相對于 100G 網絡,會帶來 10 倍以上的性能提升。基于以上兩方面,一張能夠爲機間通信提供高吞吐、低時延服務的高性能網絡十分重要,服務器的内部網絡連接以及集群網絡中的通信拓撲同樣需要進行專門設計,實現算網的高效協同。
大模型的訓練和推理是兩頭能量怪獸,勢必帶來極大的功耗。當前業界主流的 8 卡 GPU 服務器最大系統功耗達到 6500W,用于 GPU 服務器之間互聯的 128 口 400G 以太網交換機的功耗也接近 3500W。假設 ChatGPT 要滿足每天 2.5 億的咨詢量,需要使用 3 萬張 GPU 卡,那麽,僅僅在推理環節每天消耗的電費超過就超過 50 萬(按照每度電 0.8 元計算),因此能耗牆是每個運營者都要面對的現實問題。
算力牆、内存牆、通信牆和能耗牆這四大挑戰之間存在一定的關聯性,這也決定了我們不能靠簡單的堆砌來解決問題,産品架構的系統性設計顯得更爲重要。紫光股份旗下新華三集團在計算、網絡、存儲方面都有長期的積累和沉澱,能夠系統性地研究和考慮以上的問題,并提出相應解決方案。
PART.2
算力牆應對之道
面對 AGI 時代算力的爆發式增長需求,單一處理器無法同時兼顧性能和靈活度。在此情況下,用最适合的專用硬件去承擔最适合的計算任務,并采用異構計算架構去整合這些多元算力,是突破算力牆的有效手段。
在當前的 AI 訓練場景,NVIDIA 高端 GPU 是市場上的 " 硬通貨 ",其 2023 年發布的 Hopper 架構是 NVIDIA GPU 的集大成者,一經推出便受到市場的青睐。
除了采用 GPU 外,爲人工智能業務開發專用的 AI 芯片逐漸成爲業界的新趨勢。
在 AI 芯片領域,最具代表性的是 Google TPU(Tensor Processing Unit)。發布于 2016 年的第一代 TPU 成爲了 AlphaGo 背後的算力擔當,當前已經發展到了第四代的 TPU v4。與 GPU 相比,TPU 采用低精度計算,大幅降低了功耗、加快運算速度。
Meta 也發布了 MTIA(Meta Training and Inference Accelerator)自研 AI 芯片,該芯片采用 RISC-V 開源架構,可應用在自然語言處理、計算機視覺、推薦系統等領域。
除了 AI 芯片日益多元化之外,AI 芯片間的高速互聯技術也是突破算力牆的關鍵。
NVDIA 首創了 NVLink + NVSwitch 技術,爲多 GPU 系統提供更加快速的互聯解決方案。借助 NVIDIA NVLINK 技術,能最大化提升系統吞吐量,很好的解決了 GPU 互聯瓶頸。最新的 NVIDIA Hopper 架構采用 NVLINK4.0 技術,總帶寬最高可達 900GB/s。
2023 年 5 月 29 日,NVIDIA 推出的 DGX GH200 AI 超級計算機,采用 NVLink 互連技術以及 NVLink Switch System 将 256 個 GH200 超級芯片相連,把所有 GPU 作爲一個整體協同運行。
Google 推出的 OCS(Optical Circuit Switch)光電路交換機技術實現 TPU 之間的互聯,解決 TPU 的擴展性問題。Google 還自研了一款光路開關芯片 Palomar,通過該芯片可實現光互聯拓撲的靈活配置,也就是說,TPU 芯片之間的互聯拓撲并非一成不變的,可以根據機器學習的具體模型來改變拓撲,提升計算性能及可靠性。借助 OCS 技術,可以将 4096 個 TPU v4 組成一台超級計算機。
爲了滿足 AI 加速芯片的互聯需求,OCP 組織 2019 年成立了 OAI 開源項目組,通過 OAM 子項目定義業界通用形态的 GPU/AI 模塊、對外提供标準通信接口,建立 OAI 相關的技術架構。芯片廠家隻要将其 GPU/AI 加速芯片做成 OAM 模塊的形态,通過 UBB 來承載多個 OAM 模塊,就可以在任何支持 OAM/UBB 模塊的服務器上兼容使用。
新華三集團作爲 OAI 2.0 規範的主要起草單位,在國産化 OAM 方面多有相應的落地實踐。那麽如何在 AI 算力日益多元化的情況下,如何有效整合這些多元化算力?采用異構計算技術是最佳選擇。在異構計算領域,新華三開展了廣泛的實踐,H3C Uniserver R5500 G6 踐行異構計算設計理念,可搭載 Intel 或 AMD CPU,機箱天然兼容 NVIDIA Hopper 架構 GPU 以及 OAI 架構,同時提供對多家廠商 DPU 的支持能力,爲不同的應用場景提供了澎湃算力。
未來,還采用類似 XPU Direct RDMA 的異構芯片通信技術,實現異構計算平台互聯。XPU 通信時不再需要 CPU 中轉,大幅減少數據拷貝的次數,提升了通信性能,有效整合了多元算力。
PART.3
内存牆應對之道
随着服務器向異構計算架構轉型,傳統的 PCIe 互聯模式已經無法滿足高速緩存一緻性和内存一緻性的需求。GPU 加速卡無法使用 Host 主機自帶的内存資源,無法很好的解決 AI 大模型訓練場景遇到的内存牆問題。爲此,迫切需要在服務器内使用新興的互聯架構,突破内存牆的限制。
NVIDIA Grace Hopper 架構中,完美的解決了大模型訓練的内存牆問題。在該架構中,Grace CPU 和 Hopper GPU 使用帶寬高達 900 GB/s NVLink C2C 鏈路互聯,GPU 可以通過 NVLink C2C 透明地訪問 CPU 上的 512GB 内存資源。
NVIDIA 通過 Grace Hopper 向業界展現了突破内存牆問題的解決方案。此外,AMD 推出的 Instinct MI300,英特爾推出 Falcon Shores 也采用了類似的解決方案來突破内存牆問題。但這些都屬于私有技術。有沒有一種開源方案既能解決大容量内存問題和内存一緻性問題,又能避免對現有協議體系完全颠覆?Intel 聯合其他 8 家科技巨頭于 2019 年成立的 CXL(Compute Express Link)聯盟就緻力于解決該問題。
CXL 是一種開源的互聯技術标準,其能夠讓 CPU 與 GPU、FPGA 或其他加速器之間實現高速互聯,并且維持 CPU 内存空間和加速器設備内存之間的一緻性,以滿足資源共享、内存池化和高效運算調度的需求。CXL 組織已經發布 CXL3.0 版本,其數據傳輸速率提升至 64 GT/s,并引入了 Fabric 功能和管理、改進的内存池、增強的一緻性以及對等通信等重要功能。放眼未來,CXL4.0 基于 PCI-Express 7.0 标準,擁有更高的容量(512GB/S)和更低的延遲,将在性能上實現另一個層級的躍升。
當前,各大上遊廠商都在開發或已推出支持 CXL 協議的部件,實現 GPU 顯存與主機内存的統一尋址,解決内存牆問題已經近在眼前。暢想未來,随着 CXL Switch 等關鍵部件的進一步發展,我們可以實現 CPU、GPU、内存等資源的進一步池化,各資源池通過 CXL Switch 互訪互通,在集群層面實現全局内存一緻性。
新華三集團在 2019 年 4 月正式加入了 CXL 組織,并于 2022 年升級爲 Contributor 會員。新華三在 CXL 技術研究上進行了持續的投入,目前正在開展基于 CXL 技術的内存池化、異構互聯方面的研究。
PART.4
通信牆應對之道
在集群網絡方面,大模型訓練優化過的無損網絡解決方案可提供高吞吐和低延時的網絡服務,确保在大規模訓練時集群的性能。
4.1 端網融合的 RoCE 無損網絡
RoCE 網絡是基于以太網 RDMA 技術實現的,它比 IB 更加開放。RoCE 可以基于現有的以太網基礎設施進行部署,網絡管理更加簡化。但 RoCE 也面臨着一些挑戰,比如 ECMP 負載不均、哈希沖突、PFC 死鎖等。基于 IP 協議的開放性,出現了多種針對 RoCE 的優化方案,其核心思想即将服務器、網卡、交換機作爲一個整體,結合創新的擁塞控制算法,實現端網協同。
Google 數據中心使用的 TIMELY 算法,由網卡進行端到端的 RTT 時延測量,根據 RTT 時延數據調整發送速率,實現高性能的 RoCE 網絡。TIMELY 算法使用谷歌自研網卡實現,主要應用在 Google 内部。
阿裏團隊提出的 HPCC 擁塞控制算法,它使用可編程交換機,通過 INT 遙測攜帶網絡擁塞數據,然後由智能網卡動态調整發送速率,獲得高帶寬和低時延的高性能網絡。
EQDS(edge-queued datagram service)是目前被廣泛讨論的另一種擁塞控制解決方案。它将網絡中的絕大部分排隊操作從交換機轉移到發送端網卡上,使得交換機可以采用很小的緩存設計。EQDS 由接收端網卡驅動,通過 Credit 機制,來指導數據包發送。另外 EQDS 使用 Packet Spray 實現逐包的負載均衡,以解決負載不均和哈希沖突的問題。如果交換機支持 DCN(Drop Congestion Notification)技術,可以由交換機實現數據包修剪(Packet Trimming),僅将擁塞報文的報文頭發送給接收端,接收端接收到報文頭後,可以要求發送端快速重傳數據包。實驗表明,EQDS 在測試中表現出色,能夠顯著提高數據中心網絡的性能。
新華三集團正在研究基于自研服務器、智能網卡和高性能交換機,實現端網融合的 RoCE 無損網絡解決方案,爲 AI 業務提供高性能無損通信網絡。
4.2 在網計算
除了通過增加網絡帶寬、提升鏈路利用率、優化擁塞控制算法外,在網計算(In-Network Computer)是另一種優化通訊開銷的重要手段。在網計算(In Network Computing)可以将 AI 分布式訓練的集合通信操作卸載到網絡設備上,讓網絡設備參與計算,減少計算節點之間的消息交互,大幅縮減 AI 分布式訓練的時間。
以集合通信中使用頻率最高的 AllReduce 規約運算爲例,從各節點收集梯度,将訓練過程中的彙總規約卸載到集成了計算引擎單元的網絡交換機中進行,然後再更新至每一個節點。通過在網計算技術,加速了整個 Allreduce 的過程,可以有效的減少網絡擁塞和降低通信延遲。
新華三集團積極投入在網計算技術的研發,借助可編程交換芯片或在傳統交換機中引入 FPGA 芯片實現在網計算,提升 AI 訓練的整體性能。
4.3 高速以太網及光互聯
算力需求的爆發式增長推動了數據中心網絡向 800G、1.6T 及更高速率快速演進。光模塊作爲網絡互聯的關鍵部件,随着速率的提升其功耗也一路攀升,在整機系統的占比已經遠超 ASIC 加風扇功耗之和。另外,高速光模塊在數據中心網絡建設中的成本占比也在大幅提升。爲了應對由此帶來的功耗、成本和時延挑戰,業界出現了兩種最具潛力的解決方案。
LPO 線性直驅技術去掉了光模塊中功耗最高的 DSP 芯片,由交換機 ASIC 芯片來對高速信号進行補償和均衡,在實現成本下降的同時,大幅降低了光模塊的功耗和延遲,非常适合應用在短距大帶寬、低功耗低延時的 AI/ML 場景。
傳統可插拔光模塊到交換機 ASIC 芯片電信号連接距離較長,途經點較多,累積損耗大。通過 CPO/NPO 等封裝技術的引入,顯著縮短了交換芯片和光引擎間的距離,同時能夠提供更高密度的高速端口,更适合在 1.6T 速率後實現高算力場景下的低能耗、高能效。
在高速互聯技術領域,22 年新華三集團發布了采用 NPO 技術的 400G 矽光融合交換機 S9825-32D32DO, MPO 光引擎接口支持 2KM 傳輸距離,端口功耗降低 40% 以上。
2023 年,新華三集團進一步推出了采用共封裝技術的 CPO 交換機,對外提供 64 個 800G 接口或 128 個 400G 接口,并計劃今年内支持 LPO 線性驅動光模塊的 128 口 400G,64 口 800G 端口的交換機産品。未來,新華三将通過持續的技術創新爲 AI 業務提供高性能、低延遲、低能耗的通信網絡,破解通信牆的難題。
PART.5
能耗牆應對之道
降低 AI 模型整體能耗的主要方式依然是提高數據中心的散熱效率,液冷散熱方案因其低能耗、高散熱、低噪聲、低 TCO 等優勢,有着巨大的發展潛力。
其中,浸沒式液冷散熱是典型的直接接觸型液冷,發熱元件與冷卻液直接接觸,散熱效率更高,噪音更低。目前,浸沒式液冷方案已由初期的單相式液冷進化爲相變式液冷,充分利用冷卻液的蒸發潛熱 , 滿足散熱極端要求 , 保證 IT 設備滿功率運行。
目前,新華三集團在浸沒式液冷方案方面完成了全面布局,緊跟互聯網業務發展步伐,秉承産學研一體理念,從冷闆式液冷到浸沒式液冷,從單相式液冷到相變式液冷,從 3M 冷卻液到國産冷卻液,積極研究跟進推出新華三液冷系統一體化解決方案,包含液冷交換機、液冷服務器、熱交換單元、外冷設備等,并且在液冷方案方面持續進行方案叠代和前沿技術探索。
PART.6
展望
本文主要從基礎架構角度去讨論如何應對 AGI 時代的挑戰。随着數據、算力及算法取得不斷的突破,人工智能将會重塑整個經濟、社會、産業和人們生活的方方面面。這就需要互聯網企業應整合各類資源打造垂直的生态,借助生态夥伴的力量實現科技成果轉化,更好地賦能百行百業。作爲數字化解決方案領導者,新華三集團具備百行百業的解決方案能力,通過把互聯網公司的大模型能力融入到新華三解決方案中,可以開展面向政府、企業、金融、醫療、教育等場景的 N 項業務合作,共同應對快速場景化落地的挑戰。
BREAK AWAY