如果您希望可以時常見面,歡迎标星收藏哦 ~
01
因爲大模型的火爆,對算力的的渴求持續攀升。過去兩年,讓我們知道了英偉達 H100 芯片的影響力。與之相伴随的,高帶寬内存(HBM)、CoWos 封裝等相關的技術也讓大家有所耳聞。殊不知,互聯的作用不亞于這些技術。互聯技術也是 AI 芯片中很重要的一塊拼圖。
AI 芯片之間互聯一直是個難題,随着近年來越來越多的加速器被集成到一起,如何高效傳輸數據成爲了瓶頸。當需要連接成千上萬個加速器時,性能損耗和帶寬瓶頸就會顯現出來。這正在持續倒逼互聯的叠代加速。
可以說,當前,我們正處于重大互聯技術轉型的風口浪尖。
超越 PCIe:AI 芯片廠商自研互聯技術
由于 PCIe 技術的發展速度跟不上時代需求,目前主流的 AI 芯片廠商都已經自研了互聯技術,其中較爲代表的就是英偉達的 NVLink 和 AMD 的 Infinity Fabric。
英偉達的 NVLink
自 2014 年開始,英偉達在其 GPU 中引入了 NVLink 互聯技術。NVLink 是由 Nvidia 開發的一種高帶寬、低延遲的點對點數據傳輸通道。它的主要用途是連接 Nvidia GPU,或者 GPU 與 CPU 之間的通信,允許它們以高速率共享數據。這對于那些要求高數據吞吐量和低通信延遲的應用至關重要,如深度學習、科學計算和大規模模拟。過去十年間,NVLink 已成爲英偉達 GPU 芯片的核心技術及其生态系統的重要組成部分。
讓我們再來細細回顧下 NVLink 這一技術的發展曆程。2014 年,NVLink 1.0 發布并在 P100 GPU 芯片之間實現,兩個 GPU 之間有四個 NVLink,每個鏈路由八個通道組成,每個通道的速度爲 20Gb/s,系 2 統整體雙向帶寬爲 160GB/s(20*8*4*2)/8=160GB/s),是 PCle3x16 的五倍;
2017 年英偉達推出了第二代 NVLink,兩個 V100 GPU 芯片之間通過六個 NVLink 2.0 連接,每個鏈路也是由八個通道組成,不過每個通道的速度提升至爲 25Gb/s,從而實現 300GB/s 的雙向系統帶寬(25*8*6*2)/8=300GB/s),幾乎是 NVLink1.0 的兩倍。此外,爲了實現八個 GPU 之間的完全互連,Nvidia 引入了 NVSwitch 技術。NVSwitch1.0 有 18 個端口,每個端口的帶寬爲 50GB/s,總帶寬爲 900GB/s。每個 NVSwitch 保留兩個用于連接 CPU 的端口。通過使用 6 個 NVSwitch,可以在 8 個 GPUV100 芯片之間建立一個全連接的網絡。
2020 年,推出 NVLink 3.0 技術。它通過 12 個 NVLink 連接連接兩個 GPU A100 芯片,每個鏈路由四個通道組成。每個通道以 50Gb/s 的速度運行,從而産生 600GB/s 的雙向系統帶寬,是 NVLink2.0 的兩倍。随着 NVLink 數量的增加,NVSwitch 上的端口數量也增加到 36 個,每個端口的運行速度爲 50GB/s。
DGX A100 系統由 8 個 GPU A100 芯片和 4 個 NVSwitch 組成
2022 年,NVLink 技術升級到第四代,允許兩個 GPU H100 芯片通過 18 條 NVLink 鏈路互連。每個鏈路由 2 個通道組成,每個通道支持 100Gb/s(PAM4)的速度,從而使雙向總帶寬增加到 900GB/s。NVSwitch 也升級到了第三代,每個 NVSwitch 支持 64 個端口,每個端口的運行速度爲 50GB/s。
2024 年,随着英偉達全新 Blackwell 架構的發布,NVLink 5.0 也随之而來。NVLink 5.0 以每秒 100 GB 的速度在處理器之間移動數據。每個 GPU 有 18 個 NVLink 連接,Blackwell GPU 将爲其他 GPU 或 Hopper CPU 提供每秒 1.8 TB 的總帶寬,這是 NVLink 4.0 帶寬的兩倍,是行業标準 PCIe Gen5 總線帶寬的 14 倍。NVSwitch 升級到了第四代,每個 NVSwitch 支持 144 個 NVLink 端口,無阻塞交換容量爲 14.4TB/s。
NVLink 設計之初,就是爲了解決傳統的 PCI Express ( PCIe ) 總線在處理高性能計算任務時帶寬不足的問題。從下面兩幅圖的對比中,可以發現,從單通道速度的角度來看,NVLink 的速度通常是同代 PCle 的兩倍左右。總帶寬的優勢更加明顯,NVLink 提供的總帶寬約爲 PCle 的五倍。
各代 NVLink 的性能參數
各代 PCIe 的參數(圖源:naddod)
除了 NVLink,另外一個值得一提的互聯技術是 InfiniBand。英偉達收購的 Mellanox 在 InfiniBand 領域也處于佼佼者。自收購 Mellanox 以來,NVIDIA 也開始将 NVLink 技術與 InfiniBand(IB)技術相結合,推出新一代 NVSwitch 芯片和具有 SHARP 功能的交換機,針對外部 GPU 服務器網絡進行了優化。
InfiniBand 是一種開放标準的網絡互連技術,具有高帶寬、低延遲、高可靠性的特點。該技術由 IBTA(InfiniBand 貿易聯盟)定義。該技術廣泛應用于超級計算機集群領域。同時,随着人工智能的興起,它也是 GPU 服務器的首選網絡互連技術。由于 RDMA(遠程直接内存訪問)等功能,InfiniBand 在人工智能等數據密集型任務中通常優于以太網。據 Dell'Oro 估計,約 90% 的 AI 部署都是使用 Nvidia/Mellanox 的 InfiniBand,而不是以太網。這些部署将 Nvidia 的網絡收入推至每年 100 億美元。
近日傳奇 CPU 設計師兼 Tenstorrent 首席執行官 Jim Keller 是開放标準的堅定支持者,他建議 Nvidia 應該在基于 Blackwell 的 GB200 GPU 中使用以太網協議芯片到芯片連接,而不是專有的 NVLink,背後的主要原因是,這可能會使軟件移植到其他硬件平台變得更加複雜。而凱勒認爲,使用以太網協議可以爲英偉達及其硬件用戶節省大量資金。
AMD 的 Infinity Fabric
與英偉達的 NVLink 相似,AMD 則推出了其 Infinity Fabric 技術,支持芯片間、芯片對芯片,以及即将推出的節點對節點的數據傳輸。Infinity Fabric 是 AMD 在其 "Zen" 微架構中引入的一個關鍵特性,旨在提高整體系統性能,特别是在多核心處理器和數據中心環境中。
Infinity Fabric 由兩部分組成:數據布線(Data Fabric)和控制布線(Control Fabric)。數據布線用于處理器内部和處理器之間的數據傳輸,而控制布線則負責處理器的功耗、時鍾和安全性等方面的管理。Infinity Fabric 的主要特點包括:1)高效率:Infinity Fabric 設計用于提供高效率的數據傳輸,支持多個設備之間的高速通信;2)模塊化:Infinity Fabric 支持 AMD 的小芯片(chiplet)架構,允許不同功能的芯片模塊通過高速互連進行組合;3)内存共享:Infinity Fabric 支持 CPU 和 GPU 之間的内存共享,有助于提高異構計算的效率;4)擴展性:Infinity Fabric 的設計允許它随着技術進步和需求增長而擴展。
視頻已經上傳至公衆号後台:epyc_infinity_architecture-alpha
AMD 最新的 AI 加速器 Instinct MI300X 平台,就通過第四代 AMD Infinity Fabric 鏈路将 8 個完全連接的 MI300X GPU OAM 模塊集成到行業标準 OCP 設計中,爲低延遲 AI 處理提供高達 1.5TB HBM3 容量。第四代 Infinity Fabric 支持每通道高達 32Gbps,每鏈路産生 128GB/s 的雙向帶寬。
不同于英偉達 NVLink 僅限于内部使用,AMD 已經開始向新合作夥伴開放其 Infinity Fabric 生态系統。在去年年末 AMD MI3000 的發布會上,Broadcom 宣布其下一代 PCIe 交換機将支持 XGMI/Infinity Fabric。不僅如此,AMD 還希望 Arista、博通、Cisco 等合作夥伴能推出适用于 Infinity Fabric 等産品的交換機,能夠方便 MI3000 在單一系統外實現芯片間通信。這類似于英偉達的 NVSwitch。
英特爾:以太網的堅實擁護者
英特爾的用于生成式 AI 的 Gaudi AI 芯片則一直沿用傳統的以太網互聯技術。Gaudi 2 每個芯片使用了 24 個 100Gb 以太網鏈路;Gaudi 3 也使用了 24 個 200 Gbps 以太網 RDMA NIC,但是他們将這些鏈路的帶寬增加了一倍,達到 200Gb/ 秒,使芯片的外部以太網 I/O 總帶寬達到 8.4TB/ 秒。
在近日的 intel vision 峰會上,英特爾還宣布正在開發一款用于超以太網聯盟(UEC)兼容網絡的 AI NIC ASIC 以及一款 AI NIC 小芯片,這些創新的 AI 高速互聯技術(AI Fabrics)将用于其未來的 XPU 和 Gaudi 3 處理器。這些創新旨在革新可大規模縱向(scale-up)和橫向(scale-out)擴展的 AI 高速互聯技術。
一直以來,英特爾都希望通過采用純以太網交換機來赢得那些不想投資 InfiniBand 等專有 / 替代互連技術的客戶。InfiniBand 非常适合那些運行少量非常大的工作負載(例如 GPT3 或數字孿生)的用戶。但在更加動态的超大規模和雲環境中,以太網通常是首選。Nvidia 最新的 Quantum InfiniBand 交換機的最高速度爲 51.2 Tb/s,端口爲 400 Gb/s。相比之下,以太網交換在近兩年前就達到了 51.2 Tb/s,并可支持 800 Gb/s 的端口速度。
雖然 InfiniBand 在很多情況下表現都不錯,但它也有缺點,比如隻能在特定範圍内使用,而且成本也不低,将整個網絡升級到 InfiniBand 需要大量投資。相比之下,以太網因爲兼容性強,成本适中,以及能夠勝任大多數工作負載,所以在網絡技術領域裏一直很受歡迎,建立了一個龐大的 " 以太網生态 "。
Dell'Oro 預計 InfiniBand 将在可預見的未來保持其在 AI 交換領域的領先地位,但該集團預測在雲和超大規模數據中心運營商的推動下,以太網将取得大幅增長,到 2027 年大約将占據 20% 的市場份額。
不僅是英特爾,在 2023 年的 AI Day 上,AMD 也表示将重點支持以太網,特别是超級以太網聯盟。雖然 Infinity Fabric 提供了 GPU 之間的一緻互連,但 AMD 正在推廣以太網作爲其首選的 GPU 到 GPU 網絡。
此外,英特爾還提出了一種開放性互聯協議 Compute Express Link(CXL)。關于 CXL 互聯技術,業界看法不一。英偉達的 GPU 一向單打獨鬥,并不支持 CXL;AMD 透露其 MI300A 會支持 CXL。目前來看,像三星、SK 海力士、美光等存儲廠商更加青睐于 CXL。
AI 互聯的下一步:邁向光互聯時代
誠然,這些互聯技術都已是目前最好的互聯技術,但是一個不争的事實是,随着計算數據的爆炸式增長、神經網絡的複雜性不斷增加,以及新的人工智能和圖形工作負載和工作流程以及傳統科學模拟的出現,對更高帶寬的需求還在繼續增長。這些互聯技術将不可避免的存在性能瓶頸。例如 Nvidia 的 NVLink 雖然速度很快,但是功耗也相當高;而 AMD 的 Infinity Fabric 則适合于芯片内部的連接,對于芯片之間的互聯效率并不理想。
是時候進行範式轉變了。光互聯憑借高帶寬、低功耗等優勢,幾乎成爲公認的未來 AI 互聯技術的發展方向。Nvidia 數據中心産品首席平台架構師 Rob Ober 在媒體咨詢中表示:" 在過去的十年中,Nvidia 加速計算在人工智能方面實現了數百萬倍的加速。" " 下一個百萬将需要光學 I/O 等新的先進技術來支持未來 AI 和 ML 工作負載和系統架構的帶寬、功率和規模要求。"
在光互聯之路上,谷歌的 TPU 芯片已經率先起了個好頭兒。作爲 AI 芯片的重要玩家,谷歌的 TPU 一直可圈可點。過去幾年時間,谷歌一直在悄悄地檢修其數據中心,它被稱爲 " 阿波羅任務 ",主要是用光代替電子,并用光路交換機(OCS)取代傳統的網絡交換機。
自 TPU v4 開始,谷歌引入了其内部研發的創新的互聯技術:光路交換機 ( OCS ) 。TPU v4 是第一台部署可重新配置 OCS 的超級計算機,它内部的 4096 個芯片通過 OCS 互連,能夠提供百億億次的機器學習性能。OCS 可以動态地重新配置其互連拓撲,以提高規模、可用性、利用率、模塊化、部署、安全性、功耗和性能。
據谷歌聲稱,OCS 比 Infiniband 更便宜、功耗更低且速度更快,OCS 和底層光學組件的成本和功耗隻占 TPU v4 系統的一小部分,不到 5%。下圖顯示了 OCS 如何使用兩個 MEM 陣列工作。無需光到電到光轉換或耗電的網絡數據包交換機,從而節省電力。谷歌表示,TPU 超級計算機的性能、可擴展性和可用性使其成爲 LaMDA、MUM 和 PaLM 等大型語言模型的主力。Midjourney 一直在使用 Cloud TPU v4 來訓練他們最先進的模型。
到了 TPU v5 代,其每個 Pod 網絡中包含 8,960 個芯片,這些芯片也是通過專有的 OCS 互連,并提供 4,800 Gbps 的吞吐量。與 TPU v4 相比,TPU v5p 的 FLOPS 提高了 2 倍以上,高帶寬内存 ( HBM ) 提高了 3 倍,達到 95GB,TPU v4 Pod 具有 32GB HBM。
Broadcom、Marvell、思科等廠商則在光電共封交換機領域發力。其中博通和 Marvell 都已經推出了 51.2Tbps 的交換機。關于光電共封的更多知識,可以翻看《芯片巨頭的 " 新 " 戰場》一文。
博通表示,光學互連對于大規模生成式 AI 集群中的前端和後端網絡都至關重要。如今,可插拔光收發器消耗大約 50% 的系統功耗,占傳統交換機系統成本的 50% 以上。新一代 GPU 不斷增長的帶寬需求,加上 AI 集群規模的不斷增大,需要颠覆性的節能且經濟高效的光學互連,超越分立解決方案。
2024 年 3 月 14 日,博通已向客戶交付業界首款 51.2 Tbps 共封裝光學 ( CPO ) 以太網交換機 Bailly。該産品集成了八個基于矽光子的 6.4-Tbps 光學引擎和 Broadcom 的 StrataXGS Tomahawk5 交換芯片。與可插拔收發器解決方案相比,Bailly 使光學互連的運行功耗降低了 70%,并将矽片面積效率提高了 8 倍。
初創公司在矽光子互聯領域大展身手
在矽光互聯這個新技術領域,得益于技術創新和商業模式的靈活性,初創公司在矽光子互聯領域取得了突破性進展,爲這個市場帶來了更多的活力。
Celestial AI 是這一領域的一個重要參與者,其 Photonic Fabric(光子交換機)技術可以将 AI 計算和内存解耦,旨在通過光傳輸的方式來連接不同的 AI 處理單元。這種技術已吸引了包括 AMD Ventures 在内的多個投資者。
Celestial 的技術主要包括三大類:chiplets、interposers 和一種基于英特爾 EMIB 或台積電 CoWoS 的稱爲 OMIB 的光學解決方案。其中 chiplet 是最爲核心的部件,可以作爲額外的内存擴展卡,也可以作爲一個芯片與芯片之間的高速互聯通道,有點類似于光學版的 NVLink 或 Infinity Fabric。據該公司稱,單個 chiplet 的尺寸略小于一個 HBM 存儲器堆棧,可以提供高達 14.4 Tb/s 的光電互聯速率,當然這不是上限,隻是現有芯片架構能夠處理的結果。具體而言,Celestial 的第一代技術每平方毫米可支持約 1.8 Tb/ 秒。第二代 Photonic 結構将從 56 Gb/ 秒提高到 112 Gb/ 秒 PAM4 SerDes,并将通道數量從 4 個增加到 8 個,從而有效地将帶寬增加到四倍。
Celestial AI 宣稱,這種方案的内存事務能量開銷約爲每比特 6.2 皮焦,相比于 NVLink、NVSwitch 大約 62.5 皮焦的方案降低了 90% 以上,同時延遲也控制在了可接受的範圍内。Celestial AI 公司預計将在 2025 年下半年開始向客戶提供光子交換機芯片樣品,并預計在 2027 年左右實現量産。
除了 Celestial AI 之外,還有其他幾家創業公司也在研發光子互聯技術。
Ayar Labs 是一家得到英特爾投資支持的光子學初創公司,它已經将其光子互連集成到原型加速器中,實現了小規模量産和出貨。Ayar Labs CEO 在 2024 OFC(光纖通信大會)上表示:" 如果想最終改變計算行業,就需要實現電 IO 到光學 IO 的巨大的提升。" 早在 2022 年,英偉達還與之合作開發光互聯技術,與 Nvidia 的合作将側重于集成 Ayar Labs 的 IP,爲未來的 Nvidia 産品開發通過高帶寬、低延遲和超低功耗基于光學的互連實現的橫向擴展架構。
然後是 Lightmatter,該公司在 12 月份獲得了 1.55 億美元的 C 輪融資,估值高達 12 億美元。Lightmatter 的技術被稱爲 Passage,他們提供一個功能類似于 OCS(光路交換機)的通信層,該層位于基本和 ASIC 之間,幾乎可以實現全方位通信,這個通信層可以進行動态的配置。通過采用矽内置光學(或光子)互連的形式,使其硬件能夠直接與 GPU 等矽芯片上的晶體管連接,這使得在芯片之間傳輸數據的帶寬是普通帶寬的 100 倍。該公司聲稱,Passage 将于 2026 年上市。
Lightmatter 的 Passage 技術
(圖源:Lightmatter)
Coherent 在 2024 OFC 的上推出了一款支持高密度人工智能集群的光路交換機(OCS)。該設備預計明年批量發貨,具有 300 個輸入端口和 300 個輸出端口。在 OCS 中,數據信号在傳輸交換機時保留在光域中;消除 OEO 轉換可以顯着節省成本和功耗。此外,與傳統交換機不同的是,當下一代 AI 集群配備更高速的連接時,OCS 不需要升級。對于數據中心來說,這顯着提高了資本支出回報率。
成立于 2020 年 Nubis Communications 也是一個不容小觑的初創公司,該公司在 2023 年 2 月份發布其基于矽光芯片的 1.6T 光引擎 XT1600,單通道速率爲 112Gbps, 功耗達到 4.9pJ/bit,帶寬密度達到 250Gbps/mm。XT1600 通過新穎的 2D 光纖陣列和高度集成的高速矽光子學實現。Nubis 的突破基于重新思考光學設計,大幅降低光學 DSP 所需的性能和功耗,甚至完全消除它。據其稱,與傳統光學解決方案相比,人工智能加速器或類似的大型 ASIC 可以在數據中心内實現全帶寬連接,而功耗僅爲傳統光學解決方案的一小部分。XT1600 光學引擎的樣品現已提供給客戶。而且這種光互連非常适合新興的盒式架構以及本地 chiplet 實施,以便在未來實現更緊密的集成。
國内在這一領域,曦智科技發力于光子計算和光子網絡兩大産品線。2023 年,曦智科技發布了首個計算光互連産品 Photowave、以及首款片上光網絡(oNOC)AI 處理器 OptiHummingbird。Photowave 通過光學器件實現 CXL 2.0/PCIe Gen 5 的連接,可配置 x16、x8、x4、x2 等不同通道數,覆蓋多種部署場景。
結語
總體來看,在衆多廠商的參與下,互聯技術将會迎來重大的發展。尤其是圍繞光電共封裝和矽光子中繼層技術的光互連,正在成爲 AI 領域熱門賽道。
行業分析公司 LightCounting 首席執行官 Vlad Kozlov 證實:"800G 及以上的數據中心光學器件将繼續強勁增長,到 2027 年,可插拔收發器、有源光纜和共封裝光學器件的總價值将達到 84 億美元。未來五年,将有大量全新的光學産品問世。"
參考鏈接
1、《Unveiling The Evolution of NVLink》,naddod
2、Jim Keller suggests Nvidia should have used Ethernet to stitch together Blackwell GPUs — Nvidia could have saved billions,tomshardware
點這裏加關注,鎖定更多原創内容