近日,黃仁勳讓海外科技圈提早過上了聖誕節。
由于矽、封裝以及芯片背闆的問題,英偉達的 Blackwell GPU 曾多次傳出延遲發布的信息,但這并沒有讓英偉達的腳步放緩。
在 GB200 和 B200 發布 6 個月後,英偉達就宣布将推出全新的 GPU GB300 和 B300。外界看來似乎是一個循序漸進的過程,但事實上,這是非常高效的叠代。全新 GPU 爲大模型的推理和訓練性能帶來巨大的提升,對大模型公司和存儲供應商來說,無疑是一份巨大的聖誕禮物。
B300 是台積電 4NP 工藝(英偉達定制工藝,屬于 5nm 制程節點的一部分)節點上的一個全新流片。定制化工藝做了一個調整設計,專用于計算芯片,使得 B300 浮點運算比 B200 高 50%,GB300 和 B300 的熱設計功耗分别達到 1.4KW 和 1.2KW,相比之下,GB200 和 B200 的熱設計功耗分别爲 1.2KW 和 1KW。
此外,B300 的内存從 8-Hi(8 層堆疊)升級到 12-Hi HBM3E,每個 GPU 的 HBM 容量增加到 288GB,但引腳速度将保持不變,所以每個 GPU 的内存帶寬仍然是 8TB/s。不過,三星并沒有收到黃仁勳帶來的禮物,因爲至少在未來的 9 個月内,他們都沒有機會拿到 GB200 和 GB300 的訂單。
GPU 卷内存的背後,是大模型的下一場戰事「推理」
英偉達改進 GPU 内存的背後,是爲滿足 OpenAI O3 對推理性能的更高要求。
OpenAI O3 采用 KVCache 技術對模型的推理能力進行優化,即通過緩存注意力機制中的鍵(Key)和值(Value)來減少冗餘計算,從而提高模型推理的速度。關鍵就是緩存之前的舊數據,僅對新輸入的 Token 進行計算,所以對緩存的性能提出了更高的要求。
下圖是在不同批處理大小下,使用 H100 和 H200 兩種 GPU 處理長序列時,Meta 開源大模型 Llama3.1405B 在 FP8(8 位浮點數表示法)精度下的處理速度。輸入設置爲 1000 個 Token,輸出 19000 個 Token,由此模拟 OpenAI o1 和 o3 模型中的思維鏈。
H100 升級到 H200 的兩個改進是:内存更高,速度更快。
由于更多的内存帶寬(H200 4.8TB/s vs H100 3.35TB/s),在所有可比較的批處理中,交互效率通常提高 43%。
H200 運行比 H100 更高的批處理,但成本降低了 3 倍。
内存容量提升,在多個維度都會産生影響。
由于請求和響應之間的等待時間很長,推理模型可能會帶來糟糕的用戶體驗。如果能夠縮短推理時間,這将增加用戶的付費意願。
3 倍的成本差異是巨大的。在中代升級中,硬件産品能夠實現 3 倍的變化,這在某種程度上,比摩爾定律、黃氏定律或其他所有硬件改進速度都要快得多。
在大模型競賽中,最具能力和差異化的模型能夠收取顯著的溢價,頭部模型的毛利率超過 70%,而落後模型毛利率低于 20%。
當然,英偉達并不是唯一一家可以提高内存容量的公司。ASIC 同樣可以做到,且事實上 AMD 在這方面可能處于更有利的地位,MI300X 的 192GB、MI325X 的 256GB 以及 MI350X 的 288GB,這些産品的内存容量比英偉達要高。
GB200 NVL72 和 GB300 NVL72 在性能和成本方面都有很大的提升,在推理中使用 NVL72 的關鍵是它使得 72 個 GPU 能夠處理同一個問題,并共享内存,且延遲極低。世界上沒有其他加速器擁有全互聯的交換連接以及能夠通過交換機進行全約簡操作。GB200 NVL72 和 GB300 NVL72 爲實現許多關鍵功能帶來了革命性的變化:
更高的交互性使得思維鏈的延遲更低。
72 個 GPU 分散 KVCache,以實現更長的思維鏈(增強智能)。
與典型的 8 個 GPU 服務器相比,更好的批量大小擴展,使得成本更低。
在處理同一問題時,可以搜索更多的樣本,以提高準确性,最終提升模型性能。
因此,NVL72 的推理性價比比之前提高了 10 倍以上,特别是在長推理鏈上。KVCache 占用内存對經濟效益是緻命的,但 NVL72 能夠将推理長度擴展到 10 萬以上 token 并在高批量中進行。
英偉達的「轉身」,供應鏈的「震動」
英偉達在 GB300 的設計上有很大的改動,對于 GB200, 英偉達提供整個 Bianca 闆(包括 Blackwell GPU,Grace CPU, 512GB 的 LPDDR5X、VRM 全部集成在一塊印刷電路闆上)以及交換托盤和銅背闆。
對于 GB300,英偉達不再提供整個 Bianca 闆,隻提供 "SXM Puck" 模塊上的 B300 以及 BGA 封裝上的 Grace CPU。HMC(混合内存立方體)将由美國初創公司 Axiado 提供,替換掉了之前的供應商 Aspeed。此外,交換托盤和銅背闆将仍由英偉達提供。
客戶現在需要自主采購計算闆上其餘的組件,外部存儲器将采用 LPCAMM 模塊,而不是焊接的 LPDDR5X,美光或将成爲這些模塊的主要供應商。
向 SXM Puck 的轉變,爲更多的 OEM 和 ODM 提供了參與供應計算托盤的機會,以前隻有緯創資通和工業富聯可以生産 Bianca 闆。在這次供應商調整中,緯創資通成爲最大輸家,因爲他們失去了 Bianca 闆的份額。相對而言,工業富聯雖然失去了 Bianca 闆的份額,但他們是 SXM Puck 模塊的獨家制造商,這部分帶來的收益完全可以抵消掉 Bianca 闆帶來的損失。英偉達雖然想找更多其他的 SXM Puck 模塊供應商,但目前還沒有實際下單。
另一個重大變化是 VRM(電壓調節模塊),雖然 SXM Puck 上有一些 VRM,但大部分的 VRM 将由超大規模廠商或者 OEM 直接從 VRM 供應商處采購。
此外,英偉達還在 GB300 平台上提供了 800G ConnectX-8 NIC(網絡接口卡),這使得在 InfiniBand 和以太網上的橫向擴展帶寬翻倍。由于上市時間的影響,英偉達之前取消了 GB200 的 ConnectX-8,并且放棄了在 Bianca 闆上啓用 PCIe Gen 6(PCI Express 接口的最新一代标準)。
市場信息表明,GB200 和 GB300 的延遲發布,給矽谷的大廠們帶來了很大的影響。而這背後傳遞出的信号是從第三季度,大量訂單轉向了 GB300。截至上周,所有大廠都決定使用 GB300。一部分原因是更高的性能和更大的内存,另一方面,英偉達已經控制了大廠模型訓練的命運。
受制于産品上市時間、機架、冷卻和電源功率密度的重大變化,大廠在服務器層級無法對 GB200 進行太多更改。這導緻 Meta 放棄了希望從博通和英偉達兩個渠道采購網絡接口卡(NICs)的希望,轉而完全依賴英偉達。谷歌也放棄了自家的網絡接口卡,選擇與英偉達合作。
矽谷大廠們習慣了成本優化,從 CPU 到網絡,再到螺絲和金屬闆。
亞馬遜是一個例外,定制化讓他們 " 被迫 " 選擇了次優配置。由于亞馬遜使用了 PCIe 交換機和效率較低的 200G 彈性織物适配器 NIC,無法像 Meta、谷歌、微軟、甲骨文、X 和 Coreweave 那樣部署 NVL72,因此不得不使用 NVL36,這也導緻每個 GPU 的成本更高,因爲背闆和交換機内容更多。
GB300 的出現爲亞馬遜帶來轉機,大廠能夠定制主闆、冷卻系統等功能。這使得亞馬遜能夠構建自己的定制主闆,随着更多組件采用水冷,以及 K2V6 400G NIC 在 2025 年第三季度支持 HVM(硬件虛拟化管理),亞馬遜同樣可以使用 NVL72 架構,并大幅改善其總體擁有成本(TCO)。
本文由雷峰網編譯自:https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#b300-gb300-not-just-an-incremental-upgrade