圖片來源:視覺中國
北京時間 3 月 19 日淩晨,英偉達 GTC(GPU 技術大會)上,英偉達首席執行官黃仁勳公布了 Hopper 架構芯片的繼任者—— Blackwell 架構的 B200 芯片。目前英偉達 Hopper 架構的芯片 H100 和 GH200 Grace Hopper 超級芯片需求量很大,爲世界上許多最強大的超級計算中心提供算力,而 B200 将提供算力的進一步代際飛躍。
Blackwell 架構的 B200 芯片并不是傳統意義上的單一 GPU。相反,它由兩個緊密耦合的芯片組成,盡管根據 Nvidia 的說法,它們确實充當一個統一的 CUDA GPU。這兩個芯片通過 10 TB/s NV-HBI(Nvidia 高帶寬接口)連接進行連接,以确保它們能夠作爲單個完全一緻的芯片正常運行。
多卡互聯是 B200 算力提升的關鍵。将兩個 GPU 與單個 Grace CPU 結合在一起的 GB200 可以爲大語言模型的推理工作提供 30 倍的性能,同時還可能大幅提高效率。英偉達稱,與 H100 相比,B200 可将生成式 AI 的算力成本和能耗降低多達 25 倍。
英偉達 AI 芯片性能本身在算力上的提升主要靠數據精度,從 FP64、FP32、FP16、FP8 到如今 B200 芯片的 FP4,FP4 最大理論計算量爲 20 petaflops(數據精度單位)。FP4 是 FP8 性能的兩倍,FP4 的好處是提升了帶寬,通過爲每個神經元使用 4 位而不是 8 位,使計算、帶寬和模型大小加倍。如果将 B200 換算成 FP8 與 H100 進行同類比較,那麽 B200 理論上僅比 H100 提供多 2.5 倍的計算量,B200 的算力提升很大一部分來自于兩個芯片互聯。
CPU 通用處理器時代的摩爾定律(集成電路上可容納的晶體管數目,約每隔 18 個月便會增加一倍)已經進入暮年。台積電在 3nm 制程上的突破,并未給芯片性能帶來突破代際的提升。2023 年 9 月,蘋果 A17 Pro 問世,使用了台積電生産的首個 3nm 制程芯片,但 CPU 性能隻有 10% 的提升。且先進制程芯片研發耗資巨大,據遠川研究所報道,2023 年台積電的晶圓代工價格與兩年前相比大約上漲了 16%(先進制程)到 34%(成熟制程)。
除了蘋果之外,台積電的另一大芯片客戶便是英偉達——英偉達的硬通貨 AI 芯片 H100 就采用了台積電 N4(5nm)工藝,使用了台積電的 CoWoS 先進封裝産能。
摩爾定律失效,黃仁勳的黃氏定律指出,GPU 的效能每兩年将增加一倍以上," 創新不僅僅是芯片,而是整個堆疊 "。
英偉達繼續朝着多卡互聯進發。既然 3nm 芯片提升有限,英偉達的 B200 選擇把 2 片 4nm 芯片并排擺放,通過超高速片上互聯,組成一個 2000 多億晶體管的超大芯片。在英偉達 GTC 上,黃仁勳對于芯片本身性能一筆帶過,重點都在 DGX 系統上。
在多卡互聯方面,英偉達的 NVLink 和 NVSwitch 技術是其護城河。NVLINK 是一種點對點的高速互連技術,可以将多個 GPU 直接連接起來,形成一個高性能計算集群或深度學習系統此外,NVLink 引入了統一内存的概念,支持連接的 GPU 之間的内存池,這對于需要大型數據集的任務來說是一個至關重要的功能。
而 NVSwitch 是一種高速交換機技術,可以将多個 GPU 和 CPU 直接連接起來,形成一個高性能計算系統。
在 NVLink Switch 支持下,英偉達 " 大力出奇迹 " 地将 72 塊 B200 連接在一起,最終成爲 " 新一代計算單元 "GB200 NVL72。一個像這樣的 " 計算單元 " 機櫃,FP8 精度的訓練算力就高達 720PFlops,直逼 H100 時代一個 DGX SuperPod 超級計算機集群(1000 PFlops)。
英偉達透露,這一全新的芯片将在 2024 年晚些時間上市。目前,亞馬遜、戴爾、谷歌、Meta、微軟、OpenAI、特斯拉都已經計劃使用 Blackwell GPU。
" 打包批發賣卡 " 的方式也符合大模型公司的用卡需求。将多個 GPU 互聯 " 打包 " 成數據中心,更符合大模型公司和雲服務商的購買形式。英偉達 2023 财年财報顯示,英偉達的數據中心業務有 40% 的收入來自超大規模數據中心與雲服務商。
截至美東時間 3 月 18 日美股收盤,英偉達股價 884.550 美元,總市值 2.21 萬億美元。