9 項基準測試,刷新記錄
【導讀】英偉達 H100 再次刷榜了,不到 4 分鍾就訓完 GPT-3,比 6 月成績提升 3 倍。另外,特供版 H20、L20 和 L2 性能全都爆出。
H100 再次在 MLPerf 中刷新了記錄!
英偉達超算 NVIDIA Eos 在 GPT-3 模型的基準測試中,隻用了 3.9 分鍾就完成了訓練。
這比 6 月份的刷新記錄的成績—— 10.9 分鍾,提升了近 3 倍。
Eos 使用了多達 10,752 個 H100 和 NVIDIA Quantum-2 InfiniBand 網絡互連。
通過推算,Eos 現在可以在短短 8 天内進行訓練,比之前使用 512 個 A100 GPU 的先進系統快 73 倍。
在本輪新的生成式 AI 測試中,1,024 個 NVIDIA Hopper 架構 GPU 在 2.5 分鍾内完成了基于 Stable Diffusion 文本到圖像模型的訓練基準測試,爲這一新工作負載設定了高标準。
與此同時,外媒曝光了英偉達爲應對新規而打造的全新「特供版」芯片—— H20、L20 和 L2。
系統擴展效率飙升 93%
最新的結果部分是由于使用了有史以來應用于 MLPerf 基準測試的最多加速器。
10,752 個 H100 GPU 遠遠超過了 6 月份 AI 訓練的規模,當時英偉達使用了 3,584 個 Hopper GPU。
GPU 數量擴展 3 倍,性能擴展了 2.8 倍,效率達到 93%,這在一定程度上要歸功于軟件優化。
高效擴展是生成式 AI 的關鍵要求,因爲 LLM 每年都在以一個數量級的速度增長。
最新結果顯示,即使是世界上最大的數據中心,英偉達也有能力應對這一前所未有的挑戰。
這一成就歸功于加速器、系統和軟件創新的全棧平台,Eos 和 Microsoft Azure 在最近一輪測試中都使用了該平台。
Eos 和 Azure 在各自的提交中都采用了 10,752 個 H100。它們的表現相差不到 2%,展示了英偉達 AI 在數據中心和公有雲部署中的高效性。
英偉達依靠 Eos 完成了各種關鍵任務。
它有助于推進 NVIDIA DLSS 和 ChipNeMo 等計劃,後者是幫助設計下一代 GPU 的生成式 AI 工具。
9 項基準測試,刷新記錄
除了在生成式 AI 方面取得進步,英偉達在這一輪測試中還刷新了幾項新的記錄。
比如,在訓練推薦系統模型的測試中,H100 GPU 比上一輪快了 1.6 倍。在計算機視覺模型 RetinaNet 的測試中,性能提高了 1.8 倍。
這些性能提升來源于軟件和硬件規模擴充的優化結合。
英偉達再次成爲唯一一家完成了所有 MLPerf 測試的公司。H100 在 9 項基準測試中展示了最快的性能和最大的擴展性。
這些加速爲用戶訓練大模型或用 NeMo 等框架自定義模型以滿足業務需求 , 帶來了更快上市時間、更低成本和節省能源。
這一輪測試中,包括華碩、戴爾技術、富士通、技嘉、聯想、QCT 和超微等 11 家系統制造商在提交結果中使用了 NVIDIA AI 平台。
特供版 H20、L20 和 L2 性能曝光
在過去幾年中,美國對高性能硬件出口實施了非常嚴格的限制。
尤其是在 2023 年 11 月生效的新規,更是要求所有達到一定總處理性能和 / 或性能密度的硬件都必須獲得出口許可。
據最新洩露的文件和四位熟悉内情的人士透露,爲了遵守美國的出口管制,英偉達已經推出了三款全新的「中國定制版」芯片—— HGX H20、L20 PCle 和 L2 PCle GPU。
其中,HGX H20 配有高達 96GB 的 HBM3 顯存,以及 4TB/s 的帶寬,并且基于全新的 Hopper 架構。
與 H100 的 50MB 二級緩存相比,H20 還擁有更大的 60MB 二級緩存。
然而在性能方面,HGX H20 隻能提供 FP64 精度1 TFLOPS(H100 爲34 TFLOPS)和 FP16/BF16 精度148 TFLOPS(H100 爲1,979 TFLOPS)的算力。
由此,功耗也從 700W 降到了 400W。
有趣的是,基于安培架構并配備 24GB HBM2 的入門級 A30 GPU,在 FP64 和 FP16/BF16 精度下,都要比 HGX H20 快不少。
至于 L20 和 L2 PCIe GPU,則是基于閹割後的 AD102 和 AD104 核心,對應的是與 L40 和 L40S 相同的市場。
更直觀地,RTX 4090 采用的便是 AD102 的變體,而 4070 和 4070Ti 則是基于 AD104 的變體。
除此之外,爲了遵守新規,HGX H20、L20 PCle 和 L2 PCle GPU 不僅性能是殘血的,而且還隻配備了殘血版的 NVLink 連接。