這一夜,AI 科技圈熱鬧非凡:
谷歌搬出 " 蓄謀已久 " 的大殺器 Gemini,号稱直接掀翻 GPT-4;
另一邊,芯片商AMD也按耐不住,正式發布Instinct MI300X GPU,直接對标英偉達 H100。
Instinct MI300X 是 AMD 有史以來最大的芯片——
包含 1530 億個晶體管,AI 任務推理性能比 H100 快 1.6 倍,内存容量足足 192GB,是 H100 的兩倍以上(2.4x)。
它的出現,無疑爲業界提供了頗有競争力的第二種選擇。
消息稱,微軟、Meta、OpenAI 和 Oracle等一衆公司已率先承諾将購買 AMD 的這款 GPU 來替代 H100。
AI 加速芯片的市場,是否就此開始改變?
推理性能比 H100 HGX 快 1.6 倍,最高支持 2900 億參數
AMD 在 6 月就預告了這款芯片,今天是正式發布,公布參數等細節。
據介紹,Instinct MI300X 是 AMD 使用有史以來最先進的生産技術打造,是 Chiplet 設計方法的 " 代表之作 "。
它的底層是 4 個 6nm I/O 芯片,上面融合了 8 個 HBM3 内存(12Hi 堆棧)和 8 個 5nm CDNA 3 GPU 小芯片(3D 堆棧)。
其中 3D 堆疊 GPU 和 I/O 芯片通過 "3.5D" 封裝技術進行連接。
最終成品功耗 750W,包含 304 個計算單元、5.3TB/s 帶寬,以及高達 192GB 的 HBM3 内存(相比之下,H100 僅 80GB)。
在實際的生成式 AI 平台應用中,MI300X 被設計爲 8 個一組 ,通過 Infinity Fabri 進行互聯,各 GPU 之間的吞吐量爲 896 GB/s。
同時,這一組合的内存總量達到 1.5TB HBM3(H100 爲 640GB),可提供高達 10.4 Petaflops 的計算性能 ( BF16/FP16 ) 。
與英偉達的 H100 HGX 平台 ( BF16/FP16 ) 相比,内存總量增加 2.4 倍,計算能力提高 1.3 倍。
與此同時,AMD 還爲 MI300X 配備了 400GbE 網絡并支持多種網卡,比英偉達的選擇更多。
下面是 AMD 分享的官方性能測試結果(理性參考)。
首先,對于 HPC 工作負載,MI300X 的 FP64 和 FP32 向量矩陣理論峰值吞吐量是 H100 的 2.4 倍;對于 AI 工作負載,其 TF32、FP16、BF16、FP8 和 INT8 理論峰值吞吐量是 H100 的 1.3 倍。
注意,這些預測都不包含稀疏性(盡管 MI300X 确實支持)。
其次,AI 推理任務中,AMD 以 1760 億參數的 Flash Attention 2 爲例,聲稱 MI300X 在吞吐量(tokens/s)方面比 H100 高出 1.6 倍,同時,在 700 億參數的 Llama 2 上,聊天延遲更慢,比 H100 快 1.4 倍(基于 2k 序列長度 /128token workload)。
不得不說,MI300X 的大内存容量和帶寬确給它帶來了這一不小的優勢。
相比之下,在訓練任務上,MI300X 在 300 億參數的 MPT 上的性能倒是與 H100 HGX 大緻相同。
所以總的來看,MI300X 的優勢更在于推理。
此外,還需要強調的是,MI300X 由于内存容量實在更大,因此可以容納比 H100 多兩倍的 300 億參數訓練模型、700 億參數的推理模型。
以及MI300X 最多可支持 700 億訓練和 2900 億參數的推理模型,這都比 H100 HGX 多一倍。
最後,大夥最關心的價格——蘇媽沒說,但表示 " 肯定、必須低于英偉達 "。
目前,AMD 已經向 HPE、戴爾、聯想、SuperMicro 等原始設備制造商發貨,正式發售時間定于下季度,也就是明年。
說到2024 年,AI 加速芯片市場将無比熱鬧:
除了 AMD 的 MI300X,英特爾也将升級其 Gaudi 架構 GPU,以及英偉達 H200也要在 2024 年 Q2 問世。
Tomshardware 表示,H200 在内存容量和帶寬方面大概率會更上一層樓,計算性能則預計将和 MI300X 差不多。
最後,在發布會上,蘇媽也預測,2027 年 AI 芯片總市場将達到 4000 億美元。而她認爲,AMD 有信心從中分走一塊還不錯的蛋糕(get a nice piece of that)。
全球首款數據中心 APU 也來了
本場發布會上,和 Instinct MI300X 一共亮相的還有Instinct MI300A。
前者專供生成式 AI 領域,後者則主要用于HPC 計算。
據悉,MI300A 是全球首個數據中心 APU,CPU 和 GPU 結合在同一個封裝之中,對标的是英偉達 Grace Hopper Superchips ,後者 CPU 和 GPU 位于獨立的封裝中,再串聯到一起。
具體而言,MI300A 采用和 MI300X 相同的基本設計和方法,但包含 3 個 5nm 核心計算芯片(CCD),每個配備 8 個 Zen 4 CPU,所以一共 24 線程 CPU 核心,外加 228 個 CDNA 3 計算單元。
内存容量上,相比 MI300X 中的 8 個 12Hi 堆棧,它改爲 8 個 8Hi 堆棧,從而将容量從 192GB 縮減至 128G,内存帶寬仍爲 5.3TB/s。
這樣的結果仍然是英偉達 Nvidia H100 SXM GPU 提供的 1.6 倍。
據悉,MI300A 已開始用于美國勞倫斯利弗莫爾實驗室,基于該芯片,該實驗室的 El Capitan 有望成爲世界首台 2 Exaflop 級别的超級計算機。
One More Thing
就在同一天,谷歌也發布了最新 AI 芯片:TPU v5p。
它主要和前代相比:
bfloat16 性能提升至 1.67 倍,内存容量增至 95GB,新增 int8 運算,速度爲 918 TOPs 等等。
具體到模型上,用它訓練一個類似 GPT-3 的 1750 億參數模型的性能将提高 2.8 倍。
參考鏈接:
[ 1 ] https://www.tomshardware.com/pc-components/cpus/amd-unveils-instinct-mi300x-gpu-and-mi300a-apu-claims-up-to-16x-lead-over-nvidias-competing-gpus
[ 2 ] https://www.cnbc.com/2023/12/06/meta-and-microsoft-to-buy-amds-new-ai-chip-as-alternative-to-nvidia.html
[ 3 ] https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer