11 月 13 日晚,英偉達在國際超算大會上推出新一代 GPU,NVIDIA HGX H200。
對這塊 GPU,黃仁勳給的學術名稱是 " 新一代 AI 計算平台 ",專爲大模型與生成式 AI 而設計,翻譯一下:隻看算力 H200 和 H100 基本相同,但爲了加速 AI 推理速度,我們優化了顯存和帶寬。
又一塊史上最強芯片
先看具體的參數升級,官方新聞稿是說相比 H100 而言性能提升了 60%-90%,具體來看則是四個方面:
1. 跑 70B Llama2,推理速度比 H100 快 90%;
2. 跑 175B GPT-3,推理速度比 H100 快 60%;
3. 顯存容量達到 141GB,是 H100 的近 1.8 倍;
4. 帶寬達到 4.8TB,是 H100 的 1.4 倍。
換句話說,雖然算力沒有提升,但更高速的推理就意味着大量時間和金錢成本的節約,雖然還沒有公布定價,新卡的 " 單美元效率 " 有了顯著的提升。
雖然當下 H200 的具體架構還沒有曝光,根據已有信息我們推測,最重要的三個部分中,邏輯芯片應該還是台積電的 4N 工藝,CoWoS 封裝也沒有變化,但 HBM 存儲芯片卻由原先的 HBM3 升級到了 HBM3e。
H100 拆機圖
原先的 6 顆 HBM3 芯片由 SK 海力士獨供,内存帶寬爲 3.35TB/s,内存爲 80GB,而全球首款搭載 HBM3e 内存的 H200,内存帶寬達到 4.8TB/s,内存達到 141GB。
141GB 内存這個數字還挺奇怪,但這也是慣例。之前的 HBM3 芯片單顆内存爲 16GB,堆疊 6 顆理論上應該是 96GB,但實際隻有 80GB,就是英偉達爲了保證良率,保留了一部分冗餘空間。
而這次的 HBM3e 單顆容量爲 24GB,6 顆算下來是 144GB,等于說這次英偉達隻保留了 3GB 冗餘,更大程度壓榨了内存的空間,以實現性能上的突破。
這或許帶來産能爬坡速度較慢的問題。
至于供應商方面,英偉達暫時沒有公布,SK 海力士和美光今年都公布了這一技術,但美光在今年 9 月份表示,它正在努力成爲英偉達的供應商,不知道 H200 有沒有選上它。
這塊最強 GPU 要到 2024 年二季度才正式發售,現在大家依然得搶 H100。
今年 8 月英偉達發布的 GH200 超級芯片,實際上是由 Grace CPU 與 H100 GPU 組合而成的。
這套組合在 NVLink 的加持下與 H200 完全兼容,也就是說原先用 H100 的數據中心既可以直接升級 H200,也可以再堆幾塊 H200 進去增加算力。
另一方面,根據此前英偉達公布的更新路徑圖,在 2024 年的四季度就将發布下一代 Blackwell 架構的 B100,性能将再次突破。
再結合我們上文提到的,相比于 H100,H200 隻是在推理能力上有所提升,更接近老黃一貫以來的擠牙膏産品,真正的大招還得看明年的 B100。
問題是,英偉達爲什麽要出一款這樣的産品?
H200 稱不上傳奇
顯卡玩家都知道,老黃的刀法是出了名的精湛。
所謂刀工,就是你去買肉的時候說要一斤肉,老闆一刀下去剛好一斤。放到顯卡這裏,則是廠商通過分割性能設計出不同價位的産品,以滿足各類不同需求的消費者。
比如下圖所示的五款同一年發售的顯卡,采用相同制程和架構,但通過屏蔽不同量的流處理器以誕生性能有所差異的五款顯卡。
發售價基本呈等差數列,如果把他們變成性能差異的話,則會出現下面這張層層遞進的得分圖。
很明顯,消費者多花一分錢,就能多得到一點性能,号稱 " 每 500 元一檔,每 5% 性能一級 "。
畢竟打遊戲這事,有人隻玩熱血傳奇,也有人就喜歡 4K 光追 120FPS 玩《賽博朋克 2077》,不同人群的需求千差萬别,不同價位都有市場。
圖片來源:極客灣
至于這麽操作有什麽好處——搶占市場,節約成本。
搶占市場比較好理解,在所有價格帶和各種性能檔次上鋪滿自家産品以擠壓對手生存空間,這套做法各行各業都有,看看白酒和車企就知道了。
成本這邊,一片晶圓能夠切割出若幹塊 "die"(也就是芯片封裝前的晶粒),而這切割出來的 die 質量參差不齊,也就有了良品率的概念。
因此簡單來說,以 16xx 系顯卡爲例,英偉達就會把質量最高的芯片做成性能最強的 1660Ti,差一點的做成 1660Super 和 1660,再差一點的繼續降級。
這樣就能夠保證在芯片制造過程中的損耗盡可能降低。
同時這種刀法還能用來清庫存,比如 22 年礦機市場崩盤,英偉達 30xx 系列芯片堆在倉庫裏賣不動,老黃就把用在高端顯卡上的芯片放進低端顯卡系列裏,降價出售。
比如說原先放在 3090 上的 ga102 核心,22 年 3 月首發價 11999 元,到了 11 月就搭載到新版的 3070Ti V2 上,價格直接打到了 3500 左右。
回到 H200 這裏,H100 已經是最強的 AI 芯片了,但英偉達就是要在 B100 和 H100 之間再切出一個 H200,同樣也是上述的兩個原因。
這裏需要科普一下内存帶寬的意義,一套服務器的真實計算速度(FLOPs/s),是在 " 計算密度 x 帶寬 " 與 " 峰值計算速度 " 這兩個指标間取最小值。
而計算密度和帶寬的上限都是受到内存技術影響的。(這裏劃個線,後面讨論中國特供 H20 還會提到。)
通俗來說,就是如果芯片内部計算已經結束,但新的數據沒傳過來,下一次計算也就不能開始,這部分算力實際上是被浪費的。
這也是爲什麽我們看到一些服務器的算力(FLOPs)相對較低,但計算速度卻更高的原因。
因此對于一款高性能芯片來說,算力和帶寬應當同步提升才能使計算速度最大化。
對于 H 系列 GPU 來說,在不改架構和所用制程的情況下,可能算力上的突破已經比較困難,但在 HBM3e 的加持下,内存和内存帶寬得以繼續提升。
另一方面,相較于此前訓練大模型所強調的龐大算力,在當下 AI 應用大量落地的時代廠商開始重視推理速度。
推理速度和計算速度可以劃上約等号,即是将用戶輸入的數據,通過訓練好的大模型,再輸出給用戶有價值的信息的過程,也就是你等 ChatGPT 回複你的那段時間。
推理速度越快,回複速度越快,用戶體驗自然越好,但對于 AI 應用而言,不同難度等級的推理所需要的運算量天差地别。
打個比方,假設現在有一款和 GPT-4 同樣強大的模型,但問他附近有什麽好吃的足足花一分鍾才能給出答案,但 GPT-4 隻要一秒,這就是推理速度帶來的差異。
這種推理速度上的差異延伸到應用生态上,則會影響應用的廣度與深度,比如即時性要求更強的 AI 就必須擁有更高的帶寬,最典型的案例就是自動駕駛技術。
在這一邏輯下,頭部大廠自然會願意爲更高的内存買單。
而成本這一塊,英偉達就更雞賊了,咱們來看看中國特供版 GPU:H20。
深厚刀工下的産物:H20
日前有消息稱,英偉達現已開發出針對中國區的最新改良版系列芯片:HGX H20、L20 PCle 和 L2 PCle,知情人士稱,最新三款芯片是由 H100 改良而來,預計會在 16 号正式公布。
這有三款芯片,但 L20 和 L2 是基于 Intel 的第三代平台,這裏暫且不表,重點是采用 H100/H800 架構的 H20。
H20 的誕生背景這裏就不再贅述,單看這名字,足足落後 H200 十倍,拜登看了直點頭。
先看參數,H20 在内存上用的還是 H100 相同的 HBM3,6 個 16G 堆疊完完整整 96GB,完全沒有任何留存部分,意味着該技術良率早已不是問題,明顯的成熟制程。
但爲了規避禁令限制,計算密度(下圖中的 TPP/Die size)被大幅閹割,根據上文所述,計算速度也就是推理速度差了不止一星半點。
然後再看這張表,計算能力的核心參數 FP32 爲 44TFLOPS,相較于 H100/200 并沒有下降多少。
但在張量核心(Tensor Core)的部分則是大砍特砍,BF16、TF32 都被砍到隻剩一個零頭。
簡單來說就是生成比 GPT-3 更高級的大模型所必備的,專爲深度學習而設計的計算核心,張量核心被砍,基本意味着這塊 GPU 當下訓練不出比 GPT-3 更高級的模型。
張量核心被砍,同樣意味着生産這卡可以用成熟制程,品相差一點的晶粒,也就意味着更低的成本。
想想這是不是和顯卡玩法差不多?
看到這裏感覺就是個全面閹割版,用國産替代不行嗎?
老黃刀法厲害就厲害在這:4.0TB 的内存帶寬比 H100 還高,卡間、服務器間帶寬 NVlink 速度 900GB/s 和 H100 持平。
也就是說,即便禁令影響不能出售高端 GPU,但中國客戶可以多買幾張堆一起,用來彌補單卡算力不足的問題,粗略算算 2.5 張 H20 可以等效于一張 A100。
NVlink 再加上 CUDA 生态,再算上成熟制程帶來的低成本優勢,即便國内廠商不得不給英偉達繳更多的 " 稅 ",H20 依舊是國内廠商最好的選擇。
還是那句話,老黃這麽多年積澱下的刀功确實能給蚊子腿做手術,這一刀下來,既規避了禁令限制,又讓國内廠商繼續買他們家的産品。
英偉達又赢麻了。