英偉達阻擊國産 AI 芯片，“中國特供版”H20綜合算力比H100降80%

英偉達 Logo（來源：钛媒體 App 編輯拍攝）

11 月 10 日，近日有消息稱，芯片巨頭英偉達（NVIDIA）将基于 H100 推出三款針對中國市場的 AI 芯片，以應對美國最新的芯片出口管制。

規格文件中顯示，英偉達即将向中國客戶推出新産品分别名爲 HGX H20、L20 PCle、L2 PCle，基于英偉達的 Hopper 和 Ada Lovelace 架構。從規格和命名來看，三款産品針對的是訓練、推理和邊緣場景，最快将于 11 月 16 日公布，産品送樣時間在今年 11 月至 12 月，量産時間爲今年 12 月至明年 1 月。

钛媒體 App 從多位英偉達産業鏈公司了解到，上述消息屬實。

钛媒體 App 還獨家了解到，英偉達的這三款 AI 芯片并非 " 改良版 "，而是 " 縮水版 "。其中，用于 AI 模型訓練的 HGX H20 在帶寬、計算速度等方面均有所限制，理論上，整體算力要比英偉達 H100 GPU 芯片降 80% 左右，即 H20 等于 H100 的 20% 綜合算力性能，而且增加 HBM 顯存和 NVLink 互聯模塊以提高算力成本。所以，盡管相比 H100，HGX H20 價格會有所下降，但預計該産品價格仍将比國内 AI 芯片 910B 高一些。

" 這相當于将高速公路車道擴寬，但收費站入口未加寬，限制了流量。同樣在技術上，通過硬件和軟件的鎖，可以對芯片的性能進行精确控制，不必大規模更換生産線，即便是硬件升級了，性能仍然可以按需調節。目前，新的 H20 已經從源頭上‘卡’住了性能。" 一位行業人士這樣解釋新的 H20 芯片，" 比如，原先用 H100 跑一個任務需要 20 天，如今 H20 再跑可能要 100 天。"

盡管美國發布新一輪芯片限制措施，但英偉達似乎并沒有放棄中國巨大的 AI 算力市場。

那麽，國産芯片是否可以替代？钛媒體 App 了解到，經過測試，目前在大模型推理方面，國内 AI 芯片 910B 僅能達到 A100 的 60%-70% 左右，集群的模型訓練難以爲繼；同時，910B 在算力功耗、發熱等方面遠高于英偉達 A100/H100 系列産品，且無法兼容 CUDA，很難完全滿足長期智算中心的模型訓練需求。

截止目前，英偉達官方對此并未做出任何評論。

據悉，今年 10 月 17 日，美國商務部工業和安全局（BIS）發布了針對芯片的出口管制新規，對包括英偉達高性能 AI 芯片在内的半導體産品施加新的出口管制；限制條款已經于 10 月 23 日生效。英偉達給美國 SEC 的備案文件顯示，立即生效的禁售産品包括 A800、H800 和 L40S 這些功能最強大的 AI 芯片。

另外，L40 和 RTX 4090 芯片處理器保留了原有 30 天的窗口期。

10 月 31 日曾有消息稱，英偉達可能被迫取消價值 50 億美元的先進芯片訂單，受消息面影響，英偉達股價一度大跌。此前，英偉達爲中國專供的 A800 和 H800，由于美國新規而無法正常在中國市場銷售，而這兩款芯片被稱爲 A100 及 H100 的 " 閹割版 "，英偉達爲了符合美國之前的規定而降低了芯片性能。

10 月 31 日，中國貿促會新聞發言人張鑫表示，美方新發布的對華半導體出口管制規則，進一步加嚴了人工智能相關芯片、半導體制造設備對華出口的限制，并将多家中國實體列入出口管制 " 實體清單 "。美國這些措施嚴重違反了市場經濟原則和國際經貿規則，加劇了全球半導體供應鏈撕裂與碎片化風險。美國自 2022 年下半年開始實施的對華芯片出口禁令正在深刻改變全球供需，造成 2023 年芯片供應失衡，影響了世界芯片産業格局，損害了包括中國企業在内的各國企業的利益。

英偉達 HGX H20、L20、L2 與其他産品的性能參數對比

钛媒體 App 了解到，新的 HGX H20、L20、L2 三款 AI 芯片産品，分别基于英偉達的 Hopper 和 Ada 架構，适用于雲端訓練、雲端推理以及邊緣推理。

其中，後兩者 L20、L2 的 AI 推理産品有類似的 " 國産替代 "、兼容 CUDA 的方案，而 HGX H20 是基于 H100、通過固件閹割方式 AI 訓練芯片産品，主要替代 A100/H800，國内除了英偉達，模型訓練方面很少有類似國産方案。

文件顯示，新的 H20 擁有 CoWoS 先進封裝技術，而且增加了一顆 HBM3（高性能内存）到 96GB，但成本也随之增加 240 美元；H20 的 FP16 稠密算力達到 148TFLOPS（每秒萬億次浮點運算），是 H100 算力的 15% 左右，因此需要增加額外的算法和人員成本等；NVLink 則由 400GB/s 升級至 900GB/s，因此互聯速率會有較大升級。

據評估，H100/H800 是目前算力集群的主流實踐方案。其中，H100 理論極限在 5 萬張卡集群，最多達到 10 萬 P 算力；H800 最大實踐集群在 2 萬 -3 萬張卡，共計 4 萬 P 算力；A100 最大實踐集群爲 1.6 萬張卡，最多爲 9600P 算力。

然而，如今新的 H20 芯片，理論極限在 5 萬張卡集群，但每張卡算力爲 0.148P，共計近爲 7400P 算力，低于 H100/H800、A100。因此，H20 集群規模遠達不到 H100 的理論規模，基于算力與通信均衡度預估，合理的整體算力中位數爲 3000P 左右，需增加更多成本、擴展更多算力才能完成千億級參數模型訓練。

兩位半導體行業專家向钛媒體 App 表示，基于目前性能參數的預估，明年英偉達 B100 GPU 産品很有可能不再向中國市場銷售。

整體來看，如果大模型企業要進行 GPT-4 這類參數的大模型訓練，算力集群規模則是核心，目前隻有 H800、H100 可以勝任大模型訓練，而國産 910B 的性能介于 A100 和 H100 之間，隻是 " 萬不得已的備用選擇 "。

如今英偉達推出的新的 H20，則更适用于垂類模型訓練、推理，無法滿足萬億級大模型訓練需求，但整體性能略高于 910B，加上英偉達 CUDA 生态，從而阻擊了在美國芯片限制令下，國産卡未來在中國 AI 芯片市場的唯一選擇路徑。

最新财報顯示，截至 7 月 30 日的一個季度内，英偉達 135 億美元的銷售額中，有超過 85% 份額來自美國和中國，隻有大約 14% 的銷售額來自其他國家和地區。

受 H20 消息影響，截至美股 11 月 9 日收盤，英偉達股價微漲 0.81%，報收 469.5 美元 / 股。近五個交易日，英偉達累漲超過 10%，最新市值達 1.16 萬億美元。

（本文首發钛媒體 App，作者｜林志佳）