從H20到H200，國産算力差在哪兒？

兩個不那麽顯性的差距

英偉達最近動作不少。先是 11 月上旬，向我們國内出口了特（yan）供（ge）版的 H20 芯片，接着一周後就又發布了面向海外的 H200 芯片。

看得出，這次芯片命名，老黃還是花了點心思的。特供和美版，肉眼可見的十倍差距，應該會令想制裁中國的登哥十分滿意。

H200 确實很強，H20 據說也很受歡迎，那麽，國内 GPU 就真的不行嗎？差距到底在哪裏？

衆所周知的一個差距是在 " 算力 " 方面，也就是單位時間能處理的信息。這個差距的彌補主要靠 " 設計和制造 "。芯片制造隻能步步追趕，需要設備、材料、工藝等等的綜合提升；而設計方面，需要靠積累，但也已經沒那麽差了。

比如從算力角度來看，國産一款 910 的産品和 H20 對比的話，半精度算力還比 H20 高呢。那差在哪裏？

在顯性算力的背後，隐性的差距，其實是在 " 網絡 " 和 " 存儲 "，或者統一而言是 " 帶寬 "。

如果以廚師做飯來做比喻的話，高算力就相當于手藝精湛的大廚，能做好菜、能高效做好菜；但做菜還需要運輸，比如把菜從市場買回來、以及，把菜洗好傳給大廚。如果買菜很慢、或者傳菜很慢，那麽大廚再牛也難爲無米之炊。

網絡和存儲，就是買菜和傳菜；它們就是當前限制我國算力大廚的隐性關卡。爲什麽會這樣？又該如何破解呢？

01 省掉一步，更快速度

特斯拉有一個超算中心 Dojo，作爲其智能駕駛的火力支撐。然而，特斯拉 FSD V12 版本的訓練，卻并不是依靠 Dojo，而依然是英偉達。

馬斯克對此稱，" 目前遇到的最大技術困難，是需要像 InfiniBand 那樣的高速網絡連接來并行更大的算力。"

提到網絡連接，就得先從美國施樂說起，也就是養活了微軟和蘋果的那位大哥。在計算機初期，網絡連接有各種标準，不容易互相通信。後來，施樂在公司内部使用了一種連接标準，就是以太網的雛形。1982 年發布了以太網标準。

以太網标準下，服務器之間的交互流程是應用程序的數據，先到核心内存，再送到網卡，然後通過網卡，送到另一台服務器上。所有的信息對接，都要經過内存轉換，增加了 CPU 的負擔，也增加了傳輸的時延。

這就好比我們打車。乘客打電話給出租車公司，公司再打電話給司機；司機到了之後，也不聯系乘客，而是打電話給公司，公司再打電話給乘客。好處是可靠、便于管理。但缺點也很明顯，流程太長了，信息來回傳遞也不方便。

業務量少的時候，沒有問題。但一旦數據量太多、需求很多，那麽，效率就會有折扣。這對于 AI 而言，就非常明顯了。

大模型就是通過大量數據的大量計算，從而産生了湧現。數據傳輸快一點，能力也就會更強一點。如果數據都傳得很慢，怎麽可能大量計算呢。

于是，InfiniBand 脫穎而出。

1999 年，InfiniBand 貿易協會成立，目的就是爲了 " 幹掉 " 傳統以太網。目标很大，敵人也很強大，抗争很艱難。以至于 2002 年的時候，英特爾就從這個協會裏退出了，随後微軟也退出了。

但成立于 1999 年的 Mellanox 還在堅持，2001 年還推出了首款産品。InfiniBand 的特點是，數據，不經過核心内存而是直接通過網卡連接。

這個模式對于數據中心而言，效果非常好用。因爲數據中心的場景很固定，也沒有各種需求。所以，Mellanox 很快就成爲了數據中心網絡連接的老大，市占率一度高達 80%。2013 年，Mellanox 還收購了矽光技術公司，讓數據傳輸進一步加快。

Mellanox 的高速發展，也吸引了巨頭們的關注。GPU 的高速并行運算，配合高速數據傳輸，對于英偉達而言，可謂是：

周董看到了優樂美。

于是，2019 年，英偉達（Nvidia）公司豪擲 69 億美元，擊敗對手英特爾和微軟（分别出價 60 億和 55 億美元），把 Mellanox 捧到了手心裏。英偉達也拿到了 InfiniBand 這個利器，令衆人看不慣又幹不掉。

但随着英偉達在 AI 領域的地位越來越顯著，" 反抗 " 也随之而來。

超以太網聯盟（Ultra Ethernet Consortium）在今年成立，希望用新的協議來抗争。UEC 集結了 AMD、Arista、博通、思科等設備商，以及 Meta、微軟等雲廠商。而協議的标準也比較明确，" 打不過就抄過來 "。

顯然，在網絡連接端吃虧的，也不隻是我們的算力公司，馬斯克不也抱怨了麽。誰讓英偉達眼光好呢，隻能等超以太網幹活了。

02 先進封裝，黃金萬兩

傳菜爲什麽也受限了呢？說起這個，就不得不提馮 · 諾依曼，一位奠定了現代計算機架構的大師，一位讓無數學子重考的大師。在馮 · 諾依曼架構中，有 " 運算 "、" 存儲 "、和 " 輸入輸出 " 等三大類設備，也就是炒菜、存菜、傳菜。

馮 · 諾依曼架構

這種架構下，存儲和 CPU 頻繁的交換數據，一下子就提高了存儲的地位，也讓這個架構裏存在了 " 内存牆 "。那麽如何打開一扇窗呢？

這就是 H200/H100 的另一個核心力，HBM（High Bandwidth Memory，高帶寬内存）存儲芯片。

HBM 是 2014 年由 AMD、SK 海力士共同發布的，就是用 TSV 矽通孔技術，把多個 DRAM 存儲芯片堆疊起來，并與 GPU、CPU 或者 ASIC 封裝在一起，從而提高容量，以及更快的并行數據處理速度。

快是有一定道理的，首先，存儲就是邏輯層上方，從隔壁樓到上下樓，打個招呼就行，自然方便多了，功耗也降低不少。另外，統一封裝，互聯上的延時也更低。效果也很顯著。

HBM 的基本結構：左側彩色的 5 層結構爲 HBM 封裝

比如一組數據顯示，HBM3 的帶寬可以達到 819 GB/s，而 GDDR6 的帶寬最高隻有 96GB/s，CPU 常用 DDR4，帶寬也隻有 HBM 的 1/10。因此，英偉達、AMD 都選擇了 HBM 技術來配合。英偉達的 H200 更是選擇了 HBM3 的升級版 HBM3e。

HBM 成各家最愛

HBM 産品市場份額，目前是海外獨享。海力士占比 50%，三星占比 40%，美光占比 10%。中國企業目前仍在 DRAM 産品領域追趕。

最簡單的事情，卻往往最難。好比說，炒股賺錢，最簡單的方法就是 " 低買、高賣 "，但賺錢的人不足 10%。HBM 也是如此，雖然看圖片，好像挺簡單的，但實現起來，則是困難重重。

首先是設計，人才是稀缺的。其次是生産。HBM 芯片的生産，主流的路線是台積電的 CoWoS（chip-on-wafer-on-substrate）先進封裝，也是 2.5D 封裝。先把芯片集成在一起，再封裝到基闆上。哪一步都不容易。

好消息是華爲國産 GPU 也可以用 HBM 産品，不太好的消息是最高階的産品，我們還是拿不到。所以，面臨随時可能的斷供，存儲芯片依然需要持續發力。

03 投桃報李，講點義氣

無論是算力、還是網絡、或者高帶寬内存，其實都有一個核心要素是：用起來。

比如台積電的 CoWoS 技術開發早期，也遭遇過 " 冷眼 "。公司希望價格是 7 美分 / 平方毫米，但客戶高通卻隻願意支付 1 美分 / 平方毫米。巨大的差異，導緻公司不得不開發個平替産品。幸好當時自研芯片的蘋果，給了台積電機會，于是有了 CoWoS 工藝的成熟、普及，以及再研發。

提起英偉達，一個公認的護城河便是 CUDA 生态。生态，意味着參與者遷移成本很高，比如開發者已經熟悉了英偉達的開發套件，再去熟悉其他公司是有難度的。就跟用慣了微信，就很難再換其他聊天工具一樣。

要打破生态的壁壘，核心也是要讓一批人在新的環境裏用起來。

最近互聯網圈也爆出了不小的新聞，美團、網易、阿裏、字節等等公司，都啓動或完成了和鴻蒙系統的适配。隻有越來越多的企業支持，系統才有生存空間。

當然，新生态，尤其在後起步的芯片領域，許多環節會不如成熟生态好用。但即使是英偉達，前期搭建 CUDA 也花費了數十年心力，頂着不小的質疑。因此，對于國産芯片的支持，難免需要一些情懷，用愛發點電。

不過，對于被支持的企業，要記得投桃報李。

雖然目前我國的算力，依然和海外有不小的差距。但慶幸的是，社會已經逐漸形成了共識：

1 美分 / 平方毫米，也就是 7 萬元 / 平方米的芯片，比 7 萬元 / 平方米的房子，更能産生持久的生産力。