兩個不那麽顯性的差距
英偉達最近動作不少。先是 11 月上旬,向我們國内出口了特(yan)供(ge)版的 H20 芯片,接着一周後就又發布了面向海外的 H200 芯片。
看得出,這次芯片命名,老黃還是花了點心思的。特供和美版,肉眼可見的十倍差距,應該會令想制裁中國的登哥十分滿意。
H200 确實很強,H20 據說也很受歡迎,那麽,國内 GPU 就真的不行嗎?差距到底在哪裏?
衆所周知的一個差距是在 " 算力 " 方面,也就是單位時間能處理的信息。這個差距的彌補主要靠 " 設計和制造 "。芯片制造隻能步步追趕,需要設備、材料、工藝等等的綜合提升;而設計方面,需要靠積累,但也已經沒那麽差了。
比如從算力角度來看,國産一款 910 的産品和 H20 對比的話,半精度算力還比 H20 高呢。那差在哪裏?
在顯性算力的背後,隐性的差距,其實是在 " 網絡 " 和 " 存儲 ",或者統一而言是 " 帶寬 "。
如果以廚師做飯來做比喻的話,高算力就相當于手藝精湛的大廚,能做好菜、能高效做好菜;但做菜還需要運輸,比如把菜從市場買回來、以及,把菜洗好傳給大廚。如果買菜很慢、或者傳菜很慢,那麽大廚再牛也難爲無米之炊。
網絡和存儲,就是買菜和傳菜;它們就是當前限制我國算力大廚的隐性關卡。爲什麽會這樣?又該如何破解呢?
01 省掉一步,更快速度
特斯拉有一個超算中心 Dojo,作爲其智能駕駛的火力支撐。然而,特斯拉 FSD V12 版本的訓練,卻并不是依靠 Dojo,而依然是英偉達。
馬斯克對此稱," 目前遇到的最大技術困難,是需要像 InfiniBand 那樣的高速網絡連接來并行更大的算力。"
提到網絡連接,就得先從美國施樂說起,也就是養活了微軟和蘋果的那位大哥。在計算機初期,網絡連接有各種标準,不容易互相通信。後來,施樂在公司内部使用了一種連接标準,就是以太網的雛形。1982 年發布了以太網标準。
以太網标準下,服務器之間的交互流程是應用程序的數據,先到核心内存,再送到網卡,然後通過網卡,送到另一台服務器上。所有的信息對接,都要經過内存轉換,增加了 CPU 的負擔,也增加了傳輸的時延。
這就好比我們打車。乘客打電話給出租車公司,公司再打電話給司機;司機到了之後,也不聯系乘客,而是打電話給公司,公司再打電話給乘客。好處是可靠、便于管理。但缺點也很明顯,流程太長了,信息來回傳遞也不方便。
業務量少的時候,沒有問題。但一旦數據量太多、需求很多,那麽,效率就會有折扣。這對于 AI 而言,就非常明顯了。
大模型就是通過大量數據的大量計算,從而産生了湧現。數據傳輸快一點,能力也就會更強一點。如果數據都傳得很慢,怎麽可能大量計算呢。
于是,InfiniBand 脫穎而出。
1999 年,InfiniBand 貿易協會成立,目的就是爲了 " 幹掉 " 傳統以太網。目标很大,敵人也很強大,抗争很艱難。以至于 2002 年的時候,英特爾就從這個協會裏退出了,随後微軟也退出了。
但成立于 1999 年的 Mellanox 還在堅持,2001 年還推出了首款産品。InfiniBand 的特點是,數據,不經過核心内存而是直接通過網卡連接。
這個模式對于數據中心而言,效果非常好用。因爲數據中心的場景很固定,也沒有各種需求。所以,Mellanox 很快就成爲了數據中心網絡連接的老大,市占率一度高達 80%。2013 年,Mellanox 還收購了矽光技術公司,讓數據傳輸進一步加快。
Mellanox 的高速發展,也吸引了巨頭們的關注。GPU 的高速并行運算,配合高速數據傳輸,對于英偉達而言,可謂是:
周董看到了優樂美。
于是,2019 年,英偉達(Nvidia)公司豪擲 69 億美元,擊敗對手英特爾和微軟(分别出價 60 億和 55 億美元),把 Mellanox 捧到了手心裏。英偉達也拿到了 InfiniBand 這個利器,令衆人看不慣又幹不掉。
但随着英偉達在 AI 領域的地位越來越顯著," 反抗 " 也随之而來。
超以太網聯盟(Ultra Ethernet Consortium)在今年成立,希望用新的協議來抗争。UEC 集結了 AMD、Arista、博通、思科等設備商,以及 Meta、微軟等雲廠商。而協議的标準也比較明确," 打不過就抄過來 "。
顯然,在網絡連接端吃虧的,也不隻是我們的算力公司,馬斯克不也抱怨了麽。誰讓英偉達眼光好呢,隻能等超以太網幹活了。
02 先進封裝,黃金萬兩
傳菜爲什麽也受限了呢?說起這個,就不得不提馮 · 諾依曼,一位奠定了現代計算機架構的大師,一位讓無數學子重考的大師。在馮 · 諾依曼架構中,有 " 運算 "、" 存儲 "、和 " 輸入輸出 " 等三大類設備,也就是炒菜、存菜、傳菜。
馮 · 諾依曼架構
這種架構下,存儲和 CPU 頻繁的交換數據,一下子就提高了存儲的地位,也讓這個架構裏存在了 " 内存牆 "。那麽如何打開一扇窗呢?
這就是 H200/H100 的另一個核心力,HBM(High Bandwidth Memory,高帶寬内存)存儲芯片。
HBM 是 2014 年由 AMD、SK 海力士共同發布的,就是用 TSV 矽通孔技術,把多個 DRAM 存儲芯片堆疊起來,并與 GPU、CPU 或者 ASIC 封裝在一起,從而提高容量,以及更快的并行數據處理速度。
快是有一定道理的,首先,存儲就是邏輯層上方,從隔壁樓到上下樓,打個招呼就行,自然方便多了,功耗也降低不少。另外,統一封裝,互聯上的延時也更低。效果也很顯著。
HBM 的基本結構:左側彩色的 5 層結構爲 HBM 封裝
比如一組數據顯示,HBM3 的帶寬可以達到 819 GB/s,而 GDDR6 的帶寬最高隻有 96GB/s,CPU 常用 DDR4,帶寬也隻有 HBM 的 1/10。因此,英偉達、AMD 都選擇了 HBM 技術來配合。英偉達的 H200 更是選擇了 HBM3 的升級版 HBM3e。
HBM 成各家最愛
HBM 産品市場份額,目前是海外獨享。海力士占比 50%,三星占比 40%,美光占比 10%。中國企業目前仍在 DRAM 産品領域追趕。
最簡單的事情,卻往往最難。好比說,炒股賺錢,最簡單的方法就是 " 低買、高賣 ",但賺錢的人不足 10%。HBM 也是如此,雖然看圖片,好像挺簡單的,但實現起來,則是困難重重。
首先是設計,人才是稀缺的。其次是生産。HBM 芯片的生産,主流的路線是台積電的 CoWoS(chip-on-wafer-on-substrate)先進封裝,也是 2.5D 封裝。先把芯片集成在一起,再封裝到基闆上。哪一步都不容易。
好消息是華爲國産 GPU 也可以用 HBM 産品,不太好的消息是最高階的産品,我們還是拿不到。所以,面臨随時可能的斷供,存儲芯片依然需要持續發力。
03 投桃報李,講點義氣
無論是算力、還是網絡、或者高帶寬内存,其實都有一個核心要素是:用起來。
比如台積電的 CoWoS 技術開發早期,也遭遇過 " 冷眼 "。公司希望價格是 7 美分 / 平方毫米,但客戶高通卻隻願意支付 1 美分 / 平方毫米。巨大的差異,導緻公司不得不開發個平替産品。幸好當時自研芯片的蘋果,給了台積電機會,于是有了 CoWoS 工藝的成熟、普及,以及再研發。
提起英偉達,一個公認的護城河便是 CUDA 生态。生态,意味着參與者遷移成本很高,比如開發者已經熟悉了英偉達的開發套件,再去熟悉其他公司是有難度的。就跟用慣了微信,就很難再換其他聊天工具一樣。
要打破生态的壁壘,核心也是要讓一批人在新的環境裏用起來。
最近互聯網圈也爆出了不小的新聞,美團、網易、阿裏、字節等等公司,都啓動或完成了和鴻蒙系統的适配。隻有越來越多的企業支持,系統才有生存空間。
當然,新生态,尤其在後起步的芯片領域,許多環節會不如成熟生态好用。但即使是英偉達,前期搭建 CUDA 也花費了數十年心力,頂着不小的質疑。因此,對于國産芯片的支持,難免需要一些情懷,用愛發點電。
不過,對于被支持的企業,要記得投桃報李。
雖然目前我國的算力,依然和海外有不小的差距。但慶幸的是,社會已經逐漸形成了共識:
1 美分 / 平方毫米,也就是 7 萬元 / 平方米的芯片,比 7 萬元 / 平方米的房子,更能産生持久的生産力。