GPU Utils 發布了一份關于英偉達 GPU ——主要是 H100 的研究報告,試圖梳理有關 GPU 供應和需求的相關問題。在這篇主要針對美國市場的報告中,我們看到了目前阻礙大模型和人工智能發展的關鍵瓶頸 GPU 短缺是如何形成和發展的。
總的來說,GPU 瓶頸的出現原因是多方面的,環環相扣的複雜工藝制造流程,半導體周期,對稀缺資源的搶占與恐慌乃至未曾預料到的人工智能的突然爆發,都讓 GPU 算力變得無比緊張。
樂觀地看,2024 年這一瓶頸或許會有所緩解。
H100 GPU
01 數十萬張缺口,一百五十億需求
每個想要在人工智能爆發中分一杯羹的人都需要 GPU。準确地說,是英偉達的 A100 和 H100,它們在訓練和推理大模型中扮演關鍵角色。如果要想要從頭訓練大模型,至少需要上千張 A100 或 H100,而推理和微調大模型也至少需要儲存 100 張。
具體到每家的數量上,報告彙總了一些數據:GPT4 在 1 萬到 2.5 萬塊 A100 上訓練,Meta 有 2.1 萬塊 A100,特斯拉有 7000 塊,Stability AI 有 5000 塊,谷歌雲大概有 2.5 萬塊 H100,微軟 Azure 有 1 萬到 4 萬塊,甲骨文可能也有同樣多的 H100。值得一提的是,Azure 的 GPU 基本都用來供應 OpenAI 的訓練了。
而根據馬斯克的說法,GPT5 的訓練可能會用到 3 萬到 5 萬張 H100,因此對未來的估計上,報告指出 OpenAI 可能需要 5 萬張 H100,Meta 至少需要 2.5 萬張(也有人說實際上需要 10 萬乃至更多),所有的雲服務廠商,微軟、谷歌雲和亞馬遜雲以及甲骨文各需要 3 萬張,私有雲服務商,比如剛剛融資的 CoreWeave 等總需求是 10 萬張,而像 Claude 的開發者 Anthropic 這樣的初創公司也都至少需要 1 萬張 GPU。
另外,一些金融公司比如 JP Morgan 等也在部署 A100 或 H100,因此總體上看,對 H100 的需求超過了 43 萬張。
這還是不算中國市場的情況,由于制裁原因,字節跳動、百度、阿裏巴巴等隻能大量購買 A100 和 H100 的替代産品 A800 與 H800,這一部分的需求沒有列入其中,根據媒體的說法,其總額高達 50 億美金。
如果将這些數字相加,這就是目前英偉達面對的,總計規模高達 200 億美元的 GPU 需求。
H100 家族,從單個 GPU 到組合擴展而成的工作站和服務器。
02 黃仁勳沒有騙我,買的越多,省得越多
作爲 A100 的更新版,H100 擁有着更好的性能,盡管它的價格更昂貴,單張約爲 3.5 萬美元。
根據産量需求和成本,大部分企業都把 A100 和 H100 混用以節省成本。具體來說,在大模型訓練環節往往會使用 3.2Tb/s 無限帶寬(IB)的 H100
GPU,在模型推理環節,則往往也可以使用 A100。
相比 A100,H100 的升級主要體現在具有更低的緩存延遲和 FP8 計算能力,這兩者都顯著提升了顯卡處理模型的效率。另外,H100 還具有更好的拓展性,方便實現大規模部署。
總的來說,H100 的 16 位訓練速度快了 2.3 倍,推理速度快了 3.5 倍,而它的成本——根據報告所說,僅是 A100 的 1.5 倍到 2 倍。
這正是黃仁勳在不同場合都反複強調的,the more you buy, the more you save. 買的越多,省得越多。
關于 H100 芯片的組合形式有多種,包括英偉達自己設計的 DGX
H100 ,但市場上大部分公司都選擇購買 8 個 GPU 版本的 HGX H100 服務器,它是由英偉達的合作夥伴們生産的,價格大緻在 36 萬到 38 萬美元之間。
HGX 也有兩種版本,配備 SXM 接口或者 PCIe 接口,報告指出市場上 70% 到 80% 的需求都是 SXM H100,因爲這種接口可以實現最大的吞吐量并且不需要連接電源。
市場對 H100 的趨之若鹜,與競争對手形成了鮮明的對比。
英偉達官方給出的關于訓練 GPT3 時 A100 和 H100 的不同表現對比
03 沒有對手
根據英偉達的更新節奏,直到 2024 年底或 2025 年,H100 的升級版才會到來,在此之前它将繼續統領大模型市場。
競争對手并沒有坐以待斃,比如 AMD 剛剛推出了名爲 MI300 系列的芯片,英特爾也有名爲 Gaudi2 的加速計算芯片,它們至少在理論上都是英偉達的競争對手。
然而在實際上,他們面對着比英偉達更大的問題。
報告中主要指出 AMD 的問題。首先重新配置 AMD 的設備——就算它可以完美适用大模型訓練任務,也需要開發和調試的時間,這意味着在時間上會落後于競争對手。
其次,一個模型的訓練成本接近 3 億美元,對芯片的需求往往會超過 1 萬張,沒有人會冒風險大規模使用除了英偉達以外的芯片。
最後,限制英偉達 GPU 的瓶頸——複雜的生産工藝,同樣也在限制着 AMD 的産量—— MI250 同樣難以獲得。
至于另一個競争對手 Gaudi2,由于英特爾自己擁有工廠因此它或許在産量上有比較優勢,但 Gaudi2 是一款幾乎全新的芯片,針對它的研究和測試還非常少,事實上英特爾自己還在對其進行各種配套開發和優化,預計到今年下半年晚些時候才能調試完畢,而這時 H100 已經上市一年多了。
因此總結下來,目前爲止 H100 就是是訓練大模型最佳的 GPU,沒有之一。
H100 NVL GPU
04 瓶頸到底在哪裏?
目前,H100 的供應已經相當短缺,有傳言說微軟 Azure 和谷歌雲的容量實際上已經快用完了,亞馬遜雲也面對同樣的情況,傳言目前下單需要等數月乃至半年。
導緻稀缺的原因是多方面的,最根本的是,GPU 是一項極端複雜的技術,需要世界上最先進的生産工藝,而掌握這項工藝的工廠——台積電,它的産能是有限的。
目前 H100 都由台積電代工,使用 4N 工藝,也就是增強型 5 納米制程(相比之下 A100 使用的是 N7),這幾乎是目前最複雜的芯片制作工藝,從開始生産到出售給客戶,H100 中間經曆的生産、包裝和測試環節一共需要 6 個月左右,這就意味着對 H100 的生産需要英偉達和台積電進行提前的布局,這在半導體行業來說是經常的事,但這一次英偉達和台積電顯然都對 H100 需求出現了錯誤的判斷。
這很好理解,因爲 ChatGPT 爆發是去年底的事,那時關于今年的生産計劃(至少是上半年的計劃)已經規劃好了,台積電總體的生産能力是有限的,還需要在不同的大客戶之間分配,而産能爬坡也需要一個很長的過程——不要忘記生産 H100 這種 GPU 包含着全世界最複雜的工藝流程。
報告中特别指出生其中之一的瓶頸在于所謂 CoWoS 封裝(Chipon wafer on Substrate 芯片、晶圓、基闆封裝),它目前的月産量是 8000 片,今年底有望提升至 11,000 片, 2024 年底則達到每月 14,500 至 16,600 片左右的水平,也就是說,想要提升一倍的産量,幾乎需要一年半的時間,這當然也是由于生産工藝異常複雜導緻。
這直接影響了 H100 的生産,更何況并不是隻有一家在使用 CoWoS 封裝工藝,英偉達的競争對手 AMD 以及博通、思科和賽靈思等都同樣在使用這種工藝制作芯片,又一次,台積電的産能瓶頸限制了 GPU 的供應。
另外,H100 所使用的 HBM3 系列内存也是一個生産難點。報告指出英偉達主要在使用 SK 海力士的内存,後者是這一領域的領軍者,特别是在 HBM 内存的研發上。HBM 技術直接把内存堆棧放在 GPU 芯片上,實現了更高的帶寬和更低的功耗。今年 4 月 20 日,SK 海力士宣布在全球率先研發出 12 層堆疊的 HBM3 内存,單顆容量達到 24GB。内存容量越大,意味着 GPU 可以裝載下更大的模型,然而 HBM3 内存的生産過程也十分複雜,産量提升同樣困難重重,實際上另外幾家芯片大廠,比如三星和美光,都很難提升 HBM 内存的産量,據說 SK 海力士正在根據英偉達的要求增産,在剛剛過去的 SIGGRAPH 2023 上,黃仁勳發布了 GH200 超級芯片的更新版, 采用了增強的 HBM3E 内存,這可以看作是英偉達在内存領域同供應商密切協作的一個例子。
裝有 8 個 H100 的 HGX 服務器
05 稀缺性螺旋、配貨機制與 GPU 金融化
通過和台積電以及上下遊供應鏈的積極協調,H100 的産量會逐漸提升——英偉達在财報電話會上談到了這一點,盡管沒有對具體數字做任何承諾。
然而當我們理解 GPU 瓶頸的時候,并不能簡單把它等同于産能瓶頸,這是報告中沒有明确指出,但又十分顯而易見的一點——這種稀缺同時還由各種市場和非市場因素造成。
當然,首要的還是英偉達本身對産品的分配。GPU 本就稀缺,因此在服務客戶的角度上,英偉達推行了一套和奢侈品配貨制度頗爲類似的機制——由英偉達來挑選自己的客戶。
報告中指出,哪些客戶能拿到多少 GPU 有賴于英偉達的規劃,而英偉達更傾向于爲那些沒有開發競品芯片的企業優先分配 GPU ——谷歌雲、亞馬遜雲和 Meta 都在開發自己的芯片,因此英偉達似乎更願意和甲骨文合作,DGX 雲基礎架構的第一個合作對象就是甲骨文。
其次,英偉達希望了解最終的客戶是誰,它更傾向于爲大企業和強大的初創公司提供算力,比如說英偉達投資的 AI 公司 Inflection 就擁有一個巨大的 H100 集群,而小型雲服務商 CoreWeave 則擁有比谷歌雲更多的 H100。
CoreWeave 完全使用英偉達的 GPU,同時也不打算自己做芯片,因此更得英偉達青睐,英偉達甚至還參與了它的 B 輪融資。
CoreWeave 的 GPU 資源有多富?它使用基于 H100 的雲服務訓練 GPT3 大模型隻用了 11 分鍾,相比之下 OpenAI 用一萬張 A100 訓練了 14.8 天。
CoreWeave 提供的價格列表,HGX H100 每小時價格爲 4.76 美元。
基于這種配貨的機制,市場上的 GPU 流動更不平衡,GPU 變得不是一個隻要有錢就能買到的東西,這助長了另一種稀缺性——囤積居奇。
大模型的算法和數據的技術難度相對比較透明,相比之下,算力是一道紮實的無法逾越的護城河,有多少 GPU 直接決定了 AI 公司的能力強弱,因此 GPU 囤積變成了許多公司的一種下意識行爲——甯可備而不用,不可用而不備,這當然加劇了 GPU 的稀缺。
遲遲不見提升的産量和坊間各種傳聞(比如上面所謂的配貨機制,它從來沒得到過官方的證實——就像愛馬仕從來也不承認有所謂配貨機制一樣)則造成了一種稀缺的預期,就像對通貨膨脹的預期會真的導緻通貨膨脹一樣,對缺貨的預期進一步加劇了缺貨。
這甚至某種程度上導緻了 GPU 變成了一種戰略資源,進而成爲一種金融衍生品。CoreWeave 在八月初剛剛進行了一筆價值 23 億美元的債務融資,抵押物正是手中的 H100,如果這筆錢純粹是基于對 H100 的市場均價(這裏取 37 萬美元)估出來的話,意味着 CoreWeave 手中有超過 6000 台 HGX H100,也就是近 5 萬張顯卡。
在去年的 GTC 上,黃仁勳介紹 H100
06 結語
GPU 的缺貨嚴重影響了 AI 的發展,OpenAI 首席執行官 Sam Altman 說過,使用我們産品的人越少對我們反而越好。
當然你可以說 Sam Altman 在得了便宜賣乖(事實上也确實是),但某種程度上,這也是他的真心話,算力瓶頸在限制着所有人,這足以說明人類對 AI 突破的到來多麽缺乏準備。
生成式 AI 和 transformer 架構都不是最新的發現,它們的理論在很早就在學界廣爲流傳,業界也不乏大舉投入其中的公司(當然,OpenAI 是最堅決的那個),然而直到 ChatGPT 和 Stable Diffusion 出現之前,它們不過是人們認知中通往人工智能的某種方向而已,類似的方向還有很多,而并沒有人真的确定哪條道路是正确的。
由此我們可以看出英偉達的布局是多麽具有前瞻性,把原本用于讓計算機顯示圖形的并行計算應用于神經網絡,這讓英偉達比其它任何人都更早地積累了一系列相關技術、算法以及硬件設備,并由此創造了 CUDA 生态,現在它們共同支撐起了英偉達萬億市值,成爲一道短期内很難攻破的企業護城河。
正如 GPU 的産能短期内恐怕得不到解決一樣,AI 産業短期内依然要被英偉達的資源所左右,英偉達正在決定生成式 AI 的未來。
參考資料: 《Nvidia H100 GPUs: Supply and Demand》 https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/