「誰将獲得多少 H100,何時獲得 H100,都是矽谷中最熱門的話題。」
【新智元導讀】GPT-5 的訓練,需要 5 萬張 H100 加持。英偉達 GPU 已成爲各大 AI 公司開發大模型的首選利器。然而,Sam Altaman 自曝 GPU 很缺,竟不希望太多人用 ChatGPT。
「誰将獲得多少 H100,何時獲得 H100,都是矽谷中最熱門的話題。」
OpenAI 聯合創始人兼職科學家 Andrej Karpathy 近日發文,闡述了自己對英偉達 GPU 短缺的看法。
近來,社區廣爲流傳的一張圖「我們需要多少張 GPU」,引發了衆多網友的讨論。
根據圖中内容所示:
- GPT-4 可能在大約 10000-25000 張 A100 上進行了訓練
- Meta 大約 21000 A100
- Tesla 大約 7000 A100
- Stability AI 大約 5000 A100
- Falcon-40B 在 384 個 A100 上進行了訓練
– Inflection 使用了 3500 和 H100,來訓練與 GPT-3.5 能力相當的模型
另外,根據馬斯克的說法,GPT-5 可能需要 30000-50000 個 H100。
此前,摩根士丹利曾表示 GPT-5 使用 25000 個 GPU,自 2 月以來已經開始訓練,不過 Sam Altman 之後澄清了 GPT-5 尚未進行訓。
不過,Altman 此前表示,
我們的 GPU 非常短缺,使用我們産品的人越少越好。
如果人們用的越少,我們會很開心,因爲我們沒有足夠的 GPU。
在這篇名爲「Nvidia H100 GPU:供需」文章中,深度剖析了當前科技公司們對 GPU 的使用情況和需求。
文章推測,小型和大型雲提供商的大規模 H100 集群容量即将耗盡,H100 的需求趨勢至少會持續到 2024 年底。
那麽,GPU 需求真的是遇到了瓶頸嗎?
各大公司 GPU 需求:約 43 萬張 H100
當前,生成式 AI 爆發仍舊沒有放緩,對算力提出了更高的要求。
一些初創公司都在使用英偉達昂貴、且性能極高的 H100 來訓練模型。
馬斯克說,GPU 在這一點上,比藥物更難獲得。
Sam Altman 說,OpenAI 受到 GPU 的限制,這推遲了他們的短期計劃(微調、專用容量、32k 上下文窗口、多模态)。
Karpathy 發表此番言論之際,大型科技公司的年度報告,甚至都在讨論與 GPU 訪問相關的問題。
上周,微軟發布了年度報告,并向投資者強調,GPU 是其雲業務快速增長的「關鍵原材料」。如果無法獲得所需的基礎設施,可能會出現數據中心中斷的風險因素。
這篇文章據稱是由 HK 發帖的作者所寫。
他猜測,OpenAI 可能需要 50000 個 H100,而 Inflection 需要 22,000 個,Meta 可能需要 25k,而大型雲服務商可能需要 30k(比如 Azure、Google Cloud、AWS、Oracle)。
Lambda 和 CoreWeave 以及其他私有雲可能總共需要 100k。他寫道,Anthropic、Helsing、Mistral 和 Character 可能各需要 10k。
作者表示,這些完全是粗略估計和猜測,其中有些是重複計算雲和從雲租用設備的最終客戶。
整體算來,全球公司需要約 432000 張 H100。按每個 H100 約 35k 美元來計算,GPU 總需求耗資 150 億美元。
這其中還不包括國内,大量需要像 H800 的互聯網公司。
還有一些知名的金融公司,比如 Jane Street、JP Morgan、Two Sigma 等,每家都在進行部署,從數百張 A/H100 開始,擴展到數千張 A/H100。
包括 OpenAI、Anthropic、DeepMind、谷歌,以及 X.ai 在内的所有大型實驗室都在進行大型語言模型的訓練,而英偉達的 H100 是無可替代的。
H100 爲什麽成首選?
H100 比 A100 更受歡迎,成爲首選,部分原因是緩存延遲更低和 FP8 計算。
因爲它的效率高達 3 倍,但成本隻有(1.5-2 倍)。考慮到整體系統成本,H100 的性能要高得多。
從技術細節來說,比起 A100,H100 在 16 位推理速度大約快 3.5 倍,16 位訓練速度大約快 2.3 倍。
A100 vs H100 速度
H100 訓練 MoE
H100 大規模加速
大多數公司購買 H100,并将其用于訓練和推理,而 A100 主要用于推理。
但是,由于成本、容量、使用新硬件和設置新硬件的風險,以及現有的軟件已經針對 A100 進行了優化,有些公司會猶豫是否要切換。
GPU 并不短缺,而是供應鏈問題
英偉達的一位高管表示,問題不在于 GPU 短缺,而在于這些 GPU 如何進入市場。
英偉達正在正在開足馬力生産 GPU,但是這位高管稱,GPU 的産能最主要受到的是供應鏈的限制。
芯片本身可能産能充足,但是其他的組件的産能不足會嚴重限制 GPU 的産能。
這些組件的生産要依賴整個世界範圍内的其他供應商。
不過需求是可以預測的,所以現在問題正在逐漸得到解決。
GPU 芯片的産能情況
首先,英偉達隻與台積電合作生産 H100。英偉達所有的 5nmGPU 都隻與台積電合作。
未來可能會與英特爾和三星合作,但是短期内不可能,這就使得 H100 的生産受到了限制。
根據爆料者稱,台積電有 4 個生産節點爲 5nm 芯片提供産能:N5,N5P,N4,N5P
而 H100 隻在 N5 或者是 N5P 的中的 4N 節點上生産,是一個 5nm 的增強型節點。
而英偉達需要和蘋果,高通和 AMD 共享這個節點的産能。
而台積電晶圓廠需要提前 12 個月就對各個客戶的産能搭配做出規劃。
如果之前英偉達和台積電低估了 H100 的需求,那麽現在産能就會受到限制。
而爆料者稱,H100 到從生産到出廠大約需要半年的時間。
而且爆料者還援引某位退休的半導體行業專業人士的說法,晶圓廠并不是台積電的生産瓶頸,CoWoS(3D 堆疊)封裝才是台積電的産能大門。
H100 内存産能
而對于 H100 上的另一個重要組件,H100 内存,也可能存在産能不足的問題。
與 GPU 以一種特殊方式集成的 HBM(High Bandwidth Memory)是保障 GPU 性能的關鍵組件。
爆料者援引一位業内人士的說法 :
主要的問題是 HBM。制造它是一場噩夢。由于 HBM 很難生産,供應也非常有限。生産和設計都必須按照它的節奏來。
HBM3 内存,英偉達幾乎都是采用 SK Hynix 的産品,可能會有一部分三星的産品,應該沒有鎂光的産品。
英偉達希望 SK Hynix 能提高産能,他們也在這麽做。但是三星和鎂光的産能都很有限。
而且制造 GPU 還會用到包括稀土元素在内的許多其他材料和工藝,也會成爲限制 GPU 産能的可能因素。
GPU 芯片未來的情況會怎麽發展?
英偉達的說法
英偉達隻是透露,下半年他們能夠供應更多的 GPU,但是沒有提供任何定量的信息。
我們今天正在處理本季度的供應,但我們也爲下半年采購了大量供應。
我們相信下半年的供應量将大大高于上半年。
– 英偉達首席财務官 Colette Kress 在 2023 年 2 月至 4 月的财報電話會議上透露
接下來會發生什麽?
GPU 的供應問題現在是一個惡性循環,稀缺性導緻 GPU 擁有量被視爲護城河,從而導緻更多的 GPU 被囤積起來,從而加劇稀缺性。
– 某私有雲負責人透露
H100 的下一代産品何時會出現?
根據英偉達之前的線路圖,H100 的下一代産品要在 2024 年末到 2025 年初才會宣布。
在那個時間點之前,H100 都會是英偉達的旗艦産品。
不過英偉達在此期間内會推出 120GB 水冷版的 H100。
而根據爆料者采訪到的業内人士稱,到 2023 年底的 H100 都已經賣完了!!
如何獲得 H100 的算力?
就像前邊英偉達的高管提到的,H100 的 GPU 所提供的算力,最終要通過各個雲計算提供商整合到産業鏈中去,所以 H100 的短缺,一方面是 GPU 生成造成的。
另一個方面,是算力雲提供商怎麽能有效地從英偉達獲得 H100,并通過提供雲算力最終觸及需要的客戶。
這個過程簡單來說是:
算力雲提供商向 OEM 采購 H100 芯片,再搭建算力雲服務出售給各個 AI 企業,使得最終的用戶能夠獲得 H100 的算力。
而這個過程中同樣存在各種因素,造成了目前 H100 算力的短缺,而爆料的文章也提供了很多行業内部的信息供大家參考。
H100 的闆卡找誰買?
戴爾,聯想,HPE,Supermicro 和廣達等 OEM 商家都會銷售 H100 和 HGX H100。
像 CoreWeave 和 Lambda 這樣的 GPU 雲提供商從 OEM 廠家處購買,然後租給初創公司。
超大規模的企業(Azure、GCP、AWS、Oracle)會更直接與英偉達合作,但也會向 OEM 處購買。這和遊戲玩家買顯卡的渠道似乎也差不多。但即使是購買 DGX,用戶也需要通過 OEM 購買,不能直接向英偉達下訂單。
交貨時間
8-GPU HGX 服務器的交付時間很糟糕,4-GPU HGX 服務器的交付時間就還好。
但是每個客戶都想要 8-GPU 服務器!
初創公司是否從原始設備制造商和經銷商處購買産品?
初創公司如果要獲得 H100 的算力,最終不是自己買了 H100 插到自己的 GPU 集群中去。
他們通常會向 Oracle 等大型雲租用算力,或者向 Lambda 和 CoreWeave 等私有雲租用,或者向與 OEM 和數據中心合作的提供商(例如 FluidStack)租用。
如果想要自己構建數據中心,需要考慮的是構建數據中心的時間、是否有硬件方面的人員和經驗以及資本支出是否能夠承擔。
租用和托管服務器已經變得更加容易了。如果用戶想建立自己的數據中心,必須布置一條暗光纖線路才能連接到互聯網 - 每公裏 1 萬美元。大部分基礎設施已經在互聯網繁榮時期建成并支付了費用。租就行了,很便宜。
– 某私有雲負責人
從租賃到自建雲服務的順序大概是:按需租雲服務(純租賃雲服務)、預定雲服務、托管雲服務(購買服務器,與提供商合作托管和管理服務器)、自托管(自己購買和托管服務器))。
大部分需要 H100 算力的初創公司都會選擇預定雲服務或者是托管雲服務。
大型雲計算平台之間的比較
而對于很多初創公司而言,大型雲計算公司提供的雲服務,才是他們獲得 H100 的最終來源。
雲平台的選擇也最終決定了他們能否獲得穩定的 H100 算力。
總體的觀點是:Oracle 不如三大雲可靠。但是 Oracle 會提供更多的技術支持幫助。
其他幾家大型雲計算公司的主要差異在于:
網絡:盡管大多數尋求大型 A100/H100 集群的初創公司都在尋求 InfiniBand,AWS 和 Google Cloud 采用 InfiniBand 的速度較慢,因爲它們用了自己的方法來提供服務。
可用性:微軟 Azure 的 H100 大部分都是專供 OpenAI 的。谷歌獲取 H100 比較困難。
因爲英偉達似乎傾向于爲那些沒有計劃開發和他競争的機器學習芯片的雲提供更多的 H100 配額。(這都是猜測,不是确鑿的事實。)
而除了微軟外的三大雲公司都在開發機器學習芯片,來自 AWS 和谷歌的英偉達替代産品已經上市了,占據了一部分市場份額。
就與英偉達的關系而言,可能是這樣的:Oracle 和 Azure>GCP 和 AWS。但這隻是猜測。
較小的雲算力提供商價格會更便宜,但在某些情況下,一些雲計算提供商會用算力去換股權。
英偉達如何分配 H100
英偉達會爲每個客戶提供了 H100 的配額。
但如果 Azure 說 " 嘿,我們希望獲得 10,000 個 H100,全部給 Inflection 使用 " 會與 Azure 說 " 嘿,我們希望 獲得 10,000 個 H100 用于 Azure 雲 " 得到不同的配額。
英偉達關心最終客戶是誰,因此如果英偉達如果對最終的使用客戶感興趣的話,雲計算提供平台就會得到更多的 H100。
英偉達希望盡可能地了解最終客戶是誰,他們更喜歡擁有好品牌的客戶或擁有強大血統的初創公司。
是的,情況似乎是這樣。NVIDIA 喜歡保證新興人工智能公司(其中許多公司與他們有密切的關系)能夠使用 GPU。請參閱 Inflection ——他們投資的一家人工智能公司——在他們也投資的 CoreWeave 上測試一個巨大的 H100 集群。
– 某私有雲負責人
結束語
現在對于 GPU 的渴求既有泡沫和炒作的成分,但是也确實是客觀存在的。
OpenAI 等一些公司推出了 ChatGPT 等産品,這些産品收到了市場的追捧,但他們依然無法獲得足夠的 GPU。
其他公司正在購買并且囤積 GPU,以便将來能夠使用,或者用來訓練一些市場可能根本用不到的大語言模型。這就産生了 GPU 短缺的泡沫。
但無論你怎麽看,英偉達就是堡壘裏的綠色國王。