本文來自微信公衆号:與非網 eefocus(ID:ee-focus),作者:劉浩然,頭圖來自:視覺中國
馬克思曾在《資本論》中闡述資本主義:" 如果有 10% 的利潤,資本就會保證到處被使用;有 20% 的利潤,資本就能活躍起來;有 50% 的利潤,資本就會铤而走險;爲了 100% 的利潤,資本就敢踐踏一切人間法律。有 300% 以上的利潤,資本就敢犯任何罪行,甚至去冒絞首的危險。"
以那個時代的經濟環境來看,馬克思認爲資本家的獲利上限大概就是 3 倍利潤。不過如今經濟全球化疊加地緣政治沖突的情況下,3 倍利潤似乎已難以形容一家企業發展的勢頭。
8 月 16 日,《巴倫周刊》資深撰稿人 Tae Kim 最近在社交媒體上發布的帖子估計,英偉達每銷售一塊 H100 GPU 就能獲得高達 1000% 的利潤。投資銀行公司 Raymond James 表示:"H100 GPU 的起價爲 3320 美元,該公司(英偉達)以 25000 至 30000 美元的價格出售這些 GPU。盡管我們沒有獲得 AI GPU 的 BoM 表單,但我們當然相信這隻是一個粗略的估計,NVIDIA 可能會賺得更多。"
圖源:profesional review
多個平台分析師認爲,H100 的售價遠高于其實際價格,1000% 的估算可能還沒有考慮到通貨膨脹的因素,實際數字可能還要高得多。
事實上,英偉達的 GPU 并不是第一次暴漲。過去幾年,尤其是 2016 年~2021 年之間," 加密貨币 " 的興起爲 GPU 行業注入了源源不斷的熱錢。盡管 2022 年末 " 挖礦 " 退潮,英偉達曾一度面對銷量危機,但緊随而來的 AI 又讓英偉達快速恢複元氣。
如今英偉達又一次站在風口之上,隻不過這一次它的利潤率似乎有些恐怖了。10 倍利潤的背後,是誰撐起了 GPU 價格?
一、誰在搶購 H100?
在智能時代,數據、算力與算法被稱爲基礎三要素,其中算力則是核心基礎。當 ChatGPT 引領全球進入 AI 時代後,算力稀缺正逐漸成爲制約 AI 發展的最大瓶頸。而算力,正是 GPU 等擅長并行計算芯片的最大特點。因此,對算力需求越大,則越需要 H100 等高算力芯片。
圖源:國泰君安
1. 中美大廠
H100 GPU 是英偉達繼 A100 之後的又一款旗艦 GPU,曾經 A100 已經被認爲是 AI 服務器上的 " 核心主力 "。據 OpenAI 資料顯示,目前最知名的 AI 大模型 ChatGPT,訓練一次 13 億參數的 GPT-3 XL 模型每天需要的全部算力約爲 27.5PFlop/s,而訓練一次 1746 億參數的 GPT-3 模型每天需要的算力約爲 3640 PFlop/s。即使是在對模型的日常運營上來看,OpenAI 仍舊需要每日消耗 4800PFlop/s 的算力。
這還僅是 OpenAI 一家的算力需求,國泰君安證券統計,ChatGPT 爆火之後,以谷歌、Meta、亞馬遜爲首的互聯網大廠也在跟進。據谷歌資料顯示,目前已經建成包含 26000 個 H100 的 A3 服務器,還部署了數十台 TPU V4 超級計算機,每台擁有 4096 個 TPU 芯片;亞馬遜官方資料顯示,它們即将推出的 EC2 超級集群可以擴展至 20000 個互聯的 H100;Meta 資料顯示,亞馬遜雲已經擁有 2000 個 DGX A100 服務器,配備了超過 16000 個 A100 GPU,亞馬遜專家表示未來他們還會采購 3 萬片 H100。
算力對經濟的影響 圖源:中國通信院,國泰君安
國内也湧現出諸如百度文心一言、訊飛星火大模型、360 智腦等。在群雄逐鹿的大模型戰争上,全球算力呈現極度緊缺态勢,因此,AI 服務器也成爲英偉達 GPU 的最大應用領域。
2. 中東
如果将地區的算力用山峰山谷的形式呈現在世界地圖上的話,我們将看到中美兩國會升起全球最高的兩座山峰。根據信通院算力白皮書信息顯示,美國、中國、歐洲、日本在全球算力規模中的份額分别爲 34%、33%、14% 與 5%,其中全球基礎算力,美國份額達 37%,中國以 26% 份額排名第二。
美中歐日算力分布的局面,與當前世界上經濟體量的分布大體相同。畢竟如今一張 AI 服務器專屬 GPU 動辄數萬美元,沒點 " 家底 " 真的是玩不起的。不過說到經濟實力,我們似乎忽略了世界上還有一群 " 錢多到流油 " 的國家——沙特與阿聯酋爲首的海灣石油大國。
别看如今算力地圖上并無中東國家身影,但很明顯,AI 引領的第四次信息革命之下,沒有一個國家想要落後。
據外媒消息顯示,沙特阿拉伯最近以 4 萬美元單價購入了至少 3000 塊英偉達 H100 GPU 芯片。此外阿聯酋也同樣購買數千顆英偉達芯片,并将它們部署在阿布紮比馬斯達爾市的國有技術創新研究所内,用于創建了名爲 "Falcon" 的大型語言模型上。消息人士稱阿聯酋已經做出決定,它希望擁有和控制其計算能力和人才,擁有自己的平台,而不是依賴中國人或美國人。此外,沙特大學擁有至少 200 台滿載 A100 的服務器,預計還将建成并投入使用一台超級計算機 Shaheen III,這台超級計算機仍舊會采用英偉達的芯片。
簡單總結一下,當 ChatGPT 憑借一個月的時間狂砍上億用戶數量來看,全球幾大經濟體已經開啓 " 算力大戰 ",對高算力 AI 芯片的需求遠超英偉達的供應能力。此外,AI 浪潮下,除了中美等國,中東國家如阿聯酋和沙特也積極參與這一搶購浪潮,意圖借助英偉達 H100GPU 來推動本國 AI 技術的快速發展。
二、爲什麽是 H100?
從當前的市場占比來看,英偉達已經以極其恐怖的占比在 GPU 領域獲得了顯著優勢,在 AI 服務器領域已經近乎壟斷。在今年 3 月結束的 GTC 大會上,英偉達創始人黃仁勳又身着一身皮衣現身發布會。會上他自豪地拿着 H100 H100 NVLINK 芯片,宣布要讓英偉達成爲 AI 中的台積電。AI 的大趨勢無人可擋,既然 H100 被炒得這麽高,那換其他 GPU 不可以嗎?
H100 是一款針對大模型專門優化過的芯片,使用台積電 5nm 定制版本制程 ( 4N ) 打造,單塊芯片包含 800 億晶體管。H100 同時也是全球首款 PCI-E 5 和 HBM 3GPU,一塊 GPU 的 IO 帶寬就是 40 Terabyte/s。
英偉達 H100 GPU 圖源:STH
對于 ChatGPT 等大模型的訓練來說,算力決定了模型的訓練速度,這與 GPU 的張量核心 ( NPU ) 數量有關,不過其他參數也深刻影響着大模型的訓練效果。
目前 H100 等專爲 AI 訓練設計并制造的顯卡,均采用 HBM 内存作爲 GPU 的配套存儲。HBM 相對傳統顯存來說,其顆粒利用 3D 封裝的方式上下堆疊在一起,可以有效提升存儲與計算芯片之間的信息交換速率,對于 AI 大模型這種需要高頻讀取的算法來說,影響更甚。因此,普通 GPU,例如英偉達最知名的 RTX 系列 GPU 就難以勝任大模型 AI 的訓練任務。
我們還能從 A100 到 H100 升級的參數上看出 AI 對于 GPU 的需求。相對于 A100,H100 有更低的緩存延遲和 FP8 計算能力。HBM 可以提升緩存延遲,而提升 FP8 則是讓 H100 真正成爲一顆 " 專注 "AI 的芯片。
FP8 指的是 8bit 的 Float 數據類型,内存占用爲 FP32 的 1/4,FP16 的 1/2。FP8 被廣泛用于 AI 訓練之中,與 FP16 相比,FP8 格式的訓練吞吐量增加 4 倍,但損失精度不到 0.1%。因此,應用提升 FP8 計算可以有效降低模型對内存的需求,提升訓練速度并降低功耗,直接降低了訓練成本。
不過可能有觀衆指出,既然 H100 更适合 AI 服務器,那英偉達的死對頭 AMD 是否有 " 平替 " 呢?
海外獨角獸的一份調查中顯示,AMD GPU 理論上是可行的,但企業在面對替換風險與 GPU 軟件生态,仍認爲選擇英偉達的 GPU 更爲保險。文章中認爲,某私有雲公司的高管表示,設備從購買到實際真正運轉都需要一定時間,即便隻是 2 個月左右的開發和調試時間都意味着比競争對手更晚進入市場。
因此,擁有 CUDA 生态的英偉達可以率先占據開發者的使用習慣,形成生态 " 護城河 "。此外,文中另一觀點認爲很多公司的 AI 大模型訓練成本已經接近 3 億美元,沒有人會冒險去大規模依賴 AMD 或其他初創公司的芯片。
CoWoS 技術 圖源:wikichip
其實,記者了解到,目前生産 H100 等當前最先進 GPU 需要台積電的 CoWoS 封裝。目前英偉達早已預訂了絕大部分該類先進封裝的産能,即使其他廠商想要與英偉達一争高下,也需要等台積電擴産才行。
三、1000% 的利潤被誰拿走?
盡管在全球搶購與其不可替代屬性的加持下,H100 的售價已經達到了 " 黑心 " 的程度,但 1000% 的利益仍舊高得可怕。究其原因,其實這 1000% 的利潤率并沒有完全進了英偉達一家腰包。H100 從工廠到用戶手中,其實經過了不止一道程序。而這一切的原因還要追溯到 2022 年美國的一則禁令。
2022 年 9 月 2 日,英偉達對外宣布,已經獲得美國政府批準,可以在明年 3 月前繼續向美國客戶出口的産品提供 A100,可以在明年 9 月前繼續履行 A100 和 H100 的訂單。
換言之,就在 10 天之後的 2023 年 9 月 1 日,英偉達 A100 與 H100 全系列 GPU 将被禁止出口到中國。此外根據美國證券交易委員會通知,英偉達将需要獲得許可才能向中國和俄羅斯出口任何基于最新架構的 H100、A100 或 DGX/HGX 等系統。
禁令發出後,盡管中國企業仍可以通過美政府批準後繼續進口 H100,事實上中國對于 H100 的采購早已停止,美國此舉可能僅爲了保護在華美資企業尾單不受損。不過 H100 的流通,可能不止局限于常規渠道。
此前曾有諸多報道指出,H100、A100 正以一些非常規渠道從全世界流入中國境内。有媒體曾采訪過多家中國運營商,他們均表示還能輕松采購少量 A100 或 H100 芯片,并通過航空運輸至境内客戶手中,因爲小批量采購可以更容易規避制裁與出境監管。據了解,這些供應商的進貨渠道遍及全球,他們使用多種身份從官方渠道采購後再流轉進入中國。據了解,通過這種方式 " 悄悄 " 進貨的方式,購買價格要比通過常規途徑進貨貴兩倍,A100 的入手價格能達到 2 萬美元左右。H100 由于出品較晚,價格仍不穩定,但其售價絕對會高出天際。
因此,盡管目前市場上充斥着超高售價的 H100 與 A100,但這 1000% 的利潤大概不會被英偉達全部拿走。馬斯克在推特調侃:" 似乎每個人、每條狗都在購買 GPU…… 獲得 GPU 比獲得毒品還難 "。這也似乎從側面證實了 H100 售賣的混亂。
不過至今任何一家媒體或都無法估算出具體能有多少 H100 或 A100 芯片通過這種方式流入中國。記者認爲,盡管美國政府極力阻止美企的高精尖産品出口中國,但從英偉達戰略規劃中看出,目前中國蓬勃發展的 AI 市場已經成爲英偉達難以放棄的優質市場。
黃仁勳曾對美國的相關禁令表示不滿:" 拜登政府對半導體技術實施的出口限制,使英偉達感到‘束手束腳’。英偉達無法在全球最大市場之一的中國開展業務。" 爲此,英偉達已經爲中國市場推出 " 專供産品 "H800 與 A800,它們能很好地規避美政府提出的不合理出口限制,盡管這兩款 GPU 爲 100 類型的閹割版本。
盡管在參數上,A800 與 H800 難以與原版型号相提并論,但我們仍能看出英偉達對于中國市場的重視。換個角度看,如今 H100 與 A100 的種種 " 地下交易 ",英偉達官方是不會出全力去限制的。
寫在最後
AI 浪潮中,中美紛紛搶購 H100,以滿足日益增長的 AI 算力需求,尤其是大模型建設,推動了 H100 的需求和價格上漲。但 AI 并不是中美兩國的專利,海灣石油國家也積極參與 AI 領域競争,試圖在全新的信息革命中實現對中美的 " 彎道超車 "。而 H100 作爲針對服務器的 GPU,性能和獨特的生态系統使其難以替代,又恰逢美國對中國的芯片封鎖,讓更多的 H100 通過非常規渠道在全球流轉。種種原因下,H100 這顆 " 得天獨厚 " 的 GPU,讓廠商與整個銷售鏈條上的掮客們收獲了恐怖的 1000% 利潤。
其實,說來說去,關鍵還是在于沒人能夠挑戰英偉達的地位。如今 AI 時代到來,或許英偉達還将借着 AI 東風讓本就高不可攀的生态壁壘更加難以挑戰。但依舊是 AI,這項技術仍舊賦予了其他廠商,甚至國家和地區實現 " 彎道超車 " 的能力。但就目前來說,英偉達短期在 AI 的地位無可替代。