圖片來源 @視覺中國
文|藍字計劃,作者|李炜
去年 9 月,甲骨文董事長埃裏森、特斯拉 CEO 馬斯克,一起請英偉達創始人黃仁勳在矽谷一家豪華餐廳吃日料。
年屆八旬的埃裏森回想起那頓飯仍難以平靜。" 席間埃隆(馬斯克)和我在乞求,我想用這個詞來形容我們再恰當不過了。吃了一個小時的壽司,也乞求了一個小時。"
兩位以狂妄著稱的大佬甘願伏低做小,隻爲能多分到一些 " 比毒品還難搞到 " 的英偉達 GPU,最終兩人未能如願。
而另一家矽谷巨頭思科爲了保護剛買來的英偉達 GPU,幹脆動用裝甲車來運。
正如科幻作品《沙丘》将香料設定爲宇宙最重要的資源。今天同樣可以大膽宣稱:誰掌握了 GPU,誰就掌握了 AI 時代的命脈。
去年以來,在加速計算和生成式 AI 的帶動下,算力需求陡增。英偉達 GPU 作爲提供算力的核心硬件,業界對其的需求早已 " 遠遠超過了英偉達所能供應的極限 "。
爲了獲得盡可能多的 GPU,全球科技圈從貴族俱樂部化身爲私酒時代的芝加哥,産品、流量與增長交織的史詩,讓位于充斥着貪婪、炫耀、谄媚與背叛的大模型舞台劇。
從破産邊緣到 80 億美元估值
在過去一年,英偉達 GPU 極度短缺,全世界的大廠或創業公司都在各顯神通解決 " 芯荒 " 難題。
對中國企業來說,GPU 短缺則是政策和産能兩方面造成的。
從 2022 年 10 月開始,英偉達就被禁止向中國出口 A100、H100 這兩款高端 GPU。二道販子們敏銳地嗅到了其中的商機。
一些企業從自家機房裏把芯片禁令生效前購買的 A100 拆出來,賣給販子。這些沒有保修、沒有質保的舊芯片,非但沒有貶值,價格還從出廠時的 8 萬多元漲到了 10 多萬元。
A100、H100 分别由英偉達在 2020 年及 2022 年推出,上市時間并不長,其在國内市場的存貨相當有限。
另外,A100 分爲 80GB、40GB 兩個顯存版本,顯存越大,所能運行的神經網絡越大,訓練大語言模型效果越好。廠商都想買 80GB 顯存版本的 A100,導緻存貨更加緊缺。
因此,有一些黑心販子将 A100 的 40GB 版本改成 80GB 的來賣,很多急于購買的企業一時失察,買回去才發覺貨不對闆。由于這類 GPU 來源特殊,上當的買家根本沒有質保和維權的途徑,隻能吃啞巴虧。
可即便如此,低配置的二手 A100 在 2023 年依然供不應求。
過去一年,市面上英偉達 GPU 價格漲幅一度到了 200%。A100 最火爆的時候,網傳最高成交價接近 25 萬元。按照這個價格,兩塊 GPU 就能換來一輛全新奔馳 E 級轎車。
二道販子賣機房拆來的 A100 賺差價,畢竟隻是小打小鬧。真正靠倒賣二手 GPU 發家的,還要屬一家名爲 CoreWeave 的美國公司。
CoreWeave 最開始是一家 " 挖 " 比特币的公司,其 CEO 回憶:"2016 年,我們購買了第一塊英偉達 GPU,插上電源後,将其放在曼哈頓辦公室的台球桌上,然後挖到了以太坊網絡上的第一個币。"
在生成式 AI 火爆之前,英偉達 GPU 除了作爲遊戲顯卡,最賺錢、最大的應用場景就是用于加密貨币 " 挖礦 "。因爲 GPU 能以最快速度處理海量簡單重複的問題,天然就很适合用于晝夜不停地挖比特币。
而 CoreWeave 的三位創始人,一開始也隻是将 " 挖礦 " 用于賺取額外收入,他們的本職工作是經營對沖基金和家族辦公室。可由于 2016 年加密貨币熱,他們的 GPU 越買越多,導緻 " 華爾街的辦公桌上堆滿了 GPU"。
到 2018 年底,CoreWeave 已經成爲了北美最大的以太坊 " 礦場 ",擁有超過五萬塊 GPU,占以太坊網絡總量的 1% 以上。
通過将英偉達 GPU 用作 " 礦卡 ",CoreWeave 在加密貨币領域賺到了第一桶金。但在 2018 年之後,市場行情急轉直下,加密貨币大幅貶值,與加密貨币深度綁定的 CoreWeave 也幾度面臨财務危機,險些倒閉。
到 2019 年,CoreWeave 決定轉型做服務。
CoreWeave 加入英偉達的雲服務提供商計劃,也就是圍繞英偉達的芯片構建了專門的雲基礎設施。如果說英偉達是算力廠商,那 CoreWeave 就相當于算力經銷商。
到 2022 年底,ChatGPT 發布,生成式 AI 突然爆火,CoreWeave 手頭數萬塊 GPU 成爲了硬通貨,因爲 GPU 非常适合用于訓練 AI 大模型。它搖身一變,依靠手中積攢的 GPU,向 OpenAI、微軟、Inflection 等衆多 AI 巨頭賣算力。
2023 年 4 月,CoreWeave 還獲得來自英偉達的 B 輪融資。黃仁勳在業績電話會上點名:" 一大批新的 GPU 專業化雲服務提供商正在出現,最知名的當屬 CoreWeave,他們做得非常出色。"
英偉達對 " 親信 "CoreWeave 可謂非常偏心。在一份研究機構 Omdia 披露出的英偉達 H100 供貨單中,CoreWeave 獲得的 H100 數量,比特斯拉還多。
也正因爲英偉達的 " 偏心 ",除了賣算力服務,CoreWeave 以囤積的英偉達芯片爲抵押,從黑石、Coatue 等頂級機構獲得了 23 億美元的債務融資。一舉将公司從破産邊緣,拉到了投後估值 80 億美金。
冒高風險,買走私卡
不是誰都有 CoreWeave 這麽好的運氣。
跟英偉達關系不夠親密的企業,尤其是中小企業,購買 " 走私芯片 " 就成爲一種無奈之下的選擇。
随着全球 AI 大模型競争愈發激烈,A100 已經不能滿足一些企業的需求,性能更強勁的 H100 日趨搶手。
問題在于,H100 實在太新了,存貨更少。沒有存貨,二道販子也無處發揮,走私販子們登場了。
走私販子們的來貨渠道主要有兩條:一是等英偉達向美國大型企業發貨後,搶購市場上的剩餘庫存;二是通過在印度、新加坡、馬來西亞等地注冊公司進口。
相比于隻有指甲蓋大小的微型芯片,H100 的尺寸并不小。根據英偉達官方公布的尺寸,H100 整個芯片大小爲 814 平方毫米,大概有兩個手掌大,走私販子隻能将 H100 放進背包,接受正式的過關安檢。
有走私販子透露,由于每個國家把控嚴格度不一,如果把 H100 放在包裏,把它報成普通電子設備。
麻煩的是服務器架。H100 需要插在服務器架上,才能用于訓練 AI 大模型。一套完整 AI 服務器要配置 8 塊 H100,加上一台超微電腦的服務器架,大約相當于一個保險櫃。
面對如此龐然大物,自然無法靠人肉背回。一般的做法是化整爲零,将服務器拆開,用螞蟻搬家地方式發回。至于運輸途中關鍵部件是否會損壞,運到目的地如何拼裝回去,一切都存在極大的風險。
H100 在 2022 年 3 月剛發售時,售價折合人民币約 24.2 萬元。如果在兩年前屯了一批 H100,什麽都不用做,每張到現在能淨賺 6 到 9 萬元。
在過去一年間,從朋友圈、小紅書等社交平台,到拼多多、閑魚等電商平台,再到各類垂直社區、垂直社群,有無數販子打出了 "H100 現貨,手慢無!"、" 稀缺 H100 現貨,先到先得!"、" 原廠 H100,見貨付款,欲購從速!" 的标簽。
而如果進一步私聊,這些芯片販子會告訴你,産品沒有保修或支持服務,到貨最起碼需要 6 到 8 周,并且需要先付定金。如果問及發貨地和貨源,販子們大多會回答稱 " 海外發貨,大陸交付,可以送至指定地點。"
據買家爆料,走中小型中間商渠道,風險很高。
首先,交了定金,後續也可能因各種原因拿不到貨。其次,即使能拿到貨,諸如運輸過程中磕碰、泡水等現象,也時有發生," 碰到這種情況就隻能自認倒黴,根本不存在退貨一說。"
可即便如此,在各個社交平台 "H100 預購從速 " 的帖子下方,仍然有成群結隊的用戶在咨詢價格。
搶購、加錢、售罄
購買走私 GPU 不是常态,對大公司而言,終究還是得跟英偉達做正經生意,從官方渠道購買 A100、H100。
2022 年的出口禁令下發後,經英偉達遊說,重新獲得了出口許可。在 2023 年 3 月 1 日之前,英偉達可以繼續給中國大陸提供 A100 産品。
各家科技巨頭趕緊行動,經曆了 " 從搶購,到加錢,到售罄 " 的心路曆程。
據《晚點》報道,張一鳴在卸任 CEO 後,把工作重點放在了研究 AI 上,不僅自己看 AI 相關論文,還經常跟一些字節高層分享論文學習心得,以及對 ChatGPT 的思考。高層對 AI 的重視,讓字節在提前搶購英偉達芯片時占得了先機。
在 GPT-4 發布後不到 3 個月,字節就被爆出,向英偉達訂購了超過 10 億美元(約合人民币 71 億)的 GPU,到貨和沒到貨的 A100 和 H800 總計有 10 萬塊。考慮到 2022 年全年,英偉達數據中心 GPU 在中國銷售額大約 100 億元,也就是說,字節一家公司的訂單,幾乎超過了英偉達過去一年在中國的總銷量。
另一家提前向英偉達下單,囤積 GPU 的巨頭是阿裏。據一位阿裏雲内部人士向《人物》透露,阿裏雲專門成立了一個供應鏈團隊,其中有幾十人負責芯片采購,直接聽命于 CTO。在阿裏雲前 CEO 張勇卸任之前,通義千問等 AI 項目都向他直接彙報。
提前搶購 A100、H100 最直接的好處是——省錢。因爲英偉達芯片的漲價,實際上與大模型的發展息息相關。2022 年在 ChatGPT 剛剛發布時,大廠們普遍認爲生成式 AI 很有潛力,但不成熟,不值得大批采購 AI 芯片。
但到 2023 年 3 月 14 日,OpenAI 發布 GPT-4 後,大廠和 VC 們終于意識到,GPT 的颠覆性威力,以至于各界迅速形成了共識——快搞大模型、快屯 AI 芯片!
也是從 GPT-4 發布後,大模型賽道湧進了大量熱錢,以及不差錢的大廠,英偉達芯片的價格也随之水漲船高。大家都必須加錢才能搶到芯片。
按照《人物》的描述:" 來自美團的高管帶着采購團隊,把數百台 8 卡 A100 服務器,像買白菜一樣全部掃走。盡管一台機器的價格要大幾十萬,總訂單額過億,美團的人絲毫沒有猶豫,下單、簽合同、打預付款、提貨……流程飛快。"
再到後來,連加錢都買不到 AI 芯片了。商業巨頭和小公司處境幾乎一緻。
亞馬遜雲 CEO 亞當 · 塞利普斯基就表示:"H100 是最先進的……可即使對于 AWS 來說也很難獲得。"
富士康董事長劉永偉也表示,過去一年隻有少數公司能獲得足夠的英偉達 AI 芯片來維持需求。在台北富士康年度員工聚會上,劉永偉對記者表示:" 當要滿足(AI 芯片)需求時,也許需要建立新工廠。"
吃英偉達的剩飯
英偉達 GPU 像香料一樣,誘惑着越來越多人參與到這場争奪中。
在 2023 年拉斯維加斯的 CES 科技大會上,AMD CEO 蘇姿豐表示:"AI 已是 AMD 的第一戰略重點。預計 AMD 最新推出的 Instinct MI300 加速卡,可以幫助 AMD 占領市場。" 在介紹中,MI300X 芯片是一款全面超越英偉達 H100 AI 芯片的産品。
投放市場後,MI300 也迅速成爲了 AMD 曆史上銷售額最快達到 10 億美元的産品。
根據 AMD 财報,MI300 芯片訂單的主要來源是微軟、Meta、甲骨文、谷歌、亞馬遜等大廠。與英偉達 H100 的客戶群體高度重合。
無怪乎《福克斯》認爲:" 如果業界還有英偉達潛在的對手,那一定包括蘇姿豐和她掌管的 AMD。"
除了 AMD,老牌芯片巨頭英特爾也不想在 AI 時代掉隊。
在過去一年,英特爾 CEO 帕特 · 基辛格多次表示:" 生成式 AI 不隻可以在英偉達芯片上運行。" 雖然英特爾最先進的 AI 加速芯片 Gaudi 2 在性能上不及英偉達 H100。但基辛格認爲,Gaudi 2 成本更低,主打價格優勢,可以在性價比方面縮小與 H100 的差距。
與此同時,英特爾還宣布正在調整 GPU 策略,整合現有的 Habana Labs、數據中心 GPU 兩大部門,于 2025 年推出新平台 "Falcon Shores",進一步增強 AI 芯片設計能力。
按基辛格的說法:" 以後的 AI 算力競争一定會很有趣。"
甚至除了老牌芯片巨頭,一大批半導體新生力量,也在試圖搶奪英偉達的市場份額。根據外媒報道,騰訊、阿裏等互聯網巨頭,已經有些 " 看不上 " 英偉達的特供版芯片,轉而尋求與國内 GPU 廠商合作了。這些 GPU 廠商包括華爲、燧原科技、摩爾線程等。
在黃仁勳最近的采訪中,連 AMD 都看不上的老黃表示:" 在生産最好的 AI 芯片的競争中,華爲是英偉達非常強大的競争對手之一。"
而諸如燧原科技、摩爾線程等第二梯隊國産 GPU 公司,也在 2023 年拿到了數十億元不等的大額融資。
這一切變化都源于,全球企業都在尋找英偉達 GPU 的替代品。畢竟,英偉達的 GPU 再好,隻有能用上才是真好。單是英偉達滿足不了的市場需求,已經足以喂飽一大批 GPU 新興企業。
但要取代英偉達又談何容易?
造成英偉達 GPU 短缺最根本的原因在于,GPU 是一種極端複雜的産品,需要世界上最先進的生産工藝,目前隻有台積電能夠加工生産,而台積電的産能是有限的。
目前 H100 都由台積電代工,使用 4 納米工藝(A100 使用的是 7 納米),從開始生産到出售給客戶,H100 中間經曆的生産、包裝和測試環節,一共需要 6 個月左右。
根據 GPU Utils 發布的一份研究報告,制約 GPU 擴大生産的一個主要瓶頸,是所謂的 CoWoS 封裝技術。
CoWoS 可以拆分成 "CoW" 和 "WoS" 來看。"CoW(Chip-on-Wafer)" 指芯片堆疊;"WoS(Wafer-on-Substrate)" 則是将芯片堆疊在基闆上。CoWoS 就是把芯片堆疊起來,再封裝于基闆上,最終形成 2.5D、3D 的型态,減少芯片的空間,同時減少功耗和成本。CoWoS 封裝技術目前的月産量也就 1 萬片左右。
台積電可不止爲英偉達代工,AMD 以及博通、思科和賽靈思等都同樣在使用 CoWoS 封裝技術制作芯片。
産能瓶頸限制 GPU 供應的難題,在短期内是無解的。即便如 AMD 設計出了強大的 MI300 加速卡,歸根結底還是要找台積電代工,台積電就算把給英偉達的産能給到 AMD,等于市場上 GPU 的總量其實沒有增加。
與此同時,英偉達真正的壁壘,并不隻有 GPU 硬件性能,還在于其龐大的 AI 軟件生态 CUDA。
簡單來說,決定 GPU 使用效果的不隻是本身性能,還包括配套軟件和開發工具對應用的支持。目前英偉達定義了 GPU 通用計算編程框架 CUDA,開發者們早已習慣了用 CUDA 專有的編程語言,制作 GPU 驅動的應用程序。
如果開發者要遷移到谷歌、亞馬遜、微軟或國産的 GPU,他們甚至需要學習全新的軟件語言,遷移成本顯然很高。
但後發廠商完全不必妄自菲薄,正如中國工程院院士、清華大學計算機系教授鄭緯民所言:" 今天國産 AI 芯片隻要達到國外芯片 60% 的性能,如果生态做好了,客戶也會滿意。"
隻是在達到英偉達 GPU 60% 的性能之前,企業們看起來先選擇了以拆舊貨、走私、搶購、加錢掃貨等方式,緩解自身的 AI 芯片荒。
參考資料:
Nvidia ’ s Stunning Ascent Has Also Made It a Giant Target How a Shifting AI Chip Market Will Shape Nvidia ’ s Future Nvidia ’ s New China Pickle: Customers Don ’ t Want Its Downgraded Chips Armored Cars and Trillion Dollar Price Tags: How Some Tech Leaders Want to Solve the Chip Shortage The Desperate Hunt for the A.I. Boom ’ s Most Indispensable Prize How Nvidia Came to Rule AI 極客公園:英偉達力挺,這家 "AI 算力黃牛 "4 年估值 560 億 人物:互聯網大廠,有錢難買 A100 芯潮 IC:天價 H100 流向黑市 晚點 LatePost:争奪 AI 入場券:中國大公司競逐 GPU