8 月下旬,英偉達召開例行全員會。當時英偉達股價随着銷量大漲,市值穩定地回到萬億美元以上,員工手中股票的價值已經是年初的三倍多。英偉達 CEO 黃仁勳提醒他們,不要太早激動,公司的市值會到 2 萬億美元。
全球隻有蘋果、微軟、Google 的市值到過 2 萬億美元,各自牢牢抓住十多億用戶。它們也全部都是英偉達成爲萬億公司的原因。ChatGPT 火爆後,它們向英偉達下了總額數十億美元的大訂單。
本周,英偉達發布了新款 GPU H200,與上一代最大的差别是用了新款内存芯片,連計算能力都沒明确公布,其市值就應聲漲了 700 多億美元。英偉達稱已經給 H200 找到了買主——明年它會密集出現在亞馬遜、Google、微軟等公司的數據中心中。
在英偉達沖向 2 萬億美元的道路上,這些客戶還會繼續下大訂單,但也會和它直接競争。今天微軟的 Ignite 大會是這種關系的直接體現,微軟一邊發布自研的 AI 芯片 Maia 100,一邊邀請黃仁勳到場宣布新的合作。
微軟之外,Meta、Google、亞馬遜、特斯拉等英偉達的大客戶,今年都投入更多資源研發 AI 芯片,甚至 OpenAI 都開始籌備芯片項目。
兩倍于 LVMH 的利潤率,大客戶們自研芯片的動力
英偉達成立至今 30 年,前 20 多年專精于遊戲顯卡這一個小衆市場。加密貨币帶來的巨大挖礦需求讓英偉達激活了顯卡銷量,英偉達的業績和市值因此躍升,不僅收入在 2018 年沖破百億美元、利潤率沖上 30%,股價也在 2016 年到 2018 年 10 月間大漲 800%。随着比特币在新冠疫情肆虐之際沖上 6.8 萬美元,英偉達的市值也逼近萬億美元,成爲最值錢的芯片公司。
2023 年 3 月發布的 GPT-4 點燃了整個人工智能行業。根據芯片研究機構 SemiAnalysis 獲取的信息,OpenAI 用 2.5 萬張英偉達 A100 GPU 訓練了三個多月,才做出 GPT-4 大模型。
A100 是英偉達 2020 年發布的 GPU。在 GPT-4 發布前幾個月,英偉達推出了 H100 GPU,把計算能力提升到 A100 的 3 倍,專門爲 Transformer 架構(大模型的底層)做了優化——當時 ChatGPT 還沒有面世。
對于想要研發更強大模型的 OpenAI 和追趕 OpenAI 的公司,H100 都是需要大量囤積的戰略資源,它立即變得供不應求。OpenAI 發布 GPT-4 後,兩度因爲 GPU 短缺停止付費用戶注冊。
埃隆 · 馬斯克(Elon Musk)說 H100 " 比毒品都難買 "。迫切需要算力的公司們,轉而訂購 A100。受美國政府貿易限制,中國公司隻能購買降低性能的 A800 和 H800。這些 GPU 的産能也遠遠跟不上需求。
紅杉資本在今年 9 月稱,許多公司的增長瓶頸不是客戶需求,而是英偉達最新 GPU 的産能。
英偉達是設計公司,并不直接生産芯片,它需要請台積電生産芯片,從其他公司采購高性能内存,再交給供應商組裝成一張卡。一顆 H100 的成本約 3000 美元,而英偉達賣 30000 多美元,翻十倍:
英偉達向台積電下訂單,用 4 納米的芯片産線制造 GPU 芯片,平均每顆成本 155 美元。
英偉達從 SK 海力士(未來可能有三星、美光)采購六顆 HBM3(High Bandwidth Memory,高帶寬内存)芯片,成本大概 2000 美元。這是因爲 GPU 處理大模型任務,還需要搭載比手機、電腦更大、數據傳輸速度更快的内存,才能保證效率。
台積電芯片産線生産出來的 GPU 和英偉達采購的 HBM3 芯片,一起送到台積電 CoWoS 封裝産線,以性能折損最小的方式加工成 H100,成本大約 723 美元。
H100 被送到其他英偉達的供應商處,4 顆或 8 顆組裝在一起,加上數據傳輸單元,做成服務器。
利潤豐厚的 H100 推動英偉達利潤率攀升到 40%,超過了所有芯片同行,達到全球最大奢飾品集團 LVMH 的近兩倍。
英偉達高昂的利潤,就是它客戶的成本。爲了借着大模型浪潮抓住用戶、激活業務,許多大公司采購 GPU 後,不惜賠錢對外提供服務。GPT-4 發布後,微軟将其用于必應搜索,讓用戶免費使用。
黃仁勳常說的 " 買得 GPU 越多,省得越多 " 成爲過去式。大公司買得越多,英偉達賺的越多,它們虧損越多。一個顯而易見的選擇出現了:自研一款芯片,可能省的更多。
過去十多年,研發一款芯片的難度持續下降:台積電、三星等代工廠存在,讓它們不用擔心芯片代工問題;芯片人才充分流動,降低了設計芯片的難度。
芯片研究機構 SemiAnalysis 的首席分析師迪倫 · 帕特爾(Dylan Patel)說,自研一款類似微軟 Maia 100 的 AI 芯片,每年的成本大概 1 億美元——對于研發費用每年上百億美元的大互聯網公司來說,并不算什麽。
ChatGPT 帶動了大模型熱潮,大公司不用擔心使用場景問題。咨詢機構 Gartner 今年 8 月預測,全球 AI 芯片市場規模随着 ChatGPT 火熱快速增長,到 2027 年就會達到近 1200 億美元,是去年的 2.7 倍。
大公司們想在 AI 芯片研發能力上追上英偉達,投入 5 至 10 年也不一定能實現。不過它們隻需要花英偉達同樣的成本,做出十分之一的效果,就已經有利可圖了。
訓練更強的大模型,需要很多 GPU。" 訓練一個對标 GPT-3.5 的大模型,用 2000 至 3000 張 A100 GPU 就可以。但想要訓練對标 GPT-4 的大模型,上萬張 GPU 隻是一個入場券。" 一家中國科技公司的大模型負責人說。
訓練完成還不是結束。當用戶使用大模型的時候,這些企業得靠 GPU 調動大模型 —— 即大模型推理。大模型要處理用戶輸入的問題,基本上每個字都要單獨跑一遍大模型。給出回複時,類似的情況還要再來一遍。參數上千億的大模型,每次跑一遍都要調用多張 GPU。
多位大模型從業者估算,如果千億參數或更大的人工智能模型被廣泛使用,大模型的訓練成本和推理成本會達到 2:8,甚至 1:9。推理 GPT-4 或更強的大模型,基本上離不開英偉達高性能的 GPU。
《晚點 LatePost》了解到,參數更大的大模型推理會産生巨大算力需求,而且不可能在本地設備上實現(70 億參數的大模型就需要 14G 内存,超出了所有手機的硬件配置和絕大多數電腦配置),不少英偉達員工因此相信公司市值會繼續上升。
科技公司自研 AI 芯片,出發點都是推理參數較小的模型,然後再進一步擴展。阿裏巴巴的含光 800、百度的昆侖芯片都是推理芯片,Google、亞馬遜、特斯拉做 AI 芯片,也是從推理入手,然後再做訓練芯片。
自研芯片不用向英偉達交稅,性能低一些也能節省成本。根據迪倫 · 帕特爾等人的測算,按照 Google 的報價,使用其最新的 AI 芯片 TPUv5e 在訓練、推理參數少于 2000 億的大模型時,成本低于用 A100 或 H100。
大公司通常先在自己的業務中使用自研 AI 芯片,比如 Google 的 TPU 最先支持的是 Google 翻譯,最新的 TPUv5e 首先用在了 Google Brad 和一系列用大模型改造的業務中(比如 Gmail)。微軟 Azure 芯片部門副總裁拉尼 · 博卡爾(Rani Borkar)今天在發布會上說,微軟正在必應、Office 等業務中測試自研的 AI 芯片 Maia 100,預計明年初投入使用。
芯片經過内部測試後,大公司會通過雲計算平台對外提供服務,與英偉達争搶客戶。11 月 8 日,Google 投資的 Anthropic 宣布大規模部署 TPUv5e,處理其大模型 Claude 的推理工作,這些任務原本屬于英偉達的 GPU。
英偉達 2 萬億美元攻防戰
" 我們不需要假裝公司一直處于危險之中。事實上,我們一直處于危險之中,而且我們深有體會。"11 月 9 日,黃仁勳在一場活動中說。
芯片行業先驅、英特爾聯合創始人安迪 · 格魯夫(Andy Grove)曾說:" 成功滋生自滿,自滿導緻失敗,隻有偏執狂才能生存 "。英偉達也是矽谷最偏執的公司之一,從管理風格到戰略藍圖都是。
大約十年前,黃仁勳在俄勒岡州立大學向台下的畢業生傳輸經驗:" 當有人全力以赴時,他們就能做你做不到的事情。全力以赴,不留後手。" 他從不對沖風險,也不會多重押注,隻在自己覺得對的路線上全力押注。
從 2006 年開始,爲了讓 GPU 在遊戲、電影之外也有用武之地,英偉達将大筆資金投入到 CUDA 研發中,投資人和華爾街的分析師們不理解,爲什麽要給遊戲顯卡不斷增加計算性能、讓它們越來越貴和難賣?
直到大約十年後,人工智能和深度學習展現了商業價值,英偉達早期投資得到認可,CUDA 成了英偉達隐形的護城河。
爲了顧及手機、筆記本電腦的功耗,蘋果、英特爾等競争對手的芯片常常一年隻能提升不到 20%。而英偉達的 AI 芯片隻考慮性能這一個目标。
黃仁勳不滿足 " 摩爾定律 " 每 18 個月性能翻一番,他提出了更快的 " 黃氏定律 ",并要求團隊以此爲目标,兩年發布一款新品,保持計算性能的絕對優勢。明年 3 月,英偉達将發布下一代産品 GPU B100,預計性能會大幅度超過 H100 和加速追趕的所有競争對手。
雖然從 P100、V100 到 A100,功耗都在 250W 到 400W 之間,而 H100 的功耗直接來到了 700 W,是 FPGA 或 ASIC 路線下 AI 芯片功耗的數十倍。但更強的計算性能,讓英偉達的 GPU 擁有着不可替代的地位。
面對更激烈的市場競争,英偉達加快了新品推出速度。11 月 13 日剛發布的 H200,是英偉達第一次在兩代旗艦産品中插入一個 " 過渡款 "。據 SemiAnalysis 的信息,英偉達将在 2025 年發布 B100 的下一代産品,發布周期從之前的兩年一更,加速到了一年一更,還會延續下去。
芯片市場需求和産能經常錯置,但黃仁勳從不在意周期。一旦有重要且搶手的零部件,他就會下單鎖定産能,哪怕冒着用不完的風險,也要确保自身供應,擠壓競争對手。
目前 AI 芯片供應瓶頸主要是 CoWoS 先進封裝和 HBM3,英偉達包下了台積電約六成 CoWoS 産能,向 HBM 的三家供應商 SK 海力士、三星和美光下了巨額訂單。
根據英偉達财報,截至今年 7 月底,英偉達賬上還有價值 111.5 億美元的訂單、庫存和産能采購承諾,另外還有 38.1 億美元的供應合約預付款 —— 同行裏沒有第二家公司有這麽多的庫存和預付款。
英偉達的大手筆采購,讓供應商都感到擔心。台積電董事長劉德音在今年二季度業績會上說,看不清楚 AI 的火熱需求是不是短期泡沫。但英偉達的訂單就在那裏,台積電隻能選擇大幅擴産跟上。
在英偉達的一再追單下,台積電已經計劃将明年的 CoWoS 産能提高到 3.5 萬片 / 月、同比增長 120%。
這樣極緻的供應鏈掌控策略刻在英偉達的基因裏。1997 年,黃仁勳向台積電下了 1.27 億美元的代工訂單。台積電創始人張忠謀每隔一段時間就要回訪,重聽一遍黃仁勳的業務講解、确保他真的需要這麽多晶圓——那年英偉達的全年營收隻有 2700 萬美元。
英偉達還拿出了奢侈品行業慣用的 " 配貨 " 策略。渠道商和客戶們想要 H100、A100 這樣的旗艦芯片,就得先買夠一定量的 L40S 等适合更小模型的推理芯片,無形當中将競争對手從夠得到的市場趕走。
地緣政治是英偉達面前最大的阻礙。上一财年,中國市場爲英偉達貢獻了 47% 的收入。美國政府在去年和今年 10 月兩度收緊高性能芯片出口,英偉達是最主要的限制對象。
英偉達的反擊就是貼着紅線出新品。第一輪管制後不久,英偉達就将 A100 的帶寬縮水,交出既符合規定,同時不影響算力的中國特供版芯片 A800,接着在半年内繼續交出旗艦芯片 H100 的替代版本 H800。
今年 11 月初,美國更新芯片禁令不到一個月,英偉達又拿出了符合新要求的 H20 GPU。雖然 H20 單卡算力隻有 296 TFLPOS,是中國公司頂級 AI 芯片的 57%,但更高的内存、帶寬都保證了它可以串聯起來使用,買得夠多就依然有很強的競争力。英偉達股價跟着上漲近 10%。
把客戶的客戶變成自己的客戶
全球的萬億美元公司,除去沙特阿美,都是黏住幾億甚至幾十億消費者的科技公司。
英偉達是當中異類。它的品牌長期隻覆蓋少數 PC 遊戲用戶,現在 50% 收入來自寥寥數個大型雲計算公司和互聯網巨頭:亞馬遜、微軟、Google、Meta、字節跳動、阿裏巴巴等。
大公司購買英偉達的處理器有一部分是自用,但更多是将其通過雲計算平台租給其他客戶。客戶關系最終還是留在這些雲計算平台公司手上。如果有一天,它們有了性能足夠強的産品,随時可以換掉英偉達。
英偉達靠着 CUDA 綁定了數百萬 AI 開發者,吸引着大型雲計算公司采購它的 GPU。如知名分析師本 · 湯普森(Ben Thompson)所說:" 英偉達既不是一家硬件公司,也不是一家軟件公司:它是一家将兩者融爲一體的公司。"
現在這套邏輯依然成立,在人工智能前沿探索中,CUDA 仍然讓英偉達的 GPU 具備優勢。但現在黃仁勳還要再進一步,直接把雲計算平台的客戶變成自己的。
今年 3 月,GPU 最稀缺的時候,英偉達推出雲計算服務 DXG Cloud:英偉達把賣給雲計算公司的 GPU 租回來,由英偉達員工進一步優化,再出租給需要 GPU 算力的客戶。
一來一回,雲計算平台承擔了數據中心的建設成本,客戶卻去了英偉達。但微軟、Google、甲骨文依然加入了英偉達的計劃。作爲回報,它們很快就有了最稀缺的 H100。全球最大的雲計算供應商 AWS 拒絕合作,直到今年 7 月才上線了 H100 算力出租服務。
" 這是我們有史以來最大、最重要的業務模式擴展。" 黃仁勳說," 英偉達不僅爲雲計算公司提供 GPU,還把自己推向市場。"
OpenAI CEO 山姆 · 阿爾特曼(Sam Altman)近期接受采訪說,雖然今年 GPU 緊缺,但明年情況會更好。因爲 Google、 微軟等公司自研的新款 AI 芯片将會投入市場。OpenAI 已經開始測試微軟發布的 AI 芯片。
" 這就是資本主義的魔力,現在很多公司都想成爲英偉達。" 阿爾特曼說。而英偉達的步步緊逼,也沒有給他們其他選擇。