今年夏天,英偉達創始人黃仁勳專門騰出時間,拜訪了一家名叫戰略與國際研究中心 ( CSIS)的智庫。在美國,智庫的意見能在很大程度上左右華盛頓的政策走向,深處科技戰前線的黃仁勳自然深知這一點。
黃仁勳上來就是一頓彩虹屁,并明确表達了捐贈的意向。随後他話鋒一轉,表示有一位小同志嚴重拖累了智庫隊伍的整體水平,建議清除出去。
這位小同志不是别人,正是 CSIS 高級研究中心主任 Gregory C. Allen,也是美國芯片出口管制政策的堅定鼓吹者。
面對美國的打壓,英偉達似乎比中國公司還着急。過去數月,黃仁勳一直在竭盡全力阻止制裁落地。
Gregory C. Allen,爲數不多能拿捏黃總的男人
除去給智庫施壓,黃仁勳還當面警告了華盛頓決策層,認爲制裁會造成嚴重代價。與此同時,他還不忘敦促美國半導體行業協會發表譴責聲明,強調進一步限制将損害行業的競争力 [ 2 ] 。
今年 7 月,黃仁勳還拉上高通和英特爾去了趟華盛頓,目的也是說服美國政府放松對華限制。
然而,美國依然在 10 月 17 日更新了芯片出口管制,中國特供版芯片 H800 和 A800 也被列入禁售範圍。更令人驚訝的是,用于遊戲的消費級顯卡 RTX 4090 也進了名單。
這對英偉達來說無疑是緻命一擊,長期以來,中國大陸市場一直占據其 20% 以上的收入。10 月 17 日出口管制發布當天,英偉達股價下跌近 5%,AMD 和英特爾也跟風跌了 1%。
那麽,英偉達是否真的無法替代?中國市場之于英偉達又意味着什麽?
最好的選擇
簡單來說,美國政府在新的出口管制政策中添加了多個新指标,不僅把特供産品 H800 和 A800 牢牢卡死,還順便誤傷了消費級顯卡 RTX4090,搞得國内黃牛趁機漲了一波價。
爲什麽說是 " 誤傷 "?雖然 RTX4090 和 H100 都是 GPU,但兩者的設計思路截然不同。
比如,RTX4090 的頻率強于 H100,因爲更高的頻率能夠提供更強的圖形渲染能力。而 H100 的強項則是理論算力、顯存大小和顯存帶寬,這是因爲 AI 推理和訓練都非常考驗數據的吞吐效率,這也是爲什麽 H100 需要昂貴的 HBM3 内存。
至于玩遊戲,H100 甚至都不支持主流遊戲的圖形接口。這也符合英偉達官方的 " 消費類 " 和 " 計算類 " 歸類。
在一些讨論中,RTX 4090 由于更低的價格、不差的算力、更低的功耗,一度被認爲同樣可以用于高性能計算。
客觀地說——鐵了心也能用。但一般而言,RTX 4090 由于顯存和帶寬的限制,最多隻能用作推理芯片。
AI 芯片根據部署位置區分,大緻上可分爲雲端芯片和終端芯片。雲端芯片用于訓練模型,俗稱訓練芯片;終端芯片用于終端設備,根據訓練好的模型對實時數據執行推理任務,俗稱推理芯片。
職責不同,導緻對訓練芯片和推理芯片的性能要求也有很大差異:
訓練芯片需要通過海量數據訓練可靠的模型,因此對數據傳輸速率、算力等指标有相當極端的要求。這也是爲什麽 H100 不惜用上昂貴的 HBM 内存和 CoWoS 封裝,目的都是爲了數據吞吐效率。
" 特供版 " 的 H800 和 A100,閹割的也是内存帶寬,算力其實沒有變化。
推理芯片一般處理實時任務,對于低延遲的要求更高,而且由于部署在終端,還要考慮功耗、大小、成本等問題。因此,用 RTX4090 這類消費級顯卡強行訓練,過低的帶寬會帶來 " 内存牆 " 的問題。
無論是谷歌的 TPU、還是特斯拉的 FSD 芯片,大部分應用場景都是推理。大部分國産 AI 芯片,也都是走推理芯片的路子。
而在訓練芯片這個場景下,英偉達的确是目前最好的選擇。
從絕對的算力來講,H100 并不是巅峰。但在 AI 訓練這件事上,一口氣買幾百塊顯卡的科技公司更在意的是另一個指标:單位成本的算力。
這也是爲什麽大家甯願加價搶 H100,也不願意買 " 青春版 H100"A100:按照 H100 SXM 版本、A100 80GBSXM 版本 8 月的銷售價格(24000 美元、15000 美元)計算,每單位算力的成本分别爲 12.13 美元、24.04 美元,H100 SXM 優勢明顯。
另外,數據中心搭建完成後,還需要考慮電力、運維、故障、後期支持等多方面成本。種種因素疊加,大家還是老老實實地拿起了号碼牌,加入了漫長的 H100 等待序列中。
比如特斯拉,前腳宣布給自研的 Dojo 超級計算機投 10 億美元,後腳就透露要購買 10000 張 H100 用于驅動 AI 負載。
簡而言之,在推理場景下,英偉達尚有替代方案;但在訓練芯片裏,英偉達是事實上的唯一方案。
原因在于,英偉達真正的護城河,是軟件。
隐形的護城河
今年 10 月 10 日,AMD 宣布打算收購一家名爲 Nod.ai 的 AI 開源軟件初創公司,以補足其軟件短闆。
雖然貴爲 GPU 行業的世界第二,但長期以來 AMD 的市場份額隻能和英偉達二八開,在以 AI 爲代表的高性能計算市場,存在感就幾乎爲 0。
事實上,AMD 的 AI 芯片理論參數并不差,與 H100 對标的 MI250X,雖然在 FP32/FP64 精度下的算力略遜于 H100,但考慮到 10000 美元的售價,MI250X 的 " 單位成本算力 " 其實更高,理論上可以成爲比 H100 更好的選擇。
但實際上,不管是大公司還是創業公司,大家還是更喜歡 H100。原因就在軟件,也就是大名鼎鼎的 CUDA。
衆所周知,GPU 最初的目的是爲遊戲和視頻進行圖像渲染。黃仁勳是幾乎所有奧斯卡 " 最佳視覺效果 " 提名影片背後的男人。2007 年,英偉達還曾獲得一個分量十足的獎項:艾美獎,以表彰其對娛樂行業作出的重大貢獻。
首先發現 GPU 被大材小用的是華爾街精英,在渲染圖像時所用到的并行計算能力,正符合金融場景裏高頻交易的需求。
不過,在用 GPU 跑交易之前,得先編寫大量的底層語言代碼,這顯然勸退了一大批交易員。
爲了降低 GPU 的編程門檻,David Kirk 說服黃仁勳在 2006 年推出 CUDA,CUDA 的全稱是 Compute Unified Device Architecture,即計算統一設備架構,其作用也直白地寫在名字裏了:爲 GPU 編程提供統一架構,使之滿足不同應用場景下的算力需求。
伴随 CUDA 推出的是一本編程指南,裏面詳述了實現性能的具體方法,并且随着産品的升級叠代不斷更新,至今已更新到 12.3 版。
最新版 CUDA 編程指南
這樣的說明書在今天看來是基礎必備,在當時與競争對手的差距也不過兩年,但先發者的一步領先卻足以定義行業。
CUDA 推出後,英偉達迅速打開了新業務的大門,在航空航天、天文學、氣象學領域裏都有 GPU 的身影。
2009 年,蘋果的開發團隊推出 OpenCL,支持者包括 AMD 和英特爾,希望能憑借着通用性在 CUDA 身上分一杯羹。但作爲追趕者,OpenCL 平台上的開發者天然地更少,很容易陷入惡性循環。
而 CUDA 則在 " 使用人數越多,CUDA 平台就越好用,新開發者就越傾向于選擇 CUDA" 的良性循環中,加固了生态優勢。
深度學習爆發後,許多學習框架要麽是在 CUDA 發布之後才會支持 OpenCL,要麽壓根不支持 OpenCL,使得 OpenCL 始終無法觸及更高附加值的業務 [ 5 ] 。
2016 年,AMD 自家軟件 ROCm 姗姗來遲,在投入不如英偉達的情況下,服務更新上滞後于 CUDA,因此也難與 CUDA 抗衡。
芯片的架構和制程可以靠一兩代産品迅速拉近差距,但一個成熟的生态系統卻很難被破壞。CUDA 生态遍布各行各業,從企業蔓延到教育系統。吳恩達曾評價:
CUDA 出現之前,全球能用 GPU 編程的可能不超過 100 人。而目前全球的 CUDA 開發者已經達到幾百萬。
從某種程度上來說,CUDA 已成爲行業的事實标準。它的另一個特點是:隻能和英偉達的硬件适配。
因此,任何開發者想要脫離 CUDA 生态,都不得不考慮标新立異的成本和風險。
不過對英偉達來說,繁榮的 CUDA 生态既是一座令競争對手望而生畏的高山,卻也是自己的軟肋所在。
英偉達在擔心什麽?
黃仁勳之所以如此着急,道理也簡單:如果鐵了心換掉英偉達,也不是不可以。
英偉達固然是人工智能得以走上時代舞台中央最大的功臣之一,但在當下,它卻存在兩個不容忽視的問題:
一是成本過高。以 " 地表最強 GPU"H100 爲例,首發價爲 3.3 萬美金,如今二手市場價格更一度上漲至 5 萬美金左右。
科技公司如果要搭建擁有一萬塊 H100 的數據中心,即便不考慮其他成本和後續開支,光 GPU 采購費就需要數億美金——即便對《财富》世界 500 強排行榜上的科技公司來說,這也不是筆小錢,更遑論初創企業。
二是通用芯片難以實現差異化。堆疊算力不是簡單往車裏加汽油,需要考慮軟件适配性、自身業務需求等一系列問題。更何況,如果隻用英偉達的 GPU,意味着隻有當英偉達出新産品,自家産品才能跟着升級,徹底将戰略主動權交給了黃總。
這就是英偉達面臨的一個尴尬情景:自己的客戶都是自己的對手。
早在 2014 年,谷歌已開始了自研芯片的計劃,其最新成果就是 TPUv5 系列。對參數量小于 200B 的大模型來說,TPUv5 在推理時更具性價比,相較于英偉達 GPU 有着肉眼可見的成本優勢 [ 4 ] 。
谷歌的 TPU
而在重要的中國市場,美國的出口管制實際上在給黃總幫倒忙。
如前文所述,英偉達的核心壁壘在 CUDA 組成的繁榮生态——它就像一個無數開發者組成的 " 圈子 ",後來者想要進入 AI 産業,就得融入這個圈子。如果把一部分開發者攔在圈子外面,那麽他們最有可能做什麽呢:
組建一個自己的圈子。
事實上,英偉達非常清楚這一點,其法律顧問 Tim Teter 就曾這樣警告華盛頓:你冒的風險是刺激了一個由競争對手主導的生态系統的發展,這可能會對美國在半導體、先進技術和人工智能領域的領導地位産生非常負面的影響。
如果 " 被踢出圈子 " 的概率隻有 1%,那大家隻會把它當作一個黑天鵝事件;但一旦這個概率上升到哪怕隻有 10%,就一定會有人行動起來。這也是爲什麽英偉達對美國的出口管制如此警覺——中國科技公司會鐵下心來掀桌子,開始搭建自己的生态。
英偉達并非是唯一有着類似境遇的公司,英特爾與高通也一同參與到了施壓美國政府的行動當中。它們的一部分競争力同樣來源于生态的構建,英偉達的境遇讓這兩家芯片巨頭深感唇亡齒寒。
要知道,上一輪針對英偉達的出口管制發布後,英特爾專門把 Gaudi 2 芯片的發布會放在北京開,一口一個 " 幫助構建中國人工智能的未來 "、" 攜手中國産業生态 ",趁機挖黃總牆角的心思昭然若揭。
結果新版出口管制出爐,AMD 的 MI250X、MI300,英特爾的 Gaudi 2、Gaudi 3 和黃總一起上了名單。這也難怪有小道消息說,英特爾高層和美國高級官員交涉時 [ 2 ] ,一度急得指着對方鼻子問 " 到底懂不懂半導體?"
盡管相比美國,國内的芯片産業整體的差距并不小,但長期的封鎖,一定會加速中國芯片産業的發展。一旦這個過程開始,也許就不可逆了。
這就是英偉達害怕的、美國衆多芯片公司所擔心的事情,正如黃仁勳所說 [ 1 ] :There is no other China,there is only one China。