圖片來源 @視覺中國
文 | 矽基研究室,作者 | 白嘉嘉
英偉達又一次被推上了風口浪尖,這次不是因爲它扶搖直上的業績,而是過去将它捧在手心的微軟、OpenAI、谷歌等人工智能排頭兵起了「異心」。
據 The Information 報道,微軟計劃在下個月的年度開發者大會上推出首款爲人工智能設計的芯片。這款芯片是爲訓練和運行大型語言模型(LLM)的數據中心服務器設計的。OpenAI 也在探索制造自己的人工智能芯片。公開信息顯示,OpenAI 至少投資了 3 家芯片公司。
谷歌的自研芯片 TPU 更是叠代到了 v5 世代。此前有分析師爆料谷歌的算力資源比 OpenAI、Meta、亞馬遜、甲骨文和 CoreWeave 加起來還要多,它的優勢正是來源于擁有龐大數量的 TPU。
這些企業爲什麽要下場造芯,市場上已經有了許多分析,原因主要集中在英偉達的 GPU 價格過高、産能不足。通過自研芯片,有望削弱英偉達在人工智能芯片領域的定價權,同時比沒有自研芯片的企業更具戰略自主。
但是,自研芯片真的能迫使英偉達放緩手中的鐮刀嗎?
一個事實是,市面上 H100 GPU 已漲到了原價的兩倍,依舊供不應求。即便是自研芯片已經「上線」的谷歌,仍在大量采購英偉達的芯片。
爲什麽?
由于英偉達的 GPU 銷量過于亮眼,以至于常常被簡單定義成一家硬件公司。但很多人不知道的是,英偉達的軟件工程師數量比硬件工程師還要多。
這句話背後的意思是,英偉達真正的護城河從不來自于層出不窮的新芯片(當然這也很了不起),而來源于軟硬件生态。
而 CUDA,正是這條護城河的第一道河堤。
01 英偉達真正的王牌—— CUDA
2019 年,英偉達 CEO 黃仁勳在密爾沃基工學院介紹企業發展史時,說了這樣一段話。
" 一項接着一項的應用,一個接着一個的科學領域,從分子動力學、計算物理學,到天體物理學、粒子物理學、高能物理學,這些不同的科學領域開始采用我們的科技,因爲這是向前發展的最佳解法。而我們深深地以這項貢獻爲榮。"
這項英偉達深以爲榮的技術,正是 CUDA。
CUDA 是一種英偉達推出的并行計算架構,正是在它的加持下,GPU 才得以打敗 CPU,成爲今天運行大數據計算的基礎。運行相同任務的情況下,支持 CUDA 系統的英偉達 GPU 比 CPU 的速度要快 10 到 100 倍。
爲什麽 CUDA 有這種魔力?
CPU 和 GPU 都是計算機處理器,都能執行計算任務,其不同點在于,CPU 更擅長線性計算,而 GPU 更擅長并行計算。業内常用的一個類比是,CPU 就像一位大學教授,能獨立解決各種複雜問題,但要按部就班進行,GPU 像一群小學生,單核運算能力不如 CPU,但勝在核的數量龐大,能同時計算。
而 CUDA,則是調動這群小學生的指揮棒。在 CUDA 的中介下,研究員、編程人員得以實現通過編程語言與硬件設施對話,從而将複雜的數學問題轉化爲多個簡單的小問題,分發給 GPU 的多個計算核。
如黃仁勳所說,CUDA 問世後成爲了 " 科學向前發展的最佳解法 ",龐大的運算能力成爲了搭建超級計算機的首選。
10 月 11 日,美國能源部下屬橡樹嶺國家實驗室宣布,他們研發出的超級計算機 " 頂點 "(Summit),浮點運算速度峰值可達每秒 20 億億次,接近 " 神威 · 太湖之光 " 超級計算機的兩倍。
這台算力巨獸身上搭載了近 28000 塊英偉達 GPU。而橡樹嶺國家實驗室,正是第一家大量采用英偉達「CUDA+GPU」套餐的研究所。
事實上,從 2006 年英偉達推出 CUDA 至今,涉及計算機計算的各個領域,幾乎已經被塑造成了英偉達的形狀。航空航天、生物科學研究、機械和流體模拟及能源探索等領域的研究,80% 在 CUDA 的基礎上進行。
并且,在大模型熱的帶動下,CUDA 生态合作者規模仍在翻倍增長。
根據英偉達 2023 财年年報,目前有 400 萬名開發者正在與 CUDA 合作。英偉達通過 12 年的時間達到 200 萬名開發者,在過去的兩年半裏該數字翻了一番,目前 CUDA 的下載量已經超過了 4000 萬次。
與此同時,英偉達仍在不斷擴大 CUDA 生态,推出了軟件加速庫的集合 CUDA-X AI。這些庫建立在 CUDA 之上,提供對于深度學習、機器學習和高性能計算必不可少的優化功能,是針對數據科學加速的端到端平台。
CUDA 生态如日中天,與之相輔相成的 GPU 成爲消費者的首選,英偉達因此賺得盆滿缽滿。不過,面對這麽大一塊蛋糕,競争對手自然不可能隻眼铮铮地看着。
比如,AMD 推出了生态平台 ROCm,同樣兼容不少計算框架;OpenAI 的 Triton 被認爲是 CUDA 的最有力挑戰者;由蘋果設計,後交由 Khronos Group 維護的開源構架 OpenCL,借鑒了 CUDA 的成功經驗,并盡可能的支持多核 CPU、GPU 或其他加速器;谷歌用「TPU+TensorFlow+ 雲」的模式吸引開發者和拓展客戶。
但這些「理論上」的競争者,在實際工作中,卻暴露出了各種各樣的問題。
今年 2 月,半導體研究和咨詢公司 Semi Analysis 首席分析師 Dylan Patel 曾寫了一篇名爲《Nvidia 在機器學習領域的 CUDA 壟斷如何被打破(How Nvidia ’ s CUDA Monopoly In Machine Learning Is Breaking - OpenAI Triton And PyTorch 2.0)》的文章。
文章的留言中,一位程序員表示:
" 我希望如此,但我非常非常懷疑。我使用的所有東西都是基于 CUDA 構建的。實際上,在非 NVidia 硬件上沒有任何功能。‘實際上有效’與‘理論上有效’不同。我使用的很多東西理論上都支持 ROCm,但在實踐中,當你嘗試使用它時,你會遇到大大小小的錯誤,并且會崩潰或無法正常工作。"
一線研究人員的言論證明了,在軟硬件均坐穩頭把交椅,并且培育了市場近 20 年的英偉達面前,至少眼下這個階段,沒有企業能和它正面競争。
02 英偉達帝國,誕生于「再造世界」
爲什麽恰好是英偉達捏住了 CUDA 這張王牌?從 2006 年 CUDA 面世起算,已經過去了接近 18 年時間,爲什麽在如此漫長的時間裏,英偉達的護城河不但沒有被攻破,反而越來越寬闊?
這些問題背後都有一個默認的前提—— CUDA 是那個「正确」的方向。而在英偉達孤注一擲的 21 世紀初,這句話黃仁勳對股東和市場重複了千百遍。
如果我們想要一個美好的世界,要做的第一件事,就是模拟它。某種程度上,這個想法就是 GPU 時代的原點,将那些複雜的物理定律模拟出來,并以畫面的形式呈現。然而,那些模拟物理定律的應用不會從天上掉下來,它需要有人一個一個地去開發。
因此,即便 GPU 的運算能力已經被證明未來有可能超過 CPU,應用程序匮乏,編程過程太過繁瑣,缺少底層語言代表的現狀,仍讓程序員們對其敬而遠之。
2003 年,英特爾推出了 4 核 CPU,英偉達爲了與之競争,開始着手發展統一計算設備架構技術,也就是 CUDA。
這個想法由首席科學家大衛 · 柯克博士提出,後來也是他說服黃仁勳,讓英偉達未來所有的 GPU 都必須支持 CUDA。因爲柯克在計算機高性能計算領域所發揮的重要作用,他後來被譽爲「CUDA 之父」,還當選爲美國國家工程院院士。
這些榮譽都是後話,當時黃仁勳需要解決的問題是,如何讓股東接受産品成本需要上升一倍,去搏一個回報周期可能在 10 年以上的未來。
事實上,圍繞着 CUDA 的質疑一直持續到了 AI 時代的前夜,英偉達的市值常年徘徊在 10 億美元的水平,股價甚至一度因爲 CUDA 附加成本對業績的拖累跌至 1.5 美元。股東多次提出希望他們專注于提高盈利能力。
2010 年,當時的 CPU 王者英特爾曾傳出計劃收購英偉達。《芯片戰争》中描述到," 對英特爾來說,(收購英偉達)價格不是問題,問題是該給黃仁勳一個什麽職位。然而雙方一直沒有達成一緻意見,最後不了了之。"
在市場看空英偉達的這些年裏,黃仁勳從未質疑過 CUDA 的價值。
爲了吸引開發人員編寫應用程序并展示 GPU 的優勢,黃仁勳先是使用了當時已經擁有龐大遊戲玩家市場的 GeForce GPU 來作爲安裝 CUDA 的基礎。然後又創建了一個名爲 GTC 的會議,在全球範圍内孜孜不倦地推廣 CUDA。
近年來最爲市場稱道的一個案例是,2016 年,黃仁勳親自去彼時剛成立的 OpenAI 交流,并贈送了一台搭載有 8 顆 P100 芯片的 DGX-1,那是英偉達當時最強力的浮點運算 GPU。
這件事往往被解讀爲黃仁勳的眼光老辣,但對他本人來說,這無非是确保 CUDA 成爲前沿科學研究者最習慣的框架的又一次嘗試而已。
與英偉達的笃定恰好能形成對比的,是英特爾。
作爲 CPU 時代的王者,英特爾本該成爲英偉達最具競争力的對手。
然而,在 2010 年取消了 CPU 和 GPU 融合的獨立顯卡計劃後,英特爾就失去了和英偉達硬碰硬的興趣(當然也可以說是因爲納米制程陷入停滞而失去底氣)。先是試圖收購英偉達,然後又轉身去和高通在移動基帶市場上較勁,2015 年第一波人工智能熱潮席卷而來時,大夢初醒的英特爾一手收購人工智能方向的芯片公司,一手将 AMD 的芯片納入到自己的系統芯片當中。
可惜的是,彼時英偉達的市場份額超過了 60%,CUDA 壟斷已然初具雛形,在 GPU 領域,英特爾已經沒有資格和英偉達坐在同一張牌桌上了。
03 DPU 和 DOCA,英偉達的新戰場
2020 年,創投圈曾流行過一個笑話。
"DPU 是什麽?"
" 支付寶到賬,一億元。"
隻要觸發了 DPU 這個關鍵詞,錢就會滾滾而來。
這輪 DPU 熱,正是英偉達掀起的。
2020 年上半年,英偉達以 69 億美元對價收購以色列網絡芯片公司 Mellanox Technologies,并于同年推出 BlueField-2 DPU,将其定義爲繼 CPU、GPU 之後的「第三顆主力芯片」。
那麽到底什麽是 DPU?
DPU 最核心的功能,是取代 CPU,建立以數據爲中心的計算架構。
衆所周知,CPU 的全稱是中央處理器,它除了承擔運行應用程序、執行計算的任務外,還扮演着數據流量控制器的角色,在 GPU、存儲、FPGA 和其他設備之間移動數據。
你可以簡單理解成,校長抛出一道難題後,老師(CPU)對其進行拆分,其中較爲複雜的部分由自己解決,容易但繁瑣的分發給學生(GPU)來做。過去題的數量比較少,老師還可以分得過來。但随着題目的數量增加,拆分、分發題目的時間反倒占用了老師的大量時間。
此時,再聘請一個專門拆分、分發題目的人,就成爲了提升系統整體運算效率的關鍵。而 DPU 就是那個人。
近年來,随着數據中心建設、網絡帶寬和數據量急劇增長,同時 CPU 性能增長速度放緩,越來越難以适應未來計算芯片的需求,DPU 應運而生。 英偉達官網是這樣定義它的—— DPU 是一個用于數據中心基礎設施的先進計算平台。
就像 GPU 背後有 CUDA 生态作支撐一樣,黃仁勳同樣爲 DPU 量身定做了一套軟件生态,同步推出了 DOCA。
借助 DOCA,開發者可以通過創建軟件定義、雲原生、DPU 加速的服務來對未來的數據中心基礎設施進行編程,并支持零信任保護,以滿足現代數據中心日益增長的性能和安全需求。
與 CUDA 不同的是,已經功成名就的英偉達不再需要苦口婆心地向市場證明自己眼光的獨到之處,創投圈的 DPU 熱就足以說明這一點。
不過伴随而來的,DPU 市場的競争也遠比當年 GPU 要來得激烈。
國外廠商中,Marvell、英特爾、AMD 均研發了 DPU 或 DPU 的對位産品。國内亦湧現出一批 DPU 初創企業,如雲豹智能、中科馭數、芯啓源、雲脈芯聯、星雲智聯、大禹智芯。
雲廠商方面,亞馬遜的 AWS 和阿裏雲已經實現大規模商用 DPU 構架,騰訊和字節跳動則加入了 DPU 研發大軍,其中騰訊推出了水杉和銀杉兩代 DPU。
這一次英偉達還能靠 DPU+DOCA 的軟硬件生态複現 GPU+CUDA 的奇迹嗎?
各國、各企業之間的算力競賽愈演愈烈,在産能受限并且 DOCA 生态尚未形成的情況下,對手們并非毫無機會。