陳永偉 / 文
近日,AI 算力新秀 CoreWeave 在自己的推特上分享了一則消息:該公司剛剛通過抵押英偉達 H100GPU 的方式獲得了 23 億美元的融資,将用這筆錢來購買更多的 H100GPU,以便在年底前再建立 10 個新數據中心。
一位供職于國内某互聯網大廠的朋友在轉發該消息後評論道:" 以前隻聽說過地産公司通過抵押房子來拿貸款,然後用貸來的錢繼續蓋房子。這種抵押 GPU 借錢,再拿借來的錢繼續買 GPU 的做法倒是第一次看到。"
一般來說,同樣的一件電子産品,年末時的價格會比年初低上一大截。所以幾乎不會有人購買電子産品來進行保值,金融機構也很少會願意接受電子産品作爲抵押品。然而,這些經驗在 GPU 面前失靈了。今時今日,似乎整個市場都在争搶 GPU,在 eBay 平台上,英偉達 H100GPU 芯片的價格已經被炒到了每張 4.5 萬美元,而在兩三個月前,它的價格還是在 3.6 萬美元左右。
GPU 究竟是什麽?爲什麽在 AI 時代,GPU 會成爲人們競相争搶的硬通貨?它的價值來自哪裏?又能保持多長的時間?在 GPU 硬通貨化的背後,又存在着什麽更深的隐喻?且讓我們一一說來。
GPU 的由來
大家知道,GPU 是英文 " 圖形處理器 "(graphicprocessingunit)的縮寫。從這個名字就不難知道,GPU 原本并不是用來執行 AI 相關的任務,而是用來處理圖形的。
從上世紀 80 年代開始,随着計算機輔助應用(CAD)、地理信息系統(GIS)等技術的發展,用計算機處理圖形的需求開始出現增長。尤其是電子遊戲行業的異軍突起,更是爲計算機圖形處理培養了龐大的用戶群體。然而,作爲計算機處理核心的元件 CPU 在處理圖形時效率并不高,這就導緻了專業處理圖形任務的計算元件的出現。
1983 年,《計算機世界》(ComputerWorld)雜志上刊登的一篇介紹 Tek-tronix 的圖形終端的文章裏首先出現了 GPU 一詞。但是,此 GPU 非彼 GPU,它的全稱是 graphicprocessorunit。這一類所謂的 GPU 雖然能夠處理 2D 圖像,但由于當時還缺乏光影轉換(trans-formandlighting,簡稱 T&L)組件,因而它們還無法獨立處理 3D 圖形,必須搭配 CPU 使用。直到 1990 年代,圖形處理元件加入了 T&L 組件,現在人們所熟悉的 GPU 才正式出現。
關于究竟誰才是現在意義上 GPU 的發明者,業界一直存在着争議。一種觀點認爲,GPU 的發明權應該歸于美國矽圖公司(SiliconGraphics,簡稱 SGI)。1996 年,SGI 推出了可以實現硬件 T&L 的圖形處理器,已經具有了現在人們認爲的 GPU 的主要功能。不過,由于它主要是被用在任天堂的主機上,所以很多人并不願意承認它是真正的 GPU。另一種觀點則認爲,第一塊 GPU 是由一家名爲 3Dlabs 的英國公司推出的。1997 年時,它在一塊雙芯片處理器中加入了帶有 T&L 功能的引擎,并将這塊處理器冠以了 " 幾何處理器 "(GeometryPro-cessorUnit,簡稱也是 GPU)的名字。然而,由于 3Dlabs 專注于 CAD 的狹小市場,影響并不大,因而将其認爲是 GPU 發明者的人也不多。
相比于 SGI 和 3Dlabs,一個認可度更高的 GPU 發明者是英偉達。在上世紀 90 年代的半導體市場上,英偉達其實算是一個後來者。當時,這個市場上的基本格局是 AMD 和英特爾兩大巨頭對峙,而它們争奪的焦點是 CPU。在那幾年中,英特爾的奔騰系列 CPU 和 AMD 的 Am386、Am486 系列 CPU 可謂是你方唱罷我登場,戰得不亦樂乎,其他企業隻能坐看神仙打架。
1993 年,就在整個市場都認爲很難在巨頭霸占的市場中搶到機會時,供職于 LSILogic 的黃仁勳卻選擇了辭職下海,創立了英偉達。不過,黃仁勳看好的并不是 CPU,而是圖形加速卡。在當時看來,這似乎是一個非常冷門的業務。雖然随着 PC 和遊戲機的普及,不少人認識到了圖形處理的重要性,但其中的大部分人認爲這個任務應該由 CPU 而不是專門的圖形處理硬件來完成。
但黃仁勳并不這麽認爲,他堅持看好圖形處理硬件的未來。在很大程度上,他的這個判斷來自于對當時遊戲行業的觀察。1993 年,一款名爲《德軍總部 3D》(Wolfstein3D)的遊戲橫空出世,引發了市場對 3D 遊戲的極大興趣。但事實上,《德軍總部 3D》并不是真 3D,它隻是用 2D 貼圖僞裝出了 3D 效果。在黃仁勳看來,既然單獨的 CPU 不足以支持真 3D 遊戲,那麽要實現它們就隻能采用輔助的加速硬件。當然,雖然當時看好硬件加速市場潛力的人不多,但也不隻黃仁勳一人。比如,英偉達早期最重要的競争者 3dfx 公司也很早押注了這個市場,并一度憑借着其率先推出的巫毒(Voodoo)加速卡雄霸全球市場。
應該說,黃仁勳運氣确實不錯,在創業初期就收到了日本遊戲機公司世嘉的芯片研發訂單,并得到了 700 萬美元資金支持。但這種運氣并沒有持續多久,由于他在 3D 圖像技術上選擇的失誤,沒能兼容微軟新制定的 DirectX 标準,導緻了初代産品 NV1 出師不利,銷量慘淡。
在經過一番調整後,英偉達終于步入了正軌。靠着世嘉公司支付的研發費用,英偉達開發出了 Riva128。坦白講,單論性能,Riva128 并不如巫毒,但 3dfx 卻犯了一個緻命的錯誤——堅持自己的開發工具 GlideAPI,拒絕使用 DirectX。而英偉達則及時吸取教訓,選擇了擁抱微軟、擁抱 DirectX。很顯然,在微軟統治 PC 系統的時代,這個策略是十分明智的,Riva128 也因此而大賣。
1998 年,英偉達與台積電達成合作,開始使用 " 無工廠 "(Fabless)模式。之後,英偉達隻負責芯片的設計和銷售,生産則完全交托給台積電來代工。通過這種模式,英偉達得以輕裝上陣,将更多的精力投放到研發和市場研究中,從而推出了一系列爆款産品。利用這些産品,英偉達終于在圖形加速市場上站穩了腳跟。
不過,黃仁勳的野心當然不止于此。在他看來,圖形加速硬件不應該隻是 CPU 的助手,應該有自己的獨立角色。在這種理念的指導下,英偉達于 1999 年推出了它的 GeForce256 顯卡。這款顯卡不僅将 T&L 功能整合到了其中,實現了獨立于 CPU 的 T&L 處理,集成了立方環境材質貼圖、頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素、256 位渲染引擎等先進技術,還同時設計了可編程加速功能。在這些技術特質的加持之下,GeForce256 對一些高端 3D 遊戲的支持能力要遠勝于當時流行的 3D 圖形加速卡,面世後一炮而紅,迅速成爲了廣大發燒友鍾愛的遊戲神器。英偉達也趁熱打鐵,利用廣告攻勢,順勢将 " 具有集成 T&L、三角形設置 / 裁剪和渲染引擎,能夠每秒至少處理 1000 萬個多邊形的單芯片處理器 " 定義爲了 GPU ——如果嚴格按照這個定義,那麽英偉達就确實是 GPU 的發明者了。
英偉達迅速成爲了這個市場上的勝利者和引領者。2000 年,它更是将最主要的競争對手 3dfx 直接收購,進一步穩固了自己的市場霸主地位。所謂曆史是由勝利者書寫的,時至今日,當我們在搜索引擎上搜索誰是 GPU 的發明者時,英偉達就成了默認的答案。
從遊戲之友到 AI 神器
那麽,GPU 又是怎麽從一款遊戲神器變成 AI 神器的呢?在對這個問題進行說明前,我們需要先對 GPU 的結構進行一些簡單的介紹。
從總體上看,無論是 CPU 還是 GPU,都包括運算器(ArithmeticandLogicUnit,簡稱 ALU)、控制單元(ControlUnit,簡稱 CL)、高速緩存器(Cache)和動态随機存取存儲器(DRAM)。但是,這些成分在兩者中的構成比例是不同的。在 CPU 當中,控制單元和存儲單元占的比例很大,而作爲計算單位的 ALU 比例則很小;而在 GPU 當中則正好相反。
這種結構上的差異決定了 CPU 和 GPU 功能上的區别。由于 CPU 在控制和存儲的能力上比較強,因此就能進行比較複雜的計算,不過可以同時執行的線程很少。而 GPU 則相反,大量的計算單位讓它可以同時執行多線程的任務,但每一個任務都比較簡單。打個比喻,CPU 是一個精通數學的博士,微積分、線性代數樣樣都會,但盡管如此,讓他做一萬道四則運算也很難;而 GPU 呢,則是一群隻會四則運算的小學生,雖然他們不會微積分和線性代數,但人多力量大,如果一起開幹,一萬道四則運算分分鍾就能搞定。
由于在圖形處理的過程中會涉及很多不同色彩單元的圖形和色彩的變換,所以 GPU 的特質就讓它先天地适合被作爲圖形處理的硬件使用。而當深度學習興起之後,人工智能專家們很快就發現,GPU 也很适合用來訓練神經和應用網絡模型。因爲在深度學習模型中,最主要的運算就是矩陣運算和卷積,而這些運算從根本上都可以分解爲簡單的加法和乘法。如此一來,GPU 就找到了新的 " 就業 " 空間,開始被廣泛地應用于人工智能,搖身一變,從遊戲神器變成了 AI 神器。
對于英偉達這個 GPU 市場的王者,AI 領域的上述動向簡直是爲它送來了一塊天上掉下的餡餅。它也順勢抓住了這個機會。2007 年,英偉達提出了 GPGPU,即 " 通用目的 GPU"(GeneralPurposeGPU)架構,将原本專用于圖形處理的 GPU 改造成了更适合 AI 運算的 GPU。與此同時,英偉達還推出了 GPGPU 的計算統一架構(ComputeU-nifiedDeviceArchitecture,CUDA)平台,允許程序員使用類 C 語言編寫 GPU 的并行計算代碼,并且提供了大量的庫函數和工具來幫助優化 GPU 計算。通過這些努力,英偉達成功将 GPU 能處理的問題由圖形擴展到了通用計算領域,由此在市場上搶得了先機,率先從遊戲領域的硬件霸主轉型成了 AI 領域的 " 軍火商 "。
各大 AI 巨頭爲搶占大模型市場搶破頭時,這位 " 軍火商 " 卻坐收漁人之利,成爲了這場大戰最大的赢家——不僅賺得盆滿缽滿,讓自己的市值突破了萬億美元大關,還憑借着其對 GPU 進行分配的權力,在某種程度上成爲了左右 AI 大戰最終走向的幕後之手。
從 AI 神器到硬通貨
現在我們回到本文開頭的問題:爲什麽 GPU 并沒有遵循一般半導體産品的價格下降規律,反而成爲了一件硬通貨?
在市場經濟的條件下,可以讓某種商品的價格保持高昂且堅挺的原因隻有一個,那就是需求超過了供給。要理解 GPU 爲何能夠成爲硬通貨,就必須對其供求狀況有所了解。
1、GPU 的需求狀況
什麽人在購買 GPU 呢?關于這個問題,馬斯克曾給出過一個回答:" 在現在這個時間點,似乎所有人和他們的狗都在到處找 GPU。" 馬斯克的這個回答當然是帶有調侃的,但是整個 AI 圈确實都在爲 GPU 而瘋狂。
最近在社交新聞網站 Raddit 上熱傳的一篇文章曾對幾個大公司的 GPU 需求量做過一個統計。根據這篇文章,OpenAI 在訓練 GPT-4 時曾使用了 10000 到 25000 張英偉達 A100GPU;臉書在訓練 AI 時使用了大約 21000 張 A100;特斯拉使用了約 7000 張 A100;Midjourney 的開發者 StabilityAI 大約使用了 5000 張 A100。此外,阿聯酋阿布紮比技術創新研究所開發的 Falcon-40B 用了 384 張 A100 進行訓練;AI 初創公司 Inflection 則正在使用 3500 張 H100GPU 來訓練性能足以匹敵 GPT-3.5 的大模型。而根據馬斯克的爆料,OpenAI 正在訓練的 GPT-5 所使用的 H100GPU 可能達到了 3 萬到 5 萬張。除此之外,還有衆多初創企業也都需要 GPU,需求量從幾百張到幾千張不等。所有這些需求加總在一起,就構成了十分龐大的數字。
這裏需要說明的是,在 GPU 市場上,不同型号的 GPU 的需求差别非常大。目前,市場上最受歡迎的 GPU 就是英偉達的 H100。根據英偉達方面的介紹,這款專門爲人工智能設計的 GPU 芯片采用了新一代的 Hopper 架構,擁有 800 億個晶體管,無論是在深度學習模型的訓練還是推理方面,都具有十分強大的能力。在各種第三方的測試當中,H100 也取得了非常好的成績。例如,在近期舉行的一次 MLPerfAI 測試中,英偉達 H100 集群一舉在全部八個項目中都獲得了第一,僅用 11 分鍾就完成了一遍 GPT-3 的訓練,用 8 秒就完成了一遍 BERT 模型的訓練。
得益于 H100 的優良性能,所以幾乎所有 AI 企業都對其虎視眈眈。根據網上熱傳的一個估計:OpenAI 可能需要 5 萬張 H100;臉書可能需要 2.5 萬張;Inflection 需要 2.2 萬張;微軟的 Azure 雲、谷歌雲、亞馬遜的 AWS,以及 Oracle 這四大雲服務商可能各需要 3 萬張;Lambda、CoreWeave 以及其他私有雲可能總共需要 10 萬張;Anthropic、Helsing、Mistral、Character 等企業可能各需要 1 萬張——将上面這些需求加總在一起,H100 的總需求量就超過了 43 萬張。需要指出的是,上述估計數字還沒有包括中國的大型科技企業,以及包括 JP 摩根在内的衆多金融企業的需求。如果将這些企業的需求量考慮在内,H100 的需求量将更是驚人。
或許有人會問,同樣是 GPU,爲什麽 H100 會要比其他型号的 GPU,比如 A100 更受歡迎呢?這其實既是一個技術問題,也是一個經濟問題。總體上講,盡管同爲 GPU,但是不同型号的 GPU 之間的主要職能是不同的。大緻上講,在 AI 領域,GPU 的用途主要有兩種:一是推理(inference),即用訓練好的模型生成我們需要的結果和内容;二是訓練(training),即利用樣本數據來訓練 AI 模型。由于任務不同,所以在設計過程中必須安排不同的架構來對它們進行支持。一般而言,推理過程通常需要高效的計算能力和低延遲的響應速度,因此推理芯片的設計注重高效的計算單元和能耗控制;而訓練過程則需要更高的計算能力和存儲能力,因此訓練芯片的設計注重高度并行化和大規模存儲。
得益于更爲優秀的架構設計,H100 無論是在推理能力還是訓練能力上都要比 A100 更優。測試結果表明,它的 16 位推理速度大約是 A100 的 3.5 倍,16 位訓練速度則大約是 A100 的 2.3 倍。而從成本上看,H100 大約是 A100 的 1.5 到 2 倍。由此可見,雖然 H100 的價格要比 A100 更貴,但從性價比看,H100 則具有更大的優勢。
這裏尤其需要指出的是,當 Chat-GPT 的爆火之後,大批企業都投入了大模型的開發。對于這些企業而言,能夠更早地開發出品質優良的大模型就能爲自己在競争中獲得更爲有利的位置,這就激發了它們對可以以更快速度訓練模型的工具的渴望。
2、GPU 的供應狀況
既然現在價格已經被炒上了天,那麽供應商就應該抓住這個機會賣賣賣吧。但有意思的是,各大 GPU 供應商遲遲不增加供給,逼得一些 AI 企業甚至不得不到二手市場去收購舊的 GPU。非不願也,實不能也。
對于包括 GPU 在内的半導體産品而言,整個供應鏈可以分爲三段:上遊主要是指 EDA、IP 授權以及 GPU 芯片設計,中遊主要是指 GPU 的制造和封裝測試,下遊主要是集成商和終端銷售。其中,現在 GPU 卡口最嚴重的部分就出在供應鏈的中遊。
衆所周知,芯片的生産對于工藝的要求非常高,因此符合生産條件的制造商很少。以英偉達的 H100 爲例,正如我們前面提到的,在英偉達采用了 " 無工廠 " 模式之後,其制造就全部委托給了台積電。但是,即使是對台積電而言,也隻有 N5、N5P、N4 和 N4P 四個制程節點(注:制程節點指的是電路鑄造的制程工藝節點。通常以納米來衡量,例如 N5 指的就是 5 納米制程節點。制程節點越小 , 在一塊晶圓上可以制造的集成電路就越多。)可以用來進行 H100 的制造。而由于台積電的制作工藝突出,所以蘋果、高通等公司都在委托其進行代工,因而英偉達就不得不需要和這些公司一起共用以上制程節點。除此之外,在封裝環節,台積電也面臨着産能的限制。這些因素加在一起,就導緻了 H100 在供應鏈的中遊面臨着非常緊的瓶頸。
與此同時,還需要注意的一點是,GPU 的組件供應也在一定程度上制約着它的供應。仍以 H100 爲例,其使用的關鍵組件高帶寬存儲器(HighBandwidthMemory,簡稱 HBM)就面臨着很嚴重的供應限制。目前,英偉達在 H100 上使用的 HBM 幾乎都來自于韓國企業 SK 海力士半導體公司(SKHynix)。然而,SK 海力士生産 HBM 的能力是有限的,這就對 H100 的産量構成了直接的限制。有傳聞說英偉達可能從三星和美光采購一部分 HBM,但這兩家企業的産能依然是有限的,因此擴大采購範圍究竟可以在多大程度上緩解 HBM 的緊缺依然是一個問題。
綜合以上分析,我們可以看到,雖然面臨着 GPU 需求的暴漲,但由于供應鏈的制約,GPU 的供應量很難在短期内出現重大提升。目前看來,由生成式 AI 所帶動的算力需求增長還會持續較長的一段時間,因而至少在這段時間内,GPU 的供不應求還會繼續存在。在需求定律的作用之下,這就導緻了 GPU 這種半導體産品出現了十分反常的價格持續上升。因此,在融資當中,它也就得以扮演起了抵押品的角色。
從财富之源到權力之杖
當人們津津樂道于 GPU 竟然可以成爲硬通貨,在金融市場上作爲抵押品的時候,很可能忽略了另外一層更深的隐喻,即随着 GPU 在 AI 時代作用的日益突出,它似乎正在成爲 AI 領域的權力之源。
7 月 25 日,微軟公布了它 2023 财年第四季度的财報。得益于和 OpenAI 的合作,微軟的雲業務在本财季出現了大幅的增長,帶動了公司營收狀況的顯著改善。與去年相比,其營收同比增長了 8%,淨利潤的同比漲幅更是達到了 20%。在展示自己所取得的驕人成績的同時,微軟也在财報中提示了一些潛在的風險,其中之一就是 GPU 風險。微軟指出,GPU 已經成爲了支撐其雲業務迅速增長的關鍵原材料,如果 GPU 的供應不能保證,則其服務質量可能會受到很大影響。
爲了緩解對 GPU 的渴求,微軟可謂是不遺餘力。一方面,它直接向英偉達方面示好,要求采購更多的 GPU。另一方面,它也想了一些迂回的方法。比如,在不久之前,它就和 CoreWeave ——也就是本文開頭提到的那家抵押 H100 來借錢買 H100 的算力提供商達成了協議,約定将在未來幾年内持續向後者提供金額數十億的投資,一起建設雲計算的基礎設施。其原因在于 CoreWeave 和英偉達關系甚密,在不久前的 B 輪融資中,就得到了英偉達的投資。憑借着這層關系,英偉達方面許諾會優先對 CoreWeave 提供 GPU 的供應。因此,對于微軟來說,投資 CoreWeave 就是和英偉達套了近乎,從而有機會讓它得到更多的 H100 和 A100 的使用權。看看微軟現在這番良苦的用心,再聯想英偉達創業之初爲求生存不得不屈服于微軟創立的标準,真不禁讓人感歎三十年河東,三十年河西。
當然,我們還可以舉出更多的 GPU 供應商操控 AI 之戰的案例。一個典型的例子是我們前面起到過的 Inflection。這家由 DeepMind 聯合創始人穆斯塔法 · 蘇萊曼(MustafaSuleyman)創辦并擔任 CEO 的公司最近可謂風頭正勁。和其他大模型公司不同,Inflection 并不想創造無所不能的通用人工智能(AGI),而是将注意力集中在了個人智能(PI)領域。它的主要産品——名爲 Pi 的聊天機器人功能也很單一,目前隻有聊天。很顯然,在目前林立的 AI 模型中,這款産品并不出衆。然而,就是這樣一家看似平平無奇的公司,其估值卻達到了 40 億美元。除了它擁有的寶貴智力資源外,一個重要的原因就是 GPU。不久前,Inflection 公開宣布,它将打造一個擁有 2.2 萬塊 H100 芯片的超級計算集群,以支持新一代 AI 大模型的訓練和部署。這個集群的集成數量已經完全超越了臉書于 5 月宣布的計劃。
Inflection 是怎麽做到的呢?隻要我們看一下它的投資人,答案就立即揭曉了。是的,在它的投資人中,就有英偉達。另外值得一提的是,Inflection 在打造這個集群的過程中,還有一個重要的合作者—— CoreWeave。而正如我們已經看到的,它也是英偉達的利益共同體。由此可知,Inflection 得以爆火的背後,英偉達以及它手中的 GPU 應該起了關鍵的作用。
記得今年 3 月,各大生成式 AI 公司激戰正酣的時候,曾有一位記者來采訪我,她問:" 依您看來,這場 AI 大戰的最後赢家會是誰?微軟,谷歌,還是 OpenAI?" 我當時的回答是:" 我不知道它們當中誰會赢,但最後的赢家裏一定有英偉達!" 現在看來,這個回答是完全正确的。不過,如果現在她再問我這個問題,我會在答案上再加一句:或許,它還能用 GPU 投票,決定誰會是赢家。