誰有英偉達 GPU,誰就是雲公司
關于英偉達總有新的消息讓你驚訝。
最近的一則來自美國的一家雲初創公司 CoreWeave 。
這家公司宣布融資 23 億美金,而更讓人震驚的是這筆錢的抵押物是其擁有的 GPU。在大模型熱潮下,GPU 俨然成爲一種硬通貨,而 CoreWeave 之所以能有如此多的英偉達稀缺物品,是因爲它過去的身份——北美最大的以太坊礦工。
那時它有超過五萬台 GPU 用來挖礦,在面對挖礦的不可持續性後,CoreWeave 把目光轉向 AI 等需要并行計算的領域,并在 ChatGPT 爆紅之前就采購了大量英偉達芯片——那時芯片的産能還足夠充分。
由此,CoreWeave 自稱是世界上唯一一個可以大規模提供 H100 算力的公司,也搖身一變成爲了一家 " 雲廠商 "。
是的,它的 GPU 供給超越了所有雲服務巨頭,包括谷歌雲、亞馬遜雲和微軟的 Azure。
這聽上去有些奇特,即使是不談 GPU 數量瓶頸,構建數據中心還需要巨量的成本,精巧的空間、能源和散熱設計以及十分複雜的軟硬件協同,一般來說,能滿足這些條件的隻能是巨頭,而不是剛進行了 B 輪融資(4.21 億美元)的初創公司。
CoreWeave 能做到這一點,源于一種對數據中心截然不同的理解。
傳統的數據中心由 CPU 構成,它們側重于通用計算的能力,主要由最開始是英特爾,後來是 AMD 的芯片所壟斷。
但全新的用于加速計算的數據中心則更強調并行計算,這就意味着它需要有更大的内存、帶寬以及把所有的加速計算單元密切連接起來的能力,英偉達創始人和 CEO 黃仁勳稱這個過程爲 " 數據中心現代化 ",在他看來這是一個将持續 10 年的周期。
這個新周期的開始預示着整個數據中心的建構方式,軟硬件協同乃至電源和散熱結構都需要重新設計。這讓所有的雲服務提供商幾乎重回起跑線——針對 CPU 設計的上一代的數據中心方案幾乎完全無法照搬。比如英偉達連接龐大 GPU 集群所用到的 Infinite Band 技術需要超過 500 英裏的電纜,這在傳統的數據中心設計中根本不存在。
CoreWeave 舉了另一個例子,相同場地大小,GPU 集群所需要的電力是傳統數據中心的 4 倍,因此新數據中心的電力系統和散熱系統都需要完全重新設計,這甚至還不算軟硬件協同的成本。
搶占先機的 CoreWeave 由此不僅能提供龐大的 H100 算力,并且在比其它的雲服務快幾十倍的同時費用還低 80%,能做到這些,我們可以将其歸功于它很早就精準踐行了黃仁勳有關數據中心的願景——數據中心正在向加速計算方向轉化,而緊缺的算力則通過雲供應。
就這樣,一家虛拟币挖礦公司就變成了一家當紅的雲計算公司,隻因爲它是最忠誠的英偉達門徒。
英偉達雲是個什麽雲
誰有英偉達的 GPU 誰就是最紅的雲廠商,那麽誰有最多的英偉達 GPU?顯然是它自己。
于是在扶持類似的雲初創企業的同時,英偉達也在建設自己的雲。
英偉達親自下場做雲的優勢有很多,最明顯的是它不受到 GPU 供需關系的困擾。馬斯克曾在公開場合說,獲得 GPU 比獲得毒品要難多了,而 CoreWeave 之所以能提供超大規模的 H100 算力,據悉也和英偉達的充分供應有關——英偉達在幾個月前參與了 CoreWeave 的 B 輪融資。
但顯然,僅僅投一些初創公司還不夠,生成式 AI 對算力的巨大需求最終讓英偉達自己下場。在今年 3 月的 GTC 大會上,英偉達推出了自己的雲服務 DGX Cloud ,它已在年中正式上線。
從名字就可以看出,DGX Cloud 直接利用了英偉達 DGX 超級計算機的能力,雲的每個實例均配備 8 個 H100 或 A100 GPU 以及 640GB 内存。
DGX Cloud 采用了一種低延遲結構,讓龐大的工作流可以在集群之間擴展,于多個計算節點上并行分配。舉個例子來說,最先宣布與 DGX Cloud 合作的甲骨文,它在 OCI Supercluster 上每個集群可以部署超過 3 萬個 A100 GPU,由此大模型可以在雲上進行訓練。用戶在任何地方都能自由訪問屬于自己的 AI 超級計算機(英偉達表示算力的分配是獨享排他的),打交道的隻有前台界面,除了開發過程本身不用再去擔心任何和硬件基礎設施有關的問題。
這項服務采用月租形式,金額高達近 4 萬美元。當然,相比直接買一台 DGX 服務器 20 萬美元的價格來說還是便宜了許多,但不少人都指出,微軟的 Azure 同樣 8 個 A100GPU 的收費隻有不到 2 萬美元,幾乎是前者的一半。
爲什麽這麽貴?因爲英偉達的雲服務和别家不同,它不僅包括算力,還包括一整套 AI 解決方案。
名爲 Base Command Platform(基礎命令平台)和 AI Enterprise 的兩項服務被集成到了 DGX Cloud 裏。前者是一個管理與監控軟件,不僅可以用來記錄雲端算力的訓練負載,提供跨雲端和本地算力的整合,還能讓用戶直接從浏覽器訪問 DGX Cloud。後者則是英偉達 AI 平台中的軟件層,高達數千個軟件包提供了各種預訓練模型、AI 框架和加速庫,從而簡化端到端的 AI 開發和部署成本。除此之外,DGX Cloud 上還提供名爲 AI Foundations 的模型鑄造服務,讓企業用戶可以使用自己的專有數據定制屬于自己的垂直大模型。
這套軟硬件組合起來的完整解決方案讓 DGX Cloud 訓練速度相比傳統的雲計算提高了兩到三倍,這成爲了 DGX Cloud 與傳統雲服務最大的不同,它很好的綜合了英偉達兩方面的強項:AI 生态和算力。對于英偉達來說," 軟件即服務 " 這句話似乎應該改成 " 軟硬件一體即服務 ",DGX Cloud 集中代表了一個硬件廠商向上垂直整合的能力天花闆。
黃仁勳的野心和現實
但這并不意味着英偉達就徹底掀了傳統雲廠商的桌子。它的這項服務是通過傳統雲廠商來提供的。DGX Cloud 最開始被宣布推出在甲骨文雲上,随後微軟和谷歌跟進,而英偉達與這些雲廠商合作的方式顯得頗爲有趣:英偉達先把 GPU 硬件賣給這些雲合作夥伴,然後再租用這些硬件以便運行 DGX Cloud。
有人戲稱這叫兩邊錢一起賺,都不耽誤。
實際上,黃仁勳解釋過這種模式:" 我們從讓客戶使用我們的計算平台中受益,而客戶通過将我們(的計算平台)置于他們(雲廠商)的雲中而受益。"
如果隻聽黃仁勳說,這就是個皆大歡喜的雙赢結局,然而這隻是他一貫的叙事而已。英偉達已經陷入與自己客戶的競争中,并且心知肚明。
DGX Cloud 進展告訴我們,黃仁勳并不打算僅僅把它布置于傳統雲廠商上。在八月的 SIGGRAPH 2023 上,英偉達先是宣布了與 Hugging Face 的合作,接着發布了名爲 AI Workbench 的服務。它們都可以讓用戶便捷創建、測試和定制預訓大模型,其背後的算力支持自然都包括了 DGX Cloud。
這顯然會沖擊英偉達和雲廠商的關系:最主要的雲服務商,包括谷歌、亞馬遜和微軟,它們同樣也是英偉達的大客戶,英偉達推廣自有雲服務勢必會搶奪它們的市場份額。特别是我們在第一部分已經談到,作爲數據中心和雲服務巨頭的它們在構建下一代數據中心的問題上本來就不具備多少優勢,如果再考慮到英偉達芯片産能 " 卡脖子 " 的問題,英偉達的自有雲服務威脅不可謂不小。
黃仁勳不會不知道這一點,因此他對 DGX Cloud 的态度就顯得頗值得玩味了,比如他公開表示,一個恰當的雲服務組合比例應該是 10% 英偉達 DGX 加上 90% 的公有雲。換而言之,DGX Cloud 在黃仁勳的定位裏并不是傳統雲廠商的對手與威脅,而是合作夥伴。
在 Q1 季度财報公布後的分析師電話會上黃仁勳談的更多的都是這種合作的好處," 一個巨大的雙赢 ",黃仁勳如此形容。在他的理解裏,DGX Cloud 是一個純粹的英偉達堆棧(pure Nvidia stack),把人工智能開發、大型數據庫和高速低延遲網絡組合在一起,成爲一種便捷的 AI 基礎設施從而打開全新的、巨大的市場——這個市場的參與者包括了英偉達和傳統雲廠商,大家将共同受益于生成式 AI 的爆發。
極力避談沖突,其實是因爲,DGX Cloud 恐怕很長時間内都隻能維持一個較小的體量。
第一個原因當然是算力的瓶頸。" 訂單多到不可思議 " 是黃仁勳形容數據中心業務量時的描述,英偉達的核心要務當然是開發并保證生産盡可能多的符合市場需求的先進芯片,否則雲服務的規模是無法擴大的。
盡管台積電在馬不停蹄的生産,但值得注意的是算力缺口不是變小而是更大了,因爲一旦大模型落地和商業化(比如像 ChatGPT 那樣),其推理成本将随着用戶規模的提升指數級升高,長遠來看會比訓練模型的算力需求大得多(有人給出的倍率是 100)。
此外也是考慮到英偉達和傳統雲廠商合作關系的複雜性。DGX Cloud 如果作爲一種純粹的競品出現,或許會占領可觀的市場份額,但勢必進一步加速雲廠商擺脫對英偉達的依賴——它們本來就已經爲了少交點 " 英偉達稅 " 而不約而同地自研芯片了。
從另一個角度講,全力擴大 DGX Cloud 規模可能也不符合英偉達的最佳利益。從芯片到遊戲顯卡再到服務器和數據中心,英偉達絕少自己制造硬件産品,它更喜歡和 OEM 廠商合作——以至于許多時候你要采購英偉達芯片都還是得經過 OEM 廠商。這讓英偉達很好的控制成本,維持利潤率。
今天英偉達和雲廠商之間似乎維持了一種平衡,但平衡就是用來打破的,尤其當一方是英偉達的時候,畢竟眼下才是黃仁勳所謂 " 下一代數據中心十年 " 更新周期的第一年。