出品|虎嗅科技組
作者|齊健
編輯|王一鵬
頭圖|視覺中國
" 我們需要更大的 GPU。"
當地時間 3 月 18 日,黃仁勳在英偉達 2024 GTC 大會上,宣布了英偉達新一代加速計算平台 NVIDIA Blackwell,以及基于 Blackwell GPU 架構的雙芯片 GPU B200 和超級芯片 GB200。
Blackwell 架構單 GPU AI 性能達到 20 PFLOPS,性能比上一代提高了 5 倍,而成本和能耗下降降低 25 倍。黃仁勳以訓練 1.8 萬億參數的 GPT 模型爲例(可能 GPT-4 的參數量)。同樣以 90 天爲訓練周期,上一代 Hopper 架構的 GPU 至少要用 8000 個,功耗 15MW,而使用 Blackwell 架構的 GPU,隻需要 2000 顆,功耗約 4 MW。
Blackwell
作爲全球加速計算市場的 " 老大 ",英偉達今天的一切成功都建立在 GPU 上。
不過,從黃仁勳在 GTC 大會上的主題演講來看,英偉達似乎并不希望外界隻看到他們的 GPU。在黃仁勳 2 個小時的主題演講中,雖然 Blackwell 平台的發布是絕對主角,但他也把超過一半的演講時間放在了 GPU" 周圍 " 的技術上,包括:芯片設計、生産技術,生成式 AI 模型訓練,數字孿生,以及具身智能等。
一直以來,英偉達都在強調自己是 " 人工智能時代領先的計算公司 ",而不隻是一家芯片或是硬件公司。在 GTC 上宣布的軟件技術、AI 訓練技術、機器人技術等,也無不透露着 " 源于 GPU,高于 GPU" 的味道。
軟件是 GPU 的護城河
加速計算市場上并不乏性能與英偉達接近的 GPU 産品,然而英偉達真正的護城河其實來自 GPU 軟件開發工具。
在 Blackwell 之外,英偉達公布了一系列與 AI、GPU、機器人相關的創新軟件應用,包括:
AI 模型和工作流微服務産品 NVIDIA NIM(NVIDIA AI Microservices);企業級的 AI 軟件平台 NVIDIA AI Enterprise 5.0;用于機器人開發的仿真環境 NVIDIA Isaac Sim;GPU 加速、性能優化的輕量級應用 NVIDIA Isaac Lab;用于計算編排服務的工具 NVIDIA OSMO;用于藥物研發的微服務 NVIDIA BioNeMo;用于基因組學分析的軟件套件 NVIDIA Parabricks;用于視頻分析和智能視頻管理的軟件平台 NVIDIA Metropolis 等。
其中,NVIDIA NIM(NVIDIA AI Microservices)最爲突出。
NIM 是一系列集成 AI 模型和工作流的微服務,專爲企業和開發者提供在生物、化學、影像及醫療數據領域構建和部署 AI 應用的高效、靈活方式。NIM 的關鍵優勢是其符合行業标準的 API,便于開發者創建雲原生應用。
目前,NIM 微服務以及開始在醫療影像領域推廣。通過利用 NVIDIA 的 AI 技術,NIM 微服務可以幫助醫療專業人員更快速、更準确地分析和解釋醫療影像數據,從而提高診斷的質量和效率。此外,NIM 微服務還可以用于藥物研發,通過生成式化學模型和蛋白質結構預測模型,加速新藥的發現和開發過程。
事實上,軟件應用生态除了在 AI 等開發端支撐英偉達的 GPU 業務,在未來也有可能爲英偉達走出一條新的增長曲線。
SaaS 行業是公認的毛利更高、賺錢快,且軟件、應用研發資産輕,不會像硬件生産那樣受到供應鏈的制約,也沒有生産、庫存壓力。
雖然英偉達的 GPU 借着 AI 的東風也能賺得盆滿缽滿,但增長速度相比不如爆發增長的 OpenAI。而且如果隻做 GPU 和算力生意,未來的發展空間,也難免會受到制造業自身增長緩慢屬性的影響。
已經壟斷了 GPU 生意的英偉達,自然不希望像 AMD、Intel、高通那樣," 躬耕 " 于芯片行業卷生卷死。對于英偉達來說,基于 AI 大模型、軟件等向上再邁一層,不僅能鞏固自己當下的行業地位,也能拓寬未來的賽道。
算力怪獸的關注點在通信
專爲 AI 而生的 Blackwell 可以處理萬億參數規模的大語言模型(LLM)。每塊 GPU 擁有 2080 億個晶體管,采用專門定制的雙倍光刻極限尺寸 4 納米 TSMC 工藝制造,通過 10 TB/s 的片間互聯,将 GPU 裸片連接成一塊統一的 GPU。
與 Blackwell 平台一同推出的還有采用雙芯片設計的新一代 GPU B200,單 GPU AI 性能達到 20 PFLOPS。B200 配備 192GB 内存。以及基于 B200 的超級芯片 GB200 ,通過 900GB/s 超低功耗的片間互聯,将兩個 NVIDIA B200 Tensor Core GPU 與 NVIDIA Grace CPU 相連。
雖然 Blackwell 的性能提升巨大,但今天的超大規模 AI 模型多數都需要多 GPU 并聯計算。由此,GPU 的連接性能,才真正體現了 GPU 在 AI 大模型訓練和應用過程中的價值。
第五代 NVIDIA NVLink提供 1.8TB/s 雙向吞吐量,可以使 576 塊 GPU 之間實現無縫高速通信,滿足更爲複雜的大語言模型訓練需求。
在雲端模型部署方面,英偉達還推出了NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X800 以太網網絡平台,提供了高達 800Gb/s 的端到端吞吐量,大幅提高了 AI 和 HPC 分布式計算的可用性。
此外,英偉達還推出了6G 研究雲平台,以推動 AI 在無線接入網絡 ( RAN ) 技術的應用。保證了端側設備到雲基礎設施之間的鏈接,從而推動自動駕駛汽車、智能空間和沉浸式教育體驗的發展。
英偉達全新網絡交換機 - X800 系列。
與 Blackwell 架構一同宣布的,還有英偉達與主流服務器、雲計算廠商的合作。AWS、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉和 XAI 等預計都會在未來将加速計算服務器更新到 Blackwell 架構。
促進落地是英偉達的當務之急
在 GPU 硬件方面,英偉達在全球 GPU 市場中持續保持領先。Blackwell 的性能比 2 年前的 Hopper 架構提升了 5 倍,比 8 年前的 Pascal 架構提升了 1000 倍。
黃仁勳在演講中自豪地說:" 摩爾定律是每 10 年提升 100 倍性能,過去 8 年裏,我們提升了 1000 倍,我們還少用了 2 年。"
英偉達 GPU 性能八年提升 1000 倍
Blackwell 一出,業界一片歡騰,很多人直呼:新摩爾定律誕生了。
相對于英偉達的用戶,華爾街對英偉達的看法相對冷靜。
剛剛過去的 3 月前幾周,英偉達遭市場逼空,3 月 8 日股價下跌 5.55%。雖然華爾街對英偉達本屆 GTC 表現樂觀,市場普遍預測此次大會将幫助英偉達股票結束近期震蕩走勢。但是黃仁勳的主題演講結束後,英偉達夜盤表現不佳,次日開盤股價亦未見起色。
這主要是因爲 GTC 上公布重磅新品,對于市場來說基本都在預期之内。其實對于英偉達來說,不管是 8 年前的 Pascal 還是今天的 Blackwell。1-2 年一次的 GPU 架構的升級早已經是順理成章的技術叠代,時至 2024 年,推出 Blackwell 在英偉達來說是一個 " 漸進式創新 " 的必然結果。
另一方面,對于如今的市場來說,随着 GPU 技術的叠代,算力快速增長很可能會大幅壓縮英偉達的增長空間。
方舟投資首席執行官、知名投資人 " 木頭姐 " 凱西 · 伍德(Cathie Wood)在 3 月 7 日緻股東的一封信中對英偉達未來可能面臨的競争壓力發出警告,并将其與思科在 1997 至 2000 年期間股價經曆的 " 抛物線 " 進行比較。
伍德認爲,如果 AI 公司、軟件公司在應用層面一直見不到收益的話,很可能會停止增加在 GPU 建設方面的投入。
隻是循序漸進地提升 GPU 性能,顯然不能保證英偉達業務的長期增長。英偉達需要給客戶提供更多圍繞 GPU 構建業務能力的工具。英偉達大概也早就認識到了這一點。
在傳統的 GPU 圖形渲染方面,英偉達重點向客戶推廣工業數字孿生應用和工作流創建平台 Omniverse。本次 GTC,也宣布了最新的 NVIDIA Omniverse Cloud API,用以幫助開發者将 Omniverse 技術集成到他們的設計和仿真工具中。
英偉達還宣布了與西門子、達索系統、Ansys、楷登軟件、新思科技等主流工業軟件廠商的進一步合作。
在 AI 方面,本次 GTC 上英偉達公布了一款人形機器人基礎模型 NVIDIA Project GR00T。可以支持通過語言、視頻和人類演示來學習動作和技能,爲機器人技術的 AI 應用提供了新的可能。Project GR00T 與前段時間 Figure 推出的使用 OpenAI 大腦控制的機器人有些異曲同工。Project GR00T 是一個多模态的人形機器人通用基礎模型,可以使機器人通過觀察人類行爲來模仿動作,從而快速學習協調、靈活性等技能。
除此之外,英偉達一直着力打造的機器人開發和仿真環境 Isaac 平台此次也升級加入了生成式 AI 基礎模型和仿真工具,以及針對機器人學習和操作的優化工具。