英偉達站在計算科學和物理等一切科學的交叉點,成爲新工業革命的引擎。這是英偉達的使命,也是老黃心中英偉達的定位。
出品丨網易科技《态度》
作者丨趙芙瑤
編輯丨丁廣勝
皮衣教主又殺回來了!
在今日的英偉達 GTC(GPU 技術大會)上,黃仁勳再次炸場,每個産品的發布與更新都讓現場掌聲連連。英偉達新一代 Blackwell 架構來了;" 一個頂五個 " 的 B200 來了;" 讓全世界用上 AI" 的 AI 推理微服務 NIM 也來了!讓我們一起來回顧這一場吸引全球目光、号稱标志着 " 新工業革命 " 引擎誕生的發布會。
1. 黃仁勳:新時代的喬布斯
有了生成式 AI 的加持,黃仁勳此次的演講像是一場科幻電影,無論是現場播放的由 Backwell 制作的影像片段,還是黃教主現場與九個機器人的互動,都讓現場的科技感、沉浸感、未來感直線拉滿。
去年黃仁勳喊出 AI 的 "iPhone 時刻 " 已經到來,生成式 AI 不斷開始改寫我們的日常生活,而今天的一系列發布,更是表明改寫的速度正在指數級上升。
英偉達高級科學家 Jim Fan 現場調侃黃仁勳是新的泰勒 · 斯威夫特,因爲現場人滿爲患如演唱會一般,然而黃教主用兩個小時的時間,讓觀衆明白了或許他才是新時代的喬布斯。
2. 性能翻 30 倍的世界最強 GPU 來了
黃教主帶來了第一張王牌就是 Blackwell 架構,黃仁勳稱這顆芯片的名字來自數學家、博弈論家、概率論家 David Blackwell。基于 Blackwell 架構的 Blackwell B200 GPU 在性能上翻了 30 倍,帶來了驚人的計算能力。
Blackwell 架構下的計算芯片擁有 1040 億個晶體管,比上一代 GH100 GPU 的 800 億個晶體管實現了重大突破。而且,Blackwell B200 并非傳統意義上的單一 GPU,而是由兩個 Blackwell GPU 組合而成。通過 10 TB/s NV-HBI(Nvidia 高帶寬接口)連接,确保每個芯片都能獨立運行。
因此,B200 實際上擁有 2080 億個晶體管,能夠提供高達 20 petaflops 的 FP4 算力。其中,兩個 GPU 與單個 Grace CPU 相結合的 GB200 可将 LLM(大語言模型)的推理效率提升 30 倍。
在 GPT-3 LLM 基準測試中,GB200 的性能是 H100 的七倍,訓練速度提高了 4 倍。第二代 Transformer 引擎、第五代 NVLink 高速互聯、Ras Engine 等技術的引入,更是讓英偉達的産品在 AI 計算領域更加 " 所向披靡 "。
3. GB200 超級芯片:創造曆史的推理加速
GB200 超級芯片是兩個 B200 GPU 與 Grace CPU 結合的産品,成爲推理加速的新 " 核彈 "。它不僅可以加速推理,同時在成本和能源消耗上也實現了突破。
黃仁勳在現場介紹道,B200 采用雙芯片設計,晶體管數量達到 2080 億個,單 GPU AI 性能達 20 PFLOPS。兩個 B200 GPU 與 Grace CPU 結合組成最強 AI 芯片 GB200,通過 900GB/s 的超低功耗 NVLink 芯片間互連技術連接。在标準的 1750 億參數 GPT-3 基準測試中,GB200 的性能是 H100 的 7 倍,提供的訓練算力是 H100 的 4 倍。
另外,英偉達此次還帶來了全新加速計算平台 DGX GB200 NVL72,搭載 18 個 GB200,單機架即可達到每秒千萬億次級别的精度計算。相比 72 個 H100,GB200 NVL72 推理性能提升 30 倍,成本和能耗降低 25 倍。一個 GB200 NVL72 機櫃可訓練 27 萬億參數的模型,足以支持 15 個 GPT-4 模型。
黃仁勳表示,DGX Grace-Blackwell GB200 已經超過 1 Exaflop 的算力。這意味着什麽呢?
讓我們通過一個簡單的比喻來說明其水平:
假設你有一台普通的筆記本電腦,它的算力是 1 Gigaflop(即每秒 10 的 9 次浮點運算)。如果你的筆記本電腦每秒能夠完成 1 次浮點運算,那麽完成 10^18(即 1 Exaflop)次浮點運算需要多長時間呢?
1 Exaflop = 10^18 Flops
如果你的筆記本電腦每秒完成 1 Flop,那麽完成 10^18 Flops 就需要:
( 10^18 Flops ) / ( 1 Flop/second ) = 10^18 seconds
換算成年份:
10^18 seconds / ( 60 seconds/minute * 60 minutes/hour * 24 hours/day * 365 days/year ) ≈ 31.7 億年
換句話說,一台每秒完成 1 Flop 的筆記本電腦,要花費大約 31.7 億年的時間才能完成 1 Exaflop 的運算量。
所以 1 Exaflop 的龐大程度,可以說是一鳴驚人了。
4. 推理微服務 NIM:AI 部署的新标杆
NVIDIA 推出的 AI 推理微服務 NIM 成爲世界 AI 的入口,爲用戶提供了部署和管理 AI 模型的平台。通過 NIM,用戶可以體驗各種 AI 模型和應用,同時保留對知識産權的完全控制。黃仁勳表示,NVIDIA 正在幫助企業和應用程序對模型進行微調或定制。
NIM 可以使開發者能夠将部署時間從幾周縮短至幾分鍾,爲語言、語音、藥物發現等領域提供行業标準 API,讓開發者能夠利用在自己基礎設施中的專有數據快速構建 AI 應用,而不必依賴雲服務器。
英偉達希望通過這些服務吸引購買英偉達服務器的客戶注冊英偉達企業版 NVIDIA AI Enterprise 5.0,每個 GPU 每年收取 4500 美元的費用。企業可以選擇在亞馬遜雲科技(AWS)、谷歌雲、Azure、Oracle Cloud Infrastructure 等雲平台上部署這些微服務。
相較于新 AI 模型的初始訓練,推理過程所需的計算能力較少。對于那些希望自行運行 AI 模型,而不是購買 AI 結果作爲服務的企業來說,NIM 将成爲一款不錯的選擇。
" 在我原本調用 OpenAI 的代碼中,我隻需替換一行代碼,将其指向從英偉達獲取的 NIM 即可。" 一位開發者表示。
5. 英偉達的願景:引領新工業革命
黃仁勳的野心究竟有多大?在他看來,英偉達站在計算科學和物理等一切科學的交叉點,成爲新工業革命的引擎。這是英偉達的使命,也是他心中英偉達的定位。
正如黃仁勳在開場白中說的那樣,我們見證了計算機技術的革命以及人工智能的崛起。從過去到現在,我們經曆了無數裏程碑,包括首台 DGX-1 超級計算機的誕生、CUDA 的出現以及生成式 AI 的發展。
如今,皮衣教主黃仁勳已經在生成式 AI 領域拔得頭籌,帶領着下一場工業革命的開啓。
相關閱讀:
性能可提升 30 倍,英偉達發布全新構架,今年上市,一套或售 20 萬美元
3 月 19 日消息,當地時間周一,英偉達在美國加州聖何塞(San Jose)舉辦的全球開發者大會上,隆重發布了最新一代人工智能專用 GPU 芯片以及運行人工智能模型的軟件,意圖進一步鞏固其作爲人工智能領域首選供應商的地位。
英偉達推出的新一代人工智能 GPU 架構命名爲 Blackwell,首款基于該架構的 GB200 芯片預計将在今年晚些時候推出。
在處理大型語言模型(LLM)推理工作負載時,GB200 性能可提升 30 倍,同時在成本和能效上也有顯著提升。英偉達稱,與 H100 相比,"GB200 能将成本和能耗降低至多達 25 倍 "。
盡管當前市面上如 Hopper 架構的 H100 芯片等舊款産品依然供不應求,英偉達仍通過推出更高性能的新芯片來吸引客戶,鼓勵他們持續下單。
自 2022 年底,随着 OpenAI 推出聊天機器人 ChatGPT,掀起了一股人工智能熱潮,英偉達股價随之飙升五倍,營業收入也增長了逾兩倍。英偉達的高性能 GPU 對于訓練和運行大型人工智能模型至關重要。像微軟、Meta 這樣的科技巨頭,都斥資幾十億美元購買這種芯片。英偉達首席執行官黃仁勳在大會上表示:"Hopper 架構固然出色,但我們追求的是更加強大的 GPU。"
英偉達股價在周一盤後交易中微跌超過 1%。
爲了讓客戶在面對日益增多的競争産品時更傾向于選擇英偉達芯片,公司還推出了一款名爲 NIM 的付費軟件,使得部署人工智能變得更加簡單。
英偉達高管表示,公司正從單一芯片供應商轉型爲類似于微軟或蘋果那樣的平台提供者,其他公司可以在其平台上開發軟件。
黃仁勳坦言:"Blackwell 不僅僅是一款芯片,它代表的是一個平台。"
英偉達企業計算部門副總裁馬努維爾 · 達斯(Manuvir Das)在接受采訪時表示:" 最暢銷的商業産品仍是 GPU,軟件則是爲了幫助用戶以不同的方式使用 GPU。" 他補充道:" 當然,我們依然在緻力于産品的創新。但現在,我們真正實現了轉變,已經發展出了自己的商業軟件業務。"
英偉達新軟件能讓在所有英偉達 GPU 上運行程序變得更加簡便,即便是對于那些老款 GPU,它們雖更适合于部署人工智能應用,而非開發,也能輕松應對。
達斯說:" 如果您是開發者,手中有一個備受期待的模型,希望能讓更多人采用,隻需将其部署在 NIM 上。我們承諾将兼容所有英偉達 GPU,确保模型能觸及廣泛用戶群。"
Hopper 架構的繼任者 Blackwell
每隔兩年,英偉達都會更新其 GPU 架構,從而實現性能的顯著躍升。在過去一年中,衆多發布的人工智能模型均在 2022 年宣布的 Hopper 架構基礎上進行訓練,此架構涵蓋了包括 H100 在内的多款芯片。
據英偉達介紹,基于 Blackwell 架構的 GB200 芯片将爲人工智能領域公司帶來性能上巨大的飛躍,其人工智能計算能力可達每秒 20 千萬億次,遠超過 H100 芯片的每秒 4 千萬億次。
這一強大的計算能力将使企業得以訓練規模更大、複雜度更高的人工智能模型。
GB200 芯片還特别集成了英偉達的高性能 Transformer 推理引擎,該技術專爲運行基于 Transformer 架構的人工智能設計,正是構成流行聊天機器人 ChatGPT 核心技術的關鍵部分。
Blackwell 架構的 GPU 芯片體積龐大,實際上是由兩塊獨立制造的芯片集成于一塊台積電代工的芯片上。英偉達同時推出了配套的 GB200 NVLink 2 服務器,内置 72 塊 Blackwell 架構 GPU,以及其他用于人工智能模型訓練的專業組件。
知名雲服務提供商,包括亞馬遜、谷歌、微軟及甲骨文等,均将提供 GB200 芯片的雲服務。每套 GB200 系統由兩塊基于 Blackwell 架構的 B200 GPU 和一塊基于 ARM 架構的 Grace CPU 組成。英偉達透露,亞馬遜網絡服務(AWS)計劃建立一個包含 2 萬套 GB200 系統的超級計算集群。
英偉達表示,亞馬遜的服務器集群能夠部署達到 27 萬億個參數的人工智能模型,規模遠超目前已知最大的 GPT-4 模型,後者擁有 1.7 萬億個參數。許多人工智能研究人員認爲,擁有更多參數和數據的超大模型能夠展現出更爲強大的能力。
雖然英偉達未公布 GB200 芯片及其系統的具體售價,但根據分析師估計,參照 Hopper 架構 H100 芯片的售價範圍(每塊約 2.5 萬至 4 萬美元),一整套 GB200 系統的成本可能高達 20 萬美元。
英偉達的推理微服務
英偉達還宣布,在其企業軟件訂閱服務中新增了一款名爲 NIM 的産品,即英偉達推理微服務(NVIDIA Inference Microservices)的縮寫,旨在簡化使用舊型号 GPU 進行人工智能推理和軟件運行的過程,使企業能夠繼續利用現有的數億塊英偉達 GPU 資源。相較于訓練新的人工智能模型,推理計算所需的計算資源更少,因此,企業可以通過 NIM 更加便捷地運行自己的人工智能模型,而不必依賴于 OpenAI 等公司提供的計算服務。
作爲其戰略的一部分,英偉達鼓勵購買其服務器的客戶訂閱英偉達企業服務,并按每塊 GPU 每年 4500 美元的标準收取許可費。此外,英偉達将與微軟、Hugging Face 等領先的人工智能企業合作,确保它們開發的人工智能模型能夠在所有兼容的英偉達芯片上順暢運行。開發者可通過 NIM 服務,無需複雜配置,就能在自己的服務器或基于雲的英偉達服務器上高效地運行模型。
" 在原本調用 OpenAI 服務的代碼中,僅需替換一行代碼,即可将其連接至英偉達提供的 NIM 服務," 達斯解釋說。
英偉達表示, NIM 軟件不僅能在雲服務器上運行,還能使配備英偉達 GPU 的筆記本電腦上順暢運行人工智能應用,進一步擴展了 NIM 服務的應用場景。(辰辰)