整個 AI 圈最想知道的秘密,被老黃在 PPT 某頁的小字裏寫出來了?
時隔兩年,英偉達官宣新一代Blackwell 架構,爲 AI 帶來30 倍推理加速。定位直指 " 新工業革命的引擎 " 。
老黃 PPT 中拿了一個1.8 萬億參數 MoE 的 GPT 系列大模型測試結果來證明。
眼尖的網友當場就盯上了這行不起眼的小字,截圖發出神秘暗号。
1.8 萬億參數、MoE 架構,與初代 GPT-4 的細節傳聞一毛一樣,32k 序列長度也能對得上。
剛升任研究經理不久的英偉達科學家 Jim Fan,甚至直接攤牌了。
表達摩爾定律已經限制不住英偉達了的同時,直接點破了這層窗戶紙。
不過個秘密之所以能以這種形式半官方确認,很可能說明對 OpenAI 來說已經無關緊要了。
很多人相信,最新版 gpt-4-turbo 經過一輪輪的優化,已經蒸餾到更小規模。
說回到英偉達 GTC 大會本身,作爲架構更新的大年,老黃的主題演講亮點頗多:
宣布 GPU 新核彈 B200,超級芯片 GB200
Blackwell 架構新服務器,一個機櫃頂一個超算
推出 AI 推理微服務 NIM,要做世界 AI 的入口
新光刻技術 cuLitho 進駐台積電,改進産能。
……
8 年時間,AI 算力已增長 1000 倍。
老黃斷言 " 加速計算到達了臨界點,通用計算已經過時了 "。
我們需要另一種方式來進行計算,這樣我們才能夠繼續擴展,這樣我們才能夠繼續降低計算成本,這樣我們才能夠繼續進行越來越多的計算。
老黃這次主題演講題目爲《見證 AI 的變革時刻》,但不得不說,英偉達才是最大的變革本革。
GPU 的形态已徹底改變
我們需要更大的 GPU,如果不能更大,就把更多 GPU 組合在一起,變成更大的虛拟 GPU。
Blackwell 新架構硬件産品線都圍繞這一句話展開。
通過芯片,與芯片間的連接技術,一步步構建出大型 AI 超算集群。
4nm 制程達到瓶頸,就把兩個芯片合在一起,以 10TB 每秒的滿血帶寬互聯,組成B200 GPU,總計包含 2080 億晶體管。
内存也直接翻倍,高達 192GB 的 HBM3e 高速内存。
沒錯,B100 型号被跳過了,直接發布的新架構首個 GPU 就是 B200。
兩個 B200 GPU 與 Grace CPU 結合就成爲GB200 超級芯片,通過 900GB/s 的超低功耗 NVLink 芯片間互連技術連接在一起。
兩個超級芯片裝到主闆上,成爲一個 Blackwell 計算節點。
18 個這樣的計算節點共有 36CPU+72GPU,組成更大的 " 虛拟 GPU"。
它們之間由今天宣布的 NVIDIA Quantum-X800 InfiniBand 和 Spectrum ™ -X800 以太網平台連接,可提供速度高達 800Gb/s 的網絡。
在 NVLink Switch 支持下,最終成爲 " 新一代計算單元 "GB200 NVL72。
一個像這樣的 " 計算單元 " 機櫃,FP8 精度的訓練算力就高達 720PFlops,直逼 H100 時代一個 DGX SuperPod 超級計算機集群(1000 PFlops)。
與相同數量的 72 個 H100 相比,GB200 NVL72 對于大模型推理性能提升高達 30 倍,成本和能耗降低高達 25 倍。
把 GB200 NVL72 當做單個 GPU 使用,具有 1.4EFlops 的 AI 推理算力和 30TB 高速内存。
再用Quantum InfiniBand交換機連接,配合散熱系統組成新一代 DGX SuperPod 集群。
DGX GB200 SuperPod采用新型高效液冷機架規模架構,标準配置可在 FP4 精度下提供 11.5 Exaflops 算力和 240TB 高速内存。
此外還支持增加額外的機架擴展性能。
最終成爲包含 32000 GPU 的分布式超算集群。
老黃直言," 英偉達 DGX AI 超級計算機,就是 AI 工業革命的工廠 "。
将提供無與倫比的規模、可靠性,具有智能管理和全棧彈性,以确保不斷的使用。
在演講中,老黃還特别提到 2016 年贈送 OpenAI 的 DGX-1,那也是史上第一次 8 塊 GPU 連在一起組成一個超級計算機,當時隻有 0.17 PFlops。
從此之後便開啓了訓練最大模型所需算力每 6 個月翻一倍的增長之路。
GPU 新核彈 GB200
過去,在 90 天内訓練一個 1.8 萬億參數的 MoE 架構 GPT 模型,需要 8000 個 Hopper 架構 GPU,15 兆瓦功率。
如今,同樣給 90 天時間,在 Blackwell 架構下隻需要 2000 個 GPU,以及 1/4 的能源消耗。
在标準的 1750 億參數 GPT-3 基準測試中,GB200 的性能是 H100 的 7 倍,提供的訓練算力是 H100 的 4 倍。
Blackwell 架構除了芯片本身外,還包含多項重大革新:
第二代 Transformer 引擎
動态爲神經網絡中的每個神經元啓用 FP6 和 FP4 精度支持。
第五代 NVLink 高速互聯
爲每個 GPU 提供了 1.8TB/s 雙向吞吐量,确保多達 576 個 GPU 之間的無縫高速通信。
Ras Engine(可靠性、可用性和可維護性引擎)
基于 AI 的預防性維護來運行診斷和預測可靠性問題。
Secure AI
先進的加密計算功能,在不影響性能的情況下保護 AI 模型和客戶數據,對于醫療保健和金融服務等隐私敏感行業至關重要。
專用解壓縮引擎
支持最新格式,加速數據庫查詢,以提供數據分析和數據科學的最高性能。
在這些技術加持下,一個 GB200 NVL72 就最高支持 27 萬億參數的模型。
假如初代 GPT-4 真是 1.8 萬億參數,一台 GB200 NVL72 就能跑 15 個 GPT-4。
英偉達要做世界 AI 的入口
老黃官宣 ai.nvidia.com 頁面,要做世界 AI 的入口。
任何人都可以通過易于使用的用戶界面體驗各種 AI 模型和應用。
同時,企業使用這些服務在自己的平台上創建和部署自定義應用,同時保留對其知識産權的完全所有權和控制權。
這上面的應用都由英偉達全新推出的AI 推理微服務 NIM支持,可對來自英偉達及合作夥伴的數十個 AI 模型進行優化推理。
此外,英偉達自己的開發套件、軟件庫和工具包都可以作爲 NVIDIA CUDA-X ™微服務訪問,用于檢索增強生成 ( RAG ) 、護欄、數據處理、HPC 等。
比如通過這些微服務,可以輕松構建基于大模型和向量數據庫的 ChatPDF 産品,甚至智能體 Agent 應用。
NIM 微服務定價非常直觀," 一個 GPU 一小時一美元 ",或年付打五折,一個 GPU 一年 4500 美元。
從此,英偉達 NIM 和 CUDA 做爲中間樞紐,連接了百萬開發者與上億 GPU 芯片。
什麽概念?
老黃曬出 AI 界 " 最強朋友圈 ",包括亞馬遜、迪士尼、三星等大型企業,都已成爲英偉達合作夥伴。
最後總結一下,與往年相比英偉達 2024 年戰略更聚焦 AI,而且産品更有針對性。
比如第五代 NVLink 還特意爲 MoE 架構大模型優化通訊瓶頸。
新的芯片和軟件服務,都在不斷的強調推理算力,要進一步打開 AI 應用部署市場。
當然作爲算力之王,AI 并不是英偉達的全部。
這次大會上,還特别宣布了與蘋果在 Vision Pro 方面的合作,讓開發者在工業元宇宙裏搞空間計算。
此前推出的新光刻技術 cuLitho 軟件庫也有了新進展,被台積電和新思科技采用,把觸手伸向更上遊的芯片制造商。
當然也少不了生物醫療、工業元宇宙、機器人汽車的新成果。
以及布局下一輪計算變革的前沿領域,英偉達推出雲量子計算機模拟微服務,讓全球科學家都能充分利用量子計算的力量,将自己的想法變成現。
One More Thing
去年 GTC 大會上,老黃與 OpenAI 首席科學家 Ilya Sutskever 的爐邊對談,仍爲人津津樂道。
當時世界還沒完全從 ChatGPT 的震撼中清醒過來,OpenAI 是整個行業絕對的主角。
如今 Ilya 不知蹤影,OpenAI 的市場統治力也開始松動。在這個節骨眼上,有資格與老黃對談的人換成了 8 位——
Transformer 八子,開山論文《Attention is all you need》的八位作者。
他們已經悉數離開谷歌,其中一位加入 OpenAI,另外 7 位投身 AI 創業,有模型層也有應用層,有 toB 也有 toC。
這八位傳奇人物既象征着大模型技術真正的起源,又代表着現在百花齊放的 AI 産業圖景。在這樣的格局中,OpenAI 不過是其中一位玩家。
而就在兩天後,老黃将把他們聚齊,在自己的主場。
要論在整個 AI 界的影響力、号召力,在這一刻,無論是 " 鋼鐵俠 " 馬斯克還是 " 奧特曼 "Sam Altman,恐怕都比不過眼前這位 " 皮衣客 " 黃仁勳。
……
最後,再來欣賞一段英偉達爲 Blackwell 架構制作的精彩動畫短片。
直播回放:
https://www.youtube.com/watch?v=Y2F8yisiS6E