新智元報道
編輯:編輯部
英偉達的節奏,越來越可怕了。
就在剛剛,老黃又一次在深夜炸場——發布目前世界最強的 AI 芯片 H200!
較前任霸主 H100,H200 的性能直接提升了 60% 到 90%。
不僅如此,這兩款芯片還是互相兼容的。這意味着,使用 H100 訓練 / 推理模型的企業,可以無縫更換成最新的 H200。
全世界的 AI 公司都陷入算力荒,英偉達的 GPU 已經千金難求。英偉達此前也表示,兩年一發布的架構節奏将轉變爲一年一發布。
就在英偉達宣布這一消息之際,AI 公司們正爲尋找更多 H100 而焦頭爛額。
英偉達的高端芯片價值連城,已經成爲貸款的抵押品。
誰擁有 H100,是矽谷最引人注目的頂級八卦
至于 H200 系統,英偉達表示預計将于明年二季度上市。
同在明年,英偉達還會發布基于 Blackwell 架構的 B100,并計劃在 2024 年将 H100 的産量增加兩倍,目标是生産 200 多萬塊 H100。
而在發布會上,英偉達甚至全程沒有提任何競争對手,隻是不斷強調「英偉達的 AI 超級計算平台,能夠更快地解決世界上一些最重要的挑戰。」
随着生成式 AI 的大爆炸,需求隻會更大,而且,這還沒算上 H200 呢。赢麻了,老黃真的赢麻了!
141GB 超大顯存,性能直接翻倍!
H200,将爲全球領先的 AI 計算平台增添動力。
它基于 Hopper 架構,配備英偉達 H200 Tensor Core GPU 和先進的顯存,因此可以爲生成式 AI 和高性能計算工作負載處理海量數據。
英偉達 H200 是首款采用 HBM3e 的 GPU,擁有高達 141GB 的顯存。
與 A100 相比,H200 的容量幾乎翻了一番,帶寬也增加了 2.4 倍。與 H100 相比,H200 的帶寬則從 3.35TB/s 增加到了 4.8TB/s。
英偉達大規模與高性能計算副總裁 Ian Buck 表示——
要利用生成式人工智能和高性能計算應用創造智能,必須使用大型、快速的 GPU 顯存,來高速高效地處理海量數據。借助 H200,業界領先的端到端人工智能超算平台的速度會變得更快,一些世界上最重要的挑戰,都可以被解決。
Llama 2 推理速度提升近 100%
跟前代架構相比,Hopper 架構已經實現了前所未有的性能飛躍,而 H100 持續的升級,和 TensorRT-LLM 強大的開源庫,都在不斷提高性能标準。
H200 的發布,讓性能飛躍又升了一級,直接讓 Llama2 70B 模型的推理速度比 H100 提高近一倍!
H200 基于與 H100 相同的 Hopper 架構。這就意味着,除了新的顯存功能外,H200 還具有與 H100 相同的功能,例如 Transformer Engine,它可以加速基于 Transformer 架構的 LLM 和其他深度學習模型。
HGX H200 采用英偉達 NVLink 和 NVSwitch 高速互連技術,8 路 HGX H200 可提供超過 32 Petaflops 的 FP8 深度學習計算能力和 1.1TB 的超高顯存帶寬。
當用 H200 代替 H100,與英偉達 Grace CPU 搭配使用時,就組成了性能更加強勁的 GH200 Grace Hopper 超級芯片——專爲大型 HPC 和 AI 應用而設計的計算模塊。
下面我們就來具體看看,相較于 H100,H200 的性能提升到底體現在哪些地方。
首先,H200 的性能提升最主要體現在大模型的推理性能表現上。
如上所說,在處理 Llama 2 等大語言模型時,H200 的推理速度比 H100 提高了接近 1 倍。
因爲計算核心更新幅度不大,如果以訓練 175B 大小的 GPT-3 爲例,性能提升大概在 10% 左右。
顯存帶寬對于高性能計算(HPC)應用程序至關重要,因爲它可以實現更快的數據傳輸,減少複雜任務的處理瓶頸。
對于模拟、科學研究和人工智能等顯存密集型 HPC 應用,H200 更高的顯存帶寬可确保高效地訪問和操作數據,與 CPU 相比,獲得結果的時間最多可加快 110 倍。
相較于 H100,H200 在處理高性能計算的應用程序上也有 20% 以上的提升。
而對于用戶來說非常重要的推理能耗,H200 相比 H100 直接腰斬。
這樣,H200 能大幅降低用戶的使用成本,繼續讓用戶「買的越多,省的越多」!
上個月,外媒 SemiAnalysis 曾曝出一份英偉達未來幾年的硬件路線圖,包括萬衆矚目的 H200、B100 和「X100」GPU。
而英偉達官方,也公布了官方的産品路線圖,将使用同一構架設計三款芯片,在明年和後年會繼續推出 B100 和 X100。
B100,性能已經望不到頭了
這次,英偉達更是在官方公告中宣布了全新的 H200 和 B100,将過去數據中心芯片兩年一更新的速率直接翻倍。
以推理 1750 億參數的 GPT-3 爲例,今年剛發布的 H100 是前代 A100 性能的 11 倍,明年即将上市的 H200 相對于 H100 則有超過 60% 的提升,而再之後的 B100,性能更是望不到頭。
至此,H100 也成爲了目前在位最短的「旗艦級」GPU。
如果說 H100 現在就是科技行業的「黃金」,那麽英偉達又成功制造了「鉑金」和「鑽石」。
H200 加持,新一代 AI 超算中心大批來襲
雲服務方面,除了英偉達自己投資的 CoreWeave、Lambda 和 Vultr 之外,亞馬遜雲科技、谷歌雲、微軟 Azure 和甲骨文雲基礎設施,都将成爲首批部署基于 H200 實例的供應商。
此外,在新的 H200 加持之下,GH200 超級芯片也将爲全球各地的超級計算中心提供總計約 200 Exaflops 的 AI 算力,用以推動科學創新。
在 SC23 大會上,多家頂級超算中心紛紛宣布,即将使用 GH200 系統構建自己的超級計算機。
德國尤裏希超級計算中心将在超算 JUPITER 中使用 GH200 超級芯片。
這台超級計算機将成爲歐洲第一台超大規模超級計算機,是歐洲高性能計算聯合項目(EuroHPC Joint Undertaking)的一部分。
Jupiter 超級計算機基于 Eviden 的 BullSequana XH3000,采用全液冷架構。
它總共擁有 24000 個英偉達 GH200 Grace Hopper 超級芯片,通過 Quantum-2 Infiniband 互聯。
每個 Grace CPU 包含 288 個 Neoverse 内核, Jupiter 的 CPU 就有近 700 萬個 ARM 核心。
它能提供 93 Exaflops 的低精度 AI 算力和 1 Exaflop 的高精度(FP64)算力。這台超級計算機預計将于 2024 年安裝完畢。
由築波大學和東京大學共同成立的日本先進高性能計算聯合中心,将在下一代超級計算機中采用英偉達 GH200 Grace Hopper 超級芯片構建。
作爲世界最大超算中心之一的德克薩斯高級計算中心,也将采用英偉達的 GH200 構建超級計算機 Vista。
伊利諾伊大學香槟分校的美國國家超級計算應用中心,将利用英偉達 GH200 超級芯片來構建他們的超算 DeltaAI,把 AI 計算能力提高兩倍。
此外,布裏斯托大學将在英國政府的資助下,負責建造英國最強大的超級計算機 Isambard-AI ——将配備 5000 多顆英偉達 GH200 超級芯片,提供 21 Exaflops 的 AI 計算能力。
英偉達、AMD、英特爾:三巨頭決戰 AI 芯片
GPU 競賽,也進入了白熱化。
面對 H200,而老對手 AMD 的計劃是,利用即将推出的大殺器—— Instinct MI300X 來提升顯存性能。
MI300X 将配備 192GB 的 HBM3 和 5.2TB/s 的顯存帶寬,這将使其在容量和帶寬上遠超 H200。
而英特爾也摩拳擦掌,計劃提升 Gaudi AI 芯片的 HBM 容量,并表示明年推出的第三代 Gaudi AI 芯片将從上一代的 96GB HBM2e 增加到 144GB。
英特爾 Max 系列目前的 HBM2 容量最高爲 128GB,英特爾計劃在未來幾代産品中,還要增加 Max 系列芯片的容量。
H200 價格未知
所以,H200 賣多少錢?英偉達暫時還未公布。
要知道,一塊 H100 的售價,在 25000 美元到 40000 美元之間。訓練 AI 模型,至少需要數千塊。
此前,AI 社區曾廣爲流傳這張圖片《我們需要多少個 GPU》。
GPT-4 大約是在 10000-25000 塊 A100 上訓練的;Meta 需要大約 21000 塊 A100;Stability AI 用了大概 5000 塊 A100;Falcon-40B 的訓練,用了 384 塊 A100。
根據馬斯克的說法,GPT-5 可能需要 30000-50000 塊 H100。摩根士丹利的說法是 25000 個 GPU。
Sam Altman 否認了在訓練 GPT-5,但卻提過「OpenAI 的 GPU 嚴重短缺,使用我們産品的人越少越好」。
我們能知道的是,等到明年第二季度 H200 上市,屆時必将引發新的風暴。
參考資料:
https://nvidianews.nvidia.com/news/nvidia-supercharges-hopper-the-worlds-leading-ai-computing-platform?ncid=so-twit-685372