圖片來源 @視覺中國
文|财華社
美國超微公司(AMD.US)發布了 AMD Instinct MI300X 加速器、進行了大量優化并添加了支持 LLM 新功能的 ROCm 6 開源軟件套裝,以及配備銳龍 AI 功能的銳龍(Ryzen)8040 系列加速器。
AMD 新品
AMD Instinct MI300X 加速器可用于生成 AI,并具有大型語言模型(LLM)訓練和推理性能,此外,還發布了 AMD Instinct MI300A 加速處理單元(APU)——結合最新的 AMD CDNA 3 架構和 "Zen 4"CPU,可爲高性能計算和人工智能工作負載提供突破性性能。
據其介紹,微軟、勞倫斯利弗莫爾國家實驗室的 "El Capitan" 超級計算機,甲骨文的雲基礎架構計劃,都成爲其客戶。
AMD Instinct MI300X 加速器采用全新的 AMD CDNA 3 架構。與上一代 AMD Instinct MI250X 加速器相比,MI300X 的計算單元增加了近 40%,内存容量增加了 1.5 倍,峰值理論内存帶寬增加了 1.7 倍,能支持 FP8 和稀疏性等新的數學格式,并能适應人工智能和高性能計算工作負載。
AMD Instinct MI300X 加速器擁有 192GB HBM3(高帶寬存儲)内存容量和 5.3 TB/s 峰值内存帶寬,可爲需求激增的 AI 工作負載提供所需的性能。
AMD Instinct 平台是基于行業标準 OCP 設計的生成式 AI 平台,擁有 8 個 MI300X 加速器,提供行業領先的 1.5TB HBM3(高帶寬存儲)内存容量。AMD Instinct 平台的行業标準設計允許 OEM 合作夥伴将 MI300X 加速器設計到現有的 AI 産品中,簡化部署并加速采用基于 AMD Instinct 加速器的服務器。
值得留意的是,AMD 在發布公告中提到,與英偉達的 H100 HGX 相比,AMD Instinct 平台在 BLOOM 176B4 等大語言模型上運行推理可快 1.6 倍,并且是市場上僅以單一 MI300X 加速器爲 70B 參數模型(如 Llama2)運行推理的唯一選擇,并能簡化企業級大語言模型部署。
AMD Instinct MI300A 加速處理器,是全球第一個專爲高性能計算和 AI 提供的數據中心加速處理器,結合了高性能的 AMD CDNA 3 GPU 内核、最新的 AMD"Zen 4"x86 CPU 内核和 128GB 的下一代 HBM3(高帶寬存儲)内存,在 FP32 高性能計算和人工智能工作負載上,與上一代 AMD Instinct MI250X 相比,每瓦性能提高了 1.9 倍,而且與英偉達的 Grace Hopper 超級芯(H200 與 Grace CPU 搭配)相比,每瓦性能或高出 2 倍。
不過更爲重要的是,AMD 宣布推出最新的 AMD ROCm 6 開放軟件平台,并承諾向開源社區開放最先進的軟件庫,推進其開源 AI 軟件部署的願景。ROCm 6 軟件大大提升了 AI 的加速性能,并增加了對生成式 AI 幾個新關鍵功能的支持,包括 FlashAttention, HIPGraph 和 vLLM 等。
至于配備銳龍 AI 功能的銳龍(Ryzen)8040 系列加速器,預計于 2024 年第 1 季面向宏碁、華碩、戴爾、惠普、聯想和雷蛇等廠商推出。
此外,AMD 表示通過收購 Nod.AI 與 Mipsology 以及更多戰略性生态合作,投資于軟件性能。
AMD 能替代英偉達嗎?
據 CNBC 報道,Meta(META.US)、OpenAI 和微軟(MSFT.US)已表示将使用 AMD 最新 AI 芯片 Instinct MI300X,或意味着這些正在部署 AI 的科技巨頭們傾向于尋找其他産品,來替代英偉達(NVDA.US)供應緊缺而且昂貴的 AI 芯片。
AMD 的首席執行官 CEO 蘇姿豐預計,AI 芯片市場到 2027 年的市場價值可達到 4000 億美元以上,并認爲 AMD 可在其中占據較大的市場份額。AMD 沒有披露 MI300X 的定價,但英偉達目前每顆芯片的成本大約爲 4 萬美元,而蘇姿豐透露,AMD 的芯片要低于英偉達的對應産品。
更爲重要的是,AMD 表示,已經改進了用于優化 AI 軟件棧的軟件套裝 ROCm 6,以便與英偉達的行業标準 CUDA 軟件進行競争,而這可能是 AI 開發者目前更傾向于英偉達的原因。
英偉達的護城河
說到 AMD 與英偉達的 AI 芯片競争,有必要先說說爲何 GPU 在 AI 發展中扮演核心角色,這要由并行計算說起。
并行計算是一種一次可以執行多個指令的算法——将一個計算任務分解成衆多子任務,并通過多個處理器同時執行,來加快計算速度。其目的是提高計算速度,并通過擴大問題求解規模,解決大型而複雜的計算問題。
在上世紀八九十年代,出現第一代并行計算機,例如超算和多處理器系統,這些系統通常需要多個 CPU(中央處理器)或者 CPU 與其他專用芯片組成來實現高性能的科學計算。但這些系統成本高昂,利用效率低,編程複雜。
随着圖形學的發展,以及遊戲對圖形處理能力需求的上升,GPU(圖形處理器)出現并發展起來。ATI 于 1985 年開發出第一款圖形芯片和圖形卡。
最開始的時候,GPU 扮演着 CPU 協處理器的角色,由 CPU 負責邏輯任務,GPU 負責圖形渲染任務,當時的 GPU(或稱顯卡),僅包含簡單的存儲器和幀緩沖區,隻能進行圖形的存儲和傳遞,一切操作都得由 CPU 來控制。
随着電子技術的發展,顯卡技術含量越來越高,功能越來越強大,英偉達于 1999 年發布 GeForce 256 圖形處理芯片時率先提出了 GPU 的概念,GPU 應運而生,使顯卡降低對 CPU 的依賴,并進行部分原本屬于 CPU 的工作。
随着 GPU 架構的改進和編程模型的創新,GPU 開始從圖形渲染擴展到數據挖掘和 AI 等涉及大量數據并行計算的其他領域。由于 GPU 擁有強大的并行運算能力,其作用已不局限于圖形加速器,而是被用作通用計算。有别于 CPU 的優勢在串行處理(CPU 适合處理需要前後計算步驟嚴密關聯的任務),GPU 可以同時處理數百個線程,在短時間内完成大量的計算任務。
人工智能(AI),顧名思義,是一種模仿人類智能和思維過程的技術,需要從海量的數據中提取新的見解和進行深度學習,從而生産出一種新的、能以人類智能相似的方式作出反應的智能機器。因此,AI 的發展涉及到大量的數據處理和模型訓練,尤其深度學習需要對大量數據進行矩陣運算,這些數據是可以并行進行的類似運算,GPU 正好能迎合這一需求,這正是 GPU 被譽爲 AI 計算引擎和核心的原因。
英偉達與 2006 年以 54 億美元收購顯卡先驅 ATI 的 AMD,是目前最主要的 GPU 生産商。2006 年,英偉達推出通用并行計算架構 CUDA ——簡單來說,就是與英偉達自家 GPU 強綁定的生态,這也是英偉達 AI 芯片大受歡迎的原因,許多早期工程師早就使用 CUDA,也因此,要突破英偉達 AI 芯片的護城河,首先得突破 CUDA 的生态壁壘。這也是 AMD 在其發布會上承認所面對的障礙。
爲此,AMD 推出 ROCm 就是要用自己的生态,來抗衡英偉達的 CUDA,需要注意的是,支持 CUDA 的 GPU 銷量已上億,數以千計的開發人員造就習慣使用英偉達的 CUDA 來解決各種問題,AMD 要培育屬于自己的生态或需要一段時間。
總結
AMD 在之前已經透露Instinct MI300A 和 MI300X GPU 于第 4 季量産推進順利,并在第 3 财季業績發布會上指出,其 AI 的進展較預期理想,預計第 4 季數據中心 GPU 收入約爲 4 億美元,到 2024 年将超過 20 億美元。MI300 有望成爲 AMD 曆史上在最短時間内達到銷售額上十億美元的産品。
可見當前市場對于 AMD 的 AI 芯片早有預期,但從 AMD 的業績指引來看,AI 的強勁發展或尚未在第 4 财季獲反映,要到 2024 财年才能體現在業績上。
英偉達則不然,其收入與非會計準則淨利潤以前所未見的加速度攀升,其 AI 芯片供不應求所帶來的強勁收入增長已在今年的業績中得到體現。英偉達截至 2023 年 10 月末止的 2024 财年第 3 季,該公司的收入同比大增 205.51%,按季增長 34.15%,至 181.2 億美元;非會計準則淨利潤按年大增 588.19%,至 100.2 億美元;并預計第 4 财季的收入将達到 200 億美元,算力和網絡需求的持續強勁将帶動其數據中心的強勁增長。
當前英偉達的 AI 芯片供不應求與價格昂貴,或許會驅使用戶轉向 AMD,不過從短期來看,AMD 要取代英偉達還需要一段時間,主要因爲英偉達在 AI 芯片領域已先聲奪人,累積了不少訂單,而且有平台與生态的競争優勢保護,AMD 要打破這些壁壘取而代之并非沒有可能,但在短期内或難以實現。