文 | 半導體産業縱橫
在科技飛速發展的時代,半導體行業始終是焦點所在。AI 芯片領域更是猶如戰場,各大廠商你争我奪。
近日,AMD 推出新款芯片 MI325X,并随之更新了 AI 芯片路線圖,這一舉措在業内引發了強烈反響。與此同時,人們廣泛熱議,AMD 是否能夠向英偉達的領導地位發起有力挑戰?AMD 又能從這場激烈的競争中攫取多少勝利的果實?除了 AMD,英偉達需要面臨的挑戰還有哪些?
在此之前,一起了解一下 AMD 的新款芯片 MI325X 帶來哪些亮點?以及其最新的 AI 芯片路線圖又透露了何種信息。
MI325X,能否與 B200 掰手腕?
AMD 最新推出的 Instinct MI325X AI 加速器,在大獲成功的 MI300X 基礎上再進一步,着重增強了 HBM 内存部分。
在 AMD 的表述中,主要将其與英偉達前代産品 H200 進行對比,而在今年 3 月,英偉達發布了其新款 AI 芯片 B200。至于 AMD 這款新品與英偉達的 H200 相比有哪些亮點,這款産品有沒有能力與英偉達的最新 GPU B200 掰掰手腕?
爲了對比更爲詳盡,本文再次将這幾款産品進行對比。
AMD 最新推出的 Instinct MI325X AI 加速器采用了 AMD CDNA 3 GPU 架構,内置 1530 億個晶體管,配備 256GB 下一代 HBM3E 高帶寬内存,提供 6TB/s 的内存帶寬。此外,MI325X 在 FP8 和 FP16 精度下分别達到 2.6 PF 和 1.3 PF 的峰值理論性能。
作爲對比,英偉達 3 月發布的基于 Blackwell 架構的 B200 GPU 基于台積電的 N4P 制程工藝,擁有高達 2080 億的晶體管數量和 192GB 的 HBM3e 内存容量,提供了 8TB/s 的内存帶寬,以及 20PF 的 FP8 峰值性能。
英偉達 B200 GPU 的 AI 運算性能在 FP8 及新的 FP6 上都可達 20 PF,是前一代 Hopper 構架的 H100 運算性能 8 PF 的 2.5 倍。在新的 FP4 格式上更可達到 40 PF,是前一代 Hopper 構架 GPU 運算性能 8 PF 的 5 倍。
從工藝制程上來看,MI325X 未作披露,而 B200 采用上文所述的台積電 N4P 制程工藝。
從晶體管數量來看,英偉達 B200 此數值兩倍于 AMD MI325X。
從内存角度來看,AMD MI325X 有着更高的内存容量,這可能使其在某些 AI 模型的推理性能上表現出色,但其帶寬低于英偉達 B200 的 8 TB/s。
從 FP8 峰值性能來看,英偉達 B200 以 20 PF 的 FP8 峰值性能脫穎而出。雖然在浮點運算能力上,B200 整體上要優于 MI325,但 MI325 的性能也足以滿足大多數人工智能和高性能計算的需求。
從量産時間來看,兩者的量産時間較爲接近。AMD MI325X 預計在 2024 年第四季度正式投産,2025 年一季度開始向客戶交付。英偉達的 B200 芯片原計劃于今年晚些時候正式出貨,然而由于 Blackwell 産能問題影響,其新款 Blackwell B200 芯片将延遲發布三個月或更長時間,批量出貨或延遲至明年第一季度。
總體而言,AMD MI325X 與英偉達 B200 相比,仍存在顯著差距。不過,與英偉達的前代産品 H200 相比,MI325X 的數據參數已有了大幅提升。
AMD 數據顯示,MI325X 與英偉達 H200 的集成平台 H200 HGX 對比,MI325X 平台提供 1.8 倍的内存量、1.3 倍的内存帶寬和 1.3 倍的算力水平。蘇姿豐還表示,在運行 Meta 的 Llama 3.1 大模型時,MI325X 的推理性能比 H200 高出 40%。
未來 AI 芯片路線圖,再度更新
除了芯片的發布,AMD 還公布了最新的 AI 芯片路線圖。
AMD 的 AI 芯片布局
AMD Instinct MI350 系列首款産品即 Instinct MI355X,将引入新一代的 CDNA 4 架構,采用 3nm 工藝制造,搭配 HBM3E,總容量進一步提升到 288GB,對應帶寬提高到 8TB/s,TDP 也上升到 1000W,計劃 2025 年下半年開始發貨。
按照 AMD 的說法,Instinct MI355X 提供了 2.3PF 的 FP16 和 4.6PF 的 FP8 計算性能,相比前代産品的提升幅度約爲 77%。此外,新産品還将支持新的數據類型,包括 FP4 和 FP6。
另外,基于下一代 AMD CDNA"Next" 架構的 AMD Instinct MI400 系列預計将于 2026 年上市。
英偉達的 AI 芯片布局
沿着規劃的 AI 藍圖,英偉達加速前行,接下來将一年就更新一代産品,以往通常是兩年更新一代。
今年 6 月,英偉達 CEO 黃仁勳帶來了最新的 AI 芯片路線圖。
眼下,Blackwell 架構的 GPU 産品正在生産中,将成爲 2024、2025 年的重要營收驅動。
接下來,英偉達計劃發布一個增強版 Blackwell Ultra GPU ( 8S HBM3e 12H ) ,預計将于 2025 年推出。這款芯片将擁有 8 堆疊 HBM3e 内存,每疊有 12 個 die 高。B100 中的疊層大概是 8 堆疊,因此這應該代表 Blackwell Ultra 上的 HBM 内存容量至少增加 50%,甚至可能更多,具體取決于所使用的 DRAM 容量。HBM3E 内存的時鍾速度也可能更高。
下一代 Rubin GPU ( 8S HBM4 ) 和相應的平台将于 2026 年上市,這款芯片在此前的英偉達路線圖中曾被稱爲 X100,Rubin GPU 将使用 HBM4 内存,并将有 8 個堆棧,大概每個堆棧都有 12 個 DRAM。
随後于 2027 年的 Rubin Ultra GPU 将有 12 個 HBM4 内存堆棧,并且可能還有更高的堆棧。
爲了有更直觀的對比,可以仔細查閱下圖:
那麽,從技術路線圖的角度進行觀察,AMD 與英偉達在發展進程上似乎并沒有太大的差距。然而,在實際應用場景當中,這兩家企業之間的較量究竟呈現出怎樣一番景象呢?當産品真正投入到各種應用場景中時,無論是在遊戲體驗、專業圖形處理,還是在人工智能等相關領域,AMD 和英偉達的産品會各自發揮出怎樣的性能?
較量之下,英偉達依舊是最大赢家
過去數年間,英偉達在數據中心 GPU 市場中占據了主導地位,幾乎構成了壟斷,而 AMD 則長期穩居次席。
根據今年年初富國銀行的統計,英偉達目前在數據中心 AI 市場擁有 98% 的市場份額,而 AMD 僅有 1.2% 的市場份額,英特爾則隻有不到 1%。
近日,根據摩根士丹利分析師發布的報告稱,英偉達 Blackwell GPU 未來 12 個月的産能已經被預定一空。這意味着現在下訂單的新買家必須等到明年年底才能收到貨。摩根士丹利的分析師 Joseph Moore 在給客戶的一份報告中指出,英偉達的傳統客戶(AWS、CoreWeave、Google、Meta、Microsoft 和 Oracle等)已經購買了英偉達及其合作夥伴台積電在未來幾個季度将能夠生産的所有 Blackwell GPU。
如此壓倒性的需求可能表明,盡管來自 AMD、Intel、雲服務提供商(自研 AI 芯片)和各種小型公司的競争加劇,但英偉達明年的 AI 芯片市場份額将會進一步增長。
不過,AMD 并沒有因此沮喪。AMD 在與英偉達的競争中,長期将自身看作 " 市場的多一種選擇 "。蘇姿豐此前表示,AI 芯片市場足夠大,容得下多家企業,"AMD 不是必須要打敗英偉達才能成功 "。
市場研究機構 Moor Insights&Strategy 首席分析師帕特裏克 · 莫爾黑德(Patrick Moorhead)表示,"AMD 面臨的最大挑戰是獲得企業市場份額。AMD 需要在銷售和營銷方面投入更多資金,以加速其企業增長。"
從當前 AI 市場競争格局來看,盡管 AMD 新款 GPU 較以往有所進步,但業界分析師認爲,AMD 的技術至少落後英偉達一年。
不過,根據美國投資銀行和金融服務公司 KeyBanc 分析師約翰・溫(John Vinh)的分析,他認爲今年AMD MI300X AI 加速卡的出貨量将突破 50 萬張。該分析師認爲在數據中心領域,英偉達雖然一騎絕塵,AMD 難以望其項背,但是 Instinct MI300X 憑借着卓越的實力,極高的性價比,成爲行業客戶的重要備選方案,包括聯想在内的部分公司都認可 MI300X,這最終爲 AMD 帶來了更多的業務。
在近日的芯片發布會上,AMD 還強調了與甲骨文、谷歌、微軟、Meta 等廠商的合作關系,蘇姿豐稱,微軟、OpenAI、Meta、Cohere 等多個廠商的生成式 AI 平台已采用 MI300 系列驅動。
至于英偉達究竟有何優勢,以及基于哪些條件使其在 AI 盛行的時代脫穎而出,主要有以下幾點。
兩者對比,差距在哪裏?
第一,英偉達的 AI 芯片本身性能就十分強悍。從架構設計上來看,英偉達的 AI 芯片采用了高度優化的架構;在浮點運算能力方面,英偉達的 AI 芯片表現卓越。浮點運算能力是衡量芯片處理能力的關鍵指标之一;英偉達的芯片還具備出色的并行處理能力。AI 計算任務通常具有高度并行化的特點,英偉達的 AI 芯片通過集成大量的計算單元,能夠同時處理多個數據塊。這種并行處理能力可以讓芯片在處理 AI 任務時充分利用數據的并行性,進一步提高計算效率;在内存帶寬和緩存設計上,英偉達也有獨特的優勢。
除了強悍的芯片性能,英偉達在以下幾個方面的努力也多有裨益。
第二,在研發投入方面,英偉達向來不惜 " 血本 "。據悉,英偉達在截至七月份的季度中錄得 30.90 億美元的研發費用。将這一數字按年計算,這家 GPU 制造商一年的累計研發費用約 123.6 億美元。
相比之下,AMD 在其截至 6 月底的季度中錄得 15.93 億美元的研發費用。将這一數字按年計算,該公司一年的累計研發費用爲 63.72 億美元。換句話說,根據目前的年化預測,英偉達目前的研發投入是 AMD 的 2 倍。
其實在發展初期,英偉達就非常重視研發生産力。2005 年,AMD 的研發費用爲 11 億美元,是英偉達的 3.2 倍左右;而到了 2022 年,英偉達的研發費用就達到 73.4 億美元,是 AMD 的 1.47 倍。截至整個 2024 财年(2023 年自然年),英偉達研發費用高達 86.75 億美元,是 AMD 同期研發費用的 1.48 倍。
過去 10 年(2014-2023 自然年),英偉達累計投入費用高達 364 億美元,高于蘋果公司、微軟公司等科技巨頭。随着研發投入的不斷增長,英偉達通過技術進步降低成本和産品價格,不斷推出新的産品吸引更多消費者,優勢自然也逐漸凸顯。
第三,在生态布局方面,英偉達下手也頗早。英偉達推出 CUDA 平台,使得利用 GPU 來訓練神經網絡等高算力模型的難度大大降低,将 GPU 的應用從 3D 遊戲和圖像處理拓展到科學計算、大數據處理、機器學習等領域,這一生态系統的建立讓很多開發者依賴于 CUDA,進一步增加了英偉達的競争壁壘。
如今 AMD 在搶占市場份額時遇到的最大難題,就在于英偉達利用自家 CUDA 平台,已在 AI 軟件開發領域建立起一條護城河,把不少開發人員牢牢綁定在了英偉達的生态系統裏。作爲應對,AMD 一直在不斷優化名爲 ROCm 的軟件,目的就是讓 AI 開發人員能更輕松地把更多 AI 模型 " 搬 " 到 AMD 的芯片上。目前,ROCm 的最新版本 6.2,相較于舊版在推理和訓練上都有了超過 2 倍的提升。
第四,英偉達憑借早期與台積電的緊密合作,得以在先進制程的獲取上搶占先機。在芯片制造中,先進制程工藝能夠顯著提升芯片的性能表現。英偉達與台積電長期穩定的合作關系,使其在芯片生産的供應鏈管理上更加成熟。這種成熟體現在生産計劃的精确安排、生産周期的有效控制以及産品良率的保障上。英偉達可以根據市場需求預測,合理安排芯片的生産計劃,确保産品能夠及時供應市場,滿足客戶需求。同時,在生産過程中,較高的産品良率意味着更低的生産成本和更高的生産效率。
相比之下,AMD 在争取台積電先進制程産能時,往往受到英偉達訂單的擠壓,在生産計劃和良率控制方面可能面臨更多的不确定性,這在一定程度上影響了 AMD 産品的市場競争力和供貨穩定性,進而導緻其在 AI 芯片市場份額争奪中處于劣勢。
結語
綜上所述,英偉達在研發投入、生态布局、生産制造以及芯片性能等方面都展現出強大的實力,這使其在當前的 AI 芯片市場中占據了絕對的主導地位。然而,AMD 并非毫無機會。盡管目前 AMD 在這些關鍵領域相較于英偉達處于劣勢,但它正在積極地做出改變和追趕。
随着 AI 市場的不斷擴大和技術的持續叠代,未來充滿了變數。十年之後的 AI 芯片市場将呈現何種競争格局,還未曾可知。