微軟終于揭開他們自研芯片的真正面紗。
在今天舉辦的 Microsoft Ignite 大會上,該公司推出了兩款定制設計的芯片和集成系統:針對人工智能 ( AI ) 任務和生成式 AI 進行優化的 Microsoft Azure Maia AI 加速器,以及 Microsoft Azure Cobalt CPU ——一款基于 Arm 的處理器,專爲在 Microsoft 雲上運行通用計算工作負載而設計。
微軟方面表示,這些芯片是微軟提供基礎設施系統的最後一塊拼圖,其中包括從芯片選擇、軟件和服務器到機架和冷卻系統的一切,這些系統經過自上而下的設計,可以根據内部和客戶工作負載進行優化。
Maia 100:5 nm 工藝,1050 億個晶體
據 nextplatform 引述微軟 CEO 納德拉的說法,微軟的自研 AI 芯片 Maia 100 芯片是基于台積電相同的 5 納米工藝打造,總共包含 1050 億個晶體管。這也因此,就晶體管或時鍾速度而言,它并不輕量。而且,從公開數據開來,微軟這顆芯片是迄今爲止最大的 AI 芯片。
散熱方式上看,Maia 100 芯片采用直接液體冷卻,一直運行 GPT 3.5,目前屬于 GitHub 的 AI 副駕駛提供支持。微軟正在使用 Maia 100 加速器構建機架,明年将被允許通過 Azure 雲爲外部工作負載提供支持。
具體性能方面,據 semianalysis 的報道,Maia 100 在 MXInt8 下的性能爲 1600 TFLOPS,在 MXFP4 下則錄得了 3200 TFLOPS 的運算速度。semianalysis 表示,雖然此處使用的數字格式是唯一的,但希望 MXInt8 是 FP16/BF16 的替代品,MXFP4 是 FP8 的替代品,至少對于推理來說是這樣。這是非常簡單的,但目前還算不錯的啓發式,因爲沒有人真正用這些數字格式訓練過大規模模型。
從這些 FLOPS 看來,該芯片完全徹底碾壓了 Google 的 TPUv5 ( Viperfish ) 以及亞馬遜的 Trainium/Inferentia2 芯片。與 Nvidia 的 H100 和 AMD 的 MI300X 相比,微軟 Maia 100 的差距也并不遠。
來到内存帶寬方面,微軟 Maia 100 的規格是 1.6TB/s 的内存帶寬。這仍然碾壓亞馬遜的 Trainium/Inferentia2,但卻遜于 TPUv5 ,更不用說 H100 和 MI300X 了。
按照 semianalysis 的說法,之所以微軟會出現這樣的 " 錯誤 ",是完全因爲這該芯片是在 LLM 熱潮發生之前設計的。因此,Maia 100 在片上内存與片外内存方面有點不平衡——微軟在芯片上放置了大量 SRAM,因爲大量 SRAM 對于某些模型架構來說是有意義的。大型緩存通常有助于減少所需的内存帶寬,但這不适用于大型語言模型。據介紹,微軟在這個芯片上使用了 4 個 HBM 堆棧,而不是像 Nvidia 和 AMD 那樣的 6 個和 8 個堆棧。
對于微軟的這顆芯片,另一個亮點則在于其網絡設計。如 semianalysis 所說, AMD 和 Nvidia 擁有 Infinity Fabric 和 NVLink,用于高速連接到少量附近的芯片(通常爲 8 個),盡管 Nvidia 目前的一些部署數量已達到 256 個,但爲了将數以萬計的 GPU 連接在一起,Nvidia 和 AMD 需要将 PCIe 連接到以太網 /InfiniBand 的網絡附加卡。
但微軟在這個芯片上采用了另外的一條道路——更類似于英特爾在其 Gaudi 系列加速器上所做的事情。那就是讓每個芯片都有自己的内置 RDMA 以太網 IO。每個芯片 IO 總計爲 4.8Tbps,這超過了 Nvidia 和 AMD,這與谷歌對其 TPUv5 和專有 ICI 網絡所做的類似。
semianalysis 表示,這個 4.8T 是單向的,是衡量聯網速度的标準。當你在 NVLink 上計算 Nvidia 的數學時,實際上是 9.6T,而 H100/H200 是 7.2T。微軟的 Maia 100 實際上比 Nvidia 擁有更多的擴展帶寬,這是非常令人印象深刻的。
值得注意的是,Maia 100 還将 PCIe 通道減少至 8 個,以便最大限度地擴大 112G SerDes 的區域。Nvidia 有 16 個通道,因爲他們需要這些通道來連接到以太網 /InfiniBand。Nvidia 還在其 C2C 上投入了區域,用于以高帶寬将 Grace CPU 與 Hopper GPU 連接。如果我們包括短距離點對點互連,Nvidia 仍然領先。
Cobalt 100:5nm 工藝,128 核 N2
按照微軟所說,Cobalt 100 CPU 是一款基于 Arm 架構(一種節能芯片設計)構建,并經過優化,可在雲原生産品中提供更高的效率和性能的芯片。公司硬件産品開發副總裁 Wes McCullough 表示。選擇 Arm 技術是 Microsoft 可持續發展目标的關鍵要素。它的目标是優化整個數據中心的 " 每瓦性能 ",這本質上意味着消耗的每單位能源獲得更多的計算能力。
雖然微軟官方并沒有披露該 CPU 的太多細節。但 nextplatform 引述傳言表示, Cobalt 100 是基于 Arm "Genesis"Neoverse Compute Subsystems N2 IP 設計的。如果是這樣的話,那麽微軟将采用兩個 64 核 Generis 模塊,其中每個模塊帶有 "Perseus"N2 内核,每個内核有 6 個 DDR5 内存控制器,并将它們捆綁在一個插槽中。
換而言之,該芯片有 128 個核心和十幾個内存控制器,這即使在 2023 年也相當強大的。
"Perseus"N2 核心網格可在單個小芯片上從 24 個核心擴展到 64 個核心,其中四個可以組合在 CSS N2 封裝中,以使用 UCI-Express(而非 CCIX)在插槽中擴展到最多 256 個核心或根據客戶需求在小芯片之間進行專有互連。
Perseus 内核的時鍾速度範圍爲 2.1 GHz 至 3.6 GHz,Arm 已優化了該内核、網格、I/O 和内存控制器的設計包,并采用台積電 ( TSMC ) 的 5 納米工藝技術,從微軟方面的消息看來, Cobalt 100 芯片也确實使用了這些制造工藝。微軟表示,與 Azure 雲中可用的以前的 Arm 服務器 CPU 相比,Cobalt N2 核心的每核心性能将提高 40%,納德拉表示,微軟的 Teams、Azure 通信服務和 Azure SQL 服務的部分已經在 Cobalt 100 上運行 CPU。
Semianalysis 則指出,Azure Cobalt 100 CPU 是微軟在雲中部署的第二款基于 Arm 的 CPU。他們署的第一個基于 Arm 的 CPU 是從 AmpereComputing 購買的基于 Neoverse N1 的 CPU。Cobalt 100 CPU 就是在此基礎上發展而來,并在 Armv9 上引入了 128 個 Neoverse N2 内核和 12 個 DDR5 通道。Neoverse N2 的性能比 Neoverse N1 高出 40%。
Cobalt 100 主要基于 Arm 的 Neoverse Genesis CSS(計算子系統)平台。Arm 的這一産品與僅授權 IP 的經典商業模式不同,使得開發基于 Arm 的優質 CPU 變得更快、更容易且成本更低。
自研芯片,蓄謀已久
在微軟看來,芯片是雲的主力。它們控制着數十億個晶體管,處理流經數據中心的大量 1 和 0。這項工作最終允許您在屏幕上執行幾乎所有操作,從發送電子郵件到用簡單的句子在 Bing 中生成圖像。
就像建造房屋可以讓你控制每一個設計選擇和細節一樣,微軟将添加自研芯片視爲确保每個元素都是針對微軟雲和人工智能工作負載量身定制的一種方式。這些芯片将安裝在定制服務器主闆上,放置在定制的機架内,可以輕松安裝到現有的微軟數據中心内。硬件将與軟件攜手合作,共同設計以釋放新的功能和機遇。
Azure 硬件系統和基礎設施 ( AHSI ) 公司副總裁 Rani Borkar 表示,公司的最終目标是 讓 Azure 硬件系統能夠提供最大的靈活性,并且還可以針對功耗、性能、可持續性或成本進行優化。
" 軟件是我們的核心優勢,但坦白說,我們是一家系統公司。在微軟,我們正在共同設計和優化硬件和軟件,以便一加一大于二,"Borkar 說。" 我們可以看到整個堆棧,而矽隻是其中的成分之一。"
領導 Azure Maia 團隊的微軟技術研究員 Brian Harry 表示,Maia 100 AI 加速器是專爲 Azure 硬件堆棧設計的。他表示,這種垂直整合——芯片設計與考慮到微軟工作負載而設計的更大的人工智能基礎設施的結合——可以在性能和效率方面帶來巨大的收益。
AHSI 團隊合作夥伴項目經理 Pat Stemen 則表示,2016 年之前,微軟雲的大部分層都是現成購買的。然後微軟開始定制自己的服務器和機架,降低成本并爲客戶提供更一緻的體驗。随着時間的推移,矽成爲主要的缺失部分。
在微軟看來,構建自己的定制芯片的能力使微軟能夠瞄準某些品質并确保芯片在其最重要的工作負載上發揮最佳性能。其測試過程包括确定每個芯片在不同頻率、溫度和功率條件下的性能以獲得最佳性能,更重要的是,在與現實世界的微軟數據中心相同的條件和配置下測試每個芯片。微軟強調,公司今天推出的芯片架構不僅可以提高冷卻效率,還可以優化其當前數據中心資産的使用,并在現有占地面積内最大限度地提高服務器容量。
爲了更好地發揮兩個芯片的實力,英特爾還在機架上花了很多功夫。
事實上,如 nextplatform 所說,長期以來,微軟一直希望在其機群中找到 X86 架構的替代方案,早在 2017 年,微軟就表示其目标是讓 Arm 服務器占其服務器計算能力的 50%。幾年前,微軟憑借其 "Vulcan"ThunderX2 Arm 服務器 CPU 成爲 Cavium/Marvell 的早期客戶,當 Marvell 在 2020 年底或 2021 年初做出封存 ThunderX3 的決定時,微軟有望成爲 "Triton"ThunderX3 後續 CPU 的大買家。因此 2022 年,微軟采用了 AmpereComputing 的 Altra 系列 Arm CPU,并開始将其大量放入其服務器群中,但一直以來都有傳言稱該公司正在開發自己的 Arm 服務器 CPU,Cobalt 100 就成爲了公司的答案。
正如 nextplatform 所說,此舉對任何人來說都不會感到意外,因爲即使微軟沒有部署太多自己的芯片,它們的存在本身就意味着它可以與芯片制造商英特爾、AMD 和 Nvidia 談判以獲得更好的定價。這就像花費數億美元來節省數十億美元,這些錢可以重新投資到基礎設施上,包括進一步的開發。特别是考慮到 X86 服務器 CPU 的相對較高成本以及 Nvidia"Hopper"H100 和 H200 GPU 加速器以及即将推出的 AMD"Antares"Instinct MI300X 和 MI300A GPOU 加速器的驚人定價。由于供應有限且需求遠遠超過供應,AMD 根本沒有動力在數據中心 GPU 的價格上低于 Nvidia,除非超大規模提供商和雲構建商給他們提供一個。
這就是爲什麽每個超大規模提供商和雲構建商目前都在緻力于某種自研 CPU 和 AI 加速器的原因。正如我們喜歡提醒人們的那樣,這就像 20 世紀 80 年代末和 90 年代 IBM 仍然壟斷大型機時價值 100 萬美元的 Amdahl coffee cup 一樣。Gene Amdahl 是 IBM System/360 和 System/370 大型機的架構師,他創立了一家以他的名字命名的公司,生産克隆大型機硬件,并運行 IBM 的系統軟件,當 IBM 銷售代表來時,你的桌子上正好有那個杯子。通過這樣來訪傳達了這樣的信息:你不再胡鬧了。
這是十年前亞馬遜網絡服務公司得出的結論是它需要進行自己的芯片設計的原因之一,但不是唯一的原因,因爲最終(當然還沒有發生)服務器主闆,包括它的 CPU、内存、加速器和 I/O 最終将被壓縮到片上系統。正如傳奇工程師 James Hamilton 所說的那樣,移動設備中發生的事情最終也會發生在服務器中。(我們會觀察到,有時反之亦然。)有替代方案總是會帶來競争性價格壓力。但更重要的是,通過擁有自己的計算引擎(Nitro、Graviton、Trainium 和 Inferentia),AWS 可以采用填充堆棧協同設計方法,最終共同優化其硬件和軟件,提高性能,同時有望降低成本,從而推動性價比極限并注入營業收入現金。
微軟在定制服務器、存儲和數據中心方面起步較晚,但随着 Cobalt 和 Maia 計算引擎的加入,它正在成爲 AWS 和 Google 以及 Super 8 中其他正在制造自己芯片的公司的快速追随者出于完全相同的原因。
原文鏈接
https://news.microsoft.com/source/features/ai/in-house-chips-silicon-to-service-to-meet-ai-demand/
https://www.nextplatform.com/2023/11/15/microsoft-holds-chip-makers-feet-to-the-fire-with-homegrown-cpu-and-ai-chips/
https://www.semianalysis.com/p/microsoft-infrastructure-ai-and-cpu
* 免責聲明:本文由作者原創。文章内容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》爲您分享的第 3586 期内容,歡迎關注。