微軟自研芯片靴子落地,黃仁勳要打造 "AI 界台積電 "。微軟自研芯片靴子落地,黃仁勳要打造 "AI 界台積電 "。芯東西(公衆号:aichip001)
作者 | ZeR0
編輯 | 漠影
芯東西 11 月 16 日報道,今日淩晨,微軟在年度 IT 專業人士和開發者大會 Ignite 上推出兩款自研芯片——雲端 AI 芯片微軟 Azure Maia 100、服務器 CPU 微軟 Azure Cobalt 100。
Maia 100 是微軟爲微軟雲中大語言模型訓練和推理而設計的第一款人工智能(AI)芯片,采用台積電 5nm 工藝,擁有1050 億顆晶體管,針對 AI 和生成式 AI 進行了優化,支持微軟首次實現的低于 8 位數據類型(MX 數據類型)。微軟已經在用搜索引擎 Bing 和 Office AI 産品測試該芯片。
Cobalt 100 是微軟爲微軟雲定制開發的第一款 CPU,也是微軟打造的第一款完整的液冷服務器 CPU,采用Arm Neoverse CSS 設計、128 核。
微軟還定制設計了一個AI 端到端機架,并搭配了一個" 助手 " 液冷器,原理類似于汽車散熱器。
▲微軟現場展示 AI 端到端機架
兩款芯片明年年初開始在微軟數據中心推出,最初爲微軟的 Copilot 或 Azure OpenAI Service 等服務提供動力。微軟已經在設計第二代版本的 Azure Maia AI 芯片和 Cobalt CPU 系列。
這些芯片代表了微軟交付基礎設施系統的最後一塊拼圖——從芯片、軟件和服務器到機架和冷卻系統的一切,微軟這些系統都是由上到下設計的,可以根據内部和客戶的工作負載進行優化。
值得一提的是,生成式 AI 超級獨角獸 OpenAI 率先試用了 Maia 100 芯片。該芯片正在 GPT-3.5 Turbo 上進行測試。
OpenAI 首席執行官 Sam Altman 說:" 當微軟第一次分享他們的 Maia 芯片設計時,我們很興奮,我們一起努力改進并在我們的模型上測試它。Azure 的端到端 AI 架構現在與 Maia 一起優化到芯片,爲訓練更有能力的模型鋪平了道路,并使這些模型對我們的客戶來說更便宜。"
除了發布自研芯片外,微軟宣布将擴大與英偉達、AMD 兩家芯片巨頭在 AI 加速計算方面的合作夥伴關系,爲客戶提供更多價格和性能的選擇。
微軟發布了針對英偉達 H100 GPU 的全新 NC H100 v5 虛拟機系列預覽,還将在明年增加最新的英偉達 H200 GPU,以支持更大的模型推理;并宣布将在 Azure 中加入 AMD MI300X 加速虛拟機,旨在加速 AI 工作負載處理,用于 AI 模型訓練和生成式推理。
英偉達創始人兼 CEO 黃仁勳專程來到現場,宣布推出一項 AI 代工服務,可以幫助部署在微軟 Azure 上的企業和初創公司,構建自己的定制大語言模型。
▲納德拉與黃仁勳握手
當微軟 CEO 納德拉提問未來 AI 創新的發展方向是什麽,黃仁勳回答說:" 生成式 AI 是計算史上最重要的平台轉型。在過去 40 年裏,從來沒有發生過如此大的事情。到目前爲止,它比個人電腦更大、比手機更大,而且将比互聯網更大。"
一、揭秘微軟造芯實驗室:實現最大硬件利用率
微軟的雷德蒙德園區隐藏着一個實驗室,這裏擺滿了探索數字時代的基本組成部分——矽。多年以來,微軟工程師一直通過多步驟過程,對矽進行細緻的測試,秘密改進其方法。
▲在微軟雷德蒙德實驗室裏,一位系統級測試人員正在模拟芯片在微軟數據中心内的運行情況。這台機器在真實世界的條件下嚴格評估每個芯片,以确保它符合性能和可靠性标準。(圖源:微軟)
微軟認爲增加自研芯片是一種确保每個元素都适合微軟雲和 AI 工作負載的方式。這些芯片将安裝在定制的服務器主闆上、放在定制的機架上,随着機架被安裝到現有的微軟數據中心中。
AI 芯片微軟 Azure Maia 100旨在實現硬件的絕對最大利用率,将爲運行在微軟 Azure 上的一些最大的内部 AI 工作負載提供動力。
領導 Azure Maia 團隊的微軟技術人員 Brian Harry 說,Maia 100 專門爲 Azure 硬件堆棧而設計,這種垂直整合——将芯片設計與考慮到微軟工作負載而設計的更大 AI 基礎設施相結合——可以在性能和效率方面産生巨大的收益。
Cobalt 100 CPU 是一款 128 核服務器處理器,采用 Arm Neoverse CSS 設計構建。據微軟硬件産品開發副總裁 Wes McCulloug 分享,這是一種經過優化的低功耗芯片設計,可以在雲原生産品中提供更高的效率和性能。
選用 Arm 技術是微軟可持續發展目标的一個關鍵因素,其目标是優化整個數據中心的 " 每瓦性能 ",這本質上意味着爲每單位消耗的能量獲得更多的計算能力。
" 初步測試表明,我們的性能比現有商用 Arm 服務器的數據中心性能提高40%。" 微軟 Azure 硬件系統和基礎設施副總裁 Rani Borkar 說。
▲首批由微軟 Azure Cobalt 100 CPU 驅動的服務器,位于華盛頓州昆西的一個數據中心内。(圖源:微軟)
" 我們正在最有效地利用矽上的晶體管。将我們所有數據中心的服務器的效率提升相乘,這是一個相當大的數字。"McCulloug 談道。
二、從 2020 年開始爲雲造芯,給 AI 芯片定制機架和 " 散熱助手 "
雖然微軟爲其 Xbox 和 HoloLens 設備研發芯片已有十多年,但它爲 Azure 創建定制芯片的努力從 2020 年才開始。
Azure 硬件系統和基礎設施團隊的合作夥伴項目經理 Pat Stemen 稱,2016 年前,微軟雲的大多數層都是現成的,随後微軟開始定制服務器和機架,降低了成本,并爲客戶提供了更一緻的體驗。随着時間的推移,矽成了主要的缺失部分。
自研定制芯片的測試過程包括确定每個芯片在不同頻率、溫度和功率條件下的峰值性能,更重要的是在微軟真實數據中心的相同條件和配置下測試每個芯片。
▲在微軟雷德蒙德實驗室裏,芯片正在進行系統級測試,在安裝到服務器上之前,模拟它們在實際生産條件下的使用情況。(圖源:微軟)
今天公布的芯片架構不僅可以提高冷卻效率,還能優化其當前數據中心資産的使用,并在現有範圍内最大限度地提高服務器容量。
例如,不存在機架來容納 Maia 100 服務器主闆的獨特需求,所以微軟從零做出更寬的數據中心機架。這種擴展的設計爲電源和網絡電纜提供了充足的空間,能滿足 AI 工作負載的獨特需求。
▲在微軟雷德蒙德實驗室的一個熱室裏,爲 Maia 100 AI 芯片和它的 " 夥伴 " 定制的機架。在處理 AI 工作負載的計算需求時,新 " 助手 " 在機架之間循環液體來冷卻芯片。(圖源:微軟)
大型 AI 任務需要大量的計算、消耗更多的電力。傳統空氣冷卻方法無法滿足這些需求,液冷已成爲應對這些熱挑戰的首選方案。但微軟目前的數據中心并不是爲大型液冷機器設計的。因此它開發了一個 " 助手 ",放在 Maia 100 機架旁邊。
這些 " 助手 " 的工作原理有點像汽車的散熱器。冷液從側闆流向附着在 Maia 100 芯片表面的冷闆。每個闆都有通道,液體通過這些通道循環以吸收和輸送熱量。這些熱量會流到副翼,副翼會從液體中去除熱量,并将其送回機架以吸收更多的熱量,以此類推。
▲冷闆附着在 Maia 100 AI 芯片的表面。(圖源:微軟)
McCullough 強調說,機架和 " 助手 " 的串聯設計強調了基礎設施系統方法的價值。
通過控制每一個方面——從 Cobalt 100 芯片的低功耗理念到數據中心冷卻的複雜性——微軟可以協調每個組件之間的和諧相互作用,确保在減少環境影響方面,整體确實大于各部分的總和。
微軟已經與行業合作夥伴分享了其定制機架的設計經驗,無論内部安裝的是什麽芯片,微軟都可以使用這些經驗。
" 我們建造的所有東西,無論是基礎設施、軟件還是固件,我們都可以利用我們自己的芯片,或是我們行業合作夥伴的芯片。"McCullough 分享道," 這是客戶做出的選擇,我們正努力爲他們提供最好的選擇,無論是性能、成本還是他們關心的任何其他方面。"
Stemen 說,微軟的使命很明确:優化其技術堆棧的每一層,從核心芯片到終端服務。
" 微軟的創新将進一步深入到芯片工作中,以确保我們客戶在 Azure 上的工作負載的未來,優先考慮性能、能效和成本。" 他談道," 我們有意選擇這項創新,以便我們的客戶能夠在今天和未來獲得 Azure 的最佳體驗。"
大會期間,微軟還宣布了其中一個關鍵要素的全面可用性——Azure Boost,這是一個将存儲和網絡進程從主機服務器轉移到專用硬件和軟件上的系統,從而加快存儲和網絡的速度。
三、英偉達推出 AI 代工服務,助攻快速定制生成式 AI 模型
在微軟 Ignite 大會上,英偉達也誠意滿滿地公布一項新進展——推出 AI 代工服務。
英偉達創始人兼 CEO 黃仁勳現場與微軟 CEO 納德拉進行了 11 分鍾的對談,分享英偉達與微軟的全面合作。
他談道,生成式 AI 是計算史上最重要的平台轉型,由于生成式 AI,一切都變了,過去 12 個月,微軟與英偉達兩個團隊盡一切努力加快速度,聯手打造了世界上最快的 AI 超級計算機,這通常需要兩三年,而兩個團隊隻用 1 年就構建了其中的兩個,一個在微軟,一個在英偉達。
"我們将爲想要構建自己專有大語言模型的人做台積電爲我們做的事情,我們将成爲 AI 模型的代工廠。" 黃仁勳說,企業需要定制模型來執行根據公司專有 DNA(即數據)進行訓練的專業技能,該 AI 代工服務結合了英偉達的生成式 AI 模型技術、大語言模型訓練專業知識和巨型 AI 工廠。
AI 代工服務能幫助企業構建跨行業(包括企業軟件、電信和媒體)的生成式 AI 應用定制模型。準備好部署後,企業可以用檢索增強生成(RAG)技術将其模型與企業數據連接起來。英偉達在微軟 Azure 中構建了此功能,以便世界各地的企業可以将其定制模型與微軟雲服務連接起來。
該服務彙集了三要素:英偉達 AI 基礎模型、英偉達 NeMo 框架和工具、英偉達 DGX Cloud AI 超級計算服務的集合,來提供用于創建自定義生成式 AI 模型的端到端解決方案。
然後,企業可使用英偉達 AI Enterprise 軟件部署自定義模型,以支持生成式 AI 應用程序,包括智能搜索、摘要、内容生成。
使用英偉達 AI 代工服務的客戶可以從多個英偉達 AI Foundation 模型中進行選擇,包括托管在 Azure AI 模型目錄中的全新英偉達 Nemotron-3 8B 模型系列。Nemotron-3 8B 具有用于構建自定義企業生成式 AI 應用的多語言功能。
開發人員還可以訪問英偉達 NGC 目錄中的 Nemotron-3 8B 模型以及社區模型,比如專爲英偉達優化以加速計算的 Meta Llama 2 模型。
SAP SE、Amdocs、Getty Images 等均已使用該服務構建自定義模型。
SAP 計劃将該服務和優化的 RAG 工作流程與在 Azure 上運行的英偉達 DGX Cloud 和英偉達 AI Enterprise 發軟件結合使用,以幫助定制和部署其新的自然語言生成式 AI copilot Joule。
結語:尚未公布具體芯片參數,如何影響雲服務定價有待觀察
可能是因爲處于早期部署階段,微軟并沒有發布具體的芯片參數或性能基準。兩款芯片新品将加入微軟雲的底層硬件供應列表中,以幫助滿足對高效、可擴展和可持續計算能力的爆炸式需求。
微軟正在建設持 AI 創新的基礎設施,并正在重新構想數據中心的各個方面,包括優化 Azure 硬件系統的靈活性、電源、性能、可持續性、成本,優化和整合基礎設施堆棧的每一層,以最大限度地提高性能,使其供應鏈多樣化。
自研 AI 芯片能讓微軟免于過度依賴少數頭部芯片供應商。目前尚存的疑問是微軟将以多快速度将兩款芯片上架,以及這些芯片會如何幫助平衡對生成式 AI 體驗爆發的需求,以及将如何影響微軟 Azure AI 雲服務的定價。
來源:微軟,The Verge