在 2023 外灘大會期間拍攝的英偉達 logo(來源:钛媒體 App 編輯拍攝)
随着英偉達率先占領 AI 大模型算力芯片市場,并超過萬億市值。而同時,英特爾、AMD 和中國 GPU 芯片公司也在暗暗較勁,希望在 AI 算力芯片市場中分一杯羹。
9 月 19 日,美國聖何塞舉行的 Intel On 技術創新大會上,62 歲英特爾 CEO 基辛格(Pat Gelsinger)" 火力全開 ",以俯卧撐開場演講。
此次會議上,基辛格一口氣發布一系列新技術産品:基于 Intel 4(5nm)工藝的英特爾酷睿 Ultra 處理器,代号 "Meteor Lake";預覽第五代至強服務器芯片和後續至強産品路線圖;披露 5nm AI 芯片 Gaudi 3 等。
英特爾 CEO 基辛格(Pat Gelsinger)現場做俯卧撐場景
相比往屆,此次基辛格 " 變身皮衣老黃 ",全場近 2 小時大談 AI 算力對經濟的作用。據钛媒體 App 統計,此次演講中,基辛格約有 200 次提到 " 人工智能 "、" 深度學習 " 相關術語。
幾乎在同一時間,英特爾、英偉達的競争對手 AMD 公司,發布了最新 EPYC 8004 CPU(中央處理器)芯片,并預計年底前出貨 MI300 系列 AI 芯片,以對抗英偉達。此外在國内,包括華爲、天數智芯等 AI 芯片廠商也在積極布局大模型訓練推理和 AI 算力産品。
" 我們與 AI 算力芯片市場領導者英偉達競争非常激烈。但無論是 Gaudi2 還是 Gaudi3,都比他們往前邁出了一大步。我們正在獲得動力,市場開始意識到,AI 芯片行業領導者中還有另一個機會。" 基辛格 9 月 20 日對 CNBC 表示。
市場競争加劇," 老黃 " 難以獨食萬億 AI 算力
2023 年至今,以 ChatGPT 爲代表 AI 大模型 " 熱潮 " 席卷全球,大模型正推動 AI 向更通用方向發展。
同時,算力的稀缺和昂貴已成爲制約 AI 發展的核心因素。而算力也成爲了全社會數字化、智能化轉型的重要基石,從而帶動智能算力需求激增。
據 AMD 首席執行官蘇姿豐(Lisa Su)提供的數據顯示,2023 年,全球數據中心 AI 加速器的潛在市場總額将達到 300 億美元左右,預計到 2027 年,這一數字将超過 1500 億美元(約合人民币 1.095 萬億元),年複合增長率超過 50%。
英偉達企業運算副總裁曼努維爾 · 達斯(Manuvir Das)給出了另一組數據顯示,預計 AI 所在的潛在市場(TAM)規模将增長至 6000 億美元。其中,芯片和系統可分得 3000 億美元,生成式 AI 軟件可分得 1500 億美元,另外 1500 億美元則由英偉達企業軟件貢獻。
很明顯,AI 算力芯片市場是一塊大 " 蛋糕 "。
但目前,英偉達卻占據全球數據中心 AI 加速市場 82% 的份額,而且以 95% 的市場占有率壟斷了全球 Al 訓練領域的市場,成爲這輪 AI 混戰中最大赢家。而黃仁勳和他的英偉達公司賺的盆滿缽滿,市值超越 1 萬億美元。
與此同時,算力需求的激增,直接導緻英偉達 GPU(圖形處理器)" 一卡難求 "。而有多少英偉達 A100 顯卡,已經成爲衡量一個公司算力的标準。
事實上,一家企業若想研發通用大模型,在算力層面需首先關注兩點:顯卡數量和價格。
其中,顯卡數量方面,OpenAI 使用了 1 萬 -3 萬顆英偉達 GPU 來訓練 GPT-3.5 模型。據集邦咨詢最新報告顯示,如果以英偉達 A100 顯卡的處理能力計算,運行 ChatGPT 将可能需要使用到 3 萬塊英偉達 GPU 顯卡。另外在開源模型方面,Llama 模型則是在 2048 塊 80GB A100 上訓練,整個訓練算力接近 2000 PTOPS 算力。
價格方面,目前國内可以買到的 H800 價格已經高達 20 萬 / 張,而 A100/A800 價格已漲至 15 萬、10 萬 / 張左右。以 2000P 算力需求爲例,H800 GPU 單卡算力 2P,需要 1000 張,預測整個卡價格爲 2 億元;A800 單卡算力約爲 0.625P,需要數量爲 3200 張,預計整個顯卡價格就高達 3.2 億元。
除了買 GPU 顯卡,服務器還要考慮整機配置運算,包括 CPU、存儲、NV-Link 通訊連接等,以及電力消耗、場地租金和運維成本等因素。
當下,A800 和 H800 服務器主要以 8 卡機型爲主,爲了滿足 2000 P 的算力,就需要配置 125 台 8 卡 H800 服務器,或 400 台 8 卡 A800 服務器,價格分别爲 3 億元、5.6 億元。而且,由于 H800 還支持 PCIe 5.0、新一代的 CPU 和内存等,因此需要提升價格,才能發揮其最優的算力性能。
所以,從大模型訓練角度看,購買 H800 的總成本要低于 A800,性價比更高,而且也比搭建 CPU 的成本要低——這也就是英偉達 CEO 黃仁勳最近常說的:" 買的越多,省的越多 "。
當然,如果你實在買不起也沒關系。英偉達還貼心地推出在線租賃服務 DGX 超級 AI 計算系統,通過租賃的方式開放給企業,搭配 8 個 H100 或者是 A100 的 GPU,每個節點 640GB 内存,每月租金爲 37000 美元,從而不用自建數據中心購買大量 GPU 顯卡。這類租賃方式毛利率很高,根據一份關于微軟 " 雲端算力租賃 " 服務報告顯示,該業務毛利率高達 42%,已成爲微軟新的 " 現金奶牛 "。
那麽國内市場,英博數科、商湯 AIDC 和其他超過 11 個智算中心 / 雲廠商也有類似的服務,對于大模型來說,整體價格要比自建價格減少 20% 以上。
此外還有大模型訓練時間。英偉達最新發布的 NVIDIA L40S GPU,比 A800/H800 模型訓練效率更高。一個 70 億參數的模型,HGX A800 跑完需要 17 個小時,而 L40S 速度要快 1.3 倍,短短半天時間就跑完了,更不用說一個 1750 億參數的模型,用 L40S 一個周末時間就能訓練完。
總的來說,一家企業要做大模型,需要在算力成本方面就要耗資數億元,而這才隻是 " 入場券 "。
早前有消息稱,百度、字節跳動、騰訊和阿裏巴巴已經向英偉達下單訂購價值 50 億美元的芯片,加上此前的囤積的顯卡數量,國内擁有英偉達 GPU 顯卡總額超過千億元。市場調研機構 Counterpoint 發布報告稱,盡管半導體行業周期性下行未止,但騰訊、百度等中國企業仍在大舉采購英偉達 A800 芯片。
那麽,這麽一個萬億級規模的重要市場,無論是芯片企業,還是下遊客戶,都不想看到 " 英偉達 " 一家獨占鳌頭。因此,AMD、英特爾和中國 GPU 芯片企業紛紛試圖挑戰英偉達在 AI 芯片市場的霸主地位。
AMD 首先出擊。
AI 芯片方面,今年 1 月 2023 年消費電子展(CES)上,AMD 董事長、CEO 蘇姿豐(Lisa Su)正式發布下一代面向數據中心的 APU(加速處理器)産品 Instinct MI300,采用台積電 5nm+6nm 結合的 Chiplet 架構設計,集成 CPU 和 GPU,擁有 13 顆小芯片,晶體管數量高達 1460 億個,AI 性能和每瓦性能是前代 MI250 的 8 倍和 5 倍(使用稀疏性 FP8 基準測試),将在 2023 年下半年量産供貨。
随後 6 月,AMD 還公布全新專爲生成式 AI 打造、擁有 1530 億個晶體管的 AI 加速芯片 Instinct MI300X、Instinct MI300A 等産品,在存儲容量、互聯帶寬方面均有提升,MI300X 的晶體管數量比 H100 多兩倍,HBM3 高帶寬内存是 H100 的 2.4 倍。單顆芯片上可以運行 800 億參數的大模型,預計今年底之前發貨。
這不僅全面展示收購賽靈思之後的數據中心 AI 技術能力,而且也在挑戰英偉達 AI 算力芯片霸主地位。
當然不止是 GPU 和 AI 芯片,AMD 最擅長的就是做 CPU(中央處理器)芯片,畢竟數據中心需要 CPU 的通用計算能力。去年 11 月,AMD 發布了采用 Zen 4 架構的第四代數據中心 EPYC 9004 系列,代号爲 " 熱那亞 "(Genoa),不僅架構升級,蘇姿豐還在這顆芯片上堆料堆到了極緻:台積電 5nm 制程,96 個核心,192 個線程,384M 三級緩存,支持 PCle5.0。
與英特爾的八核處理器相比,AMD 的數據中心、邊緣計算 CPU 系列在能耗、性能方面都有很大提升,包括熱那亞芯片面積減少 40%,同時能源效率提高 48%。
今年 9 月,AMD 則推出最新第四代 EPYC 8004 系列,将 "Zen 4c" 核心引入專用 CPU,提供從智能邊緣(例如零售、制造和電信)到數據中心、雲計算等領域。
事實上,亞馬遜雲 AWS 發布了基于熱那亞 M7A 通用計算實例,最終結果顯示,性能相比前一代提升 50%,而相比英特爾第四代至強白金版 8490H 版,熱那亞在多個應用場景的性能提升達 1.7-1.9 倍,整體的能效提升達 1.8 倍,全面用于金融建模、天氣模拟、藥物研發等高性能計算領域。另外在 IoT Edge 網關工作負載中,最新八核 EPYC 8024P 供電的服務器也爲每 8kW 機架提供大約 1.8 倍的總吞吐量性能。
整體來看,無論是 CPU、GPU,還是 FPGA、DPU 數據中心處理器,或是軟件棧工具 AMD ROCm 系統,AMD 都已經做好了準備,正 " 磨刀霍霍 " 以挑戰英偉達的産品。
作爲成立 60 多年的芯片巨頭,英特爾也不想将市場 " 拱手讓人 "。
今年 7 月 11 日,芯片巨頭英特爾公司(Intel)在北京發布面向中國市場、采用 7nm 工藝的 AI 芯片 Habana Gaudi2,可運行大語言模型,加速 AI 訓練及推理,運行 ResNet-50 的每瓦性能約是英偉達 A100 的 2 倍,性價比相較于 AWS 雲中基于英偉達的解決方案高出 40%,并預計今年 9 月性價比超越英偉達最新 H100。
英特爾執行副總裁 Sandra Rivera 今年 7 月對钛媒體 App 表示,不可能有唯一一家企業獨霸 AI 芯片市場。因爲市場需要多樣性,并且客戶也希望看到更多的芯片企業在 AI 領域發揮領導作用。
英特爾 CEO 基辛格(Pat Gelsinger)
9 月,在美國聖何塞舉辦的英特爾 On 技術創新大會上,基辛格宣布采用 5nm 制程的 AI 芯片 Gaudi 3 将于明年推出,屆時,其算力将會是 Gaudi 2 的兩倍,網絡帶寬、HBM 容量則會是 1.5 倍。
同時,基辛格還預覽第五代英特爾至強可擴展服務器處理器,稱下一代至強将擁有 288 核心,預計将使機架密度提升 2.5 倍,每瓦性能提高 2.4 倍。另外,英特爾還發布 Sierra Forest、Granite Rapids,與第四代至強相比 AI 性能預将提高 2 到 3 倍。
阿裏雲首席技術官周靖人表示,阿裏巴巴将第四代英特爾至強處理器用于其生成式 AI 和大語言模型,即 " 阿裏雲通義千問大模型 ",而英特爾技術大幅縮短了模型響應時間,平均加速可達 3 倍。
此外,對于 AI 大模型訓練來說,比較重要的是軟件生态。英特爾宣布與 Arm 公司合作,使其至強産品部署到 Arm CPU 上,同時推出 AI 推理和部署運行工具套件 OpenVINO,不僅支持預訓練模型,而且隻需編寫一次即可部署任何可用的關鍵跨平台支持,已支持 Meta 的 Llama 2 模型。
同時,Linux 基金會在本周還宣布成立統一加速(UXL)基金會,提供開放标準的加速器編程模型,簡化高性能、跨平台應用程序的開發,核心是加速演進英特爾 oneAPI 計劃,創始成員包括 Arm、谷歌雲、英特爾、高通、三星等公司——英偉達不在其中。
英特爾公司高級副總裁、英特爾中國區董事長王銳對钛媒體 App 等表示,英特爾後續将發布擁有 288 核的處理器。數據中心在未來也會越來越多,英特爾将推出 Gaudi3、Falcon Shores 等産品,産品矩陣将構成未來加速器與 AI 計算發展的路線圖。
" 我們把 AI 的能力内置到芯片中。根據不同需求,内置 AI 能力将使用不同算力、不同架構來提供支持。" 王銳表示,在數據中心方面,從客戶端到邊緣端,再到雲端,AI 已經滲透到各種應用場景;從進行大語言模型訓練到進行小規模、普惠語言模型訓練,AI 的影響力無處不在。
今年 8 月底基辛格表示,他認爲英特爾正邁向達成其宏大的整頓目标,朝着恢複在産業的領先地位前進。而談及英偉達時,基辛格坦承英偉達布局良好,能抓住支持 AI 軟件擴張所需系統的需求,但他說,英特爾很快将開始赢得這些加速器芯片市場的訂單。
" 他們做得很好,我們都贊揚他們。但我們即将展現實力。" 基辛格表示。
英偉達市值蒸發千億美元,國産芯片能否抓住機遇?
英偉達在 2023 年的輝煌表現,似乎在近兩個月有所減弱。
根據 Refinitiv 的數據顯示,盡管英偉達今年股價上漲約 190%,表現十分亮眼,但其在 9 月的股價表現不佳:自 8 月 31 日以來,英偉達股價已下跌超過 10%,總市值蒸發了超過 1760 億美元。
事實上,英偉達股價下跌因素有很多。
首先,市場對美聯儲爲了抑制通膨而将利率維持在較高水準更長時間的擔憂加劇,整個股市承壓,标準普爾 500 指數 9 月平均下跌 0.7%、迄今下跌近 4%。
其次,以 LIama 2 爲代表的開源模型陸續發布,更多企業開始直接使用這些模型,僅需要 AI 推理芯片即可應用,這導緻了對算力訓練芯片的需求有所減少。
最後,據 The Information 報道,英偉達一直非常關注一些美國中小型雲計算公司的顯卡供應情況,在當前 " 一卡難求 " 的情況下,英偉達對谷歌、Meta 等大公司以及中國企業的後續服務和顯卡供應,似乎不再是首要優先,而這直接導緻市場對于英偉達産品供應能力的質疑。
當然,瑕不掩瑜,英偉達在 AI 算力市場有很大的先發優勢。除了 GPU 芯片性能領先外,其龐大的 AI 軟件生态 CUDA 讓很多人望塵莫及。另外,英偉達的 NVLink 高速 GPU 互連技術也成爲大模型技術提升的 " 關鍵法寶 ",它的作用遠高于 GPU 單卡本身。
百川智能創始人、CEO 王小川曾提到,在該行業中,GPU 的算力成本大概占 40%-70%,而其中網絡連接成本和 GPU 顯卡成本的比例大概爲 3:1。
" 未來如果往更高模型去發展,算力儲備非常關鍵。從訓練、推理兩部分看,推理需要有國産 AI 芯片,而不止有英偉達,但訓練目前隻有英偉達做的最好。這場‘算力仗’,中國的國産 AI 芯片必須要能頂上。" 王小川表示。
實際上,除了兩大芯片巨頭之外,随着國内 " 百模大戰 ",AI 算力需求激增,但英偉達 AI00/H100 等多款 AI 芯片限制向中國出口,國内企業越來越難拿到美國的高端芯片。
2022 年 10 月,美國商務部下屬工業和安全局(BIS)發布出口管制新規,量化各項芯片算力、帶寬、制程等指标,限制美國企業對中國出口,其中關于高算力芯片的限制,直接沖擊中國 AI、超算、數據中心等相關行業發展。主要滿足 AI 等需求的 GPU(圖形處理器)廠商英偉達,8 月就接到了美國政府限制有關先進芯片出口的通知。
英偉達反應迅速,2022 年三季度就投産了 A800 芯片,以替代無法繼續向中國出貨的 A100。這也是美國公司爲此推出的首個 " 特供 " 産品。英偉達并未對外公布關于 A800 的詳細參數,不過,其經銷商提供的産品手冊顯示,A800 峰值算力與被限制出口的 A100 一緻,但傳輸速率被限制在 A100 的三分之二,以符合美國政府的相關要求。而最新的 " 中國特供版 "H800 的訓練算力則比 H100 要差約 40%,如果沒有英偉達提供的互連模塊,算力差距可達 60% 以上。
英特爾則于 2023 年 7 月爲其 Gaudi 2 産品推出中國版本。Gaudi 2 是一款 ASIC(專用集成電路)芯片,主要面向高性能深度學習 AI 訓練。與 2022 年 5 月公布的國際版相比,中國版 Gaudi 2 中集成的以太網端口由 24 個減少爲 21 個。英特爾當時稱,這是一個相對較小的變動,對實際性能表現影響有限。基辛格日前表示,目前公司正在中國銷售 Gaudi 2 中國版,他希望之後一直這樣做下去。
所以在國外芯片限制影響下,華爲、天數智芯、寒武紀、登臨科技等國内 AI 算力公司積極布局,以填補國産 AI 算力空缺。
目前,國産 AI 算力市場主要分爲三大派别:一是華爲鲲鵬和昇騰 AI 生态的算力方案,其中沒有英偉達 GPU 的參與;二是混合型算力支持,大量采用英偉達 A100 芯片,并在部分環境中加入 AMD、英特爾以及天數智芯、寒武紀、海光等芯片,以支持大模型的訓練;三是租用性價比更高的服務器雲算力,以補充算力不足情況。
今年 8 月舉行的 2023 亞布力中國企業家論壇第十九屆夏季高峰會上,科大訊飛創始人、董事長劉慶峰表示,華爲的 GPU 技術能力現在已經與英偉達 A100 相當,現在已經做到對标英偉達 A100。
9 月 20 日,華爲副董事長、輪值董事長、CFO 孟晚舟表示,華爲推出全新架構的昇騰 AI 計算集群,可支持超萬億參數的大模型訓練。華爲将持續打造堅實的算力底座。
天數智芯的董事長兼 CEO 蓋魯江透露,目前,多家國内大模型公司已開始使用國産 GPU 顯卡,且該公司已與北京智源研究院合作運行了 AquilaCode-7B 模型和 650 億參數的模型。另外,其他國産 GPU 企業多數正處于 AI 推理訓練階段。
蓋魯江認爲,在國内,英偉達在訓練領域的市場份額高達 95% 以上,部分達到 99%,基本實現了壟斷,這主要得益于其硬件架構和廣泛應用的 CUDA 生态——已有超過 300 萬全球用戶。當前,國内 GPU 企業面臨生态遷移難題,由于衆多基于 CUDA 的代碼,轉向新生态将需大量時間和成本。
在最近一場圓桌活動上,登臨科技聯合創始人兼首席架構師王平提到,對于 AIGC 的客戶來說,不僅需要文本生成圖片等解決方案,更重要的是實用的産品。因此,需要具有大算力和通用性強的算力産品落地應用,爲客戶創造價值。據悉,登臨科技的新一代 AI 芯片産品能耗比國際主流通用 GPU 産品有 3 倍以上的優勢。
蓋魯江表示,對于天數智芯來說,下一步計劃優化産品叠代,需依賴數據、客戶反饋與技術創新,并針對國内特殊需求進行調整。同時,公司會積極完善生态體系和軟件棧,确保用戶在效率、成本、性能和性價比上獲得最優體驗,以推動産品進一步商業化。
王平認爲,由于獲取美國高端芯片的難度增加,雖然國内尚無企業能生産能真正替代的芯片,但他相信國産算力會不斷增長。芯片需不斷叠代,用戶越多,問題反饋越多,國産 AI 芯片企業才能在後續叠代中改進,提升使用體驗。
" 對國内通用 GPU 企業來講,這是一個重大的機遇。" 蓋魯江告訴钛媒體 App。
(本文首發钛媒體 App,作者|林志佳 編輯 | 馬金男)