" 芯事重重 " 騰訊科技半導體産業研究策劃,本期聚焦大模型爆火的背後,全球芯片算力市場的新格局的形成,頭部企業的布局以及國産廠商的追逐。
文 I 王藝可 十巷 , 編輯 I 蘇揚 叙白
報道 I 芯潮 IC ,ID I xinchaoIC
ChatGPT 意外掀起的一波 AI 革命,再次帶火了 AI 芯片市場。
"A800 和 H800 這類芯片,從原來的 12 萬人民币左右,變成了現在 25 萬甚至 30 萬,甚至有高達 50 萬一片。" 這是發生在國内芯片分銷圈的真實一幕,除了價格不斷暴漲,國内大廠想大批量拿芯片,還要得和黃仁勳 " 有直接關系 "。
正所謂" 無芯片,不 AI",随着大模型的算力需求飙升,身爲 AI 技術地基的芯片迎來了重要商機。OpenAI 曾預計,人工智能科學研究要想取得突破,所需要消耗的計算資源每 3 到 4 個月就要翻一倍,資金也需要通過指數級增長獲得匹配,這也被稱爲人工智能領域的 " 摩爾定律 "。
英偉達 CFO 克雷斯表示,目前 AI 算力市場的需求已經超出了公司對未來數個季度的預期,訂單已經多到做不過來。
生成式 AI 這波浪潮,讓英偉達賺了個盆滿缽滿。在上市 14 年之後,英偉達成功跻身萬億美元市值俱樂部,而實現這一目标,矽谷巨頭們諸如蘋果用了 37 年、微軟用了 33 年、亞馬遜用了 21 年,特斯拉跑得最快,隻用了 11 年。
這也刺激着中國芯片企業躍躍欲試,諸如海光信息、寒武紀、龍芯中科、壁仞科技、天數智芯等國産芯片企業,都懷揣一顆" 中國版 " 英偉達的雄心,嘗試憑自研爲國産大模型賦能。一些大廠也開始用自研 AI 芯片支持模型的部分訓練或推理任務,如百度昆侖芯片、阿裏含光 800......
面對 AI 算力帶來的萬億市場,國内企業能不能吃到這波紅利呢?國産芯片廠商該如何越過英偉達 " 高山 "?這是任何一家公司都無法逃避的問題。
AI 狂潮
締造了一個萬億市值的英偉達
愛穿皮衣的男人最先吃到了 AI 紅利。
2022 年底,ChatGPT 問世後,迅速在全世界引起了 AI 狂潮。在這其中,一直押注 AI 未來的英偉達,成爲了 ChatGPT 浪潮中受益最多的公司之一。在今年的英偉達 GTC 大會上,英偉達創始人 CEO 黃仁勳披露了全新的人工智能及芯片技術,并稱人工智能的 "iPhone 時刻 " 已經到來。
在發布會上,黃仁勳表示,類似 ChatGPT 的大型語言模型的部署是一個重要的全新推理工作負載,爲了支持大型語言模型推理,英偉達發布了一系列圍繞 AI 領域的産品和服務,其中,采用全新架構和更先進制程的 H100 芯片最爲引人注目。
圖源:NVIDIA 官網
這款 GPU 是基于 NVIDIA Hopper 架構的 H100 ,配有一個 Transformer 引擎,旨在處理驅動類似 ChatGPT 的 預訓練模型。與用于 GPT-3 處理的 HGX A100 相比,配備四對 H100 與雙 GPU NVLink 的标準服務器的訓練速度可提 10 倍。
"H100 可以将大語言模型的處理成本降低一個數量級。" 黃仁勳曾表示。基于 H100 芯片,英偉達還構建了最新的 DGX 超級計算機,搭載 8 個 H100 GPU,使它們連接成爲一個巨大的 GPU,爲 AI 基礎設施的構建提供 " 藍圖 ",目前全新的 DGX 超級計算機已經全面投産。
在這之後,英偉達旗下 A100、H100、A800 和 H800 等高性能 GPU 芯片應聲漲價,尤其旗艦級芯片 H100,4 月中旬在海外電商平台就已炒到超 4 萬美元,甚至有賣家标價 6.5 萬美元。
同時,英偉達的中國特供版 A800 和 H800 芯片也遭到了哄搶。" 國内大模型企業基本上很難拿得到這些芯片。整個市場需大于求,缺貨非常厲害。" 電子元器件采購供應商「廣鑫世紀」創始人張覺對芯潮 IC 坦言:" 今年,這類 GPU 芯片從原來的 12 萬人民币左右,變成了現在是 25 萬甚至 30 萬,甚至有高達 50 萬一片。"
毫無疑問,英偉達在高性能 GPU 方面的技術領先地位,旗下 A100 和 H100 兩款 AI 芯片是 ChatGPT 這樣的大語言模型的核心動力。
一些雲計算專業人士認爲,1 萬顆英偉達 A100 芯片是一個好的 AI 模型的算力門檻。而微軟爲 OpenAI 構建的用于訓練其模型的 AI 超級計算機就配備了 1 萬顆英偉達的 GPU 芯片。無獨有偶,國内各互聯網大公司也紛紛向英偉達下大單,據晚點 LatePost 報道,字節今年向英偉達訂購了超過 10 億美元的 GPU,另一家不便透露姓名的大公司,其訂單也至少超過 10 億元人民币。
更誇張的是,這些公司最終能否搶到卡,更多是看商業關系,尤其以往是不是英偉達大客戶的企業。" 你是和中國英偉達談,還是去美國找老黃(黃仁勳)直接談,都有差别。"
由此,英偉達的财務數據再度攀上新高。5 月 25 日,英偉達發布一季度财報,AI 芯片所在數據中心業務的營收創曆史新高,保持 10% 以上同比增速。
黃仁勳透露,現在整個數據中心産品系列都在生産中,都正在大幅增加供應,以滿足激增的需求。
一系列好消息,直接帶動英偉達股價節節走高。5 月 30 日晚,美股開盤,英偉達市值直接突破 1 萬億美元。而 7 月 19 日,英偉達總市值更是在一夜間飙升了 1750 億美元,再次引發投資熱潮。
根據 companiesmarketcap 網站顯示,英偉達總市值排名全球第 6,也是目前市值最高的芯片公司,接近于兩個台積電(5336 億美元),今年以來英偉達股價漲幅約 180%。不得不承認,這波 AI 狂潮讓黃仁勳的英偉達盆滿缽滿。
英偉達不可能獨享算力狂潮
" 英偉達不會永遠在大規模訓練和推理芯片市場占據壟斷地位。"
這是特斯拉 CEO 埃隆 · 馬斯克對社交問答網站和在線知識市場 Quora 的首席執行官 Adam D'Angelo 一條推文的回應,後者寫道:" 人工智能熱潮被低估的一個原因是 GPU/TPU 短缺,這種短缺導緻了産品推出和模型培訓的各種限制,但這些都不明顯。相反,我們看到的是英偉達的股價飙升。一旦供給滿足需求,事情就會加速發展。"
顯然,矽谷鋼鐵俠對此并不認同,他還評論稱:" 許多其他的神經網絡加速器芯片也在開發中,英偉達不會永遠壟斷大規模訓練和推理。"
一場風暴即将來襲。
以大模型爲核心的 AI 狂潮,能帶動多大的算力市場?東吳證券認爲,AI 模型算力需求持續擴張,打開高性能計算芯片的市場需求,預計 2025 年我國 AI 芯片市場規模将達到 1780 億元,2019-2025 複合年均增長率可達 42.9%。從市場規模來看,AI 芯片上處于起步階段,但增長潛力巨大。
而 AI 芯片是一個廣義概念,泛指專門用于處理人工智能應用中的計算任務的模塊,是誕生于人工智能應用快速發展時代的處理計算任務硬件,凡是面向人工智能應用的芯片均被稱爲 AI 芯片。主要的技術路線有三種:通用型(GPU)、半定制型(FPGA)、定制型(ASIC)。
從大模型的訓練、場景化的微調以及推理應用場景來看,以CPU+AI 芯片提供的異構算力,并行計算能力優越、具有高互聯帶寬,可以支持 AI 計算效力實現最大化,成爲智能計算的主流解決方案。
從市場份額來看,據艾瑞咨詢測算,到 2027 年,中國的 AI 芯片市場規模預計将達到 2164 億元。随着 AI 模型的優化落地,AI 推理芯片的占比将日益提升。2022 年,中國 AI 訓練芯片以及 AI 推理芯片的占比分别爲 47.2% 和 52.8%。
目前,在 AI 芯片領域有三類玩家:一種是以英偉達、AMD 爲代表的老牌芯片巨頭,産品性能突出;其二是以 Google、百度、華爲爲代表的雲計算巨頭,這些企業紛紛布局通用大模型,并自己開發了 AI 芯片、深度學習平台等支持大模型發展。譬如,華爲的鲲鵬昇騰、CANN 及 Mindspore,百度的昆侖芯等。最後還有一些小而美的AI 芯片獨角獸,如寒武紀、壁仞科技、天數智芯等。
雖然國産大模型爆發,可能引發算力缺口,但國内芯片廠商吃上國産替代這波紅利隻是時間問題。作爲 AI 訓練芯片研發商,"AI 芯片第一股 " 寒武紀再次得到市場關注,股價不斷拉升,最新市值突破 900 億。
在雲端産品線,寒武紀已經推出了四代芯片産品:2018 年的思元 100、2019 年的思元 270、2020 年的思元 290(車載)、以及 2021 年發布的思元 370 系列,用以支撐在雲計算和數據中心場景下複雜度和數據吞吐量高速增長的人工智能處理任務。此外,寒武紀還有一款在研産品思元 590,尚未發布。此外,2022 年底,思元 370 系列與 AIGC 産品百度飛槳完成 II 級兼容性測試。
但國内大模型公司是否采用了寒武紀芯片,尚未得到準确消息。" 在高端 AI 芯片領域,國産廠商處于剛剛起步的階段,很多東西需要時間和金錢驗證。" 某資深芯片工程師袒露。哪怕是華爲、百度、海光信息等企業的芯片也與英偉達産品有着明顯差距。
曾有人坦言,英偉達與其他芯片廠商的差距,是院士與高中生的差别。就如同黃仁勳所言,英偉達 " 一直在奔跑 ",想要超越巨人的其它芯片廠商隻能奮力狂奔。
AI 大模型背後的 " 權力遊戲 "
除了英偉達之外,另一個 GPU 巨頭 AMD,最近也有了行動。
近日,AMD 發布最新加速卡,就在 AMD 推出最新加速卡 Instinct MI300X 的發布會現場,PPT 上專門打出一行字——大語言模型專用,這被業界視爲直接向英偉達宣戰!
據悉,MI300X 的高帶寬内存(HBM)密度,最高可達英偉達 H100 的 2.4 倍,高帶寬内存帶寬最高可達 H100 的 1.6 倍,顯然 MI300X 能運行比 H100 更大的 AI 模型。
MI300X 所在的 MI300 系列,是 AMD 爲 AI 和 HPC 打造的一系列最新 APU 加速卡。其中,MI300A 是 " 基礎款 ",MI300X 則是硬件性能更高的 " 大模型優化款 "。
目前來看,MI300A 已經出樣,估計不久就能買上;大模型專用卡 MI300X、以及集成 8 個 MI300X 的 AMD Instinct 計算平台,預計今年第三季度出樣,第四季度就能推出。
這幾年來,相比英偉達一直在 AI 領域的大動作,AMD 的行動顯得有點遲緩。正如 DeepBrain AI 的 CEO Eric Jang 所言,感覺 AMD 這幾年讓他很失望,5 年來沒什麽變化。尤其是在 AIGC 的爆發過程中,如果 AMD 不努力跟上,差距隻會越拉越大。
而随着 AMD 此次 MI300 系列産品的推出,終于能看到 AMD 和英偉達正面打擂台了。
但遺憾的是,市場對 AMD 的新卡好像不太買賬。
就在這次 AMD 發布會期間,其股價不升反降。相比之下,英偉達股價還上漲了一波。市場情緒也不難理解,因爲在高科技領域,尤其是新興市場,一步快步步快、強者恒強正在成爲商業市場的普遍邏輯。
但其實細究原因也能發現,英偉達壟斷人工智能訓練芯片市場的主要原因是其自研的 CUDA 生态。所以 AMD MI300 想要替代英偉達,首先需要兼容英偉達的 CUDA 生态,AMD 爲此推出 ROCm 生态圈,并實現通過 HIP 完全兼容 CUDA,借此來減少用戶已知成本。
對此,知名投資博主慕容衣認爲,走兼容英偉達 CUDA 的路線的難點在于其更新叠代速度永遠跟不上 CUDA ,并且很難做到完全兼容,即一方面叠代永遠慢一步。英偉達 GPU 在微架構和指令集上叠代很快,在上層軟件堆棧上很多地方也要做相應的功能更新,但是 AMD 不可能知道英偉達的産品路線圖,軟件更新永遠會慢英偉達一步(例如 AMD 有可能剛宣布支持了 CUDA11, 但是英偉達已經推出 CUDA12 了);另一方面,難以完全兼容反而會增加開發者的工作量,像 CUDA 這樣的大型軟件本身架構很複雜,AMD 需要投入大量人力物力用幾年甚至十幾年才能追趕上,因爲難免存在功能差異,如果兼容做不好反而會影響性能。所以,這些也是大家目前不太買賬的關鍵原因。
據 Khaveen Investments 測算,英偉達數據中心 GPU 2022 年市占率高達 88%,AMD 和英特爾瓜分剩下的部分。
自從去年 OpenAI 發布 ChatGPT 以來,新一輪科技革命持續發酵。可以說,很多年都沒有哪一項科技進步如 ChatGPT 這般吸引全球的目光。
國内外各個科技公司、科研機構、高等院校都在跟進,不到半年時間,就跑出了非常多的大模型應用的創業公司,融資規模也屢創新高。
據知乎博主 wgang 梳理,包括百度、科大訊飛、第四範式、清華、複旦在内的國内各個大廠、創業公司、科研院校都相繼發布了大模型産品:
圖源:知乎 wgwang
能看到,不僅是在通用領域,在具體的行業場景,尤其是一些專業性強、知識密度高的領域,科技公司們也在紛紛發布垂直領域的大模型。譬如美股上市公司百家雲(RTC)結合對企業服務需求的洞察,近日發布了 AIGC 産品「市場易」,這也是首款适用于企業市場部内容生産場景的 GPT 大模型引擎。
有業内人士笑稱:" 國産大模型已形成群模亂舞、百模大戰的局面,預計到年底會有超過 100 個的大模型。"
然而,大模型的發展需要算法、算力、數據三大重要因素的支撐,算力是大模型訓練的重要能量引擎,也是目前國内發展大模型産業的一大壁壘。
芯片能力直接影響着高算力訓練效果和速度。上文提到,盡管國産大模型産品頻出,但從其背後支持的芯片來看,所有這些平台使用的要麽是英偉達 A100、H100 GPU,要麽是去年禁令後英偉達專門推出的減配版 A800、H800,這兩款處理器帶寬分别是原版的約 3/4 和約一半,避開了高性能 GPU 的限制标準。
今年 3 月,騰訊率先宣布已用上 H800,在騰訊雲發布的新版高性能計算服務中已使用了 H800,并稱這是國内首發。
阿裏雲也在今年 5 月對内提出把 " 智算戰役 " 作爲今年的頭号戰役,GPU 數量成爲其戰役的重要指标。
此外,商湯也宣稱,其 "AI 大裝置 " 計算集群中已總共部署了近 3 萬塊 GPU,其中有 1 萬塊是英偉達 A100。字節和美團則直接從公司其他業務團隊那裏勻出 GPU 供大模型訓練使用。甚至有廠家自 2022 年下半年起就持續在市場中尋覓能拆出 A100 的各類整機産品,目的僅是獲得 GPU 芯片。" 機子太多,存放的地方都不夠用。"
據了解,國内頭部科技企業在 AI 和雲計算方面投入較大,過去 A100 的積累都達到上萬塊。
與此同時,中國科技大廠還在進行新一輪的采購競争。
據某雲服務商透露,字節、阿裏等大公司主要是和英偉達原廠直接談采購,代理商和二手市場難以滿足其龐大需求。
正如上文提到的,字節跳動今年已向英偉達訂購了超過 10 億美元的 GPU 産品,僅字節一家公司今年的采購量就已經接近英偉達去年在中國銷售的商用 GPU 總銷售額。報道稱,還有另一家大公司的訂單也至少超過 10 億元。
可見,中國大科技公司對于采購 GPU 非常急迫。
不止國内企業,國外大客戶對英偉達的 A100/H100 芯片需求同樣非常強烈。據數據統計,最早開始測試類 ChatGPT 産品的百度,2020 年以來的年資本開支在 8-20 億美元之間,阿裏在 60-80 億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數據中心的美國科技公司的年資本開支最少均超過 150 億美元。
目前英偉達訂單能見度已至 2024 年,高端芯片非常緊缺。以現在的排産進度,就連 A800/H800 都要到今年底或明年才能交貨。短期内,從其受追捧程度來看,唯一影響英偉達高端 GPU 銷量的或許隻有台積電的産能。
" 瘋搶 " 英偉達背後,國産芯片軟硬皆不足?
從大模型産品芯片供應情況來看,在 AI 大模型訓練上,現在 A100、H100 及其特供中國的減配版 A800、H800 找不到替代品。
那麽,爲什麽在這一輪 GPT 熱潮中,英偉達率先跑出來并表現出色?
華映資本管理合夥人章高男表示,一方面是因爲英偉達布局最早,其微内核結構也是一代一代去演進和改進的。現在無論是從并發能力、總線速度,還是微内核對矩陣變換的成熟支持,其能力已經非常高效,包括它同時提供非常完善的 CUDA 計算平台,事實上已經成爲深度學習算法實現的潛在行業标準,整個産業鏈的配套也非常完整,綜合競争壁壘和護城河深度極高。
總結來看,英偉達 GPU 目前的不可替代性,源自大模型的訓練機制,其核心步驟是預訓練(pre-training)和微調(fine-tuning),前者是打基礎,相當于接受通識教育至大學畢業;後者則是針對具體場景和任務做優化,以提升工作表現。
那麽,國産 GPU 芯片是否可以支撐大模型的算力需求呢?
在實際應用中,大模型對于算力的需求分爲兩個階段,一是訓練出 ChatGPT 大模型的過程;二是将這個模型商業化的推理過程。即 AI 訓練是做出模型,AI 推理是使用模型,訓練對芯片性能要求更高。
基于此,國産 AI 芯片公司持續湧現,陸續發布産品推向市場。燧原科技、壁仞科技、天數智芯、寒武紀等公司都推出了自己的雲端 GPU 産品,且理論性能指标不弱。海光信息的 DCU 芯片 " 深算一号 " 軟硬件生态相對完整,且能夠兼容 CUDA 架構。而騰訊、百度、阿裏等互聯網大廠也通過投資、孵化等方式在 AI 芯片領域大力布局。
其中,大模型訓練需要處理高顆粒度的信息,對雲端訓練芯片的芯片處理信息的精細度和算力速度要求更高,現階段國産 GPU 大多還不具備支撐大模型訓練所需的能力,更适合做對信息顆粒度要求沒有那麽高的雲端推理工作。
國内部分相關企業 AI 産品與應用 芯潮 IC 據公開資料整理
今年 3 月,百度李彥宏曾公開表示,昆侖芯片現在很适合做大模型的推理,将來會适合做訓練。
天數智芯副總裁鄒翾也向芯潮 IC 表示,國産芯片距離英偉達最新産品仍存在一定差距,不過在推理運算方面國産芯片可以做到不輸主流産品的性能實力,而随着人工智能的應用普及,推理芯片的市場需求将加速增長,随着需求的擴大,國産芯片也将擁有更大的市場。
另有不願意透露姓名的業内人士表示 " 國内通用 GPU 産品的确在滿足大模型訓練上與國際旗艦産品存在差距,但并非不可彌補,隻是此前行業在産品定義裏未朝着大模型方向做設計。"
目前,行業從業者在做相關的探索和努力,如思考能否通過 Chiplet、先進封裝的方式來提高芯片算力。目前國産 GPU 公司都在朝着大模型領域去做芯片開發和布局。
而從資本角度來看,華映資本管理合夥人章高男向芯潮 IC 表示,華映很早就高度關注算力基礎設施,無論是 GPU、DPU 還是更前沿的光電混合計算,量子計算,都有針對性研究和布局。整體上則側重于通用算力基礎設施,譬如 FPGA、邊緣計算等。相比之下,目前很多圍繞深度學習、特殊算法、局部算力優化等的算力芯片并不是其考慮的重點。
實際上,除了硬件性能差距外,軟件生态也是國産 AI 芯片廠商的短闆。
芯片需要适配硬件系統、工具鏈、編譯器等多個層級,需要很強的适配性,否則會出現這款芯片在某個場景能跑出 90% 的算力,在另一場景隻能跑出 80% 效能的情景。
上文提到,英偉達在這方面優勢明顯。早在 2006 年,英偉達就推出了計算平台 CUDA,這是一個并行計算軟件引擎,CUDA 框架裏集成了很多調用 GPU 算力所需的代碼,工程師可以直接使用這些代碼,無須一一編寫。開發者可使用 CUDA 更高效地進行 AI 訓練和推理,更好的發揮 GPU 算力。時至今日,CUDA 已成爲 AI 基礎設施,主流的 AI 框架、庫、工具都以 CUDA 爲基礎進行開發。
如果沒有這套編碼語言,軟件工程師發揮硬件價值的難度會變得極大。
英偉達之外的 GPU 和 AI 芯片如要接入 CUDA,需要自己提供适配軟件。據業内人士透露,曾接觸過一家非英偉達 GPU 廠商,盡管其芯片和服務報價比英偉達更低,也承諾提供更及時的服務,但使用其 GPU 的整體訓練和開發成本會高于英偉達,還得承擔結果和開發時間的不确定性。
雖然英偉達 GPU 價格貴,但實際用起來反而是最便宜的。這對有意抓住大模型機會的企業來說,錢往往不是問題,時間才是更寶貴的資源,大家都必須盡快獲得足夠多的先進算力來确保先發優勢。
因此,對于國産芯片供應商來講,哪怕能通過堆芯片的方式能堆出一個算力相當的産品,但軟件适配與兼容讓客戶接受更難。此外,從服務器運營的角度,它的主闆開銷、電費、運營費,以及需要考慮的功耗、散熱等問題,都會大大增加數據中心的運營成本。
因爲算力資源常需要以池化的形式呈現,數據中心通常更願意采用同一種芯片,或者同一家公司的芯片來降低算力池化難度。
算力的釋放需要複雜的軟硬件配合,才能将芯片的理論算力變爲有效算力。對客戶而言,把國産 AI 芯片用起來并不容易,更換雲端 AI 芯片要承擔一定的遷移成本和風險,除非新産品存在性能優勢,或者能在某個維度上提供其他人解決不了的問題,否則客戶更換的意願很低。
作爲當前唯一可以實際處理 ChatGPT 的 GPU 供應商,英偉達是當之無愧的 "AI 算力王者 "。6 年前,黃仁勳親自向 OpenAI 交付了第一台搭載 A100 芯片的超級計算機,幫助後者創造 ChatGPT,并成爲 AI 時代的引領者。
不過,去年美國實施出口管制以來,英偉達已經被禁止向中國出口兩款最先進的 GPU 芯片 H100 和 A100。這對于下遊應用企業來說,無疑是受到打擊的。
從安全性以及自主可控的角度來說,這也爲國内芯片企業提供了新的機遇窗口。盡管國産芯片在性能和軟件生态上比不過英偉達、AMD 等行業巨頭,但在複雜的國際貿易關系及地緣政治因素等驅動下," 國産替代 " 成爲國内半導體行業發展的主旋律。
結語
算力的每一次提升,都會掀起技術與産業變革的浪潮:CPU 帶領人類進入 PC 時代,移動芯片掀起移動互聯網浪潮,而 AI 芯片打破了 AI 産業此前長達數十年的算力瓶頸。
如今," 人工智能的 iPhone 時刻 " 已經來臨,走向下一個時代的路,或許已經擺在我們眼前。
盡管這些數據中心的 AI 芯片、軟件系統等領域仍是國外廠商的天下,但如今," 算力國産化 " 的市場大門或許正在打開。