中國雲廠商在十萬卡集群上表現得更爲理性,是什麽在推動它們展開技術準備?
文|趙豔秋
編|牛慧
在打造十萬卡集群上,幾家國内頭部企業已有動作。
在 11 月 12 日舉辦的百度世界 2024 大會上,百度集團執行副總裁、百度智能雲事業群總裁沈抖透露,爲了支撐大模型進一步的高速發展,百度在打磨十萬卡集群能力方面,已在兩大問題上取得關鍵突破。與此同時,字節和阿裏在智算上投入巨大,今年以來,華爲也聯合廠商在攻克更大規模集群。
是否有必要打造十萬卡集群?過去 24 個月,由于大模型超級應用還未出現,中國業界出現了反思——大模型全球性的狂熱,究竟是一場新的技術革命,還是新一輪泡沫?
在這次大會上,百度創始人李彥宏披露了一個數字,文心大模型日均調用量達到15 億,而6 個月前是 2 億。" ‘應用來了’,代表了我們對大模型和生成式 AI 當下的認知和判斷。" 李彥宏稱。這個在下半年突然變得陡峭的曲線,在一定程度上給出了佐證。
這也是當下中國雲廠商開展技術準備的現實考量。由于投入和芯片上的限制,中國雲廠商的表現并不激進。但他們在客戶快速增長的需求下,也在分步走向十萬卡集群。
01
企業智算投資的熱情高了
百度傑出系統架構師王雁鵬,最近幾個月頻繁接觸到高校客戶," 他們對算力的需求在增多 "。
今年諾貝爾物理學獎、化學獎都頒給了人工智能相關專家,引發了廣泛關注。" 大家最興奮的是,原來AI for Science要由各種不同的模型去做,但現在搞蛋白質的、搞數學的 ......都可以‘揉’到大模型的方式中來,核心架構甚至全都是 transformer。" 王雁鵬告訴數智前線。高校的熱情普遍提高了,最近預算變多,都拿到資金建設智算基礎設施。
像上海交通大學,已轉變傳統科研模式,期望科學與 AI 更緊密的結合。他們與百度智能雲合作建成了自己的 AI for Science 科學數據開源開放平台,支撐白玉蘭科學大模型的訓練。依托 AI for Science 平台,上海交大已在 Nature Computational Science 封面,發表了 AI+ 城市的科學成果。在公開招投标平台上,近期更多高校發布智算相關招标公告。
車企是當下智算的采購大戶。" 我們調研,用戶已願意爲好用的智駕買單。" 一位大型車企人士說。而且,端到端智駕技術,比原來由很多小模型串聯起來的智駕 " 更拟人化 ",成爲行業的主流方案。明确的方向,讓車企投入意願更強烈。該人士判斷,未來 1~2 年内,車企智算算力會再翻兩番左右。
" 在教育行業,最大的夢想就是實現大規模因材施教。" 好未來集團 CTO 田密說,"AI 老師讓我們看到了一絲曙光。有了大模型,所有的 AI 教育科技都值得重做一遍。" 大模型可以解題、講題、口語練習、批改作業,爲學生做個性化學習推薦。
" 大廠可以從零開始做,小廠通過 API 調用或微調、RAG 就可以。作爲中廠或垂直領域的龍頭企業,我們還是要基于最優秀的開源模型,做好後訓練。" 田密說。去年,好未來推出九章大模型 MathGPT。爲此,好未來在百度智能雲上,自有和租賃數千卡,這在教育行業中是最好最高的。大模型在以各種形式落地,如學習機、App,也通過 API 向社會開放,手機、平闆、PC 和新能源車都開始了調用。
在餐飲行業,消費者已不知不覺用上了大模型技術。" 百勝中國是最早開始使用生成式 AI 的餐飲企業。" 百勝中國 CTO 張雷說。它是國内規模最大的餐飲公司。在人們經常使用的 App 小程序、外賣平台各渠道中,百勝采用了百度智能雲的客悅 AI 智能客服系統,解決肯德基、必勝客在線點餐中非常多樣化的服務需求,每天已協助處理超 15 萬次消費者溝通。
張雷稱,未來将以 AI 原生方式,在管理、運營、生産和交易的各個方面進行技術重構。
從去年開始,國家電網基于文心大模型和千帆平台,結合電力行業高質量數據,在共創電力行業大模型基礎底座,在調度、設備、營銷等六大專業領域探索 AI 原生應用。近期國網就會正式對外發布相關成果。
" 我理解,所有行業都已被 transformer 給重構了。" 好未來田密說。越來越多的大中型互聯網企業、車企、頭部央企等,都在訓練自己的行業或企業大模型。
他們的共同特點是,有大量私域數據和獨有業務,有研發力量,但不會從頭去訓練通用大模型,而是在開源或商用模型上做深入的後訓練,适配各類場景,搭建自己的數據飛輪,并有商業預期。這些企業的需求,也進一步拉動了智算市場。
值得關注的是,在大模型範式下,算力與算法的重要性開始對等了,這讓企業的投入占比發生了變化。
" 我們算了一筆賬。四五年前開始研發智駕時,要投入相當多的算法和規則開發工程師,人力、數據和算力的投入比是 6:2:2。" 一位車企人士說," 但現在端到端智駕研發,需要更大的算力。我們初步預測,上述比例将變爲 2:3:5,50% 甚至更高的投入是算力。"
有趣的是,這些龍頭企業無論采用公有雲,還是自建數據中心,都不約而同找到了雲廠商。" 我們主動找到了百度智能雲。" 好未來田密說,"你會發現,在 Infra(基礎設施)的投入上,隻有大廠才能做得這麽細緻。"
而 IDC 中國研究總監劉麗輝介紹,到 2026 年,半數以上的企業,都會與雲廠商達成生成式 AI 基礎設施、相關平台工具等方面的合作。
02
壓力給到了雲廠商
百度王雁鵬觀察,在投入踴躍的企業中,行業龍頭典型的算力需求在 1000 卡 ~5000 卡規模,而大模型創企的需求則在萬卡水平。
這些企業在訓練和推理過程中,遇到了各種問題,他們對智算基礎設施提出了四個主要的訴求——高速網絡互聯、集群穩定性、資源利用率、大模型訓練和推理工具等。而這些需求與 CPU 雲時代截然不同。
比如有人把 GPU 比作賽車,要讓賽車性能發揮到極緻,就要給它建立專業賽道。在搭建 GPU 集群時,企業要求雲廠商提供一個更好的網絡硬件互聯架構。
穩定性是一件要命的事。CPU 的功耗隻有兩三百瓦,GPU 已經 1500 瓦了。黃仁勳因此被戲稱爲 " 核彈狂魔 "。功耗高代表着集成度高,這就容易出故障。" 我們算過,一個千卡集群,按照現有市場價格,一天的租金是二三十萬元。平台穩定性不好了,我們的損失就很大。" 一家車企人士說。而視頻大模型企業生數科技人士告訴數智前線,他們核心的訴求是 " 穩定性 "。平台穩定,确保他們在視頻生成的核心技術 " 高一緻性 " 上實現突破。
資源利用率也是企業最關注的問題,因爲 GPU 太貴了,利用率左右着 ROI。
而這些訴求,把壓力給到了雲廠商。" 過去一年多,大模型正在重構 AI 計算模式。" 一位雲廠商的資深人士說," 我從來沒有看到過任何一個技術浪潮,能夠像這一輪大模型,從上到下對我們的技術有如此大的颠覆。"
此前,基礎設施是以 CPU 爲核心的體系。它的核心點是極緻彈性、極緻性價比,大家最大的驅動力是提效降本。
到了大模型時代,基礎設施轉向了極緻高密、極緻互聯與極緻規模。國外今年已從十萬卡向百萬卡集群邁進。用不了太長時間,可能一個數據中心,就會 " 縮到 " 一個機櫃裏或一個節點上。
基礎設施從過去的提效降本,轉變成一個全面追求技術創新,來驅動整個業務大發展的階段。每一個從業者也都在朝着如何能夠去追趕上 scaling law 的發展去奔跑。在一次會議中,百度集團副總裁侯震宇介紹,最近幾年,在百度内部提及最多的是 800G/T 級互聯、高密存儲、異地異網異構調度、訓推一體 .....
由于過去十多年在整體 AI 上的投入,百度從 2009 年開始,在中國互聯網企業中第一家開始使用 GPU 做集群加速,2021 年已建成三四千卡單一任務的 GPU 集群,并逐步形成了有豐富技術棧的百度百舸異構計算平台。
"CPU 的 IaaS 是一個通用平台,但 GPU 的 IaaS 不一樣,更追求 GPU 算力端到端的性能最優,要給它提供更厚的技術棧,算力才容易發揮出來。" 百度王雁鵬對數智前線解釋。
基于百度百舸的技術棧,解決了龍頭企業在算力上的問題。在長安汽車,最初 GPU 綜合利用率不太高。長安汽車和百度智能雲,應用百舸平台,做好訓練任務的編排和調度,GPU 利用率提升了 40% 以上。
視頻大模型創企生數科技稱,基于百度百舸穩定的超大算力集群,在 OpenAI 推出 Sora 僅 40 天後,推出了自研視頻大模型 Vidu。在訓練中,他們應用了百舸平台的算力集群的任務分發、隊列調度和訓練加速," 縮短了 Vidu 的研發周期 "。
" 我們叠代的速度是非常快的,無論是新功能,還是模型基礎能力上。" 在 Vidu 上線逾百日之際,生數科技在 11 月 13 日推出 Vidu 1.5 新版本,率先攻克 " 多主體一緻性 " 難題。
由于最早在市場上推出模型,生數科技已在影視、動畫、文旅有落地。比如,近期漫威電影《毒液 3》的中國水墨風格 AI 宣傳片,就是 Vidu 生成的。
03
奔向十萬卡
國内雲計算廠商還在更進一步,但他們的做法和考量也更理性和現實。
在海外,美國市場在經曆了一個充分有效的競争後,之前很熱鬧的大模型公司都在賣身,今年做基礎大模型的企業已迅速收縮到五家—— OpenAI、Anthropic、Meta、谷歌,以及馬斯克旗下的 xAI。
而這些巨頭的算力競争門檻已達到十萬卡規模。微軟計劃到明年底,向 OpenAI 提供約 30 萬個英偉達最新 GB200 圖形處理器。但 OpenAI 似乎并不滿意,也與甲骨文達成了協議,甲骨文正在設計一個超級數據中心,将達到一千兆瓦電力,轉換過來就是 50 多萬卡英偉達 GPU;
Meta 的小紮也不甘落後,稱 Llama 4 模型正在一個 10 萬片 H100 GPU 集群上訓練;馬斯克的 xAI 今年 7 月已建成十萬卡集群,并将在未來幾個月内再增加 10 萬卡,其中 5 萬卡将是英偉達 H200。
在百度世界 2024 大會上,沈抖披露,百度已解決了 10 萬卡集群兩個難題。一個是在一雲多芯情況下,兩種芯片混合訓練效能折損,控制在 5% 以内,這是業界領先水平。這一技術是針對芯片供應緊張,以及部分企業對國産算力有強需求而研發。
另一個難題是跨地域機房部署,百舸将單一訓練任務集群的性能折損控制在 4% 以内,這也是業界領先水平。它解決的是電力問題和機房空間問題。10 萬卡集群一天要吃掉 300 萬千瓦時電力,相當于北京東城區一天的居民用電量;所需的占地,相當于 14 個标準足球場。它通過高效拓撲結構、跨地域無擁塞高性能網絡和高效模型并行訓練等方案,在橫跨幾十公裏的多機房上實現。
不過,業界如今有一個疑問,OpenAI 在 2020 年提出的 Scaling Law 是否還成立?是否有必要追趕十萬卡集群?王雁鵬坦言,他們看到Scaling Law 确實在放緩。這也是 OpenAI o1 比較火的一個原因,它采用強化學習(Self-play)模式,開創了模型 scaling 的新維度。
一些國内龍頭企業,其實在半年多前已将更多精力轉向強化學習。通過算力創造更多數據,由人們給每一步打分、做數據标注,通過獎勵模型去強化它,讓模型更智能。
強化學習讓模型訓練對算力的需求也降低了不少。但這并不意味着國内就原地踏步在數千卡到萬卡集群。大模型正進入更多産業,王雁鵬預估,明年算力需求還會以訓練爲主,算力需求在高速增長,企業對算力在性能和成本上,也提出進一步的訴求。
" 比如大模型創企,他們有很強的融資壓力,所以對成本的訴求非常強。" 王雁鵬說。
當下,公有雲是企業進行大模型訓練的主流方式。雲廠商常常采用 "服務一個企業,搭建一個集群的方式"。但這種方式存在明顯劣勢,即在企業訓練任務不處于高峰期時,集群中的計算資源處于閑置狀态,造成資源浪費。而當 10 萬卡集群出現後,雲廠商就可以依靠這個大型集群,爲衆多企業提供服務,根據不同企業的需求,動态分配計算資源,不僅提高了資源利用率,也降低了企業的成本。
" 當我們能解決了十萬卡集群技術,比如上述的跨地域 RDMA 技術、多芯混訓技術、容錯技術,就可以不需要建一個大的單一機房,而是把幾個機房融合在一起,提供一個更好的雲平台,也給大家一個更好的成本。多芯技術也是一樣的邏輯。" 他進一步說。
在與國内企業的相互合作和推動下,中國雲廠商正在加速平台建設,推動大模型技術浪潮,在市場的快速演進。
© 本文爲數智前線(szqx1991)原創内容
進群、轉載或商務合作聯系後台
文章精選
>