圖片系 AI 生成
自 OpenAI 發布 ChatGPT 兩年來,大模型産業發展的腳步似乎慢了。然而大洋彼岸,xAI、Meta、OpenAI 等衆多科技巨頭都在積極布局 10 萬卡乃至更大規模的智算集群,沖刺 AGI,國内同樣循着相似的步調。然而,受限于芯片供應等原因,國内構建 10 萬卡集群面臨着三大難題:跨地域部署、多芯混訓以及集群穩定性,這些難題包括技術和工程上的多重挑戰。
十萬卡,AGI 的門檻
7 月 22 日,馬斯克宣布位于美國田納西州孟菲斯市的孟菲斯超級集群開始投入訓練。該集群配備了 10 萬個英偉達 H100 GPU,被稱爲 " 世界上最強大的 AI 訓練集群 "。兩個月後,馬斯克在 X 平台上宣布該集群名爲 "Colossus(巨人)",将在未來幾個月内再增加 10 萬顆 GPU,其中 5 萬顆将是更爲先進的英偉達 H200。 Grok 3 大模型正在超算中心中進行訓練,訓練預計在三到四個月内完成,目标是在今年 12 月發布 Grok 3。
另一家科技巨頭 Meta 也不示弱。Meta 首席執行官馬克 · 紮克伯格在第三季度财報電話會議上透露,Llama 4 模型正在一個由 10 萬片 H100 GPU 組成的集群上進行訓練,并預計在明年首次推出。爲了支持大模型,Meta 預計本年度資本支出将高達 400 億美元,比去年增加了超過 42%。紮克伯格在财報電話會議中強調,明年将進一步加大對 AI 基礎設施的投資。
而大模型領頭羊 OpenAI 與微軟的 " 黃金搭檔 " 卻因爲計算集群的交付進度産生了分歧。此前微軟與 OpenAI 合作共建一個代号爲 " 星際之門 " 的巨型數據中心項目。這個項目預計成本超過 1150 億美元,旨在容納一台面向 AI 的配備數百萬塊 GPU 的超級計算機。
據報道,微軟計劃到明年年底向 OpenAI 提供約 30 萬個英偉達最新的 GB200 圖形處理器。然而面對步步緊逼的對手,阿爾特曼似乎對微軟的速度不滿意。完成 66 億美元融資後,OpenAI 開始尋求更加獨立的數據中心和雲服務方式并與甲骨文達成了協議,将在德克薩斯州的一個新數據中心租用服務器。該數據中心被譽爲世界上最大的數據中心之一,未來可能容納數十萬個英偉達 AI 芯片。
百度傑出系統架構師、百度智能雲 AI 計算部負責人王雁鵬表示,從美國科技企業瘋狂布局 10 萬卡可以看出,Scaling Law 定律目前看仍然有效。公開數據顯示,GPT-3 的訓練數據集包含 3000 億個 token,而 GPT-4 的訓練數據集包含約 13 萬億個 token。模型的持續升級,意味着數據量的指數級增長,而訓練數據量的升級對計算集群也提出了挑戰,10 萬卡的訓練集群正是爲了滿足模型參數增長所帶來的高算力需求。
10 萬卡集群難在哪?
10 萬卡雖好,但部署如此大規模的算力集群會面臨很大挑戰。王雁鵬介紹,經過多年的技術積累和産業實踐,百度的百舸 4.0 已能夠實現 10 萬卡集群的高效管理,并通過 HPN 高性能網絡、自動化混訓切分策略、自研集合通信庫等一系列産品技術創新,一定程度上解決了上述難題。
例如,美國老舊的電網就無法跟上大模型的步伐。由于集群耗電量巨大,美國的衆多數據中心都遭遇了電網崩潰。一位微軟工程師曾表示,爲 GPT-6 搭建 10 萬個 H100 訓練集群時,整個電網發生了崩潰。據估算,一個 10 萬卡集群每天的耗電量達到 300 萬度,相當于北京市東城區一天的居民用電量。此外,10 萬卡集群需要大約 10 萬平方米,相當于 14 個标準足球場的面積,如果想在單一建築中部署這麽大的集群,将面臨選址困難和法規限制等挑戰。
出于上述原因,美國科技公司的超大集群大多選擇跨地域部署。爲了突破單一數據中心的規模限制,谷歌和微軟已着手将大規模模型訓練擴展至多個數據中心園區。其中,谷歌的 Gemini 1 Ultra 模型已率先實現多數據中心訓練。微軟計劃将其在鳳凰城的 AI 訓練基地擴展至 10 座建築,自建 24 個數據中心,在多個超大規模園區互聯,實施覆蓋全美的大規模分布式訓練。
王雁鵬介紹,由于電網配電限制、占地空間大等原因,十萬卡集群需要跨樓、跨園區,甚至跨城部署。而這種跨地域部署勢必會增加網絡通信的複雜性。跨地域通信需要解決長距離通信延遲、擁塞控制等技術問題。
國内企業構建 10 萬卡集群還面臨着一個現實的困難:芯片。國内企業面臨算力供應不穩定的挑戰,較難構建單一大規模訓練集群。現實情況是,企業内部會出現同一廠商不同代際芯片,或者不同廠商芯片共存的情況。這些芯片如何進行混部訓練,同時保證混部訓練的效率也是難題。
此外,随着芯片集成度的不斷提高,芯片的故障率也會相應上升,英偉達 H 系列芯片的故障率比 A 系列高 3-4 倍。并且算力集群規模越大,其故障率就越高。按照 H 系列芯片的故障率水平,十萬卡集群每 20 分鍾就會出現故障。較高的故障率對穩定性訓練保障提出了更高的要求。
王雁鵬介紹,包括百度在内的國内廠商正在破解這些難題。在跨地域方面,針對由于傳輸距離變長所産生的高延遲,百舸 4.0 已經構建了十萬卡級别的超大規模 HPN 高性能網絡,通過提供更高效的拓撲結構、更優的多路徑負載均衡策略及通信策略,能夠實現幾十公裏的跨地域通信。同時,在通信效率上,通過優化的擁塞控制算法、集合通信算法策略,将帶寬有效率提升至 95%,實現了完全無阻塞。最後,通過 10ms 級别超高精度網絡監控,保障了網絡穩定性。
在多芯混訓方面,百舸能夠将不同地點、不同規模的異構算力進行統一管理,構建起多芯資源池。當業務提交工作負載時,可自動進行芯片選型,依據集群剩餘的芯片資源,選擇性價比最高的芯片來運行任務,從而最大化地利用集群的剩餘資源。最終,可實現高達 95% 的萬卡多芯混合訓練效能。
在集群穩定性方面,百舸提供全面的故障診斷手段,可以快速自動偵測到導緻訓練任務異常的節點故障。同時,百度自研的 BCCL(百度集合通信庫),能夠快速定位故障同時提供自動化的容錯能力,重新調度任務到健康節點,繼續完成訓練,目前已經将故障恢複時間從小時級降低到分鍾級。
王雁鵬表示,公有雲是企業進行大模型訓練的主流方式。在 10 萬卡集群出現之前,爲滿足企業大模型的訓練需求,雲廠商常常采用服務一個企業,搭建一個集群的方式。然而,這種方式存在明顯劣勢,即每個集群都是爲特定企業服務,在企業的訓練任務不處于高峰期時,集群中的計算資源可能會處于閑置狀态,造成資源的浪費。而當 10 萬卡集群出現後,雲廠商就可以依靠這個大型集群爲衆多企業提供服務,根據不同企業的需求動态分配計算資源,這樣不僅提高了資源利用率,也降低了企業使用雲服務的成本,增強了雲廠商在市場中的競争優勢。
(本文首發于钛媒體 APP,作者 | 張帥,編輯 | 蓋虹達)