星河AI網絡，大模型紀元的運力答案

随着 AI 預訓練大模型的價值不斷顯現，且模型規模愈發龐大。産學各界已經形成了這樣一個共識：AI 時代，算力就是生産力。

這一認知雖然正确，卻并不全面。數字化系統有存、算、網三大支柱，AI 技術也是如此。如果抛開存儲和網絡談算力，那麽大模型隻能獨木難支。尤其是與大模型适配的網絡基礎設施，一直以來都沒有得到有效的重視。

面對動辄 " 萬卡集訓 "" 萬裏部署 "" 萬億參數 " 的 AI 大模型，網絡運力是整個智能化體系中不容忽視的一環。其面臨的挑戰非常突出，也正在等待可以破局的答案。

（華爲數據通信産品線總裁王雷）

9 月 20 日，華爲全聯接大會 2023 期間舉辦了 " 星河 AI 網絡，加速行業智能化 " 爲主題的數通峰會。各界代表共同探讨了 AI 網絡技術的變革與發展趨勢。會上，華爲數據通信産品線總裁王雷正式發布星河 AI 網絡解決方案。他表示，大模型讓 AI 更聰明，但訓練一個大模型的成本非常高，同時還要考慮 AI 人才的成本。因此，在行業智能化階段，集中建設大算力集群，面向社會提供智算雲服務，才能真正讓人工智能深入千行萬業。華爲發布新一代星河 AI 網絡解決方案，面向智能時代，打造超高吞吐、長穩可靠、彈性高并發的新型網絡基礎設施，助力 AI 普惠，加速行業智能化。

借此機會，我們一起了解大模型崛起，給智算數據中心帶來的網絡挑戰，以及華爲星河 AI 網絡爲什麽是這些問題的最優解。

如果說，一個模型、一條數據、一個計算單元，都是 AI 時代的一道星光。那麽隻有把它們高效穩定地聯接起來，才能組成智能世界的燦爛星河。

大模型爆發

隐藏的網絡激流

我們知道，AI 模型分爲訓練和推理部署兩個階段。伴随着預訓練大模型的興起，這兩個階段也分别發生了巨大的 AI 網絡挑戰。

首先是在大模型的訓練階段。伴随着模型規模與數據參數愈發龐大，大模型訓練開始需要千卡甚至萬卡規模的計算集群來完成。這也意味着大模型訓練必然發生在具備 AI 算力的數據中心當中。

在目前階段，智算數據中心的成本是非常高昂的。根據行業數據，每建設 100P 算力的集群，成本就要達到 4 億人民币。以某國際知名大模型爲例，其訓練過程中每天的算力花費就要達到 70 萬美元。

如果數據中心網絡的聯接能力不暢，造成大量算力資源折損在網絡傳輸過程中，那麽給數據中心與 AI 模型帶來的損失是難以估量的。相反，如果同等算力規模下，集群訓練效率更高，那麽數據中心将獲得巨大商機。而負載率等網絡因素，直接決定了 AI 模型的訓練效率。另一方面，由于 AI 算力集群的規模不斷擴大，其複雜度也在相應增長，于是其故障發生概率也在提升。打造長穩可靠的集群網絡，是數據中心提升投入産出比的重要支點。

在數據中心之外，AI 模型的推理部署場景中，同樣也可以看到 AI 網絡的價值體現。大模型的推理部署主要依靠雲服務，而雲服務商必須在算力資源有限的情況下，盡量服務更大的客戶，以此實現大模型的商業價值最大化。如此一來，用戶越多整個雲網結構就會越複雜。如何能夠提供長期穩定的網絡服務，成爲了雲計算服務商新的挑戰。

除此之外，在 AI 推理部署的最後一公裏，政企用戶面臨着網絡質量提升的需求。在真實場景下，1% 的鏈路丢包會導緻 TCP 性能下降 50 倍，也就是 100Mbps 的寬帶，實際能力不足 2Mbps。因此，提升應用場景本身的網絡能力，才可以保證 AI 算力順暢流動，實現真正的普惠 AI。

由此不難看出，在 AI 大模型的誕生、傳輸、應用全流程中，每個環節都面臨着網絡升級的挑戰與需求。大模型時代的運力難題，亟待破局解題。

從星光到星河

智能時代的網絡破局思路

大模型崛起帶來的網絡難題是一個多環節、全流程的挑戰。因此，對應的破局思路也必須是一個系統性工程。

華爲提出，面向智算雲服務的新型網絡基礎設施，需要支持 " 訓練高效能 "" 算力不停歇 "" 普惠 AI 服務 "。這三項能力，對應了 AI 大模型從訓練到推理部署的全場景。不僅着眼于單一需求滿足，單一技術的升級，而是全面推進 AI 網絡叠代，正是華爲數據通信帶給行業獨特的破局思路。

具體而言，AI 時代的網絡基礎設施需要包含如下能力：

首先，在訓練場景網絡需要最大化發揮出 AI 計算集群的價值。通過打造具備超大規模聯接能力的網絡，實現 AI 大模型的訓練高效能。

其次，爲了保障 AI 任務的穩定可持續，需要打造長穩可靠的網絡能力，保障月級訓練不中斷，同時要有秒級的穩定定界、定位和回複，盡可能降低訓練中斷時常。這就是算力不停歇的能力建設。

再次，AI 推理部署過程中，要求網絡具有彈性高并發的特質，可以智能編排海量用戶流，提供最佳的 AI 落地體驗，同時可以對抗網絡劣化沖擊，保障不同區域間 AI 算力順暢流動，這也就實現了 " 普惠 AI 服務 " 的能力建設。

秉承這樣的破局思路，華爲最終帶來了星河 AI 網絡解決方案。它把散落的 AI 星光，基于強大運力聯成一片星河。

星河 AI 網絡

給大模型紀元一個運力答案

華爲全聯接大會 2023 的期間，華爲分享了對以大算力、大存力、大運力加速 AI 大模型打造的發展願景。新一代華爲星河 AI 網絡解決方案，就可以說是面向智能時代，華爲爲大模型帶來的運力答案。

對于智能數據中心來說，華爲星河 AI 網絡是以網強算的最優解。

其所具備的超高吞吐網絡特質，可以面向智算中心的 AI 集群提供提升網絡負載率，強化訓練效率的重要價值。具體來說，星河 AI 網絡智算交換機具有業界最高密 400GE 和 800GE 端口能力，僅 2 層交換網絡就可以實現 1 萬 8000 卡的無收斂集群組網，從而支持超萬億參數的大模型訓練。組網層次一旦減少，就意味着數據中心能夠節省了大量的光模塊成本，同時提高對網絡風險的可預測性，獲得更加穩定的大模型訓練能力。

星河 AI 網絡可以支持網絡級負載均衡 NSLB，能夠将負載率從 50% 提升到 98%，相當于實現 AI 集群超頻運行，繼而将訓練效率提升 20%，達成高效能訓練的預期。

對于雲服務廠商來說，星河 AI 網絡可以提供穩定可靠的算力保障。

其能夠在 DCI 算間互聯場景，提供多路徑智能調度等技術，自動識别、主動适應業務高峰流量的沖擊，可以從百萬數據流中識别大小流，合理分配到 10 萬路徑，從而實現網絡 0 擁塞，彈性保障高并發的智算雲服務。

對于政企用戶來說，星河 AI 網絡可以應對網絡劣化問題，保障普惠化的 AI 算力。

其能夠在 DCA 入算場景支持彈性抗劣化能力，采用 Fillp 技術優化 TCP 協議，可以在 1% 丢包率的情況下将帶寬負載率從 10% 提升至 60%，從而保障從都市圈到偏遠地區的算力順暢流動，加速 AI 服務的普惠應用。

如此一來，大模型從訓練到部署各個環節的網絡需求都被打通。從智算中心到千行萬業，都有了以網強算的發展支點。

一個屬于智能化的時代，一個由大模型開啓的科技新紀元剛剛開始。星河 AI 網絡，給智能時代寫下了一個關于運力的答案。