高盛研究公司(GSR)的數據報告指出,新興的生成式人工智能工具,将推動全球的國民生産總值(GDP)增長 7%,帶來約近 7 萬億美元的 GDP 增長,并在未來使生産力提高 1.5%。這樣的價值空間,将推動大模型等相關 AI 産品市場規模達到 1500 億美元,比目前全球軟件産業規模還有高出 22%。
價值巨大,能力廣泛,且能通過 " 智能湧現 " 現象帶來更多額外想象力的 AI 大模型,很有可能成爲新一輪工業革命的觸發點。在今天,每個行業、每家企業都在暢想智能世界的到來,以及自身在其中扮演的角色。
但智能世界就像一座大廈,人們暢想的大廈現代化的設計,優美的環境,最終的入駐體驗等。但在真正建造這座大廈之前,首先需要給大廈畫好藍圖,建好骨架,夯實地基,否則再美好的智能化暢想都隻是空中樓閣。
符合大模型發展需求的基礎設施架構應該如何建設?智能時代的藍圖應該如何描繪?
這些問題,在前不久的華爲全聯接大會 2023 能夠找到答案。
9 月 21 日,華爲全聯接大會 2023 期間,華爲董事、ICT 産品與解決方案總裁楊超斌發表了 " 擁抱 AI 時代,構築智能世界數字基礎大設施 " 的主題演講。其中提出大模型進入百模千态的 AI 新時代,打造和應用好 AI,關鍵是要構築智能世界數字基礎大設施。
楊超斌表示:" 三力四總線方案爲行業智能化升級賦能,AI 集群的大算力、大存力、大運力加速 AI 大模型打造,多場景 AI 算力和行業智能總線實現智能無處不在。"
簡而言之,三力四總線方案就是大模型發展所需的大設施,就是一張智能世界的藍圖。
隻有基于大設施的穩固推進,堅定建設,大模型的價值才能最終被充分激活,也隻有在合理的藍圖規劃與 ICT 基礎設施建設支持下,智能時代才能真正到來。
一張藍圖畫 AI:
智能世界的基礎設施需求
從 2012 年,深度學習作爲有效 AI 路徑被證實開始,這種大規模數據 + 暴力計算模式所帶來的存、算、網基礎設施需求就被廣泛重視。到 2018 年預訓練大模型機制開始興起,基礎設施對于 AI 發展的重要性更是史無前例。時間來到今天,大模型花開遍地,僅僅在中國就呈現出百模千态的發展盛況。這時我們更應該看到 AI 發展進程中基礎設施藍圖的重要性。
推進大模型産業發展就像設計一座建築,不能随心所欲,這裏蓋一堵牆,那裏開一扇窗,而是必須優先進行統籌設計,合理規劃大模型基礎設施的全面完善和協同發展。否則大模型技術與産業很容易出現木桶效應,因爲某項基礎設施的缺失而導緻整體進度的放緩與失效。
具體來看,目前大模型發展對基礎設施需求主要分爲三方面:
第一個關鍵詞是 " 大 "。AI 模型的參數變大,對于計算、存儲、網絡資源需求也急劇擴大。大模型需要構築具備大算力、大存力、大運力的 "AI 集群大設施 ",這一點已經是當務之急。
第二個關鍵詞是 " 全 "。AI 大模型就像其他數字化應用一樣,對 ICT 基座的需求是全方位的。存、算、網三大領域缺一不可,不能偏廢。
第三個關鍵詞是 " 實 "。AI 技術要通過深度融合千行萬業來獲得價值。而 AI 最終的推理部署場景,很多發生在工廠、企業園區、小微企業當中。這些場景的聯接能力,決定了 AI 大模型落地向實的最後一公裏。
從大、全、實三個方向出發,AI 大設施必須能夠克服一系列嚴苛挑戰。好在華爲已經基于三力四總線,畫出了一張架構完善、能力堅實的 AI 大設施藍圖。
立支柱:
以三力支撐大模型時代
設計一座建築,首先要考慮其縱向的受力能力,也就是我們所說的 " 支柱 "。支柱不穩,地動山搖。因此柱子的質量是決定一座建築能建多高,建多牢的關鍵。
就像上文所說,大模型的支柱并非隻有一根,而是需要存、算、網三大領域協同發力,以三根支柱建設其大模型,大設施的超穩定結構。爲此,華爲發布了 " 大算力、大存力、大運力 " 解決方案。以三立,打造領先的 AI 大模型訓練集群,支撐起頂天立地的大模型時代。
在算力方面,華爲通過架構和系統創新,構築面向多場景的大算力平台,突破 AI 大模型訓練的算力瓶頸。例如,同在華爲全聯接大會期間,面向萬億參數的大模型訓練需求,華爲推出了全新架構的昇騰 AI 計算集群—— Atlas 900 SuperCluster。其可支持超萬億參數的大模型訓練,并且采用了全新的華爲星河 AI 智算交換機 CloudEngine XH16800,借助高密 800GE 端口能力,兩層交換網絡即可實現 2250 節點的超大規模無收斂集群組網。
同時,Atlas 900 SuperCluster 集群使用了創新的超節點架構,極大提升了大模型的訓練能力。綜合華爲在計算、網絡、存儲、能源等領域的綜合優勢,依托從器件級、節點級、集群級和業務級全面提升系統可靠性,華爲能夠實現将大模型訓練穩定性從天級提升到月級,滿足大模型最爲核心的算力穩定性需求。
在存力方面,華爲發布了 AI 知識庫存儲 OceanStor A800。其可以通過創新架構來構建高性能的數據存儲能力,全面提升大模型訓練效率和推理響應時間。
在運力方面,華爲發布了業界首款高運力 DCN 星河 AI 智算交換機,和業界容量最大的超寬全光智能 DCI 方案,從而能夠以大規模,大容量的網絡運力,最大化釋放 AI 算力。 華爲星河 AI 網絡解決方案,擁有 10 萬卡級組網和超 95% 負載率的超高吞吐,并且具備網絡故障預測和秒級定界修複的長穩可靠,可以爲智算中心等場景帶來适配大模型訓練需求的網絡運力保障。
大算力、大存力、大運力這三根支柱,可以支撐起 AI 模型支持擴大、所需數據量指數級提升的未來發展。真正做到爲未來畫藍圖,爲未來的大模型建設今天的大設施。同時,華爲還改變了傳統的服務器堆疊模式,以系統架構創新打造 AI 集群,實現算力、運力、存力的一體化設計,突破大算力瓶頸。
三力爲柱,讓大模型參天入雲,智能化發展上不設限。
架橫梁:
以四總線聯接智能化落地
大模型技術既要頂天,也要立地。這就是指大模型技術需要落地應用,在最終的行業場景中釋放自身價值。
在大模型落地的過程中,卻會發現很多應用場景并不能很好實現大模型的推理部署,這就需要聯接千行萬業的智能總線。
如果說算力、存力、運力是大模型的支柱,那麽我們可以将智能總線理解爲大模型這座房屋所需要的橫梁。橫梁将立柱的支撐力結合在一起,組成整個屋宇所需要的立體結構。
面向大模型的落地挑戰,華爲推出了 " 智能聯接總線 " 方案,并且已經将其應用到了廣域、園區、工業、微企四類典型行業場景。
在廣域網絡領域,電力、交通、城市等廣域場景中有大量行業 AI 應用。比如電網差動保護、鐵路視頻分析、全息交通路口等,他們都需要大帶寬、低時延、安全隔離的網絡。華爲推出輕量化、免設計的智能 "SE-OTN" 産品,從而實現廣域智能總線的端到端超寬無損聯接快速部署,保障海量場景實現智能化落地。
在園區場景,各式各樣的 AI 能力正在共同定義未來園區。接下來,我們将看到大量 AI 應用完善園區管理、輔助園區辦公、實現新一代人機交互等。這些未來景象的前提,是具備高帶寬、全覆蓋和智能化的園區網絡。爲此,華爲帶來了智能萬兆園區解決方案,爲行業的園區客戶提供高品質的園區網絡體驗。
在工業場景,工業智能化被譽爲是 AI 應用中的明珠。AI 質檢、AI 巡檢、智能 AGV、智能工業分析等應用,将極大提升工業生産力,推動工業體系升級。而 AI 能力的應用,也給工業場景帶來了大帶寬、确定性低時延、超高可靠的網絡需求。華爲通過智能 TSN 交換機與工業光網、Wi-Fi 7 等新技術協同,打造了泛在超寬工業智能總線,從而實現數據上得來,智能下得去。
在小微企業場景,未來中小企業通過 AI 技術提升效率,強化生産力将成爲潮流。但小微企業沒有獨立的網絡維護團隊,更需要一站式服務與極簡運維體驗。爲此,華爲推出一站式微企智能套裝,幫助小微企業提升網絡接入體驗,并實現雲端 AI 應用落地,推動企業的智能化辦公和生産。
配合三力四總線的建設,華爲還推出了一系列 AI 相關計算産品。包括 Atlas 系列集群、訓練和推理服務器、訓練推理一體機、AI 加速模塊等,從而滿足雲、邊、端各個場景的 AI 模型訓練與部署需求。
在 AI 大設施的建設目标下,華爲堅持 " 硬件開放,軟件開源,使能夥伴,發展人才 " 的計算戰略,已與 30 多家硬件夥伴、1300 多家軟件夥伴,聯合推出了 2600 多個 AI 場景方案,并已打造 50 多個大模型,在多個行業場景實現落地。
智能世界,藍圖爲先。三力四總線的築造和落地,相當于爲大模型時代畫出了清晰的基礎設施建設藍圖,爲智能世界造就了堅實的發展底座。