沒想到,就在大家争相發大模型的時候,鵝廠另辟蹊徑在算力上下手了。
剛剛,騰訊雲最新一代 HCC(High-Performance Computing Cluster)高性能計算集群,來了!
面向大模型訓練,采用最新一代騰訊雲星星海自研服務器,搭載了 NVIDIA H800 Tensor Core GPU,可提供業界目前最高的 3.2T 超高互聯帶寬。
實測結果顯示,騰訊雲新一代集群的算力性能較前代提升高達3 倍。
以訓練自家大模型效果爲例——萬億參數的混元 NLP 大模型訓練。在同等數據集下,将訓練時間由 50 天縮短到 11 天。如果基于新一代集群,訓練時間将進一步縮短至4 天。
在這波 AIGC 熱潮下,行業内算力需求空前增加,各種與智能算力相關的硬件軟件都變得更加火熱。
鵝廠這波突然放送,又帶來哪些新進展?
據了解,騰訊雲新一代集群通過對單機算力、網絡架構和存儲性能進行協同優化,能夠爲大模型訓練提供高性能、高帶寬、低延遲的智算能力支撐。
計算層面,服務器的單機性能是集群算力的基礎。
在非稀疏規格情況下,新一代集群單 GPU 卡支持輸出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。
針對大模型訓練場景,騰訊雲星星海服務器采用 6U 超高密度設計,相較行業可支持的上架密度提高 30%;利用并行計算理念,通過 CPU 和 GPU 節點的一體化設計,将單點算力性能提升至最強。
網絡層面,計算節點間存在海量的數據交互需求,随着集群規模擴大,通信性能會直接影響訓練效率。
騰訊自研星脈網絡,可爲新一代集群帶來了業界最高的 3.2T 的超高通信帶寬。
節點内外統一的 AllReduce 通信帶寬,實現網絡和算力的最大協同。
實測結果顯示,搭載同樣的 GPU,最新的 3.2T 星脈網絡相較 1.6T 網絡,能讓集群整體算力提升 20%。
基于多軌道聚合的無阻塞網絡架構、主動擁塞控制和定制加速通信庫,騰訊雲能提供業界領先的集群構建能力,支持單集群高達十萬卡級别的組網規模。
在超大集群場景下,仍然能保持優秀的通信開銷比和吞吐性能,滿足大模型訓練以及推理業務的橫向擴展。
同時,騰訊自研高性能集合通信庫 TCCL,基于星脈網絡硬件平台深度優化,在全局路徑規劃、拓撲感知親和性調度、網絡故障實時告警 / 自愈等方面融入了定制設計的解決方案。
相對業界開源集合通信庫,爲大模型訓練優化 40% 負載性能,消除多個網絡原因導緻訓練中斷問題。
存儲層面,訓練場景下,幾千台計算節點會同時讀取一批數據集,需要盡可能縮短數據集的加載時長。新一代集群,引入了騰訊雲最新自研存儲架構,支持不同場景下對存儲的需求。
COS+GooseFS 對象存儲方案,提供多層緩存加速,大幅提升端到端的數據讀取性能;将公開數據集、訓練數據、模型結果統一存儲到對象存儲 COS 中,實現數據統一存儲和高效流轉。
同時,GooseFS 按需将熱數據緩存到 GPU 内存和本地盤中,利用數據本地性提供高性能訪問。
CFS Turbo 高性能并行文件存儲方案,采取多級緩存加速,基于全分布式架構,提供 100GB/s 帶寬、1000 萬 IOPS 的極緻性能。并通過持久化客戶端緩存技術,将裸金屬服務器本地 NVMe SSD 和 Turbo 文件系統構成統一命名空間,實現微秒級延時,解決大模型場景大數據量、高帶寬、低延時的訴求。
同時,通過智能分層技術,自動對冷熱數據分層,節省 80% 的存儲成本,提供極緻的性價比。
底層架構之上,針對大模型訓練場景,新一代集群集成了騰訊雲自研的 TACO Train 訓練加速引擎,對網絡協議、通信策略、AI 框架、模型編譯進行大量系統級優化,大幅節約訓練調優和算力成本。
騰訊混元大模型背後的訓練框架 AngelPTM,也已通過騰訊雲對外提供服務,能夠幫助企業加速大模型落地。
目前,騰訊混元 AI 大模型已經覆蓋了自然語言處理、計算機視覺、多模态等基礎模型和衆多行業、領域模型。
在騰訊雲上,企業基于 TI 平台的大模型能力和工具箱,可結合産業場景數據進行精調訓練,提升生産效率,快速創建和部署 AI 應用。
此前,騰訊多款自研芯片已經量産。
其中,用于 AI 推理的紫霄芯片、用于視頻轉碼的滄海芯片已在騰訊内部交付使用,性能指标和綜合性價比顯著優于業界。
紫霄采用自研存算架構,增加片上内存容量并使用更先進的内存技術,消除訪存能力不足制約芯片性能的問題,同時内置集成騰訊自研加速模塊,減少與 CPU 握手等待時間。
目前,紫霄已經在騰訊頭部業務規模部署,提供高達 3 倍的計算加速性能,和超過 45% 的整體成本節省。
據悉,騰訊雲的分布式雲原生調度總規模超過 1.5 億核,并提供 16 EFLOPS(每秒 1600 億億次浮點運算)的智算算力。未來,新一代集群不僅能服務于大模型訓練,還将在自動駕駛、科學計算、自然語言處理等場景中充分應用。
(最近量子位發起《中國 AIGC 算力産業全景報告》征集活動,感興趣的童鞋歡迎戳下方報名表單━ ( *`∀ ´ * ) ノ亻 !)