騰訊加入 AI 大戰，首發國内最強顯卡，性能提升 3 倍

最近國内 AI 圈像下過了一場雨，各種 AI 模型如同春筍一樣冒了出來。

根據金十數據的統計整理，目前國内至少有 15 個大大小小的 AI 大模型正在研發。其中，百度的文心一言和阿裏的通義千問最受人們關注。

BAT 其中兩家 AI 大模型已經進入試用階段，這下壓力來到了騰訊這邊。

在今天，騰訊也公布了它在 AI 模型和雲計算上面的動态。從公布的内容來看，騰訊似乎不僅僅是想趕這場「AI 淘金熱」——它想「給淘金者賣水」。

騰訊雲近日推出了新一代高性能計算集群 HCC，旨在滿足不斷增長的人工智能、科學研究和工程領域的計算需求。

衆所周知，訓練 AI 大模型需要大量的計算資源和數據進行訓練。普通個人或小型公司可能無法承擔這樣的資源消耗，因爲購買和維護這些計算資源的成本非常高。

騰訊推出 HCC 高性能計算集群，便是面向大規模 AI 訓練，以專用集群方式售賣算力，這就像是給前來 AI 金礦淘金的淘金者們賣水。

新一代 HCC 集群提供了諸多創新技術和架構，包括星星海自研服務器、星脈自研網絡、高性能文件存儲和對象存儲架構以及國内首發的英偉達 H800 Tensor Core GPU。

經過實測，騰訊雲新一代集群的算力性能較前代提升高達 3 倍，是國内性能最強的大模型計算集群。

先來說說顯卡，HCC 計算集群采用的英偉達 H800 Tensor Core GPU 是英偉達新一代基于 Hopper 架構的圖形處理器，專爲深度學習、大型 AI 語言模型、基因組學和複雜數字孿生等任務而設計，性能較前一代 A800 提高了 3 倍。

星星海自研服務器則采用 6U 超高密度設計，上架密度提高了 30%。通過利用并行計算理念、一體化的 CPU 和 GPU 節點設計，單點算力性能得到顯著提升。

星脈自研網絡還提供了業界最高的 3.2T 超高互聯帶寬，配合高性能文件存儲和對象存儲架構，具備 TB 級吞吐能力和千萬級 IOPS。

這一架構能有效解決 AI 訓練過程中計算、存儲、網絡的「木桶效應」，确保運算速度不會因瓶頸而受限。星脈網絡還采用了 1.6T ETH RDMA 高性能網絡，爲每個計算節點提供 1.6T 的超高通信帶寬，帶來 10 倍以上的通信性能提升。

讓我們從直觀計算的表現來看。去年 10 月，騰訊完成首個萬億參數的 AI 大模型——混元 NLP 大模型訓練。在同等數據集下，将訓練時間由 50 天縮短到 11 天。如果基于 HCC 計算集群，訓練時間将進一步縮短至 4 天。

HCC 高性能計算集群應用廣泛，包括自動駕駛訓練、自然語言處理、AI 生成創造（AIGC）大模型訓練以及科研計算。

爲了簡化 AI 開發流程，騰訊雲自研了 TACO Kit（Tencent Accelerated Computing Optimizer），包含 TACO Train 和 TACO Infer，幫助用戶快速完成工業級的訓練或推理部署。

爲了進一步降低訓練大型 AI 模型的成本，騰訊推出了 AngelPTM 訓練框架。現在，AngelPTM 已經加入了 TACO Train 加速組件，助力大模型訓練顯存上限和性能大幅提升。這就像爲機器人安裝了一套強大的學習系統，讓其能夠更快地掌握各種技能。

此外，騰訊多款自研芯片已經量産。其中，用于 AI 推理的紫霄芯片、用于視頻轉碼的滄海芯片已在騰訊内部交付使用，性能指标和綜合性價比顯著優于業界。

紫霄采用自研存算架構，增加片上内存容量并使用更先進的内存技術，消除訪存能力不足制約芯片性能的問題，同時内置集成騰訊自研加速模塊，減少與 CPU 握手等待時間。

目前，紫霄已經在騰訊頭部業務規模部署，提供高達 3 倍的計算加速性能，和超過 45% 的整體成本節省。

騰訊雲的新一代 HCC 高性能計算集群結合了先進的硬件和軟件技術，提供了強大的計算能力和高度優化的系統性能。這些創新将有助于推動 AI、科研和工程領域的快速發展，滿足各種行業在大數據和複雜計算任務方面的需求。

騰訊雲新一代 HCC 高性能計算集群通過自研硬件、網絡、存儲和軟件優化等各個方面的突破，将高性能計算的能力提升到了一個新的高度。正如科幻電影中的智能機器人，新一代 HCC 集群将不斷學習、進化，爲各行各業提供強大的計算支持，推動國内人工智能領域的進步。

點擊「在看」

是對我們最大的鼓勵