科大訊飛：華爲昇騰 910B 能力基本可對标英偉達 A100

IT 之家 10 月 22 日消息，今年第三季度，科大訊飛實現淨利潤 2579 萬元，同比下降 81.86%；前三季度淨利潤 9936 萬元，同比下降 76.36%。

科大訊飛副總裁江濤在 Q3 業績說明會上透露，訊飛已于 2023 年初與華爲昇騰啓動專項攻關，與華爲聯合研發高性能算子庫，合力打造我國通用人工智能新底座，讓國産大模型架構在自主創新的軟硬件基礎之上。

他指出，目前華爲昇騰 910B 能力已經基本做到可對标英偉達 A100。在即将舉行的科大訊飛 1024 全球開發者節上，訊飛和華爲在人工智能算力底座上将有進一步聯合發布。

他還提到，該公司一直緻力于實現算法提升和工程技術方面的加速。自 2019 年被列入美國實體清單後，公司于 2022 年 10 月 7 日再次被美國對包括科大訊飛在内的 28 家中國人工智能、高性能芯片、超級計算機領域的頭部企業和機構加碼制裁。

IT 之家查詢公開資料發現，海思昇騰 910 發布于 2019 年，同時還推出了與之配套的新一代 AI 開源計算框架 MindSpore，而 MindSpore 也已經于 2020 年完成開源。

目前，華爲昇騰社區已公開 Atlas 300T 産品有三個型号，分别對應昇騰 910A、910B、910 Pro B，最大 300W 功耗，前兩者 AI 算力均爲 256 TFLOPS，而 910B Pro 可達 280 TFLOPS（FP16）。

作爲對比，NVIDIA A100 發布于 2020 年，采用雙精度 Tensor Core，基于 Ampere 架構，功耗達到了 400W，FP32 浮點性能 19.5TFLOPS，FP16 Tensor Core 性能可達 312TFLOPS / 624 TFLOPS（稀疏化）。

按照華爲官方給出的規格，昇騰 910 Pro B 要比 A100 慢 18% 左右，如果是考慮到稀疏化的話，那就是慢 59% 左右。

說到這裏也順便提一下 A800 芯片。這顆芯片是爲了解決去年的美國商務部的半導體出口規定特意推出的一款型号，算力等參數完全不變，隻是傳輸速率爲從每秒 600GB 降至 400GB，所以美國本周發布的半導體出口新規封堵了這一漏洞。

根據知乎上 AI 從業者的反饋，哪怕昇騰 910B 目前還有不少小問題、單卡性能落後于 A800、Arm 生态有所欠缺（應該是指 Mindspore 對比 CUDA），但随着英偉達先進産品被禁，後續國内廠商隻能被迫選擇昇騰，相信昇騰産品會更加完善，并且國産廠商還可以通過堆量、增加算力集群規模的方式完成替換，至少在大模型訓練領域整體差距不大。

值得一提的是，PyTorch 基金會本周三正式宣布華爲作爲 Premier 會員加入基金會，這也是中國首個、全球第十個 PyTorch 基金會最高級别會員。

除此之外，PyTorch 最新的 2.1 版本已同步支持昇騰 NPU，并在華爲的推動下更新了更加完善的第三方設備接入機制。基于該特性，三方 AI 算力設備無需對原有框架代碼進行修改就能對接 PyTorch 框架，昇騰也提供了官方認證的 Torch NPU 參考實現，可以指導三方設備便捷接入。

基于新版本，用戶可以在昇騰 NPU 上直接享受原生 PyTorch 的開發體驗，獲得高效運行在昇騰算力設備上的模型和應用。