AIGC 時代,誰說煉大模型就一定得用 GPU?
英特至強 CPU,運行擴散模型 Stable Diffusion 隻需 5 秒就能出圖。
而在這兩天,專門搭載在該 CPU 上使用的 AI 加速器更是新鮮出爐。
它叫Gaudi2,面向中國市場發布,用于加速 AI 訓練及推理,有了它,大規模部署 AI 便多了一種新選擇。
性能上,它在 MLPerf 最新報告中的多種訓練和推理基準測試中都直接超越了英偉達 A100,并提供了約 2 倍的性價比。
至于 H100,它雖然還不能敵過,但若拉上成本,則也能 " 扳回一局 "。
這款主打超強性價比的 AI 加速器,究竟什麽來頭?
Gaudi2 深度學習加速器暨 Gaudi2 夾層卡 HL-225B,以第一代 Gaudi 高性能架構爲基礎,加速高性能大語言模型運行。
(ps. Gaudi1 代處理器誕生于 2019 年,其背後公司來自以色列,當年年底被英特爾以 20 億美元收購,如今成爲英特爾 " 叫闆 " 英偉達的重要底氣。)
Gaudi2 采用7nm制程工藝,具備 24 個可編程 Tensor 處理器核心(TPCs),支持面向 AI 的各類高級數據類型:FP8、BF16、FP16、TF32 和 FP32。
它配備 21 個 100 Gbps(RoCEv2)以太網接口,可通過直接路由實現 Gaudi 處理器間通信(相比原版少了 3 個,但英特爾公司執行副總裁 Sandra Rivera 介紹,這對整體性能影響基本不大)。
同時,它還能做到 2.4TB/ 秒的總内存帶寬,先進的 HBM 控制器則針對随機訪問和線性訪問進行了優化,在各種訪問模式下都可以提供這一保證。
此外,48MB 片上 SRAM 和集成多媒體處理引擎亦是标配。
就在上個月公布的 MLCommons ® MLPerf ® 基準測試中,Gaudi2 在 1750 億參數的 GPT-3 模型訓練上表現出色,使用 384 個加速器上耗時 311 分鍾就完成了訓練。
雖然相比之下,英偉達隻需 61 分鍾便可,但這樣的成績需要 512 個 H100 ——由于 Gaudi2 的成本要遠低于 H100,所以要論性價比,Sandra Rivera 表示,Gaudi2 是更具誘惑力的選擇。
與此同時,Gaudi2 在基于 8 個和 64 個加速器助力的 BERT、8 個加速器助力的 ResNet-50 和 Unet3D 訓練結果上,全部優于 A100。
此外,Gaudi2 也可爲大規模的多模态和語言模型提供出色的推理性能。
在最近的 Hugging Face 評估中,其在大規模推理方面的表現,包括在運行 Stable Diffusion、70 億以及 1760 億參數 BLOOMZ 模型時,在行業内均保持領先。
能耗方面,訓練計算機視覺模型時,Gaudi2 的每瓦性能是 A100 的 2 倍,推理 176B 參數的 BLOOMZ 時,功耗則可降低 40%。
——不僅性能和功耗強大,英特爾還提供了配套的成熟軟件支持:SynapseAI。
它可以方便開發者輕松構建模型,或将當前基于 GPU 的模型業務和系統遷移到基于全新 Gaudi2 服務器。
同時,SynapseAI 集成了對 TensorFlow 和 PyTorch 框架的支持,提供衆多流行的計算機視覺和自然語言參考模型,可以滿足深度學習開發者的多樣化需求。
另外,說到 Gaudi2 服務器,現在,英特爾已與浪潮信息合作,打造并發售基于 Gaudi2 深度學習加速器的浪潮信息 AI 服務器 NF5698G7。
該服務器集成了 8 顆 Gaudi2 加速卡 HL-225B,還包含雙路第四代英特爾至強可擴展處理器,進一步幫助大家高效部署大模型。
最後,值得一提的是,在發布會後的交流環節中,當被問及英特爾是否有一個預期,能占領多少 AI 加速芯片的市場時,Sandra Rivera 表示:
國内 AI 産品需求非常大,産品完全不夠用。因此市場就在那裏,在這種情況下我們不用特别設什麽份額的目标,就把最好的産品帶出來,滿足市場需求,幫助大家創新,這就是我們想要做的事情。
而據量子位現場獲悉,明年,能夠進一步縮小差距甚至超越英偉達 H100 的 Gaudi3 就将問世。
與此同時,2025 年之時,英特爾還将整合既有的 GPU Max 産品線和 Gaudi 系列,取兩者之長,推出更加完整的下一代 GPU 産品。
而在這之中,英特爾将對大家最爲關心的可持續軟件生态做大筆投入。
(咳咳,好戲才剛剛開始~)