AI 生命周期包括最重要的兩個部分,一個是 AI 訓練,一個是 AI 推理。
其中,AI 訓練就是讓模型識别數據模式,是數據和處理最密集的部分,需要大規模的算力。
在這一階段,往往優先使用大規模并行的 GPU 加速器或專用的 AI 加速器,有時候根據情況也可以使用超高性能的 CPU 處理器。
AI 推理則是基于訓練好的模型,實時處理輸入的數據,隻需較小的算力,更接近數據的實際位置,更強調持續運算與低延遲。
因此,這個階段使用常規的 CPU 最合适,其性能、能效、兼容性、性價比完美符合 AI 推理需求。
當然,這對 CPU 的綜合素質也是有着很高的需求的,足夠強大且平衡的性能、能效、成本才能帶來足夠高的效率、效益。
一般來說,GPU 訓練,CPU 推理,再加上開發框架和軟件支持,構成了最合适的完整 AI 生命周期。
作爲行業唯一同時擁有高性能 GPU、CPU、FPGA 平台性解決方案的 AMD,再加上 ROCm 開發平台的不斷成熟,在 AI 訓練、推理的整個生命周期裏都有着得天獨厚的優勢,尤其是 EPYC CPU 簡直做到了無敵寂寞。
如今,AMD EPYC 處理器已經成爲最常被選擇用于 AI 推理的服務器平台,尤其是第四代 Genoa EPYC 9004 系列,執行 AI 推理的能力又得到了巨大的飛躍。
比如全新的 Zen 4 架構,相比上代在每時鍾周期執行指令數上提升了約 14%,再加上更高的頻率,性能有了極大的提升。
比如先進的 5nm 制造工藝,它大大提高了處理器的集成度,結合新架構使得高性能、高能效成爲可能。
比如更多的核心與線程數量,比上代增加了足足一半,最高來到 96 個,并支持同步多線程,無需多路并行就能執行更多推理操作,同時處理上萬個源的數據推理需求也不在話下,從而兼具高并發、低延遲。
比如靈活高效的 AVX-512 擴展指令集,可高效執行大量的矩陣和向量計算,顯著提高卷積和矩陣乘法的速度,尤其是 BF16 數據類型可提高吞吐量,避免 INT8 數據的量化風險,而且還是雙周期的 256 位流水線設計,效率和能效都更高。
比如更強大的内存與 I/O,包括引入 DDR5 内存并支持多達 12 個通道,以及多達 128 條 PCIe 5.0 通道,成爲大規模數據傳輸的高速公路。
比如極高的能效,96 核心的熱設計功耗也隻需 360W,84 核心可以控制在 290W,從而顯著降低散熱方面的壓力。
還有一貫出色的性價比,可以大大降低 TCO ( 總擁有成本 ) 。
以及不要忘了,AMD EPYC 基于 x86 架構指令集,是大家最熟悉的、最熟練的,部署、開發和應用的難度與成本都遠低于各種特殊架構。
對于 AI,我們平常關注更多的是 AI 訓練,尤其是龐大的算力需求,AI 推理則是訓練之後真正落地體驗的階段,重要性同樣不言而喻,同樣需要恰到好處的軟硬件平台需求。
搭載 AMD EPYC 的服務器,就恰好爲基于 CPU 處理器的 AI 推理工作提供了一個優秀的平台。
96 核心、DDR5 内存和 PCIe 5.0 擴展、AVX-512 指令等實現了性能和能效的雙重提升,而爲處理器優化的庫、原語則提供強大的保駕護航。
無論任何模型還是場景,AMD EPYC 都能提供充足的高性能、高能效、高性價比。