本文介紹了英特爾 ® 至強 ® 處理器在 AI 推理領域的優勢,如何使用一鍵部署的鏡像進行純 CPU 環境下基于 AMX 加速後的 DeepSeek-R1 7B 蒸餾模型推理,以及純 CPU 環境下部署 DeepSeek-R1 671B 滿血版模型實踐。
大模型因其參數規模龐大、結構複雜,通常需要強大的計算資源來支持其推理過程,這使得算力成爲大模型應用的核心要素。随着 DeepSeek-R1 模型的問世,各行各業紛紛展開了關于如何接入大模型能力的廣泛調研與探索,市場對大模型推理算力的需求呈現出爆發式增長的趨勢。
例如在醫療、金融、零售等領域,企業迫切希望通過接入 DeepSeek 大模型來提升決策效率和業務能力,從而推動行業的創新發展。在這一背景下,算力的供給和優化成爲推動大模型落地應用的重要因素。
近年來,CPU 制程和架構的提升以及英特爾 ® 高級矩陣擴展 AMX(Advanced Matrix Extensions)加速器的面世帶來了算力的快速提升。英特爾對大模型推理等多個 AI 領域持續深入研究,提供全方位的 AI 軟件支持,兼容主流 AI 軟件且提供多種軟件方式提升 CPU 的 AI 性能。目前,已有充分的數據顯示 CPU 完全可以用于大模型推理場景。
CPU 适用于以下大模型推理場景:
場景 1: 大模型推理需要的内存超過了單塊 GPU 的顯存容量,需要多塊或更高配 GPU 卡,采用 CPU 方案,可以降低成本;
場景 2: 應用請求量小,GPU 利用率低,采用 CPU 推理,資源劃分的粒度更小,可有效降低起建成本;
場景 3: GPU 資源緊缺,CPU 更容易獲取,且可以勝任大模型推理。
天翼雲 EMR 實例 DeepSeek-R1-Distill-Qwen-7B 蒸餾模型部署實踐
本節内容主要介紹如何在天翼雲 EMR 實例上,基于 Intel ® xFasterTransformer 加速庫和 vllm 推理引擎完成模型部署,并展示相關性能指标。
服務部署
爲了方便用戶使用,天翼雲聯合英特爾制作了一鍵部署的雲主機鏡像,内置 DeepSeek-R1-Distill-Qwen-7B 模型、vLLM 推理框架、xFT 加速庫以及 open-webui 前端可視環境。您可在天翼雲控制台選擇下列資源池和鏡像,開通雲主機進行體驗。

完成雲主機開通後,推理服務會在 5 分鍾内自動啓動,您無需進行任何其他操作。
注:如需在雲主機外訪問服務,您需要綁定彈性 IP,并在安全組内放行 22/3000/8000 端口。
模型使用
open-webui 前端使用
鏡像已内置 open-webui,并已完成和 vllm 的連接配置,可直接通過以下地址進行訪問 :
http:// [ 彈性 IP ] :3000/
注:1. 首次打開頁面時,您需要先完成管理員注冊,以進行後續的用戶管理。注冊數據均保存在雲實例的 /root/volume/open-webui 目錄下。
2. 如果首次打開對話頁面時沒有模型可供選擇 , 請您稍等幾分鍾讓模型完成加載即可。

vllm api 調用
鏡像内置 vllm 服務可直接通過如下地址訪問:
# 根路徑 http:// [ 彈性 IP ] :8000/# 查詢現有模型 http:// [ 彈性 IP ] :8000/v1/models# 其他 api 接口參閱 vllm 文檔
注:vllm 服務配置有 API_KEY,您可在雲實例的 /root/recreate_container.sh 文件開頭查看到當前值,并可進行修改以确保服務安全。
性能指标
借助于英特爾 AMX 的加速能力,本推理服務能夠取得顯著的性能提升,天翼雲完成測試并給出參考指标如下:
基本參數
vcpu 數:24(物理核 12)
内存:64GB
硬盤:60G 通用型 SSD
模型:DeepSeek-R1-Distill-Qwen-7B(bf16)
batch size:1
輸入 token 個數:30-60
輸出 token 個數:256
性能數據
平均 token 生成速率:

首 token 時延:

在天翼雲 c8e 系列 24vcpu 雲主機上,啓用 AMX 加速能力後,DeepSeek 7B 蒸餾模型(BF16)推理速度能夠超越 9token/s,滿足日常使用需求。
基于英特爾 ® 至強 ® 6 處理器部署滿血版 DeepSeek-R1 671B 實踐性能指标
DeepSeek R1 671B 滿血版模型以其卓越的性能,爲用戶帶來了極緻的效果體驗,不過其部署成本也不容小觑。若采用傳統的 GPU 部署方式,需要 8-16 張 GPU 才能提供足夠的支持,這無疑大幅增加了硬件購置、能耗以及維護等方面的成本。
在這樣的背景下,天翼雲基于英特爾 ® 提供的至強 ® 6 處理器服務器進行了 DeepSeek R1 671B 滿血版 Q4_K_M 模型的部署嘗試,測試結果如下 :
1-instance 1-socket:
平均吞吐性能 9.7~10 token/s
2-instance 1-socket:
平均 7.32 token/s 和 7.38token/s, 共 14.7token/s
從上面測試數據可以看到,采用單實例單 socket 部署下,DeepSeek R1 671B 滿血版模型可達到平均 9.7~10 token/s 的吞吐量,而在雙實例部署模式中,總體吞吐量提升至 14.7 token/s。單顆 CPU 系統的吞吐性能可以達到普通用戶正常使用的需要。
英特爾®至強®6 處理器簡介
英特爾 ® 至強 ® CPU 爲 DeepSeek R1 671B 模型的部署提供了一個極具競争力的方案。英特爾 ® 至強 ® CPU 具備支持 T 級超大内存的能力,這使得它在權重存儲與加載方面表現高效。對于像 DeepSeek R1 671B 這樣的超大模型,其所需的顯存容量在多卡 GPU 配置下才能滿足,而英特爾 ® 至強 ® CPU 能夠憑借其強大的内存支持能力,爲該模型提供良好的運行環境。
此外,DeepSeek R1 模型采用的 MOE(Mixture of Experts)結構,通過參數稀疏化的方式,使得在單 token 推理時僅需激活少量專家參數。這種特性顯著降低了推理過程中的算力要求,與 CPU 的計算特點相契合,使得模型在 CPU 系統上的運行更加高效。這意味着在英特爾 ® 至強 ® CPU 上部署 DeepSeek R1 671B 模型,不僅能夠充分發揮模型的性能優勢,還能有效降低部署成本,避免了對大量 GPU 的依賴。
如需複現以上性能測試結果,請參看附錄 2
總結
通過本次實踐,無論是在天翼雲 EMR 雲實例上結合 xFasterTransformer 部署 DS R1 distill Qwen-7B 蒸餾模型,還是基于英特爾 ® 至強 ® 6 處理器部署滿血版 DeepSeek-R1 671B 模型,均驗證了 CPU 系統在 DeepSeek 大模型推理上的可行性和符合業界普遍要求的性能表現。CPU 系統不僅能夠靈活應對不同規模的模型需求,無論是輕量化蒸餾模型還是全功能滿血模型,都能高效滿足用戶場景需求,提供了一種低成本、經濟高效的解決方案。
附錄 1 英特爾 ® 至強 ® 可擴展處理器與 AI 加速技術最新英特爾®至強®可擴展處理器産品英特爾第五代®至強®可擴展處理器(代号 Emerald Rapids)——爲 AI 加速而生
第五代英特爾 ® 至強 ® 處理器以專爲 AI 工作負載量身定制的設計理念,實現了核心架構和内存系統的雙重飛躍。其 64 核心設計搭配高達 320MB 的三級緩存(每核心由 1.875MB 提升至 5MB),相較上代緩存容量實現近三倍增長,爲大規模并行 AI 推理提供充裕的本地數據存儲空間。與此同時,處理器支持 DDR5-5600 高速内存,單路最大 4TB 的容量保證了大數據處理時的帶寬和延遲優勢。基于這些硬件提升,Emerald Rapids 整體性能較上一代提升 21%,AI 推理性能平均提升 42%,在大語言模型推理場景中可實現最高 1.5 倍的性能加速,同時大幅降低總擁有成本達 77%。
英特爾®至強®6 處理器(代号 GNR Granite Rapids)——引領 CPU AI 算力革新
全新 GNR 處理器專爲應對人工智能、數據分析及科學計算等計算密集型任務而設計。該産品在内核數量、内存帶寬及專用 AI 加速器方面均實現重大突破:
核心與性能:每 CPU 配備多達 128 個性能核心,單路核心數較上一代翻倍,同時平均單核性能提升達 1.2 倍、每瓦性能提升 1.6 倍,進一步強化了 CPU 在大模型推理中的獨立處理能力;
AI 加速功能:内置英特爾 ® 高級矩陣擴展(AMX)新增對 FP16 數據類型的支持,使得生成式 AI 和傳統深度學習推理任務均能獲得顯著加速;
内存與 I/O 突破:支持 DDR5-6400 内存及英特爾首款引入的 Multiplexed Rank DIMM ( MRDIMM ) 技術,有效将内存帶寬提升至上一代的 2.3 倍;同時,高達 504MB 的三級緩存和低延遲設計确保數據能夠更快加載,爲複雜模型訓練和推理縮短響應時間。
英特爾 ® 至強 ® 6 處理器不僅通過更多的核心和更高的單線程性能提升了 AI 大模型推理能力,同時也能夠作爲機頭 CPU 爲 GPU 和其他加速器提供高速數據供給,進一步縮短整體模型訓練時間。在滿足混合工作負載需求的同時,其 TCO 平均降低 30%,大模型推理加速最高可達 2.4 倍。
無論是第五代至強還是全新的至強 6 處理器,英特爾均通過在核心架構、緩存系統、内存技術和專用 AI 加速器方面的全面革新,提供了業界領先的 AI 計算支持。這兩款産品爲數據中心和高性能計算平台在 AI 推理、訓練以及多樣化工作負載下提供了強大而高效的算力保障。

△圖 1 英特爾高級矩陣擴展(AMX)英特爾全方位的 AI 軟件生态支持
英特爾及其合作夥伴憑借多年 AI 積累,圍繞至強 ® 可擴展處理器打造了完善的軟件生态:廣泛支持主流開源框架,通過插件優化及多樣化開源工具鏈,使用戶在 x86 平台上能夠輕松開發、部署通用 AI 應用,無需手動調整,同時确保從終端到雲的全程安全保護。
其中,xFasterTransformer(xFT)是英特爾官方開源的 AI 推理框架,專爲大語言模型在至強 ® 平台上深度優化。xFT 不僅支持多種數據精度(FP16、BF16、INT8、INT4),還能利用多 CPU 節點實現分布式部署,顯著提升推理性能并降低成本。其簡單的安裝和與主流 Serving 框架(如 vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle)的兼容性,幫助用戶快速加速大模型應用。在 3.1 節中基于天翼雲 EMR 雲主機和 xFasterTransformer 加速引擎實現了對與 DeepSeek R1 蒸餾模型的高效推理部署。

△圖 2 英特爾提供 AI 軟件工具 全面兼容主流 AI 開發框架附錄 2 CPU 環境下部署 DeepSeek-R1 671B 模型實踐環境配置
硬件配置
CPU:Intel ® Xeon ® 6980P Processor, 128core 2.00 GHz
内存 24*64GB DDR5-6400
存儲 1TB NVMe SSD
軟件環境
OS: Ubuntu 22.04.5 LTS
Kernel: 5.15.0-131-generic
llama.cpp: github bd6e55b
cmake: 3.22.0
gcc/g++: 11.4.0
Python: 3.12.8
git: 2.34.1
BIOS ⾥關閉 sub NUMA 相關配置。
注:版本是指本測試中服務器上安裝的版本,并⾮要求的最低版本。
部署步驟 1. 安裝 llama.cpp
參考 llama.cpp 官⽹的安裝說明,我們的步驟如下。
# 下載 llama.cpp 推理框架源碼 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp# 預先準備 intel oneapi 庫 source /opt/intel/oneapi/setvars.sh# 基于 oneapi 庫對 llama.cpp 進行編譯 cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON cmake --build build --config Release -j$nproc
2. 下載模型⽂件
社區提供了從 1bit 到 8bit 不同版本的量化選項,具體區别可以參考社區網頁。我們選擇了使用最受歡迎的 Q4_K_M 版本。如果追求最佳效果,建議使用 Q8_0 版本。


# 下載 unsloth 制作的社區版量化模型 ( hf-mirror 和 modelscpoe 源都可 ) git clone — no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/# 建議 nohup 執行 , 預計至少需要半天時間 , 同時确保磁盤容量足夠 400G.git lfs pull — include="DeepSeek-R1-Q4_K_M/*"
3. 模型加載和運⾏
使用 llama-cli,指定模型文件路徑并啓用交互模式,DeepSeek R1 滿血版就可以在 CPU 上順利運行了。
build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i
下面用幾個示例展現 DeepSeek-R1 671B 滿血版強大的的 reasoning 推理能力 :
測試模型自我認知 :
驗證推理能⼒的經典 " 草莓 " 問題 :

" 等燈等燈 " 的意思 :

4. 性能及優化
那麽 CPU 運⾏滿⾎版 R1 的性能怎麽樣呢?我們做了相關性能測試。對于 Q4_K_M 模型,使⽤如下命令進行 :
export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.ggufnumactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 — temp 0.6 -s 42 -no-cnv — no-kv-offload -ctk q4_0 -c 8192 -n 128 -p "<|User|> 以孤獨的夜行者爲題寫一篇 750 字的散文,描繪一個人在城市中夜晚漫無目的行走的心情與所見所感,以及夜的寂靜給予的獨特感悟。<|Assistant|>"
這⾥使⽤ numactl 來指定使⽤單路 CPU ( 0-127, 6980P 有 128 核 ) ,以及這⼀路 CPU 的内存節點(numa0),避免跨 numa 傳輸以獲取最佳性能。
llama.cpp 是本地編譯的,編譯的時候使⽤ Intel oneAPI 可以有效提升它的性能。英特爾嘗試⽤了 oneAPI ⾥的 Intel C++ 編譯器和數學加速庫 MKL,結合 jemalloc 内存管理優化,推理速度可以達到每秒 9.7~10 詞元 ( TPS, tokens per second ) 。
上⾯的實驗是在單路 CPU 上進⾏的,我們⼜在兩路 CPU 上各⾃獨⽴啓動 1 個模型實例,總速度可以達到 14.7TPS ( 7.32TPS+7.38TPS ) 。
再進⼀步,英特爾觀察到基于現有的 llama.cpp 軟件⽅案,在 CPU 平台沒有實現⾼效的專家并⾏和張量并⾏等優化,CPU 核⼼利⽤率和帶寬資源沒有充分發揮出來,6980P 的 128 核⼼運⾏ 1 個模型還有不少性能儲備。預計可以繼續增加實例數來獲得更好的總 TPS。
另外,通常情況下,CPU 的 SNC ( Sub-NUMA Clustering ) 設置可以獲得更⾼的帶寬,但是受限于軟件并未優化實現良好匹配,此次實驗關閉了 SNC 測試。
以下⽅式的系統配置也有助于提升性能:
BIOS ⾥關閉 AMP prefetcher
⽤ cpupower 打開 CPU 的 pstate 性能模式
提⾼ CPU 的 uncore 頻率
關閉超線程 ( Hyper-Threading )
注 : 爲了加快試驗進度,我們限制了詞元輸出⻓度 ( -n 128 ) 。經過驗證,增加輸出⻓度 ( 例如 -n 512 ) 對于生成性能指标的影響不大。
* 本文系量子位獲授權刊載,觀點僅爲原作者所有。