文章來源:天翼雲網站
量子位 | 公眾號 QbitAI
本文介紹了英特爾®至強®處理器在AI推理領域的優勢,如何使用一鍵部署的映象進行純CPU環境下基於AMX加速後的DeepSeek-R1 7B蒸餾模型推理,以及純CPU環境下部署DeepSeek-R1 671B滿血版模型實踐。
大模型因其引數規模龐大、結構複雜,通常需要強大的計算資源來支援其推理過程,這使得算力成為大模型應用的核心要素。隨著DeepSeek-R1模型的問世,各行各業紛紛展開了關於如何接入大模型能力的廣泛調研與探索,市場對大模型推理算力的需求呈現出爆發式增長的趨勢。
例如在醫療、金融、零售等領域,企業迫切希望透過接入DeepSeek大模型來提升決策效率和業務能力,從而推動行業的創新發展。在這一背景下,算力的供給和最佳化成為推動大模型落地應用的重要因素。
近年來,CPU製程和架構的提升以及英特爾®高階矩陣擴充套件AMX(Advanced Matrix Extensions)加速器的面世帶來了算力的快速提升。英特爾對大模型推理等多個AI領域持續深入研究,提供全方位的AI軟體支援,相容主流AI軟體且提供多種軟體方式提升CPU的AI效能。目前,已有充分的資料顯示CPU完全可以用於大模型推理場景。
CPU適用於以下大模型推理場景:
-
場景1: 大模型推理需要的記憶體超過了單塊GPU的視訊記憶體容量,需要多塊或更高配GPU卡,採用CPU方案,可以降低成本;
-
場景2: 應用請求量小,GPU利用率低,採用CPU推理,資源劃分的粒度更小,可有效降低起建成本;
-
場景3: GPU資源緊缺,CPU更容易獲取,且可以勝任大模型推理。
天翼雲EMR例項DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實踐
本節內容主要介紹如何在天翼雲EMR例項上,基於Intel®xFasterTransformer加速庫和vllm推理引擎完成模型部署,並展示相關效能指標。
服務部署
為了方便使用者使用,天翼雲聯合英特爾製作了一鍵部署的雲主機映象,內建DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架、xFT加速庫以及open-webui前端可視環境。您可在天翼雲控制檯選擇下列資源池和映象,開通雲主機進行體驗。

完成雲主機開通後,推理服務會在5分鐘內自動啟動,您無需進行任何其他操作。
注:如需在雲主機外訪問服務,您需要繫結彈性IP,並在安全組內放行22/3000/8000埠。
模型使用
open-webui前端使用
映象已內建open-webui,並已完成和vllm的連線配置,可直接透過以下地址進行訪問:
http://[彈性IP]:3000/
注:1.首次開啟頁面時,您需要先完成管理員註冊,以進行後續的使用者管理。註冊資料均儲存在雲實例的/root/volume/open-webui目錄下。
2.如果首次開啟對話頁面時沒有模型可供選擇, 請您稍等幾分鐘讓模型完成載入即可。

vllm api呼叫
映象內建vllm服務可直接透過如下地址訪問:
http://[彈性IP]:8000/
http://[彈性IP]:8000/v1/models
注:vllm服務配置有API_KEY,您可在雲實例的/root/recreate_container.sh檔案開頭檢視到當前值,並可進行修改以確保服務安全。
效能指標
藉助於英特爾AMX的加速能力,本推理服務能夠取得顯著的效能提升,天翼雲完成測試並給出參考指標如下:
基本引數
vcpu數:24(物理核12)
記憶體:64GB
硬碟:60G 通用型SSD
模型:DeepSeek-R1-Distill-Qwen-7B(bf16)
batch size:1
輸入token個數:30-60
輸出token個數:256
效能資料
平均token生成速率:

首token時延:

在天翼雲c8e系列24vcpu雲主機上,啟用AMX加速能力後,DeepSeek 7B蒸餾模型(BF16)推理速度能夠超越9token/s,滿足日常使用需求。
基於英特爾®至強®6處理器部署滿血版DeepSeek-R1 671B實踐
效能指標
DeepSeek R1 671B 滿血版模型以其卓越的效能,為使用者帶來了極致的效果體驗,不過其部署成本也不容小覷。若採用傳統的 GPU 部署方式,需要8-16張 GPU 才能提供足夠的支援,這無疑大幅增加了硬體購置、能耗以及維護等方面的成本。
在這樣的背景下,天翼雲基於英特爾®提供的至強®6處理器伺服器進行了DeepSeek R1 671B滿血版Q4_K_M模型的部署嘗試,測試結果如下:
1-instance 1-socket:
平均吞吐效能9.7~10 token/s
2-instance 1-socket:
平均7.32 token/s和7.38token/s, 共14.7token/s
從上面測試資料可以看到,採用單例項單socket部署下,DeepSeek R1 671B滿血版模型可達到平均9.7~10 token/s的吞吐量,而在雙例項部署模式中,總體吞吐量提升至14.7 token/s。單顆CPU系統的吞吐效能可以達到普通使用者正常使用的需要。
英特爾®至強®6處理器簡介
英特爾®至強®CPU 為 DeepSeek R1 671B 模型的部署提供了一個極具競爭力的方案。英特爾®至強®CPU 具備支援 T 級超大記憶體的能力,這使得它在權重儲存與載入方面表現高效。對於像 DeepSeek R1 671B 這樣的超大模型,其所需的視訊記憶體容量在多卡 GPU 配置下才能滿足,而英特爾®至強®CPU 能夠憑藉其強大的記憶體支援能力,為該模型提供良好的執行環境。
此外,DeepSeek R1 模型採用的 MOE(Mixture of Experts)結構,透過引數稀疏化的方式,使得在單 token 推理時僅需啟用少量專家引數。這種特性顯著降低了推理過程中的算力要求,與 CPU 的計算特點相契合,使得模型在 CPU 系統上的執行更加高效。這意味著在英特爾®至強®CPU 上部署 DeepSeek R1 671B 模型,不僅能夠充分發揮模型的效能優勢,還能有效降低部署成本,避免了對大量 GPU 的依賴。
如需復現以上效能測試結果,請參看附錄2
總結
透過本次實踐,無論是在天翼雲EMR雲實例上結合xFasterTransformer部署DS R1 distill Qwen-7B蒸餾模型,還是基於英特爾®至強®6處理器部署滿血版DeepSeek-R1 671B模型,均驗證了CPU系統在DeepSeek大模型推理上的可行性和符合業界普遍要求的效能表現。CPU系統不僅能夠靈活應對不同規模的模型需求,無論是輕量化蒸餾模型還是全功能滿血模型,都能高效滿足使用者場景需求,提供了一種低成本、經濟高效的解決方案。
附錄1 英特爾®至強®可擴充套件處理器與AI加速技術
最新英特爾®至強®可擴充套件處理器產品
英特爾第五代®至強®可擴充套件處理器(代號 Emerald Rapids)——為AI加速而生
第五代英特爾®至強®處理器以專為AI工作負載量身定製的設計理念,實現了核心架構和記憶體系統的雙重飛躍。其64核心設計搭配高達320MB的三級快取(每核心由1.875MB提升至5MB),相較上代快取容量實現近三倍增長,為大規模並行AI推理提供充裕的本地資料儲存空間。與此同時,處理器支援DDR5-5600高速記憶體,單路最大4TB的容量保證了大資料處理時的頻寬和延遲優勢。基於這些硬體提升,Emerald Rapids整體效能較上一代提升21%,AI推理效能平均提升42%,在大語言模型推理場景中可實現最高1.5倍的效能加速,同時大幅降低總擁有成本達77%。
英特爾®至強®6處理器(代號 GNR Granite Rapids)——引領CPU AI算力革新
全新GNR處理器專為應對人工智慧、資料分析及科學計算等計算密集型任務而設計。該產品在核心數量、記憶體頻寬及專用AI加速器方面均實現重大突破:
-
核心與效能:每CPU配備多達128個性能核心,單路核心數較上一代翻倍,同時平均單核效能提升達1.2倍、每瓦效能提升1.6倍,進一步強化了CPU在大模型推理中的獨立處理能力;
-
AI加速功能:內建英特爾®高階矩陣擴充套件(AMX)新增對FP16資料型別的支援,使得生成式AI和傳統深度學習推理任務均能獲得顯著加速;
-
記憶體與I/O突破:支援DDR5-6400記憶體及英特爾首款引入的Multiplexed Rank DIMM (MRDIMM) 技術,有效將記憶體頻寬提升至上一代的2.3倍;同時,高達504MB的三級快取和低延遲設計確保資料能夠更快載入,為複雜模型訓練和推理縮短響應時間。
英特爾®至強®6處理器不僅透過更多的核心和更高的單執行緒效能提升了AI大模型推理能力,同時也能夠作為機頭CPU為GPU和其他加速器提供高速資料供給,進一步縮短整體模型訓練時間。在滿足混合工作負載需求的同時,其TCO平均降低30%,大模型推理加速最高可達2.4倍。
無論是第五代至強還是全新的至強6處理器,英特爾均透過在核心架構、快取系統、記憶體技術和專用AI加速器方面的全面革新,提供了業界領先的AI計算支援。這兩款產品為資料中心和高效能計算平臺在AI推理、訓練以及多樣化工作負載下提供了強大而高效的算力保障。

△圖1 英特爾高階矩陣擴充套件(AMX)
英特爾全方位的AI軟體生態支援
英特爾及其合作伙伴憑藉多年AI積累,圍繞至強®可擴充套件處理器打造了完善的軟體生態:廣泛支援主流開源框架,透過外掛最佳化及多樣化開源工具鏈,使使用者在x86平臺上能夠輕鬆開發、部署通用AI應用,無需手動調整,同時確保從終端到雲的全程安全保護。
此外,至強®處理器內建多種AI加速指令(如AVX-512、AMX),使得任何相容軟體均可直接呼叫加速功能。開發者可免費下載英特爾分發版工具、庫及開發環境,充分利用這些內建加速器應對各類AI管線需求。結合多樣化硬體優勢與開放生態,英特爾透過經濟、可擴充套件的方案,將AI能力無縫延伸至雲端與邊緣。
其中,xFasterTransformer(xFT)是英特爾官方開源的AI推理框架,專為大語言模型在至強®平臺上深度最佳化。xFT不僅支援多種資料精度(FP16、BF16、INT8、INT4),還能利用多CPU節點實現分散式部署,顯著提升推理效能並降低成本。其簡單的安裝和與主流Serving框架(如vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle)的相容性,幫助使用者快速加速大模型應用。在3.1節中基於天翼雲EMR雲主機和xFasterTransformer加速引擎實現了對與DeepSeek R1蒸餾模型的高效推理部署。

△圖2 英特爾提供AI軟體工具 全面相容主流AI開發框架
附錄2 CPU環境下部署DeepSeek-R1 671B模型實踐
環境配置
硬體配置
-
CPU:Intel®Xeon® 6980P Processor, 128core 2.00 GHz
-
記憶體 24*64GB DDR5-6400
-
儲存 1TB NVMe SSD
軟體環境
-
OS: Ubuntu 22.04.5 LTS
-
Kernel: 5.15.0-131-generic
-
llama.cpp: github bd6e55b
-
cmake: 3.22.0
-
gcc/g++: 11.4.0
-
Python: 3.12.8
-
git: 2.34.1
BIOS⾥關閉sub NUMA相關配置。
注:版本是指本測試中伺服器上安裝的版本,並⾮要求的最低版本。
部署步驟
1. 安裝llama.cpp
參考llama.cpp官⽹的安裝說明,我們的步驟如下。
# 下載llama.cpp推理框架原始碼
gitclone https://github.com/ggerganov/llama.cpp.git
cdllama.cpp
# 預先準備intel oneapi庫
source/opt/intel/oneapi/setvars.sh
# 基於oneapi庫對llama.cpp進行編譯
cmake-B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON
cmake--build build --config Release -j$nproc
2. 下載模型⽂件
我們直接使用了社群製作的DeepSeek 671B滿血模型的Q4量化版,您也可以下載DeepSeek官方BF16版本,並透過 llama.cpp 提供的指令碼轉換為 GGUF 格式。
社群提供了從 1bit 到 8bit 不同版本的量化選項,具體區別可以參考社群網頁。我們選擇了使用最受歡迎的 Q4_K_M 版本。如果追求最佳效果,建議使用 Q8_0 版本。


# 下載unsloth製作的社群版量化模型(hf-mirror和modelscpoe源都可)
git clone —no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/
# 建議nohup執行, 預計至少需要半天時間, 同時確保磁碟容量足夠400G.
git lfs pull —include=”DeepSeek-R1-Q4_K_M/*”
Q4_K_M 版本的檔案大小為 404.43GB,下載過程可能會比較耗時。下載完成後,您可以在 DeepSeek-R1-Q4_K_M 目錄下找到一系列 .gguf 檔案,例如 DeepSeek-R1-Q4_K_M-00001-of-00009.gguf。
3. 模型載入和運⾏
使用 llama-cli,指定模型檔案路徑並啟用互動模式,DeepSeek R1 滿血版就可以在 CPU 上順利運行了。
build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i
下面用幾個示例展現DeepSeek-R1 671B滿血版強大的的reasoning推理能力:
測試模型自我認知:

驗證推理能⼒的經典“草莓”問題:

“等燈等燈”的意思:

4. 效能及最佳化
那麼CPU運⾏滿⾎版R1的效能怎麼樣呢?我們做了相關效能測試。對於Q4_K_M模型,使⽤如下命令進行:
export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.gguf
numactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 —temp 0.6 -s 42 -no-cnv —no-kv-offload -ctk q4_0 -c 8192 -n 128 -p “<|User|>以孤獨的夜行者為題寫一篇750字的散文,描繪一個人在城市中夜晚漫無目的行走的心情與所見所感,以及夜的寂靜給予的獨特感悟。<|Assistant|>”
這⾥使⽤numactl來指定使⽤單路CPU (0-127, 6980P有128核),以及這⼀路CPU的記憶體節點(numa0),避免跨numa傳輸以獲取最佳效能。
llama.cpp是本地編譯的,編譯的時候使⽤Intel oneAPI可以有效提升它的效能。英特爾嘗試⽤了oneAPI⾥的Intel C++編譯器和數學加速庫MKL,結合jemalloc記憶體管理最佳化,推理速度可以達到每秒9.7~10詞元 (TPS, tokens per second)。
上⾯的實驗是在單路CPU上進⾏的,我們⼜在兩路CPU上各⾃獨⽴啟動1個模型例項,總速度可以達到14.7TPS (7.32TPS+7.38TPS)。
再進⼀步,英特爾觀察到基於現有的llama.cpp軟體⽅案,在CPU平臺沒有實現⾼效的專家並⾏和張量並⾏等最佳化,CPU核⼼利⽤率和頻寬資源沒有充分發揮出來,6980P的128核⼼運⾏1個模型還有不少效能儲備。預計可以繼續增加例項數來獲得更好的總TPS。
另外,通常情況下,CPU的SNC (Sub-NUMA Clustering)設定可以獲得更⾼的頻寬,但是受限於軟體並未最佳化實現良好匹配,此次實驗關閉了SNC測試。
以下⽅式的系統配置也有助於提升效能:
-
BIOS⾥關閉AMP prefetcher
-
⽤cpupower開啟CPU的pstate效能模式
-
提⾼CPU的uncore頻率
-
關閉超執行緒(Hyper-Threading)
注: 為了加快試驗進度,我們限制了詞元輸出⻓度(-n 128)。經過驗證,增加輸出⻓度(例如-n 512)對於生成效能指標的影響不大。
*本文系量子位獲授權刊載,觀點僅為原作者所有。
— 完 —
一鍵關注
點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!