天翼雲CPU例項部署DeepSeek-R1模型最佳實踐

文章來源：天翼雲網站

量子位 | 公眾號 QbitAI

本文介紹了英特爾^®至強^®處理器在AI推理領域的優勢，如何使用一鍵部署的映象進行純CPU環境下基於AMX加速後的DeepSeek-R1 7B蒸餾模型推理，以及純CPU環境下部署DeepSeek-R1 671B滿血版模型實踐。

大模型因其引數規模龐大、結構複雜，通常需要強大的計算資源來支援其推理過程，這使得算力成為大模型應用的核心要素。隨著DeepSeek-R1模型的問世，各行各業紛紛展開了關於如何接入大模型能力的廣泛調研與探索，市場對大模型推理算力的需求呈現出爆發式增長的趨勢。

例如在醫療、金融、零售等領域，企業迫切希望透過接入DeepSeek大模型來提升決策效率和業務能力，從而推動行業的創新發展。在這一背景下，算力的供給和最佳化成為推動大模型落地應用的重要因素。

近年來，CPU製程和架構的提升以及英特爾^®高階矩陣擴充套件AMX（Advanced Matrix Extensions）加速器的面世帶來了算力的快速提升。英特爾對大模型推理等多個AI領域持續深入研究，提供全方位的AI軟體支援，相容主流AI軟體且提供多種軟體方式提升CPU的AI效能。目前，已有充分的資料顯示CPU完全可以用於大模型推理場景。

CPU適用於以下大模型推理場景：

場景1: 大模型推理需要的記憶體超過了單塊GPU的視訊記憶體容量，需要多塊或更高配GPU卡，採用CPU方案，可以降低成本；
場景2: 應用請求量小，GPU利用率低，採用CPU推理，資源劃分的粒度更小，可有效降低起建成本；
場景3: GPU資源緊缺，CPU更容易獲取，且可以勝任大模型推理。

天翼雲EMR例項DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實踐

本節內容主要介紹如何在天翼雲EMR例項上，基於Intel^®xFasterTransformer加速庫和vllm推理引擎完成模型部署，並展示相關效能指標。

服務部署

為了方便使用者使用，天翼雲聯合英特爾製作了一鍵部署的雲主機映象，內建DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架、xFT加速庫以及open-webui前端可視環境。您可在天翼雲控制檯選擇下列資源池和映象，開通雲主機進行體驗。

完成雲主機開通後，推理服務會在5分鐘內自動啟動，您無需進行任何其他操作。

注：如需在雲主機外訪問服務，您需要繫結彈性IP，並在安全組內放行22/3000/8000埠。

模型使用

open-webui前端使用

映象已內建open-webui，並已完成和vllm的連線配置，可直接透過以下地址進行訪問:

http://[彈性IP]:3000/

注：1.首次開啟頁面時，您需要先完成管理員註冊，以進行後續的使用者管理。註冊資料均儲存在雲實例的/root/volume/open-webui目錄下。

2.如果首次開啟對話頁面時沒有模型可供選擇, 請您稍等幾分鐘讓模型完成載入即可。

vllm api呼叫

映象內建vllm服務可直接透過如下地址訪問：

# 根路徑http://[彈性IP]:8000/# 查詢現有模型http://[彈性IP]:8000/v1/models# 其他api介面參閱vllm文件

注：vllm服務配置有API_KEY，您可在雲實例的/root/recreate_container.sh檔案開頭檢視到當前值，並可進行修改以確保服務安全。

效能指標

藉助於英特爾AMX的加速能力，本推理服務能夠取得顯著的效能提升，天翼雲完成測試並給出參考指標如下：

基本引數

vcpu數：24（物理核12）

記憶體：64GB

硬碟：60G 通用型SSD

模型：DeepSeek-R1-Distill-Qwen-7B（bf16）

batch size：1

輸入token個數：30-60

輸出token個數：256

效能資料

平均token生成速率：

首token時延：

在天翼雲c8e系列24vcpu雲主機上，啟用AMX加速能力後，DeepSeek 7B蒸餾模型（BF16）推理速度能夠超越9token/s，滿足日常使用需求。

基於英特爾^®至強^®6處理器部署滿血版DeepSeek-R1 671B實踐

效能指標

DeepSeek R1 671B 滿血版模型以其卓越的效能，為使用者帶來了極致的效果體驗，不過其部署成本也不容小覷。若採用傳統的 GPU 部署方式，需要8-16張 GPU 才能提供足夠的支援，這無疑大幅增加了硬體購置、能耗以及維護等方面的成本。

在這樣的背景下，天翼雲基於英特爾^®提供的至強^®6處理器伺服器進行了DeepSeek R1 671B滿血版Q4_K_M模型的部署嘗試，測試結果如下:

1-instance 1-socket：

平均吞吐效能9.7~10 token/s

2-instance 1-socket：

平均7.32 token/s和7.38token/s，共14.7token/s

從上面測試資料可以看到，採用單例項單socket部署下，DeepSeek R1 671B滿血版模型可達到平均9.7～10 token/s的吞吐量，而在雙例項部署模式中，總體吞吐量提升至14.7 token/s。單顆CPU系統的吞吐效能可以達到普通使用者正常使用的需要。

英特爾^®至強^®6處理器簡介

英特爾^®至強^®CPU 為 DeepSeek R1 671B 模型的部署提供了一個極具競爭力的方案。英特爾^®至強^®CPU 具備支援 T 級超大記憶體的能力，這使得它在權重儲存與載入方面表現高效。對於像 DeepSeek R1 671B 這樣的超大模型，其所需的視訊記憶體容量在多卡 GPU 配置下才能滿足，而英特爾^®至強^®CPU 能夠憑藉其強大的記憶體支援能力，為該模型提供良好的執行環境。

此外，DeepSeek R1 模型採用的 MOE（Mixture of Experts）結構，透過引數稀疏化的方式，使得在單 token 推理時僅需啟用少量專家引數。這種特性顯著降低了推理過程中的算力要求，與 CPU 的計算特點相契合，使得模型在 CPU 系統上的執行更加高效。這意味著在英特爾^®至強^®CPU 上部署 DeepSeek R1 671B 模型，不僅能夠充分發揮模型的效能優勢，還能有效降低部署成本，避免了對大量 GPU 的依賴。

如需復現以上效能測試結果，請參看附錄2

總結

透過本次實踐，無論是在天翼雲EMR雲實例上結合xFasterTransformer部署DS R1 distill Qwen-7B蒸餾模型，還是基於英特爾^®至強^®6處理器部署滿血版DeepSeek-R1 671B模型，均驗證了CPU系統在DeepSeek大模型推理上的可行性和符合業界普遍要求的效能表現。CPU系統不僅能夠靈活應對不同規模的模型需求，無論是輕量化蒸餾模型還是全功能滿血模型，都能高效滿足使用者場景需求，提供了一種低成本、經濟高效的解決方案。

附錄1 英特爾^®至強^®可擴充套件處理器與AI加速技術

英特爾第五代^®至強^®可擴充套件處理器（代號 Emerald Rapids）——為AI加速而生

第五代英特爾^®至強^®處理器以專為AI工作負載量身定製的設計理念，實現了核心架構和記憶體系統的雙重飛躍。其64核心設計搭配高達320MB的三級快取（每核心由1.875MB提升至5MB），相較上代快取容量實現近三倍增長，為大規模並行AI推理提供充裕的本地資料儲存空間。與此同時，處理器支援DDR5-5600高速記憶體，單路最大4TB的容量保證了大資料處理時的頻寬和延遲優勢。基於這些硬體提升，Emerald Rapids整體效能較上一代提升21%，AI推理效能平均提升42%，在大語言模型推理場景中可實現最高1.5倍的效能加速，同時大幅降低總擁有成本達77%。

英特爾^®至強^®6處理器（代號 GNR Granite Rapids）——引領CPU AI算力革新

全新GNR處理器專為應對人工智慧、資料分析及科學計算等計算密集型任務而設計。該產品在核心數量、記憶體頻寬及專用AI加速器方面均實現重大突破：

核心與效能：每CPU配備多達128個性能核心，單路核心數較上一代翻倍，同時平均單核效能提升達1.2倍、每瓦效能提升1.6倍，進一步強化了CPU在大模型推理中的獨立處理能力；
AI加速功能：內建英特爾^®高階矩陣擴充套件（AMX）新增對FP16資料型別的支援，使得生成式AI和傳統深度學習推理任務均能獲得顯著加速；
記憶體與I/O突破：支援DDR5-6400記憶體及英特爾首款引入的Multiplexed Rank DIMM (MRDIMM) 技術，有效將記憶體頻寬提升至上一代的2.3倍；同時，高達504MB的三級快取和低延遲設計確保資料能夠更快載入，為複雜模型訓練和推理縮短響應時間。

英特爾^®至強^®6處理器不僅透過更多的核心和更高的單執行緒效能提升了AI大模型推理能力，同時也能夠作為機頭CPU為GPU和其他加速器提供高速資料供給，進一步縮短整體模型訓練時間。在滿足混合工作負載需求的同時，其TCO平均降低30%，大模型推理加速最高可達2.4倍。

無論是第五代至強還是全新的至強6處理器，英特爾均透過在核心架構、快取系統、記憶體技術和專用AI加速器方面的全面革新，提供了業界領先的AI計算支援。這兩款產品為資料中心和高效能計算平臺在AI推理、訓練以及多樣化工作負載下提供了強大而高效的算力保障。

△圖1 英特爾高階矩陣擴充套件（AMX）

英特爾全方位的AI軟體生態支援

英特爾及其合作伙伴憑藉多年AI積累，圍繞至強^®可擴充套件處理器打造了完善的軟體生態：廣泛支援主流開源框架，透過外掛最佳化及多樣化開源工具鏈，使使用者在x86平臺上能夠輕鬆開發、部署通用AI應用，無需手動調整，同時確保從終端到雲的全程安全保護。

此外，至強^®處理器內建多種AI加速指令（如AVX-512、AMX），使得任何相容軟體均可直接呼叫加速功能。開發者可免費下載英特爾分發版工具、庫及開發環境，充分利用這些內建加速器應對各類AI管線需求。結合多樣化硬體優勢與開放生態，英特爾透過經濟、可擴充套件的方案，將AI能力無縫延伸至雲端與邊緣。

其中，xFasterTransformer（xFT）是英特爾官方開源的AI推理框架，專為大語言模型在至強^®平臺上深度最佳化。xFT不僅支援多種資料精度（FP16、BF16、INT8、INT4），還能利用多CPU節點實現分散式部署，顯著提升推理效能並降低成本。其簡單的安裝和與主流Serving框架（如vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle）的相容性，幫助使用者快速加速大模型應用。在3.1節中基於天翼雲EMR雲主機和xFasterTransformer加速引擎實現了對與DeepSeek R1蒸餾模型的高效推理部署。

△圖2 英特爾提供AI軟體工具全面相容主流AI開發框架

附錄2 CPU環境下部署DeepSeek-R1 671B模型實踐

環境配置

硬體配置

CPU：Intel^®Xeon^® 6980P Processor, 128core 2.00 GHz
記憶體 24*64GB DDR5-6400
儲存 1TB NVMe SSD

軟體環境

OS: Ubuntu 22.04.5 LTS
Kernel: 5.15.0-131-generic
llama.cpp: github bd6e55b
cmake: 3.22.0
gcc/g++: 11.4.0
Python: 3.12.8
git: 2.34.1

BIOS⾥關閉sub NUMA相關配置。

注：版本是指本測試中伺服器上安裝的版本，並⾮要求的最低版本。

部署步驟

1. 安裝llama.cpp

參考llama.cpp官⽹的安裝說明，我們的步驟如下。

# 下載llama.cpp推理框架原始碼gitclone https://github.com/ggerganov/llama.cpp.git cdllama.cpp# 預先準備intel oneapi庫source/opt/intel/oneapi/setvars.sh# 基於oneapi庫對llama.cpp進行編譯

cmake-B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON

cmake--build build --config Release -j$nproc

2. 下載模型⽂件

我們直接使用了社群製作的DeepSeek 671B滿血模型的Q4量化版，您也可以下載DeepSeek官方BF16版本，並透過 llama.cpp 提供的指令碼轉換為 GGUF 格式。

社群提供了從 1bit 到 8bit 不同版本的量化選項，具體區別可以參考社群網頁。我們選擇了使用最受歡迎的 Q4_K_M 版本。如果追求最佳效果，建議使用 Q8_0 版本。

# 下載unsloth製作的社群版量化模型(hf-mirror和modelscpoe源都可)git clone —no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/# 建議nohup執行, 預計至少需要半天時間, 同時確保磁碟容量足夠400G.git lfs pull —include=”DeepSeek-R1-Q4_K_M/*”

Q4_K_M 版本的檔案大小為 404.43GB，下載過程可能會比較耗時。下載完成後，您可以在 DeepSeek-R1-Q4_K_M 目錄下找到一系列 .gguf 檔案，例如 DeepSeek-R1-Q4_K_M-00001-of-00009.gguf。

3. 模型載入和運⾏

使用 llama-cli，指定模型檔案路徑並啟用互動模式，DeepSeek R1 滿血版就可以在 CPU 上順利運行了。

build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i

下面用幾個示例展現DeepSeek-R1 671B滿血版強大的的reasoning推理能力:

測試模型自我認知:

驗證推理能⼒的經典“草莓”問題:

“等燈等燈”的意思:

4. 效能及最佳化

那麼CPU運⾏滿⾎版R1的效能怎麼樣呢？我們做了相關效能測試。對於Q4_K_M模型，使⽤如下命令進行:

export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.gguf

numactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 —temp 0.6 -s 42 -no-cnv —no-kv-offload -ctk q4_0 -c 8192 -n 128 -p “<｜User｜>以孤獨的夜行者為題寫一篇750字的散文，描繪一個人在城市中夜晚漫無目的行走的心情與所見所感，以及夜的寂靜給予的獨特感悟。<｜Assistant｜>”

這⾥使⽤numactl來指定使⽤單路CPU (0-127, 6980P有128核)，以及這⼀路CPU的記憶體節點（numa0），避免跨numa傳輸以獲取最佳效能。

llama.cpp是本地編譯的，編譯的時候使⽤Intel oneAPI可以有效提升它的效能。英特爾嘗試⽤了oneAPI⾥的Intel C++編譯器和數學加速庫MKL，結合jemalloc記憶體管理最佳化，推理速度可以達到每秒9.7~10詞元 (TPS, tokens per second)。

上⾯的實驗是在單路CPU上進⾏的，我們⼜在兩路CPU上各⾃獨⽴啟動1個模型例項，總速度可以達到14.7TPS (7.32TPS+7.38TPS)。

再進⼀步，英特爾觀察到基於現有的llama.cpp軟體⽅案，在CPU平臺沒有實現⾼效的專家並⾏和張量並⾏等最佳化，CPU核⼼利⽤率和頻寬資源沒有充分發揮出來，6980P的128核⼼運⾏1個模型還有不少效能儲備。預計可以繼續增加例項數來獲得更好的總TPS。

另外，通常情況下，CPU的SNC (Sub-NUMA Clustering)設定可以獲得更⾼的頻寬，但是受限於軟體並未最佳化實現良好匹配，此次實驗關閉了SNC測試。

以下⽅式的系統配置也有助於提升效能：

BIOS⾥關閉AMP prefetcher
⽤cpupower開啟CPU的pstate效能模式
提⾼CPU的uncore頻率
關閉超執行緒(Hyper-Threading)

注: 為了加快試驗進度，我們限制了詞元輸出⻓度(-n 128)。經過驗證，增加輸出⻓度(例如-n 512)對於生成效能指標的影響不大。

*本文系量子位獲授權刊載，觀點僅為原作者所有。

— 完 —

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

dignews.cc

天翼雲CPU例項部署DeepSeek-R1模型最佳實踐

文章來源：天翼雲網站

量子位 | 公眾號 QbitAI

天翼雲EMR例項DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實踐

基於英特爾^®至強^®6處理器部署滿血版DeepSeek-R1 671B實踐

效能指標

英特爾^®至強^®6處理器簡介

總結

附錄1 英特爾^®至強^®可擴充套件處理器與AI加速技術

最新英特爾^®至強^®可擴充套件處理器產品

英特爾第五代^®至強^®可擴充套件處理器（代號 Emerald Rapids）——為AI加速而生

英特爾^®至強^®6處理器（代號 GNR Granite Rapids）——引領CPU AI算力革新

△圖1 英特爾高階矩陣擴充套件（AMX）

英特爾全方位的AI軟體生態支援

△圖2 英特爾提供AI軟體工具全面相容主流AI開發框架

附錄2 CPU環境下部署DeepSeek-R1 671B模型實踐

環境配置

部署步驟

1. 安裝llama.cpp

2. 下載模型⽂件

3. 模型載入和運⾏

4. 效能及最佳化

相關文章

DeepSeek接入遠端算力，管理個人知識庫，確實可以封神了！

4090單卡跑滿血版DeepSeek-R1，清華團隊開源專案再破大模型推理門檻

DeepSeek-R1671B滿血版完整本地部署教程，來了！！！

超160家企業領跑DeepSeek國產智算生態！

DeepSeek國產智算生態大爆發！160家企業領跑

4090單卡跑滿血版DeepSeek-R1！清華團隊開源專案再破大模型推理門檻！

如何將671B滿血版DeepSeekR1部署到本地？保姆級教程來了！有手就會

DeepSeek滿血微調秘籍來了，全網首發打破低價內卷！解鎖升級版全家桶

DeepSeek滿血微調秘籍開源！站在巨人肩膀打造私有模型，一手教程在此

在VisualStudioCode中免費使用DeepSeekR1

文章來源：天翼雲網站 量子位 | 公眾號 QbitAI

天翼雲EMR例項DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實踐

基於英特爾®至強®6處理器部署滿血版DeepSeek-R1 671B實踐

效能指標

英特爾®至強®6處理器簡介

總結

附錄1 英特爾®至強®可擴充套件處理器與AI加速技術

最新英特爾®至強®可擴充套件處理器產品

英特爾第五代®至強®可擴充套件處理器（代號 Emerald Rapids）——為AI加速而生

英特爾®至強®6處理器（代號 GNR Granite Rapids）——引領CPU AI算力革新

△圖1 英特爾高階矩陣擴充套件（AMX）

英特爾全方位的AI軟體生態支援

△圖2 英特爾提供AI軟體工具 全面相容主流AI開發框架

附錄2 CPU環境下部署DeepSeek-R1 671B模型實踐

環境配置

部署步驟

1. 安裝llama.cpp

2. 下載模型⽂件

3. 模型載入和運⾏

4. 效能及最佳化

相關文章

文章來源：天翼雲網站

量子位 | 公眾號 QbitAI

基於英特爾^®至強^®6處理器部署滿血版DeepSeek-R1 671B實踐

英特爾^®至強^®6處理器簡介

附錄1 英特爾^®至強^®可擴充套件處理器與AI加速技術

最新英特爾^®至強^®可擴充套件處理器產品

英特爾第五代^®至強^®可擴充套件處理器（代號 Emerald Rapids）——為AI加速而生

英特爾^®至強^®6處理器（代號 GNR Granite Rapids）——引領CPU AI算力革新

△圖2 英特爾提供AI軟體工具全面相容主流AI開發框架