


作者 | 陳駿達
編輯 | 漠影
2025年,以DeepSeek、QwQ等為代表的推理大模型火爆全球,並在複雜任務上展現出強大實力。這也讓不少企業考慮,如何能利用此輪推理大模型的技術進步,來最佳化自身的決策、提升企業執行效率並促進創新。
然而,傳統的CPU伺服器在處理當前的AI推理需求時顯得力不從心,而GPU推理伺服器動輒上百萬的高昂成本又將許多中小企業擋在門外。
在這樣的背景下,市場亟需一種既能控制成本又能保證效能的伺服器解決方案,以滿足企業對便捷、高性價比AI推理服務的需求。
隨著AI技術的快速發展,CPU伺服器也在不斷進化。近日,浪潮資訊釋出的元腦CPU推理伺服器,能高效執行DeepSeek-R1 32B和QwQ-32B等適合企業日常需求的推理模型,還能與企業原有的業務相容,具備價效比高、運維簡單等優勢。
▲元腦CPU推理伺服器,基於QwQ-32B模型生成猜數字遊戲
在GPU伺服器之外,新一代CPU推理伺服器為企業提供了快速、易獲取且低成本的算力供給,正成為更多企業的理想選擇。
01.
跑大模型GPU並非唯一解
CPU推理伺服器成中小企業理想新選擇
當談及部署大模型時,不少企業的第一反應都是“買卡”。的確,在大模型訓練、推理的場景中,GPU加速卡憑藉強大的浮點運算能力和大規模並行處理架構,在高吞吐量的AI推理任務上展現出明顯優勢。
但GPU並不是唯一解。
CPU更擅長處理複雜的邏輯運算和通用計算任務,雖然在高平行計算任務上不如GPU,但在處理多樣化工作負載(如資料庫查詢、業務邏輯處理)時效能表現優秀。而且,隨著技術的不斷迭代,具備AI計算能力的CPU伺服器也開始在AI推理場景中展現獨到優勢。
在大模型推理過程中,不少模型採用KV Cache(鍵值快取),用於儲存解碼過程中生成的中間結果,以減少重複計算,提升推理效率。隨著模型規模的增大,KV Cache的儲存需求也隨之增加。
與GPU伺服器相比,CPU推理伺服器以更低的硬體投入,支援更大容量的系統記憶體,能夠輕鬆儲存更大規模的KV Cache,避免頻繁的資料交換,從而提升推理效率。CPU推理伺服器還可透過多通道記憶體系統,進一步支援大規模KV Cache的高效訪問。
當CPU推理伺服器與高效的中等尺寸推理模型結合後,能夠形成顯著的協同效應,在保證效能的同時進一步壓縮成本。
以業界多款32B推理模型為例,這些模型透過採用更高效的注意力機制、模型量化與壓縮技術以及KV Cache最佳化,顯著降低了計算和儲存需求。例如,DeepSeek-R1 32B在知識問答、智慧寫作和內容生成等方面表現優異,而QwQ-32B則在數學推理、程式設計任務和長文字處理等領域展現出強大的效能。
此外,DeepSeek-R1 32B和QwQ-32B的訓練資料中包含了海量的高質量中文語料庫,使其更加適合國內企業的應用需求。
在企業知識庫問答、文件寫作、會議紀要整理等場景中,32B引數級別的模型往往是最佳選擇,既能提供強大的能力支援,又能保持合理的硬體投入,僅基於CPU推理伺服器,企業使用者即可實現本地化部署,滿足對效能、成本和易用性的多重需求。
從成本角度來看,相比GPU伺服器高昂的硬體成本,更嚴格的電源、散熱和機架空間,CPU伺服器對環境的要求較為寬鬆,對於輕量使用和預算有限的企業而言,更具價效比。
02.
軟硬體協同最佳化成效顯著
解碼速度翻番、效率提升至4倍
浪潮資訊本次推出的元腦CPU推理伺服器,正是這樣一款支援中等尺寸模型推理,能為中小企業提供高效AI推理服務的CPU推理伺服器。

在實際測試中,單臺元腦CPU推理伺服器在使用DeepSeek-R1 32B進行帶思維鏈深度思考的短輸入長輸出的問答場景下,解碼效能超過20tokens/s,20個併發使用者下,總token數達到255.2tokens/s。

▲基於DeepSeek-R1 32B 併發效能測試資料
在使用QwQ-32B進行模型推理時,20個併發使用者數下總token數達到224.3tokens/s,可以提供流暢穩定的使用者體驗。

▲基於QwQ-32B 併發效能測試資料
元腦CPU推理伺服器的效能,得益於浪潮資訊的軟硬體協同最佳化。
算力方面,元腦CPU推理伺服器採用4顆32核心的英特爾至強處理器6448H,具有AMX(高階矩陣擴充套件)AI加速功能,支援張量平行計算。與傳統雙路伺服器方案的有限記憶體不同,元腦CPU推理伺服器的多通道記憶體系統設計可支援32組DDR5記憶體。
在這些硬體的加持下,元腦CPU推理伺服器單機具備BF16精度AI推理能力、最大16T記憶體容量和1.2TB/s記憶體頻寬,可以更好滿足模型權重、KV Cache等計算和儲存需求,快速讀取和儲存資料,大幅提升大模型推理效能。

▲元腦CPU推理伺服器NF8260G7配置
在演算法方面,元腦CPU推理伺服器對業界主流的企業級大模型推理服務框架vLLM進行深度定製最佳化,透過張量並行和記憶體繫結技術,充分釋放伺服器CPU算力和記憶體頻寬潛能,實現多處理器平行計算,效率最高提升至4倍。

面對記憶體頻寬的挑戰,元腦CPU推理伺服器為進一步提升解碼效能,採用了AWQ(Activation-aware Weight Quantization啟用感知權重量化)技術。
AWQ技術能確定模型中對效能影響最大的少部分重要權重,並透過保護這些權重來減少量化帶來的誤差。AWQ還避免了混合精度計算帶來的硬體效率損失。
採用了AWQ的元腦CPU推理伺服器在解碼任務中的效能提升了一倍,讓大模型在保持高效能的同時,跑得更快、更省資源。

元腦CPU推理伺服器還透過浪潮資訊打造的AI Station平臺,支援使用者靈活選擇適配的大模型演算法,包括DeepSeek全系模型、QwQ和Yuan等不同引數量的模型。
03.
更懂中小企業需求
通用性、成本效益突出
在智東西與浪潮資訊副總經理趙帥的溝通中,我們瞭解到,元腦CPU推理伺服器僅推出1周,便吸引了多家來自大模型、金融、教育等行業的客戶諮詢和測試,這款CPU推理伺服器精準地填補了中小企業市場中的一個關鍵空白。
目前,許多企業對將私有資料上雲仍持保留態度,更傾向於在本地完成AI推理任務。然而,如果企業選擇使用GPU伺服器來部署高效能AI模型,往往需要承擔高昂的初始投資成本。對於中小企業而言,這種投資的價效比並不高——它們通常不需要極致的AI效能或超高的併發處理能力,而是更關注易於部署、易於管理、易於使用的入門級AI推理服務。
在這種情況下,生態更為成熟、開發工具更為健全的CPU推理伺服器展現出了顯著的優勢。CPU推理伺服器不僅能夠更好地融入企業現有的IT基礎設施,還因其通用性而具備更高的靈活性。
與專用AI硬體(如GPU伺服器)不同,CPU推理伺服器在AI推理需求空閒期,還可以兼顧企業的其他通用計算需求,如資料庫管理、ERP系統執行等,從而最大化硬體資源的利用率。
在部署便捷性方面,元腦CPU推理伺服器功耗2000W左右,降低了對供電裝置的要求,還使得伺服器的冷卻需求大幅減少,僅需家用級空調即可滿足散熱要求。這意味著元腦CPU推理伺服器能夠輕鬆適應大部分企業自建的小型機房環境,無需額外投資高成本的冷卻設施或對現有機房進行大規模改造。
元腦CPU推理伺服器還具備高可靠性的特點,平均無故障時間可達200000小時,能夠保障關鍵應用和AI推理任務的持續穩定執行。這一特性對於企業來說尤為重要,尤其是在金融、醫療、製造等對系統穩定性要求極高的行業中,高可靠性意味著更低的業務中斷風險和更高的運營效率。
談及未來,趙帥分享,浪潮資訊還將進一步提升元腦CPU推理伺服器的能力。依託於融合架構開發的經驗積累,他們已在開發記憶體資源池化的新技術,結合長文字等演算法特徵進行軟體最佳化,更好地支援企業的使用需求。
04.
結語:CPU推理伺服器有望推動AI普惠
隨著AI技術往行業深水區發展,大模型推理需求正從大型企業逐步向中小企業滲透,從少部分企業所享有的“奢侈品”轉化為大部分企業的“必需品”。
在這一程序中,如元腦CPU推理伺服器這樣的高性價比AI推理解決方案,有望成為中小企業實現AI普及化和行業智慧化的重要工具。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
