DeepSeek私有化部署選型考慮:模型引數、執行引數、算力硬體、配套生態及軟體棧

私有化部署方案的選型考慮包括模型引數、執行引數、算力硬體、配套生態及軟體棧支援等首先需要根據企業實際業務場景需求確定合適的模型引數和執行引數,再基於推理效能、併發需求和投入成本等多維度考慮確定算力硬體,同時也需要重點考量 AI 計算卡的配套生態和軟體棧支援。
私有化部署大模型的一般流程
以昇騰 Atlas 800I A2 (8*64G)裸金屬伺服器為例,企業級部署 Deepseek-R1 模型的流程大致如下:
1、軟體棧準備:
1)安裝與配置伺服器的底層作業系統,如 UbuntuDebianopenEuler 等。
2)安裝昇騰 NPUAI 計算卡)韌體及驅動。
3)安裝與配置昇騰提供的各類配套軟體包,包括 Mindle(推理引擎)、CANN(異構計算架構)、MindSporeAI 框架)等。
2、模型獲取:下載對應引數大小(671B 滿血版或 70B 等蒸餾模型)的模型程式碼及權重,並轉換為相應精度(FP8 或 FP16 等)。
3、推理服務部署:配置環境變數,啟動推理服務容器並驗證。
4、效能調優:調優推理引擎等軟體棧的引數配置,從而達到最優推理效率。
5、安全與監控:進行網路安全設定、管理日誌資訊、配置監控看板等。
私有化部署方案的選型考慮一:模型引數和執行引數
企業級私有化部署 LLM 模型,首先需要考慮模型引數和執行引數。模型引數(滿血版 or 蒸餾版)和執行引數(長下文長度、批次大小等)的大小決定了後續需要多少算力硬體,需要綜合考慮企業實際業務場景需求。複雜決策場景,如金融研究分析、醫療影像診斷、法律文書分析等,需要較強的模型推理和上下文記憶能力,對於模型引數(70B以上)和上下文長度(32K 以上)的要求較高。一般複雜場景,如企業內部知識庫、線上客服等,對於模型引數和執行引數的要求相對較低。
私有化部署方案的選型考慮二:算力硬體
AI 計算卡的效能直接決定了模型的推理效能和推理效率,從模型部署的最低算力硬體要求出發,視訊記憶體容量是 AI 計算卡選型時所考慮的首要因素。AI 計算卡引數配置包括視訊記憶體容量、視訊記憶體頻寬、計算能力、互聯頻寬等。其中,計算能力、視訊記憶體頻寬、互聯頻寬等直接影響模型推理的效能和效率,而視訊記憶體容量則直接決定了模型能否正常部署。
3.1 視訊記憶體容量
從滿足模型部署的最低要求出發,首先需要考慮視訊記憶體容量是否足夠。不同的引數和計算精度的模型所需佔用的視訊記憶體容量不同,計算公式為模型引數×計算精度。以常見企業級生產部署環境為例:DeepSeek-R1-70B 模型,FP8 計算精度,序列長度(模型一次能處理的最大 token 數)8192,批次大小(Batch size,決定了模型一次處理的請求數量)16,一共需要約 70GB 的視訊記憶體容量=模型引數:70B×模型精度:位元組(FP8)。
此外還需要考慮一部分其他視訊記憶體花銷:
1啟用值快取:模型執行時產生的中間計算結果,與模型引數和精度相關,計算公式為模型引數*模型精度*動態係數(0.1-0.5,取決於模型引數)。常見企業級生產部署環境下,一共需要約 17.50GB 的啟用值快取=模型引數:70B×模型精度:位元組(FP8)×動態係數:0.25
2輸出張量快取:模型生成結果所需的臨時儲存空間,與批次大小、序列長度和詞表大小相關,計算公式為批次大小×序列長度×詞表大小×模型精度÷(1024³ )。常見企業級生產部署環境下,一共需要約 15.66GB 的輸出張量快取=批次大小: 16×序列長度: 8192×詞表大小: 128256×模型精度: 1 位元組(FP8)÷(1024³ )。
3固定開銷:AI 計算卡和模型初始化時的固定視訊記憶體開銷,包括軟體棧快取、運算元編譯快取等,每個 AI 計算卡需要約 1.00GB
綜上,常見企業級生產部署環境下,一共需要約 104.16GB 的視訊記憶體容量=模型佔用:70.00GB+啟用值快取:17.50GB+輸出張量快取:15.66GB+固定開銷:1.00GB
根據上述計算結果,張 NVIDIA H200(視訊記憶體容量:141GB)或 張 NVIDIA H20(視訊記憶體容量:96GB)或 張華為 Ascend 910B (視訊記憶體容量:64GB)均可滿足 70B 模型部署最低要求。但是若考慮到生產/開發/測試環境的隔離以及安全性與高可用性冗餘等因素,實際業務場景下的模型部署最低要求可能會有所提高。
3.2 AI 算力大小、視訊記憶體頻寬、互聯頻寬等
在滿足視訊記憶體容量要求的前提下,AI 計算卡的計算能力、視訊記憶體頻寬、互聯頻寬等直接決定模型推理的效能和效率。
計算能力決定算力天花板。計算能力代表晶片在單位時間內完成矩陣乘法、卷積等核心運算的峰值能力,即每秒浮點運算次數的理論峰值。不同 AI 計算卡的計算架構與配套軟體棧的最佳化情況存在差異,其實際計算效率會存在不同程度的折扣。
視訊記憶體頻寬決定資料傳輸效率。視訊記憶體頻寬代表視訊記憶體與計算核心間的資料傳輸峰值速率,當模型引數或啟用值的資料量(主要由 batch size 決定)超過頻寬供給能力時,則模型推理效能與效率的瓶頸由視訊記憶體頻寬決定。
互聯頻寬則決定多卡互聯的效率。在實際企業生產環境中,多為伺服器內多卡互聯的場景,互聯頻寬決定了伺服器內多張 AI 計算卡之間的資料傳輸峰值速率。
硬體選型需要綜合考慮推理效能、併發需求和投入成本。在企業級私有化部署的算力硬體選型中,除了需要滿足視訊記憶體容量的最低要求,還需要綜合考慮模型推理的效能和效率(多少 token/s)以及併發需求量(多少併發量),具體包括 AI 計算卡的數量以及計算能力、視訊記憶體頻寬和互聯頻寬等引數,此外可能還需要考慮生產/開發/測試環境的隔離以及安全性與高可用性冗餘等因素。根據拓維資訊官方公眾號,企業級部署DeepSeek-R1-70B 模型的推薦配置為 512G 視訊記憶體容量,相當於 張華為 Ascend 910B (視訊記憶體容量:64GB)的計算效能。
私有化部署方案的選型考慮三:配套生態及軟體棧支援
AI 計算卡的配套生態及軟體棧直接影響算力利用效率,同樣很大程度上決定 AI 大模型的推理效能和效率。配套生態及軟體棧支援主要包括算力硬體的韌體及驅動和麵向AI 大模型部署的各類配套軟體包,其決定了算力使用效率、算力相容性、模型部署及後續維護更新的難易程度,也是 AI 大模型部署解決方案選型時所考慮的重要一環。
AI 計算卡的韌體及驅動決定了其底層計算效率,由晶片廠商提供與維護。以華為昇騰為例,韌體的主要功能包括昇騰計算晶片自帶的 OS、電源器件和功耗管理器件控制軟體,分別用於後續載入到 AI 處理器的模型計算、處理器啟動控制和功耗控制。驅動主要用於管理查詢昇騰 AI 處理器,同時為上層 CANN 軟體提供處理器控制、資源分配等介面。
配套軟體包的作用在於幫助開發者最佳化基於 AI 計算卡訓練和推理的效率和流程,更方便快捷地開發 AI 應用。以華為昇騰硬體平臺為例,部署 Deepseek-R1 時可能需要的配套軟體包有異構計算架構(CANN)、推理引擎(Mindle)、集合通訊庫(HCCL)、基礎設施管理平臺(DCS 套件)等。
異構計算架構:整合 CPUGPUNPU 等不同處理器協同工作的計算模式,透過分工協作(如 GPU 加速平行計算、CPU 處理邏輯控制)來最大化硬體效能,適配 AI 大模型對海量算力的需求。典型代表包括英偉達 CUDA、華為昇騰 CANN。以 CANNCompute Architecture for Neural Networks)為例,其是昇騰針對 AI 場景推出的異構計算架構,向上支援多種 AI 框架,包括 MindSporePyTorchTensorFlow 等,向下服務 AI 處理器與程式設計,發揮承上啟下的關鍵作用,是提升昇騰 AI 處理器計算效率的關鍵平臺。
推理引擎:專為模型部署設計的最佳化工具,將訓練模型轉換為硬體高效執行的格式,整合量化壓縮(FP32INT8)、運算元融合、記憶體複用等技術,顯著降低推理延遲與資源消耗。典型代表包括vLLMSG-Lang、英偉達NIM、華為 MindIE。以 MindIEMind Inference  Engine,昇騰推理引擎)為例,其是華為昇騰針對 AI 全場景業務的推理加速套件。透過分層開放 AI 能力,支撐使用者多樣化的 AI 業務需求,使能百模千態,釋放昇騰硬體裝置算力。向上支援多種主流 AI 框架,向下對接不同型別昇騰 AI 處理器,提供多層次程式設計介面,幫助使用者快速構建基於昇騰平臺的推理業務。
集合通訊庫:面向分散式訓練的底層通訊最佳化庫,提供 AllReduce(梯度聚合)、Broadcast(引數同步)等高效能介面,利用 RDMA/NVLink 高速互聯技術降低多節點通訊延遲。典型代表如英偉達 NCCL、華為 HCCL。以 HCCL( Huawei Collective  Communication Library)為例,其是基於昇騰 AI 計算卡的高效能集合通訊庫,提供單機多卡以及多機多卡間的資料並行、模型並行集合通訊方案。
基礎設施管理平臺:集成了算力硬體虛擬化、異構算力管理、資源分配、彈性擴縮容、運維管理等一系列功能的 AI 大模型工具箱,支援 AI 大模型的全生命週期管理。市場參與者包括晶片廠商、雲廠商、ICT 廠商等,典型代表包括英偉達 DGX SuperPOD、華為 DCS 套件、京東雲 vGPU 算力池化平臺、新華三靈犀平臺。以華為 DCS 套件為例,其透過整合 ICT 硬體及進行系統級最佳化,提供統一運維管理、硬體資源虛擬化、異構算力資源管理和排程、災備和安全等功能及服務。

請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取(PDF閱讀版本)。後續所有更新均免費發放目前46本資料)。

免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取架構師技術全店資料打包彙總(全)電子書資料詳情


相關文章