
DeepSeek MoE 架構採用跨節點專家並行(EP)架構,當 DeepSeek MoE 以 EP320 架構在解碼階段實現驚人的批處理規模時,整個 AI 推理領域都在追問:這種將專家並行推向極致的架構,究竟代表著未來方向,還是特定場景的過渡方案?
作為國內首批實現 PD(prefill-decode)分離推理落地的團隊,PPIO 推理加速團隊觀察到:EP 架構正以驚人的效率重構推理效能邊界——DeepSeek V3 在 8 卡 H100 叢集中實現 22G 專家引數的智慧排程,使單卡批處理量提升 8 倍。但與此同時,跨節點通訊的魔咒、PD 分離帶來的正規化革命、Dense 模型的進化反撲,都在重塑這場技術變革的終局。
在這場算力與效率的博弈中,我們嘗試解碼 EP 架構的真實潛力…
EP 架構透過增大 batch size,充分挖掘 GPU 矩陣乘法的平行計算潛力,顯著提升系統的吞吐能力。在深度學習模型的推理階段,較大的 batch size 能夠讓 GPU 在單位時間內處理更多資料。
以影像識別模型為例,當 batch size 增大時,GPU 可以同時對更多張圖片進行特徵提取與分類運算,大大加快了推理速度。這種機制充分利用了 GPU 的平行計算資源,使模型在資料處理效率上得到質的提升,為大規模資料的快速處理提供了有力支援。在大規模資料處理中,採用 EP 架構增大 batch size 後,處理速度較傳統架構提升了數倍,有效縮短了任務執行時間。
將專家分散到不同 GPU 上的策略,有效減輕了單個 GPU 的訪存壓力,大幅降低了推理延遲。在處理大規模語言模型推理時,模型引數規模龐大,訪存操作往往成為制約效能的關鍵因素。EP 架構透過將專家分散開來,每個 GPU 只需處理少量專家的引數,極大減少了訪存需求,讓 GPU 能夠更專注於計算任務。這使得系統在處理即時性要求較高的任務時,能夠快速響應,滿足如智慧客服即時問答、線上翻譯等場景對低延遲的嚴苛要求。
從技術發展趨勢來看,隨著資料量呈爆發式增長以及模型引數規模持續擴張,對推理系統的吞吐和延遲效能要求將越來越高。EP 架構這種能夠充分利用大規模計算資源、提升計算效率的設計理念,與未來技術發展需求高度契合。隨著硬體技術的不斷進步,如 GPU 效能的進一步提升、網路頻寬和傳輸效率的持續拓展,EP 架構有望在更廣泛的場景中發揮其優勢,具備成為主流方向的技術潛力。
如下圖所示,我們以 DeepSeek V3 模型為例說明最佳化原理,在 LLM 的推理當中,往往存在算力、訪存、儲存等瓶頸,我們從瓶頸的角度進行分析:

假設我們在 8 張 H100 的機器上執行 DeepSeek V3 模型,輸入的 prompt 長度是 1k,則推理階段啟用的 9 個專家引數大小約為 22G,KV Cache 則只有 30M 左右,實際推理中,專家引數與 KV Cache 都需要載入到顯示卡當中。與之相比,MoE 在 decode 階段的算力訴求遠小於 1TFLOPS,而 H 系列的顯示卡有上千 TFLOPS,遠遠達不到算力瓶頸。
從上面的分析中得知 MoE 不是一個算力瓶頸問題,可以根據顯示卡效能和業務指標對瓶頸進行更進一步的分析,例如,TPOT 指標一般要求 50m,這就意味著只有 50ms 全部用於將資料從視訊記憶體搬運到 SM,同時因為碎片等原因而導致真正頻寬利用率只有 50%。按照以上假設,在 50ms 的範圍內,頻寬為 3350G/S 的 H800 顯示卡僅能夠搬運 85G 的資料。
如果我們不做任何 EP 技術,按照顯示卡 85G 的資料搬運能力,意味著每張卡的最大 batchsize 只能有 4(batchsize=85G/22G),與之相反,我們簡單的將 EP 設定為 8,則 batchsize 能達到 32(batchsize=85G/(22G/8))。從這裡就能看出,EP 越大,每個顯示卡需要載入的專家引數量就越小,從而導致 batchsize 越大,同時意味著更大的推理吞吐,這便是 EP 提升推理效能的原理。
值得一提的是,DeepSeek 在 decode 階段採用的 EP320,進一步將 batchsize 做的更大,從而將顯示卡效能壓榨到極致。
在一些特定場景中,EP 架構已展現出無可比擬的優勢,成為最優解決方案。
在氣象模擬、分子動力學模擬等場景中,需要處理海量資料和複雜計算任務。這些任務通常具有大規模平行計算的特點,EP 架構能夠很好地適應這種需求,透過將不同的計算任務分配到多個節點的 GPU 上並行處理,大幅縮短計算時間,提高模擬的精度和效率。在氣象模擬中,利用 EP 架構可以快速模擬全球氣象變化,為氣象預測提供更準確的資料支援。
在網際網路搜推系統中,即時性要求極高,需要在極短時間內對使用者的查詢或行為做出響應。EP 架構憑藉其低延遲特性,能夠快速處理使用者請求,為使用者提供即時的搜尋結果或個性化推薦,極大提升使用者體驗,在這類場景中具有獨特的應用價值。
在金融行業的高頻交易場景中,每一秒的延遲都可能導致巨大的經濟損失。EP 架構的低延遲特效能夠滿足高頻交易對即時性的嚴格要求,幫助金融機構快速做出交易決策,搶佔市場先機。
在醫療影像診斷領域,對於大量醫學影像資料的快速分析和診斷至關重要。EP 架構的高吞吐能力可以加速影像資料的處理,讓醫生能夠更快地獲取診斷結果,為患者的治療爭取寶貴時間。在醫療影像分析中,基於 EP 架構的系統能夠快速處理大量的 X 光、CT 等影像資料,輔助醫生更高效地進行疾病診斷。
儘管 EP 架構優勢眾多,但在實際應用中也面臨一系列嚴峻挑戰,限制了其短期內成為主流方向的可能性。
跨節點通訊開銷是 EP 架構面臨的主要問題之一。由於不同節點之間需要頻繁交換資料,網路頻寬和延遲成為制約系統性能的瓶頸。在複雜多變的網路環境下,網路擁塞、節點故障等問題時有發生,這可能導致通訊延遲大幅增加,甚至資料傳輸錯誤,嚴重影響系統的穩定性和效能。
不同節點的硬體效能差異也給 EP 架構帶來難題。即使在同一資料中心內,不同節點的 GPU 型號、記憶體大小、CPU 效能等也可能存在差異,這使得任務分配和負載均衡變得更加複雜。如果不能有效解決這些問題,部分節點可能成為系統的 “堵點”,降低整體效能。
構建和維護基於 EP 架構的推理系統需要較高的技術門檻和成本投入。這不僅需要專業的技術團隊來進行系統的設計、部署和最佳化,還需要大量的硬體資源和網路基礎設施支援。對於許多中小企業來說,這種高昂的成本可能難以承受,限制了 EP 架構的廣泛應用。
現有部署方式是 prefill+decode 共同部署在同一張 GPU 卡上。Prefill 階段主要是算力瓶頸,decode 階段主要是訪存瓶頸,這兩種不同的任務在同一張卡會造成資源浪費,硬體計算效率低。PD 分離,即 prefill-decode 分離,將推理過程中的預填充(prefill)階段和解碼(decode)階段分離處理,分別在不同的 GPU 卡上處理。在預填充階段,系統快速生成初始的中間結果(KV),這些結果通常具有一定的規律性和可並行性。EP 架構可以充分利用其大規模平行計算能力,在多個節點上同時進行預填充計算,大大提高預填充的速度。而在解碼階段,由於其對即時性要求較高,PD 分離允許硬體更專注地處理解碼任務,最佳化解碼演算法和資源分配。透過這種任務分離,系統能夠更好地平衡不同階段的計算資源需求,提升整體推理效率。

PD 分離推理正規化在與 EP 架構結合的實際應用中也面臨諸多挑戰。預填充和解碼階段的硬體資源劃分需要精確的演算法支援,否則可能導致資源分配不合理。如果預填充階段分配過多資源,會造成解碼階段資源緊張,影響即時性;反之,預填充階段資源不足,則會拖慢整個推理速度。預填充和解碼階段之間的資料互動也帶來了額外的通訊開銷。由於兩個階段可能在不同節點或不同計算資源上進行,如何高效地傳輸中間結果,確保資料的一致性和完整性,是需要解決的難題。在網路環境不穩定或頻寬有限時,這種通訊開銷可能嚴重影響推理效能。
若 EP 架構成為未來主流方向,大模型引數持續增大,dense 模型並不會徹底消失,而是會在不同場景下與 EP 架構主導的模型形成互補關係。
-
EP 架構優勢適配大引數模型:隨著大模型引數規模不斷膨脹,EP 架構憑藉獨特優勢更契合發展需求。在自然語言處理的超大規模語言模型推理中,EP 架構可確保模型快速響應。
-
dense 模型的獨特價值:dense 模型雖面臨引數增長帶來的挑戰,但仍有不可替代的價值。在一些對模型精度和連續性要求極高的場景,如高精度科學計算模擬、部分醫學影像分析任務中,dense 模型能憑藉其引數緊密連線的特性,提供更精準、連續的結果。dense 模型結構相對簡單,在一些資源受限、對模型複雜度要求不高的邊緣裝置場景下,更易於部署和執行,能夠高效利用有限資源完成特定任務。
-
二者的共存與互補:未來大模型發展中,EP 架構和 dense 模型並非相互替代。在資料中心等擁有強大計算資源的場景,EP 架構主導的模型可處理大規模、複雜的任務,發揮其平行計算和資源最佳化優勢。而在對精度、資源利用有特定要求的邊緣計算場景,dense 模型能繼續發揮作用。
綜合來看,未來在大尺寸 LLM 推理 / 訓練領域,EP 架構可能成為最優解。隨著網路互聯技術進步和更智慧的分散式計算框架的出現,EP 架構面臨的通訊和負載均衡等問題有望得到有效解決。另外,PD 分離推理正規化也為 EP 架構的發展帶來了新的可能性。如果二者能夠成功融合並克服現存問題,EP 架構的應用範圍或許會得到進一步拓展。
