EP架構：DeepSeek突破性實踐背後，分散式推理的終極形態之爭

作者 | PPIO 派歐雲推理加速團隊

DeepSeek MoE 架構採用跨節點專家並行（EP）架構，當 DeepSeek MoE 以 EP320 架構在解碼階段實現驚人的批處理規模時，整個 AI 推理領域都在追問：這種將專家並行推向極致的架構，究竟代表著未來方向，還是特定場景的過渡方案？

作為國內首批實現 PD（prefill-decode）分離推理落地的團隊，PPIO 推理加速團隊觀察到：EP 架構正以驚人的效率重構推理效能邊界——DeepSeek V3 在 8 卡 H100 叢集中實現 22G 專家引數的智慧排程，使單卡批處理量提升 8 倍。但與此同時，跨節點通訊的魔咒、PD 分離帶來的正規化革命、Dense 模型的進化反撲，都在重塑這場技術變革的終局。

在這場算力與效率的博弈中，我們嘗試解碼 EP 架構的真實潛力…

EP 架構的技術優勢與潛力

（一）提升系統吞吐能力

EP 架構透過增大 batch size，充分挖掘 GPU 矩陣乘法的平行計算潛力，顯著提升系統的吞吐能力。在深度學習模型的推理階段，較大的 batch size 能夠讓 GPU 在單位時間內處理更多資料。

以影像識別模型為例，當 batch size 增大時，GPU 可以同時對更多張圖片進行特徵提取與分類運算，大大加快了推理速度。這種機制充分利用了 GPU 的平行計算資源，使模型在資料處理效率上得到質的提升，為大規模資料的快速處理提供了有力支援。在大規模資料處理中，採用 EP 架構增大 batch size 後，處理速度較傳統架構提升了數倍，有效縮短了任務執行時間。

（二）降低推理延遲

將專家分散到不同 GPU 上的策略，有效減輕了單個 GPU 的訪存壓力，大幅降低了推理延遲。在處理大規模語言模型推理時，模型引數規模龐大，訪存操作往往成為制約效能的關鍵因素。EP 架構透過將專家分散開來，每個 GPU 只需處理少量專家的引數，極大減少了訪存需求，讓 GPU 能夠更專注於計算任務。這使得系統在處理即時性要求較高的任務時，能夠快速響應，滿足如智慧客服即時問答、線上翻譯等場景對低延遲的嚴苛要求。

從技術發展趨勢來看，隨著資料量呈爆發式增長以及模型引數規模持續擴張，對推理系統的吞吐和延遲效能要求將越來越高。EP 架構這種能夠充分利用大規模計算資源、提升計算效率的設計理念，與未來技術發展需求高度契合。隨著硬體技術的不斷進步，如 GPU 效能的進一步提升、網路頻寬和傳輸效率的持續拓展，EP 架構有望在更廣泛的場景中發揮其優勢，具備成為主流方向的技術潛力。

為什麼 EP 能提升推理效能

如下圖所示，我們以 DeepSeek V3 模型為例說明最佳化原理，在 LLM 的推理當中，往往存在算力、訪存、儲存等瓶頸，我們從瓶頸的角度進行分析：

假設我們在 8 張 H100 的機器上執行 DeepSeek V3 模型，輸入的 prompt 長度是 1k，則推理階段啟用的 9 個專家引數大小約為 22G，KV Cache 則只有 30M 左右，實際推理中，專家引數與 KV Cache 都需要載入到顯示卡當中。與之相比，MoE 在 decode 階段的算力訴求遠小於 1TFLOPS，而 H 系列的顯示卡有上千 TFLOPS，遠遠達不到算力瓶頸。

從上面的分析中得知 MoE 不是一個算力瓶頸問題，可以根據顯示卡效能和業務指標對瓶頸進行更進一步的分析，例如，TPOT 指標一般要求 50m，這就意味著只有 50ms 全部用於將資料從視訊記憶體搬運到 SM，同時因為碎片等原因而導致真正頻寬利用率只有 50%。按照以上假設，在 50ms 的範圍內，頻寬為 3350G/S 的 H800 顯示卡僅能夠搬運 85G 的資料。

如果我們不做任何 EP 技術，按照顯示卡 85G 的資料搬運能力，意味著每張卡的最大 batchsize 只能有 4（batchsize=85G/22G），與之相反，我們簡單的將 EP 設定為 8，則 batchsize 能達到 32（batchsize=85G/(22G/8)）。從這裡就能看出，EP 越大，每個顯示卡需要載入的專家引數量就越小，從而導致 batchsize 越大，同時意味著更大的推理吞吐，這便是 EP 提升推理效能的原理。

值得一提的是，DeepSeek 在 decode 階段採用的 EP320，進一步將 batchsize 做的更大，從而將顯示卡效能壓榨到極致。

特定場景下的卓越表現

在一些特定場景中，EP 架構已展現出無可比擬的優勢，成為最優解決方案。

科學計算領域

在氣象模擬、分子動力學模擬等場景中，需要處理海量資料和複雜計算任務。這些任務通常具有大規模平行計算的特點，EP 架構能夠很好地適應這種需求，透過將不同的計算任務分配到多個節點的 GPU 上並行處理，大幅縮短計算時間，提高模擬的精度和效率。在氣象模擬中，利用 EP 架構可以快速模擬全球氣象變化，為氣象預測提供更準確的資料支援。

網際網路搜尋和推薦系統

在網際網路搜推系統中，即時性要求極高，需要在極短時間內對使用者的查詢或行為做出響應。EP 架構憑藉其低延遲特性，能夠快速處理使用者請求，為使用者提供即時的搜尋結果或個性化推薦，極大提升使用者體驗，在這類場景中具有獨特的應用價值。

金融行業

在金融行業的高頻交易場景中，每一秒的延遲都可能導致巨大的經濟損失。EP 架構的低延遲特效能夠滿足高頻交易對即時性的嚴格要求，幫助金融機構快速做出交易決策，搶佔市場先機。

醫療影像診斷領域

在醫療影像診斷領域，對於大量醫學影像資料的快速分析和診斷至關重要。EP 架構的高吞吐能力可以加速影像資料的處理，讓醫生能夠更快地獲取診斷結果，為患者的治療爭取寶貴時間。在醫療影像分析中，基於 EP 架構的系統能夠快速處理大量的 X 光、CT 等影像資料，輔助醫生更高效地進行疾病診斷。

面臨的挑戰限制其普適性

儘管 EP 架構優勢眾多，但在實際應用中也面臨一系列嚴峻挑戰，限制了其短期內成為主流方向的可能性。

跨節點通訊開銷是 EP 架構面臨的主要問題之一。由於不同節點之間需要頻繁交換資料，網路頻寬和延遲成為制約系統性能的瓶頸。在複雜多變的網路環境下，網路擁塞、節點故障等問題時有發生，這可能導致通訊延遲大幅增加，甚至資料傳輸錯誤，嚴重影響系統的穩定性和效能。

不同節點的硬體效能差異也給 EP 架構帶來難題。即使在同一資料中心內，不同節點的 GPU 型號、記憶體大小、CPU 效能等也可能存在差異，這使得任務分配和負載均衡變得更加複雜。如果不能有效解決這些問題，部分節點可能成為系統的 “堵點”，降低整體效能。

構建和維護基於 EP 架構的推理系統需要較高的技術門檻和成本投入。這不僅需要專業的技術團隊來進行系統的設計、部署和最佳化，還需要大量的硬體資源和網路基礎設施支援。對於許多中小企業來說，這種高昂的成本可能難以承受，限制了 EP 架構的廣泛應用。

PD 分離推理正規化帶來的新變數

（一）PD 分離的原理與優勢

現有部署方式是 prefill+decode 共同部署在同一張 GPU 卡上。Prefill 階段主要是算力瓶頸，decode 階段主要是訪存瓶頸，這兩種不同的任務在同一張卡會造成資源浪費，硬體計算效率低。PD 分離，即 prefill-decode 分離，將推理過程中的預填充（prefill）階段和解碼（decode）階段分離處理，分別在不同的 GPU 卡上處理。在預填充階段，系統快速生成初始的中間結果（KV），這些結果通常具有一定的規律性和可並行性。EP 架構可以充分利用其大規模平行計算能力，在多個節點上同時進行預填充計算，大大提高預填充的速度。而在解碼階段，由於其對即時性要求較高，PD 分離允許硬體更專注地處理解碼任務，最佳化解碼演算法和資源分配。透過這種任務分離，系統能夠更好地平衡不同階段的計算資源需求，提升整體推理效率。

（二）與 EP 架構結合的挑戰

PD 分離推理正規化在與 EP 架構結合的實際應用中也面臨諸多挑戰。預填充和解碼階段的硬體資源劃分需要精確的演算法支援，否則可能導致資源分配不合理。如果預填充階段分配過多資源，會造成解碼階段資源緊張，影響即時性；反之，預填充階段資源不足，則會拖慢整個推理速度。預填充和解碼階段之間的資料互動也帶來了額外的通訊開銷。由於兩個階段可能在不同節點或不同計算資源上進行，如何高效地傳輸中間結果，確保資料的一致性和完整性，是需要解決的難題。在網路環境不穩定或頻寬有限時，這種通訊開銷可能嚴重影響推理效能。

Dense LLM 模型會消失嗎

若 EP 架構成為未來主流方向，大模型引數持續增大，dense 模型並不會徹底消失，而是會在不同場景下與 EP 架構主導的模型形成互補關係。

EP 架構優勢適配大引數模型：隨著大模型引數規模不斷膨脹，EP 架構憑藉獨特優勢更契合發展需求。在自然語言處理的超大規模語言模型推理中，EP 架構可確保模型快速響應。
dense 模型的獨特價值：dense 模型雖面臨引數增長帶來的挑戰，但仍有不可替代的價值。在一些對模型精度和連續性要求極高的場景，如高精度科學計算模擬、部分醫學影像分析任務中，dense 模型能憑藉其引數緊密連線的特性，提供更精準、連續的結果。dense 模型結構相對簡單，在一些資源受限、對模型複雜度要求不高的邊緣裝置場景下，更易於部署和執行，能夠高效利用有限資源完成特定任務。
二者的共存與互補：未來大模型發展中，EP 架構和 dense 模型並非相互替代。在資料中心等擁有強大計算資源的場景，EP 架構主導的模型可處理大規模、複雜的任務，發揮其平行計算和資源最佳化優勢。而在對精度、資源利用有特定要求的邊緣計算場景，dense 模型能繼續發揮作用。

未來發展走向

綜合來看，未來在大尺寸 LLM 推理 / 訓練領域，EP 架構可能成為最優解。隨著網路互聯技術進步和更智慧的分散式計算框架的出現，EP 架構面臨的通訊和負載均衡等問題有望得到有效解決。另外，PD 分離推理正規化也為 EP 架構的發展帶來了新的可能性。如果二者能夠成功融合並克服現存問題，EP 架構的應用範圍或許會得到進一步拓展。

程式碼界的“瘟疫”？卡帕西“Vibe Coding”興起，YC披露：1/4新創公司，95%程式碼全由AI生成

OpenAI 又貴又“黑”，微軟對供應商亮起“紅燈”：曝出自研大模型，DeepSeek 或成救星？

被罵慘的“現象級”Manus，今天我們來扒一扒它的真實水平！