DeepSeek 開源周第二彈:DeepEP
2025 年 02 月 25 日 10:24,AI 圈“源神” DeepSeek 在推特上釋出“開源周”的第二彈。
今天的主角是 DeepEP:首個開源的專家並行(EP)通訊庫,專為 MoE 模型的訓練和推理而設計。
DeepEP 特點:
-
✅ 高效且最佳化的全對全(all-to-all)通訊 -
✅ 支援 NVLink 和 RDMA 的節點內與節點間通訊 -
✅ 高吞吐量核心,適用於訓練和推理預填充任務 -
✅ 低延遲核心,專為推理解碼最佳化 -
✅ 原生支援 FP8 分發(dispatch) -
✅ 靈活的 GPU 資源控制,實現計算-通訊重疊

DeepEP 是什麼?
DeepEP 是一個專為混合專家系統(Mixture-of-Experts, MoE)和專家並行(Expert Parallelism, EP)設計的通訊庫。它提供了高吞吐量和低延遲的全對全(all-to-all)GPU 核心,這些核心也被稱為 MoE 分發(dispatch)和合並(combine)。該庫還支援低精度操作,包括 FP8。
為了與 DeepSeek-V3 論文中提出的分組限制門控演算法(group-limited gating algorithm)保持一致,DeepEP 提供了一系列針對非對稱域頻寬轉發最佳化的核心,例如將資料從 NVLink 域轉發到 RDMA 域。這些核心具有高吞吐量,使其適用於訓練和推理預填充任務。此外,它們還支援流式多處理器(Streaming Multiprocessors, SM)數量控制。
對於延遲敏感的推理解碼任務,DeepEP 包含了一組純 RDMA 的低延遲核心,以最大限度地減少延遲。該庫還引入了一種基於鉤子(hook-based)的通訊-計算重疊方法,該方法不佔用任何 SM 資源。
注意:該庫的實現可能與 DeepSeek-V3 論文中的描述存在一些細微差異。
DeepEP 效能如何?
支援 NVLink 和 RDMA 轉發的常規核心
DeepSeek 在 H800(~160 GB/s NVLink 最大頻寬)上測試了常規核心,每臺裝置均連線到 CX7 InfiniBand 400 Gb/s RDMA 網絡卡(~50 GB/s 最大頻寬)。測試遵循 DeepSeek-V3/R1 預訓練設定(每批次 4096 個 token,隱藏層維度 7168,top-4 分組,top-8 專家,FP8 分發和 BF16 合併)。

純 RDMA 的低延遲核心
DeepSeek 在 H800 上測試了低延遲核心,每臺裝置均連線到 CX7 InfiniBand 400 Gb/s RDMA 網絡卡(~50 GB/s 最大頻寬)。測試遵循典型的 DeepSeek-V3/R1 生產環境設定(每批次 128 個 token,隱藏層維度 7168,top-8 專家,FP8 分發和 BF16 合併)。

社群反饋+網友評論
截至 MaxAIBox 發稿為止,DeepEP 在 GitHub 已收穫 2200+ Star。

24 日開源的 FlashMLA 已經有 8500+ Star 了。真是火爆了🔥。
難怪今天網友戲稱“最近每天都有種度日如年的感覺。”


想嘗試 DeepEP 的盆友,前往 GitHub:
https://github.com/deepseek-ai/DeepEP
DeepSeek 開源周系列:
– EOF –
關注「程式設計師的那些事」加星標,不錯過圈內事
點贊和在看就是最大的支援❤️