DeepSeek開源周第二天:DeepEP亮相,為MoE和EP量身定製的高效通訊庫

DeepSeek 開源活動第二天,新開源庫如約而至。
今天釋出的是 DeepEP,第一個用於混合專家(MoE,Mixture of Experts)模型訓練和推理的開源 EP 通訊庫。
GitHub 庫地址:https://github.com/deepseek-ai/DeepEP
其優勢包括:
✅高效、最佳化的 all-to-all 通訊
✅節點內和節點間(intranode and internode)均支援 NVLink 和 RDMA
✅用於訓練和推理預填充的高吞吐量核心
✅用於推理解碼的低延遲核心
✅原生 FP8 排程支援
✅靈活的 GPU 資源控制,實現計算-通訊重疊
(來源:DeepSeek)
EP 的全名是 Expert Parallelism,又稱專家並行。它是在分散式學習中專門針對 MoE 場景的並行策略,其核心思想就是將不同專家放在不同計算節點上進行平行計算。
DeepSeek 介紹,DeepEP 是一個為 MoE 和 EP 量身定製的通訊庫。它能提供高吞吐量和低延遲的 all-to-all GPU 核心,也稱為 MoE 排程和組合。該庫還支援低精度操作,包括 FP8。效能基準測試顯示吞吐量顯著提升,尤其是在訓練和推理預填充任務中。
為了與 DeepSeek-V3 論文中提出的組限制門控演算法(group-limited gating algorithm)保持一致,DeepEP 提供了一組針對非對稱域頻寬轉發(例如將資料從 NVLink 域轉發到 RDMA 域)進行最佳化的核心。
這些核心提供了高吞吐量,使其適合訓練和推理預填充任務。此外,它們還支援 SM(Streaming Multiprocessors,流式多處理器)數量控制。
(來源:DeepSeek)
對於延遲敏感的推理解碼,DeepEP 包含一組具有純 RDMA 的低延遲核心,以最大限度地減少延遲。該庫還引入了一種基於 hook 的通訊-計算重疊方法,該方法不佔用任何流式多處理器資源。
值得注意的是,DeepSeek 特意指出,該庫中的實現可能與 DeepSeek-V3 論文略有不同。
在效能方面,針對具有 NVLink 和 RDMA 轉發的普通核心,DeepSeek 在 H800(~160GB/s NVLink 最大頻寬)上測試了它們,每個核心都連線到 CX7 InfiniBand 400Gb/s RDMA 網絡卡(~50GB/s 最大頻寬)。他們遵循的是 DeepSeek-V3/R1 預訓練設定。
圖 | 在普通核心上的效能資料(來源:DeepSeek)
針對具有純 RDMA 的低延遲核心,DeepSeek 同樣在 H800 上測試了它們,每個核心都連線到 CX7 InfiniBand 400Gb/s RDMA 網絡卡(最大頻寬約 50GB/s)。他們遵循的是 DeepSeek-V3/R1 生產設定。
圖 | 在低延遲核心上的效能資料(來源:DeepSeek)
在網路配置方面,DeepEP 已在 InfiniBand 網路上進行了全面測試。不過,理論上它也相容融合乙太網上的 RDMA (RoCE)。
InfiniBand 透過虛擬通道支援流量隔離。為了防止不同型別的流量之間發生干擾,DeepSeek 建議在不同的虛擬通道之間劃分工作負載,包括使用普通核心的工作負載、使用低延遲核心的工作負載,以及其他工作量。
此外,自適應路由是 InfiniBand 交換機提供的一項高階路由功能,可以將流量均勻地分佈在多條路徑上。目前,低延遲核心支援自適應路由,而普通核心則不支援(可能很快會新增支援)。為普通節點間核心啟用自適應路由可能會導致死鎖或資料損壞問題。
對於低延遲核心,啟用自適應路由可以完全消除路由衝突導致的網路擁塞,但也會引入額外的延遲。DeepSeek 建議採用以下配置以獲得最佳效能:在網路負載較重的環境中啟用自適應路由,在網路負載較輕的環境中使用靜態路由。
最後,DeepSeek 還表示,自己發現並使用了未在英偉達官方文件中披露的 PTX 指令 ld.global.nc.L1::no_allocate.L2::256B,由此可以獲得“極致效能”。
(來源:DeepSeek)
從指令來推測,它似乎是一個特殊的 PTX 指令,用於從全域性記憶體載入資料,繞過 L1 快取,以 256 位元組的事務大小透過 L2 快取處理。
這種指令的使用反映了 DeepSeek 對 GPU 記憶體層次結構的深度理解,旨在透過創新工程和精細控制快取行為來實現效能極致化。
“為了讓叢集獲得更好的效能,我們建議執行所有測試並使用最佳的自動調整配置。預設配置在 DeepSeek 的內部叢集上進行了最佳化。”DeepSeek 表示。
參考資料:
https://x.com/deepseek_ai/status/1894211757604049133
https://github.com/deepseek-ai/DeepEP
運營/排版:何晨龍


相關文章