DeepSeek開源周第二天：DeepEP亮相，為MoE和EP量身定製的高效通訊庫

2025-08-24 21:13 DeepTech深科技

DeepSeek 開源活動第二天，新開源庫如約而至。

今天釋出的是 DeepEP，第一個用於混合專家（MoE，Mixture of Experts）模型訓練和推理的開源 EP 通訊庫。

GitHub 庫地址：https://github.com/deepseek-ai/DeepEP

其優勢包括：

✅高效、最佳化的 all-to-all 通訊

✅節點內和節點間（intranode and internode）均支援 NVLink 和 RDMA

✅用於訓練和推理預填充的高吞吐量核心

✅用於推理解碼的低延遲核心

✅原生 FP8 排程支援

✅靈活的 GPU 資源控制，實現計算-通訊重疊

（來源：DeepSeek）

EP 的全名是 Expert Parallelism，又稱專家並行。它是在分散式學習中專門針對 MoE 場景的並行策略，其核心思想就是將不同專家放在不同計算節點上進行平行計算。

據 DeepSeek 介紹，DeepEP 是一個為 MoE 和 EP 量身定製的通訊庫。它能提供高吞吐量和低延遲的 all-to-all GPU 核心，也稱為 MoE 排程和組合。該庫還支援低精度操作，包括 FP8。效能基準測試顯示吞吐量顯著提升，尤其是在訓練和推理預填充任務中。

為了與 DeepSeek-V3 論文中提出的組限制門控演算法（group-limited gating algorithm）保持一致，DeepEP 提供了一組針對非對稱域頻寬轉發（例如將資料從 NVLink 域轉發到 RDMA 域）進行最佳化的核心。

這些核心提供了高吞吐量，使其適合訓練和推理預填充任務。此外，它們還支援 SM（Streaming Multiprocessors，流式多處理器）數量控制。

（來源：DeepSeek）

對於延遲敏感的推理解碼，DeepEP 包含一組具有純 RDMA 的低延遲核心，以最大限度地減少延遲。該庫還引入了一種基於 hook 的通訊-計算重疊方法，該方法不佔用任何流式多處理器資源。

值得注意的是，DeepSeek 特意指出，該庫中的實現可能與 DeepSeek-V3 論文略有不同。

在效能方面，針對具有 NVLink 和 RDMA 轉發的普通核心，DeepSeek 在 H800（~160GB/s NVLink 最大頻寬）上測試了它們，每個核心都連線到 CX7 InfiniBand 400Gb/s RDMA 網絡卡（~50GB/s 最大頻寬）。他們遵循的是 DeepSeek-V3/R1 預訓練設定。

圖 | 在普通核心上的效能資料（來源：DeepSeek）

針對具有純 RDMA 的低延遲核心，DeepSeek 同樣在 H800 上測試了它們，每個核心都連線到 CX7 InfiniBand 400Gb/s RDMA 網絡卡（最大頻寬約 50GB/s）。他們遵循的是 DeepSeek-V3/R1 生產設定。

圖 | 在低延遲核心上的效能資料（來源：DeepSeek）

在網路配置方面，DeepEP 已在 InfiniBand 網路上進行了全面測試。不過，理論上它也相容融合乙太網上的 RDMA (RoCE)。

InfiniBand 透過虛擬通道支援流量隔離。為了防止不同型別的流量之間發生干擾，DeepSeek 建議在不同的虛擬通道之間劃分工作負載，包括使用普通核心的工作負載、使用低延遲核心的工作負載，以及其他工作量。

此外，自適應路由是 InfiniBand 交換機提供的一項高階路由功能，可以將流量均勻地分佈在多條路徑上。目前，低延遲核心支援自適應路由，而普通核心則不支援（可能很快會新增支援）。為普通節點間核心啟用自適應路由可能會導致死鎖或資料損壞問題。

對於低延遲核心，啟用自適應路由可以完全消除路由衝突導致的網路擁塞，但也會引入額外的延遲。DeepSeek 建議採用以下配置以獲得最佳效能：在網路負載較重的環境中啟用自適應路由，在網路負載較輕的環境中使用靜態路由。

最後，DeepSeek 還表示，自己發現並使用了未在英偉達官方文件中披露的 PTX 指令 ld.global.nc.L1::no_allocate.L2::256B，由此可以獲得“極致效能”。

（來源：DeepSeek）

從指令來推測，它似乎是一個特殊的 PTX 指令，用於從全域性記憶體載入資料，繞過 L1 快取，以 256 位元組的事務大小透過 L2 快取處理。

這種指令的使用反映了 DeepSeek 對 GPU 記憶體層次結構的深度理解，旨在透過創新工程和精細控制快取行為來實現效能極致化。

“為了讓叢集獲得更好的效能，我們建議執行所有測試並使用最佳的自動調整配置。預設配置在 DeepSeek 的內部叢集上進行了最佳化。”DeepSeek 表示。

參考資料：

https://x.com/deepseek_ai/status/1894211757604049133

https://github.com/deepseek-ai/DeepEP

運營/排版：何晨龍

01/ 港科大學者研發液晶彈性體，能提起自重450倍的重物，可用於人造肌肉和仿生機器

02/ 科學家實現微納機器人叢集協同運動，為機器人大規模叢集應用奠定基礎

03/北大團隊研發首個電磁空間具身智慧體，推動電磁-賽博空間的人機互動，能實現生命體徵監測

04/ AI僅用兩天攻克級細菌“十年難題”，內含六個智慧體，能自行推理出新知識

05/ 微軟全新量子處理器曝光，全球首次利用拓撲超導體核心控制馬約拉納粒子，可擴充套件至一百萬個量子位元

相關文章

GPU：DeepSeek你慢點開源，我都要被你榨乾了…

GPU：DeepSeek你慢點開源，我都要被你榨乾了…

DeepSeek開源第二彈，為MoE和EP量身定製的通訊庫！暫和英偉達顯示卡繫結

DeepSeek開源第二彈，為MoE和EP量身定製的通訊庫！暫和英偉達顯示卡繫結

剛剛，DeepSeek開源MoE訓練、推理EP通訊庫DeepEP，真太Open了！

剛剛，DeepSeek開源MoE訓練、推理EP通訊庫DeepEP，真太Open了！

DeepSeek開源釋出五大核心技術

DeepSeek開源釋出五大核心技術

DeepSeek一天能賺多少錢？官方突然揭秘V3/R1推理系統，成本全透明

DeepSeek一天能賺多少錢？官方突然揭秘V3/R1推理系統，成本全透明

DeepSeek一天能賺多少錢？官方揭秘V3/R1推理系統，成本全透明

DeepSeek一天能賺多少錢？官方揭秘V3/R1推理系統，成本全透明

DeepSeek開源第二天：拉爆MoE訓練和推理

DeepSeek開源第二天：拉爆MoE訓練和推理

DeepSeek一天能賺多少錢？官方揭秘V3/R1推理系統，成本利潤率545％！

DeepSeek一天能賺多少錢？官方揭秘V3/R1推理系統，成本利潤率545％！

臨床醫生論文發表太難？AI工具+60分鐘直播，效率翻倍不是夢！

臨床醫生論文發表太難？AI工具+60分鐘直播，效率翻倍不是夢！

榨乾每一塊GPU！DeepSeek開源第二天，送上降本增效神器

榨乾每一塊GPU！DeepSeek開源第二天，送上降本增效神器

Copyright © 2025 | WordPress Theme by MH Themes