DeepSeek連開3源！針對最佳化的並行策略，梁文鋒本人參與開發！

2025-08-09 00:37 CVer

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

衡宇夢晨發自凹非寺

轉載自：量子位（QbitAI）

按時整活！

DeepSeek開源周第四天，直接痛快「1日3連發」，且全都圍繞一個主題：

最佳化並行策略。

DualPipe：一種創新的雙向流水線並行演算法，能夠完全重疊前向和後向計算-通訊階段，並減少“流水線氣泡”。它透過對稱的微批次排程，優化了平行計算效率。
Expert Parallelism Load Balancer (EPLB)：用於MoE的負載均衡演算法，透過複製高負載專家並智慧地分配專家到不同GPU上，確保計算資源的均衡利用。它包含兩種政策：層次化負載均衡和全域性負載均衡。
Profiling Data：訓練和推理框架的效能分析資料，展示了通訊-計算重疊策略和底層實現細節。

這三者中，DualPipe從時間上優化了計算與通訊的排程，EPLB從空間上平衡利用計算資源，Profiling Data則提供了前兩者在實際應用中效果的視覺化證據。

且DualPipe的開發團隊中包括梁文鋒本人。

釋出後10分鐘不到，3者在GitHub上的星標已經破300了，且其中DualPipe的星標飆升最快。

而DeepSeek一發推，網友的留言也排山倒海一般撲面而來，幾乎都是不吝溢美之詞：

好活！令人興奮！

最佳化策略可以重新定義行業的效能。

Day 4，直接1日3連發

DualPipe

DualPipe是在DeepSeek-V3中首次出現雙向流水線並行演算法，現在程式碼完全開源。

它實現了前向與後向計算-通訊階段的完全重疊，還減少了流水線氣泡（即某些裝置在某些時刻空閒等待）。

DualPipe採用了雙向微批次排程策略，其核心特點是：

對稱設計：反向方向的微批次與前向方向對稱排列，形成一種幾何平衡的排程結構
計算-通訊重疊：兩個共享黑色邊框的單元格表示相互重疊的計算和通訊過程
雙向並行：同時在兩個方向上推進微批次，最大化硬體利用率

傳統流水線並行方法如1F1B（one-forward-one-backward）在處理多GPU場景時會產生大量氣泡。

DualPipe透過重新安排微批次執行順序，和對稱結構緩解這個問題。

EPLB

EPLB適用於V3/R1的專家並行負載均衡器，解決MoE模型在分散式訓練和推理中的負載不平衡問題。

在MoE架構中，不同的輸入會啟用不同的專家，可能導致某些專家過載，進一步造成不同GPU的利用率不平衡。

EPLB採用“redundant experts”（冗餘專家）策略：

識別高負載專家→複製多個副本分配到不同GPU→在推理時動態分配輸入到負載較輕的專家副本。

並帶有兩種普通的策略：

分層負載平衡，專家並行較小的預填充階段使用。
全域性負載平衡，在專家並行規模較大的解碼階段採用。

V3/R1中的計算通訊重疊分析資料

開源第四彈的part 3，DeepSeek公開分享了來自訓練和推理框架的分析資料，以幫助社群更好地瞭解通訊計算重疊策略和低階實現細節。

GitHub上註明，分析資料是使用PyTorch Profiler捕獲的。

下載後，開發者可以透過導航到Chrome瀏覽器中的chrome://tracing（或Edge瀏覽器中的edge://tracing）將它進行視覺化。

Attention please——DeepSeek模擬了一個絕對平衡的MoE路由策略進行分析。

首先，訓練階段。

訓練配置檔案資料演示了DeepSeek在DualPipe中，對一對單獨的向前和向後資料塊的重疊策略。

每個資料塊包含4個MoE 層。

並行配置與DeepSeek-V3預訓練設定一致EP64、TP1具有4K序列長度。

為簡單起見，在profilng期間不包括PP通訊。

其次，推理階段。

1）預填充。

對於預填充，配置檔案使用EP32和TP1（與DeepSeek V3/R1的實際線上部署一致），提示長度設定為4K，每個GPU的批次大小為16Ktokens。

在預填充階段，DeepSeek利用兩個微批次來重疊計算和多對多通訊，同時確保注意力計算負載在兩個微批次之間平衡

——這意味著相同的提示可以在它們之間分配。

2）解碼。

（注：相關資料尚未準備就緒，將於稍後釋出）

解碼方面，該配置檔案採用了EP128、TP1和4K的提示長度（與實際線上部署配置非常匹配），每個GPU的批次大小為128個請求。

與預填充類似，解碼還利用兩個微批處理進行重疊計算和多對多通訊。

但與預填充不同的是，解碼期間的all-to-all通訊不會佔用GPU SM：

發出RDMA訊息後，所有GPU SM都會被釋放，系統在計算完成後等待all-to-all通訊完成。

有關all-to-all實現的更多資訊，請參考開源周第二彈DeepEP。

One More Thing

“大放異彩！”

對於第四彈的開源內容，網友是這麼感慨的。

目前看來，DeepSeek開源周的前4天，都挺令追更群眾們滿意。

尤其是這次開源周全部瞄準大模型的Infra層。

追更看客們表示：

更好的團隊合作不僅是團隊管理最佳化的一部分，更是實現頂級AI效能的秘訣。

DeepSeek正在建立新的標準，大規模訓練的未來就在咱們眼前！

好了，DeepSeek開源周，明天就是最後一天了，不知道會有什麼壓軸登場？

掃碼備註「DeepSeek-職業/姓名」加入群聊，一起第一時間直擊DeepSeek開源周最後一彈！

參考連結：

https://x.com/deepseek_ai/status/1894931931554558199

Github：

[1]

https://github.com/deepseek-ai/DualPipe
[2]https://github.com/deepseek-ai/eplb
[3]https://github.com/deepseek-ai/profile-data

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）來了！想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料，歡迎掃描下方二維碼，加入CVer計算機視覺（知識星球），已彙集上萬人！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請贊和在看

相關文章

DeepSeek開源第4天：梁文峰親自帶隊，給大模型最佳化並行策略

DeepSeek開源第4天：梁文峰親自帶隊，給大模型最佳化並行策略

DeepSeek今日連開3源！針對最佳化的並行策略，梁文鋒本人參與開發

DeepSeek今日連開3源！針對最佳化的並行策略，梁文鋒本人參與開發

DeepSeek開源釋出五大核心技術

DeepSeek開源釋出五大核心技術

DeepSeek開源第四彈：一口氣放出“三劍客”，有梁文鋒參與專案！黃仁勳：DeepSeek引爆晶片需求

DeepSeek開源第四彈：一口氣放出“三劍客”，有梁文鋒參與專案！黃仁勳：DeepSeek引爆晶片需求

DeepSeek開源第四彈來了！梁文鋒參與研發

DeepSeek開源第四彈來了！梁文鋒參與研發

DeepSeek一天能賺多少錢？官方揭秘V3/R1推理系統，成本利潤率545％！

DeepSeek一天能賺多少錢？官方揭秘V3/R1推理系統，成本利潤率545％！

Karpathy大神問懵DeepSeek！一個竟藏53個Token，思考10分鐘沒解釋出來…

Karpathy大神問懵DeepSeek！一個竟藏53個Token，思考10分鐘沒解釋出來…

直逼DeepSeek-R1，碾壓李飛飛s1！UC伯克利等開源全新SOTA推理模型

直逼DeepSeek-R1，碾壓李飛飛s1！UC伯克利等開源全新SOTA推理模型

4090單卡跑滿血版DeepSeek-R1！清華團隊開源專案再破大模型推理門檻！

4090單卡跑滿血版DeepSeek-R1！清華團隊開源專案再破大模型推理門檻！

剛剛，DeepSeek釋出推理時Scaling新論文！R2要來了？

剛剛，DeepSeek釋出推理時Scaling新論文！R2要來了？

Copyright © 2025 | WordPress Theme by MH Themes