點選下方卡片,關注“CVer”公眾號
點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
衡宇 夢晨 發自 凹非寺
轉載自:量子位(QbitAI)
按時整活!
DeepSeek開源周第四天,直接痛快「1日3連發」,且全都圍繞一個主題:
最佳化並行策略。

-
DualPipe:一種創新的雙向流水線並行演算法,能夠完全重疊前向和後向計算-通訊階段,並減少“流水線氣泡”。它透過對稱的微批次排程,優化了平行計算效率。
-
Expert Parallelism Load Balancer (EPLB):用於MoE的負載均衡演算法,透過複製高負載專家並智慧地分配專家到不同GPU上,確保計算資源的均衡利用。它包含兩種政策:層次化負載均衡和全域性負載均衡。
-
Profiling Data:訓練和推理框架的效能分析資料,展示了通訊-計算重疊策略和底層實現細節。

這三者中,DualPipe從時間上優化了計算與通訊的排程,EPLB從空間上平衡利用計算資源,Profiling Data則提供了前兩者在實際應用中效果的視覺化證據。
且DualPipe的開發團隊中包括梁文鋒本人。

釋出後10分鐘不到,3者在GitHub上的星標已經破300了,且其中DualPipe的星標飆升最快。
而DeepSeek一發推,網友的留言也排山倒海一般撲面而來,幾乎都是不吝溢美之詞:
好活!令人興奮!最佳化策略可以重新定義行業的效能。

Day 4,直接1日3連發
DualPipe
DualPipe是在DeepSeek-V3中首次出現雙向流水線並行演算法,現在程式碼完全開源。
它實現了前向與後向計算-通訊階段的完全重疊,還減少了流水線氣泡(即某些裝置在某些時刻空閒等待)。
DualPipe採用了雙向微批次排程策略,其核心特點是:
-
對稱設計:反向方向的微批次與前向方向對稱排列,形成一種幾何平衡的排程結構
-
計算-通訊重疊:兩個共享黑色邊框的單元格表示相互重疊的計算和通訊過程
-
雙向並行:同時在兩個方向上推進微批次,最大化硬體利用率

傳統流水線並行方法如1F1B(one-forward-one-backward)在處理多GPU場景時會產生大量氣泡。
DualPipe透過重新安排微批次執行順序,和對稱結構緩解這個問題。

EPLB
EPLB適用於V3/R1的專家並行負載均衡器,解決MoE模型在分散式訓練和推理中的負載不平衡問題。
在MoE架構中,不同的輸入會啟用不同的專家,可能導致某些專家過載,進一步造成不同GPU的利用率不平衡。
EPLB採用“redundant experts”(冗餘專家)策略:
識別高負載專家→複製多個副本分配到不同GPU→在推理時動態分配輸入到負載較輕的專家副本。
並帶有兩種普通的策略:
-
分層負載平衡,專家並行較小的預填充階段使用。
-
全域性負載平衡,在專家並行規模較大的解碼階段採用。

V3/R1中的計算通訊重疊分析資料
開源第四彈的part 3,DeepSeek公開分享了來自訓練和推理框架的分析資料,以幫助社群更好地瞭解通訊計算重疊策略和低階實現細節。
GitHub上註明,分析資料是使用PyTorch Profiler捕獲的。
下載後,開發者可以透過導航到Chrome瀏覽器中的chrome://tracing(或Edge瀏覽器中的edge://tracing)將它進行視覺化。
Attention please——DeepSeek模擬了一個絕對平衡的MoE路由策略進行分析。
首先,訓練階段。
訓練配置檔案資料演示了DeepSeek在DualPipe中,對一對單獨的向前和向後資料塊的重疊策略。
每個資料塊包含4個MoE 層。
並行配置與DeepSeek-V3預訓練設定一致EP64、TP1具有4K序列長度。
為簡單起見,在profilng期間不包括PP通訊。

其次,推理階段。
1)預填充。
對於預填充,配置檔案使用EP32和TP1(與DeepSeek V3/R1的實際線上部署一致),提示長度設定為4K,每個GPU的批次大小為16Ktokens。
在預填充階段,DeepSeek利用兩個微批次來重疊計算和多對多通訊,同時確保注意力計算負載在兩個微批次之間平衡
——這意味著相同的提示可以在它們之間分配。
2)解碼。
(注:相關資料尚未準備就緒,將於稍後釋出)
解碼方面,該配置檔案採用了EP128、TP1和4K的提示長度(與實際線上部署配置非常匹配),每個GPU的批次大小為128個請求。
與預填充類似,解碼還利用兩個微批處理進行重疊計算和多對多通訊。
但與預填充不同的是,解碼期間的all-to-all通訊不會佔用GPU SM:
發出RDMA訊息後,所有GPU SM都會被釋放,系統在計算完成後等待all-to-all通訊完成。
有關all-to-all實現的更多資訊,請參考開源周第二彈DeepEP。

One More Thing
“大放異彩!”
對於第四彈的開源內容,網友是這麼感慨的。

目前看來,DeepSeek開源周的前4天,都挺令追更群眾們滿意。
尤其是這次開源周全部瞄準大模型的Infra層。
追更看客們表示:
更好的團隊合作不僅是團隊管理最佳化的一部分,更是實現頂級AI效能的秘訣。DeepSeek正在建立新的標準,大規模訓練的未來就在咱們眼前!

好了,DeepSeek開源周,明天就是最後一天了,不知道會有什麼壓軸登場?
掃碼備註「DeepSeek-職業/姓名」加入群聊,一起第一時間直擊DeepSeek開源周最後一彈!

參考連結:
https://x.com/deepseek_ai/status/1894931931554558199
Github:
[1]
https://github.com/deepseek-ai/DualPipe
[2]https://github.com/deepseek-ai/eplb
[3]https://github.com/deepseek-ai/profile-data
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看
