DeepSeek開源第四彈來了!梁文鋒參與研發

2025.02.27
本文字數:1709,閱讀時長大約3分鐘

導讀透過這些分享可以清晰瞭解DeepSeek是如何最大限度利用GPU能力的。
作者 | 第一財經 劉曉潔
2月27日,DeepSeek開源周(OpenSourceWeek)第四彈來了,DeepSeek在X上宣佈這次開源的是三項最佳化並行策略,並在Github上詳細展開了DeepSeek-V3和R1模型背後的平行計算最佳化技術,透過這些闡述可以清晰瞭解團隊是如何精細地最佳化計算和通訊,最大限度利用GPU能力的。
這三項最佳化並行策略其中包括DualPipe,這是一種用於V3/R1模型訓練中計算與通訊重疊的雙向流水線並行演算法,這種演算法能夠完全重疊前向和後向計算通訊階段,與傳統方法相比減少了“流水線氣泡”(裝置在某些時刻的空閒等待)。在DualPipe的開發團隊署名中,包括創始人梁文鋒。
最佳化並行策略第二項是EPLB(Expert Parallelism Load Balancer,專家並行負載均衡器),它針對V3/R1模型,解決MoE(混合專家)模型在分散式訓練和推理中的負載不平衡問題。
當使用專家並行(EP)時,不同的專家被分配到不同的GPU。由於不同專家的負載可能會根據當前的工作負載而變化,因此保持不同GPU的負載平衡非常重要。DeepSeek曾在V3論文中提到,團隊採用冗餘專家策略來重複過載專家,他們創新地將重複的專家打包到GPU上,以確保不同GPU之間的負載平衡。
在第三部分,DeepSeek直接分享了來自訓練和推理框架的效能分析資料,以幫助社群更好地瞭解通訊計算重疊策略和低階實現細節。這些資料是用PyTorch Profiler採集的,下載後可以直接在Chrome或Edge瀏覽器中開啟,進行視覺化分析,DeepSeek還模擬了絕對平衡的MoE 路由策略用於效能分析。
DeepSeek這四天的釋出都與Infra層的演算法有關,分享團隊最大限度利用GPU能力的技術細節。大模型生態社群OpenCSG(開放傳神)創始人陳冉此前對第一財經舉例表示,“相當於以前DeepSeek是直接給一輛車,告訴大家這輛車續航900公里,但是現在DeepSeek在深挖,用什麼方式能夠開到900公里。”DeepSeek的模型為什麼能夠實現較好的效果,對應有一些演算法和相應的框架,而這些“腳手架”的開源有利於之後的生態搭建。
陳冉判斷,DeepSeek的程式碼開源或許會影響一批做AI Infra層的從業者,“AI Infra層的人要找新的方向。”但他同時表示,這種開源是一把雙刃劍,如果能將DeepSeek開源的內容用好可能也會得利,“用不好就被衝擊”。
此前三日,DeepSeek陸續開源了讓大模型在GPU上跑得更快的MLA解碼核FlashMLA,用於MoE模型訓練和推理的DeepEP通訊庫,以及可支援MoE的FP8 GEMM程式碼庫DeepGEMM。
從GitHub上獲得的星標來看,這些專案頗受歡迎,截至發稿,FlashMLA已在GitHub獲得超過1萬星標,DeepEP的星標已有6000,DeepGEMM目前超過3700,最新發布的DualPipe星標超過700。
就在昨日,DeepSeek還在海內外同時宣佈了API錯峰優惠,自2月26日起,北京時間每日00:30至08:30的夜間空閒時段,API呼叫價格大幅下調:DeepSeek-V3降至原價50%,DeepSeek-R1更低至25%。DeepSeek鼓勵使用者充分利用這一時段,享受更經濟更流暢的服務體驗。
另外,也有訊息稱,DeepSeek正尋求鞏固自身優勢,儘早推出R2模型,訊息提到DeepSeek原本計劃在5月初發布R2模型,目前會加快這一速度。DeepSeek目前並未對此回應。
此前DeepSeek在R1論文中提到,R1 的效能將在下一個版本得到改善,因為相關的RL(強化學習)訓練資料還很少。隨著RL資料的增加,模型解決複雜推理任務的能力持續穩定提升,且會自然湧現出一些複雜行為能力。
業界認為,DeepSeek-R2的釋出可能是AI行業的一個關鍵節點。
微信編輯生產隊的驢(拉磨版)
推薦閱讀

“非常強勁”!中國霸榜,取代韓國!


相關文章