DeepSeek致謝騰訊大模型網路提速技術方案貢獻

2025-07-30 16:22 鵝廠技術派

最近，DeepSeek工程師在GitHub上高亮了來自騰訊的程式碼貢獻，並用“huge speedup”介紹了這次效能提升。

什麼樣的最佳化技術讓頂尖AI團隊如此興奮？

簡單來說，是騰訊多年來調教資料中心和GPU通訊沉澱下來的TRMT技術，幫助DeepSeek開源的網路通訊神器DeepEP效能再上一個臺階。

這項合作的起點要追溯到今年2月——DeepSeek開源了包括DeepEP在內的五大程式碼庫，揭秘了他們如何用1/5硬體資源實現傳統萬卡叢集效能的核心技術。

其中，DeepEP作為突破NCCL效能瓶頸的通訊框架，透過300%的通訊效率提升，成功讓眾多MoE架構的大模型擺脫了對英偉達NCCL的依賴。

但這項技術存在“富貴病”：在成本較高的InfiniBand（IB）專用網路中如魚得水，卻難以適配更普適的RoCE網路環境。就像超級跑車只能在專業賽道馳騁，開上普通公路就效能縮水，這讓大多數使用普通網路的企業機構面對DeepEP往往看得著、用不上。

DeepEP的Github主頁上，也出現了關於RoCE網路環境中效能表現不佳的討論，相關問題一直沒有找到理想的解法。

但騰訊在RoCE網路領域可是老司機，多年來在資料中心沉澱了豐富的經驗，在DeepEP開源後立即展開驗證，迅速鎖定兩個關鍵突破點：

車道利用率低下：RoCE網絡卡普遍採用雙埠架構，但既有系統無法智慧分配流量，常出現單車道擁堵、雙車道閒置的窘境，就像快遞公司面對雙向八車道卻只使用一側車道。

CPU控制瓶頸：雖然DeepEP透過RDMA技術實現了GPU直連通訊，但在控制面交互層面仍依賴CPU中轉，存在時延和能耗最佳化空間。

於是，騰訊基於TRMT技術體系開始對DeepEP進行三個方面的最佳化👇

//雙車道充分用起來：拓撲感知的多QP建鏈

本質上是利用動態分配演算法來最大化雙埠網絡卡的頻寬利用率。

在 AI 模型啟動時，多個 GPU 之間會建立通訊組。每個 GPU 組內，GPU 之間都要建立通訊連結，並且每個 GPU 對需要建立多組 QP（佇列對）。

這種架構涉及革新類似於智慧交通管理系統：當2048輛特種車輛（GPU資料包）需要在城市路網（RoCE網路）中高效通行時，控制系統為每類物資運輸開闢專屬路線（QP繫結埠）。

透過動態分配起始匝道口（UDP源埠），確保雙車道物理通道（網絡卡埠）的車流均衡，從根本上避免了多車隊匯入同條車道引發的堵塞，讓雙埠網絡卡頻寬利用率達到理論峰值。

//進一步繞過CPU：基於 IBGDA 的多 Channel 負載均衡資料傳輸

RDMA直連GPU進行資料互動就像港口運貨，貨物到港後不用停下來卸貨裝車，可以直接運到市區。

但在“控制面”場景還是無法讓GPU繞過CPU的控制。“控制面”類似港口處理哪個批次的貨物到港、貨物是什麼、運貨的車牌號是多少等等，這種“控制面”場景的資訊還是需要CPU來處理。

騰訊基於IBGDA（InfiniBand GPU Direct Accelerator）技術，讓控制面場景的CPU也繞過了，控制時延降低至硬體極限。

(看這清爽的右圖，就知道IBGDR這種讓控制面繞過CPU的方法提升了多少效率)

同時，騰訊還讓每個 GPU 都能同時用多個“通道”來發送資料，而且這些通道會自動分配資料，不會讓某個通道太忙而其他通道閒著。

//排好隊不出錯：原子化信令協同

在GPU直接通訊時還存在一個關鍵難題：當A GPU直接把資料寫入B GPU記憶體時（類似隔空投送），B GPU並不知道資料何時到達。如果多個數據傳輸任務同時進行，可能會發“先發的包後到”的混亂情況。

鵝廠工程師提出了一種叫做“QP內時序鎖”機制，類似一種智慧快遞簽收機制：每次傳輸資料時，透過網絡卡硬體自動生成數字指紋（類似快遞單號加密），收件方必須按正確順序“簽收”。

現在，就算同時處理1000多個數據傳輸任務，系統也能自動理順先後順序。

這三板斧下來，DeepEP不僅在RoCE網路上實現效能翻倍，當DeepSeek將這套方案反哺到IB網路時，原本已經很優秀的通訊效率竟然又提升了30%。

目前，這些技術成果都已經全面開源至DeepEP社群，並深度應用於騰訊混元大模型等專案的訓練推理。在星脈網路與H20伺服器構建的高效能環境中，這套方案同樣展現出卓越的通用性。

最後，感謝DeepSeek工程師以及我的同事們，對GPU通訊瓶頸難題的探索。

還有，感謝開源。

—END—

五千字深度長文：詳解科技圈爆火的MCP

相關文章

剛剛，DeepSeek又開源！DeepEP詳解，GPU壓榨計劃啟動！

剛剛，DeepSeek又開源！DeepEP詳解，GPU壓榨計劃啟動！

DeepSeek開源第二彈，為MoE和EP量身定製的通訊庫！暫和英偉達顯示卡繫結

DeepSeek開源第二彈，為MoE和EP量身定製的通訊庫！暫和英偉達顯示卡繫結

榨乾每一塊GPU！DeepSeek開源第二天，送上降本增效神器

榨乾每一塊GPU！DeepSeek開源第二天，送上降本增效神器

DeepSeek開源第二天：拉爆MoE訓練和推理

DeepSeek開源第二天：拉爆MoE訓練和推理

剛剛，DeepSeek開源MoE訓練、推理EP通訊庫DeepEP，真太Open了！

剛剛，DeepSeek開源MoE訓練、推理EP通訊庫DeepEP，真太Open了！

GPU：DeepSeek你慢點開源，我都要被你榨乾了…

GPU：DeepSeek你慢點開源，我都要被你榨乾了…

DeepSeek開源周第二天：DeepEP亮相，為MoE和EP量身定製的高效通訊庫

DeepSeek開源周第二天：DeepEP亮相，為MoE和EP量身定製的高效通訊庫

DeepSeek開源第四彈來了！梁文鋒參與研發

DeepSeek開源第四彈來了！梁文鋒參與研發

DeepSeek開源釋出五大核心技術

DeepSeek開源釋出五大核心技術

DeepSeek團隊莫不是有神仙？

DeepSeek團隊莫不是有神仙？

Copyright © 2025 | WordPress Theme by MH Themes