本文來自“DeepSeek開源周釋出五大技術”,2025 年 2 月 21 日,DeepSeek 宣佈將開展“開源周”,陸續開源 5 個程式碼庫,這一舉動被認為是 DeepSeek 開源戰略的進一步升級。
內容來自“DeepSeek技術報告合集”,參考原文提供全網最全DeepSeek報告“《210+份DeepSeek技術報告合集》”,嚴選精華技術報告,絕不以次充優,提供打包下載,內容持續更新...
1、FlashMLA 助力 AI 場景生成提速
2025 年 2 月 24 日,DeepSeek 啟動“開源周”,首發開源專案 FlashMLA 為Hopper 架構 GPU(如 H800)設計的高效 MLA 解碼核心,透過深度最佳化變長序列處理及分頁 KV 快取機制,顯著提升大模型推理效率。
最佳化路徑:1)MLA 解碼端:MLA 採用低秩聯合壓縮技術將多頭注意力機制中的鍵(Key)和值(Value)矩陣投影到低維潛在空間,減少資料處理量,提高計算效率。2)分頁 KV 快取最佳化,FlashMLA 將快取資料分割成塊大小為 64 token的小塊,精細管理記憶體,有效減少視訊記憶體碎片化現象。
算力表現:FlashMLA 借鑑了 FlashAttention-3,在 H800 平臺上實現 3000GB/s資料吞吐與 580 TFLOPS 算力,接近 H100 上 Flash Attention 3 的 740 TFLOPS。
FlashMLA 是 DeepSeek 針對 H800 最佳化的成果,相比 FlashAttention-2,效能提升接近 2 倍。

FlashMLA 降低視訊記憶體佔用和計算成本,透過開源鼓勵開發者實現與現有加速框架的整合,提升了場景生成的速度。
2、DeepEP 助力 AI 專家高效協同
2025 年 2 月 25 日,DeepSeek 推出 EP 通訊庫,用於加速 MoE 模型訓練和推理。DeepEP 解決了在 GPU 之間分發和聚合 token 時的低效問題。
1)就效能而言,DeepEP 提供了高吞吐量和低延遲的 all- to- all GPU 核心,適合 MOE 分發和合並操作。其支援 FP8 和 FP16 等低精度資料格式,提升計算效率並降低記憶體需求。就網路環境最佳化,DeepSeek EP 針對 NVLink 到 RDMA 的非對稱頻寬轉發場景進行了專項最佳化,增強了異構網路環境下的傳輸效能。
2)面向高吞吐量需求場景,DeepEP 藉助 NVLink 與 RDMA 網路技術,實現GPU 間資料高效轉發。內節點通訊採用 NVLink 時,在分發與合併操作的瓶頸頻寬達分別是 153GB/s 和 158GB/s。跨節點通訊運用 RDMA,隨 EP 數量增加,分發和合並的瓶頸頻寬穩定在 43 – 46GB/s。

3)針對延遲敏感型推理解碼場景,DeepEP 包括一組具有純 RDMA 的低延遲核心,以最大限度地減少延遲。在處理 8 個專家的場景時,分發操作的延遲為163 us,合併操作延遲 318 us。伴隨專家數目增加,延遲相應上升。

DeepSeek 推出的 EP 通訊庫透過系統性技術革新,突破了對高階 GPU 硬體的依賴路徑,優化了 MoE 模型的分散式訓練與推理效能。
4、DeepGEMM 革新矩陣運算
AI 大模型需要處理海量矩陣乘法運算,傳統方法在處理速度保證精度上存在瓶頸。DeepGEMM 是一個專為 FP8 通用矩陣設計的庫,具備 DeepSeek-V3 的精細化縮放能力,用以驅動 V3/R1 模型的訓練和推理。
1)DeepGEMM 相較於與傳統的矩陣加速庫不僅安裝簡單,核心核心函式僅僅 300 行,大大降低使用者的使用門檻。該資料庫基於 CUDA 編寫,使用者透過輕量化的即時編譯(JIT)板塊,在執行時動態編譯所有核心。
2)DeepSeek 在使用 NVCC 12.8 的 H800 測試了 DeepSeek-V3/R1 推理中可能使用的所有形狀。從測試結果所得,DeepGEMM 計算效能可達到 1358 TFLOPS,記憶體寬頻最高可達 2668 GB/s。加速比方面,GEMM 與基於 CUTLASS 3.6 的最佳化相比,最高可達 2.7 倍。

3)此外,分組 GEMM(MoE 模型)中連續性佈局下可提速多達 1.2 倍。

在 AI 硬體被認為有"護城河"的今天,DeepSeek 精心設計的 DeepGEMM,充分彰顯出軟體層面最佳化所蘊含的潛能。
4、DualPipe、EPLB 協同實現 AI 效率飛躍
開源周第四天,DeepSeek 推出了 Optimized Parallelism Strategies。這是一個專注於最佳化平行計算策略的開源框架,其核心技術涵蓋 DualPipe(雙向管道並行演算法和 EPLB(專家並行負載均衡器)的深度最佳化。
1) DualPipe 作為 DeepSeek 專為 V3/R1 架構精心設計的關鍵技術,藉助創新性的雙向資料流管道設計,實現了前向計算–通訊與後向計算–通訊階段的無縫、完全重疊。與 1F1B 和 ZB1P 方法相較,儘管 DualPipe 的引數佔用增加至兩倍,但在削減管道氣泡方面具有優勢,為提升計算效率開拓了極大空間,加速 AI 模型訓練程序。

2) EPLB 是 DeepSeek 專為解決大模型訓練裡不同專家模式負載不均問題而研發的技術。它能即時精準估算每個專家的負載情況,動態調控副本數量併合理分配專家任務,避免 GPU 系統出現過載現象。
3) 層級負載均衡和全域性負載均衡是 DeepSeek 解決負載均衡策略提供的兩種模式。在層級負載均衡模式中,專家組會先在伺服器節點間進行平衡,然後再將其分配至具體 GPU 上。而在全域性負載均衡模式下,專家會被直接複製並分配到所有的 GPU 上,適用於大規模推理的解碼階段,透過提升解碼效率來滿足大規模運算的需求。
DualPipe 與 EPLB 的結合,助力解決深度學習訓練中計算資源利用不充分、不同專家模式負載不均等難題,使模型訓練更加高效快速。
5、3FS 助力資料加速領域創新
2025 年 2 月 28 日,DeepSeek 開源了第五個專案螢火蟲檔案系統(3FS)。3FS 是一個高效能的分散式檔案系統,應對 AI 訓練和推理時工作負載的挑戰。
利用現代 SSD 和 RDMA 網路,提供一個共享儲存層,簡化分散式應用程式的開發。
1)高聚合讀取吞吐量:在由 180 儲存節點組成的叢集中,它的聚合讀取吞吐量大約達到 6.6 TiB/s,可實現並行處理。
2)2)GraySort 基準測試佳績:在 25 節點叢集 GraySort 基準測試中,3FS可實現 3.66 TiB /分鐘的吞吐量。
3)鍵值快取查詢高速穩定:DeepSeek V3/R1 版本廣泛應用了 3FS,覆蓋從訓練資料處理到推理的各個階段。使用者端節點的鍵值快取(KVCache)查詢峰值吞吐量超過 40 GiB/s,確保在推理等關鍵環節能夠快速查詢和獲取所需資料。
相關文章:



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

