今天 DeepSeek 帶來了 DeepEP,一個專為混合專家系統(MoE)和專家並行(EP)定製的通訊庫。
它的設計靈感來自 DeepSeek-V3 論文裡的群組限制門控演算法(group-limited gating),這個演算法能幫助大模型更高效地分配任務給不同的「專家」,降本增效從未如此簡單。
DeepEP 在 Mixture-of-Experts (MoE) 模型的通訊技術上有所突破,特別是在 GPU 核心最佳化方面。它顯著提升 MoE 模型的效能和效率,適用於大規模 AI 訓練和推理。
DeepSeek 開源周,APPSO 將持續帶來最新動態和解讀,往期回顧👇
關注 AI 頭部新媒體,提前獲取 AI 最新資訊和洞察
隨著 AI 模型規模的不斷擴大,從數十億引數到數萬億引數,高效的通訊將成為關鍵瓶頸。DeepSeek 這次帶來的 DeepEP ,主打低延遲核心,其支援 FP8 的特性特別適合資源受限或即時性要求高的場景。
特別是在處理 MoE 分派和組合的通訊模式上,DeepEP 針對高吞吐量和低延遲的 GPU 核心,專門優化了 MoE 模型中資料路由和輸出的整合過程。
最佳化之後的 MoE 模型的通訊效能,支援低精度操作(如 FP8),並提供了針對非對稱域頻寬轉發的核心。這使得在分散式 GPU 環境中,MoE 模型的訓練和推理更加高效和可擴充套件,尤其是在多節點叢集中,能夠顯著降低通訊開銷並提高整體效能。
MoE 「混合專家」,就是讓 AI 模型裡匯聚了不同的專家,負責不同的任務。更形象點說,一個超大型 AI 模型就像班級大掃除時的值日團隊,每個同學要乾的活不同,有人擦玻璃,有人掃地,有人搬桌子,等等等等。
但現實中總有人動作快,有人動作慢。桌子沒搬好,去幫忙拖地;玻璃先擦了,又會有灰塵落在地上。互相協調的過程不通暢,會導致效率低下。
為了解決這種協作卡頓的問題,就需要有一個高效智慧的分工計劃。就像班主任把值日生分成不同小組,讓擦玻璃快的同學專注擦玻璃,掃地的同學專注掃地,大家各司其職不互相拖後腿,並且及時觀察誰的活兒提前幹完了,誰的工作量超了。
這就是「專家小組分工」group-limited gating:不讓擦玻璃的同學被迫掃地,從根源上減少人力資源浪費。
而在大模型裡,這就是不讓計算資源浪費。DeepEP 能根據任務量動態調節 GPU 的計算資源(SM 數量控制)。任務多的時候,就讓 GPU 裡更多計算單元一起工作;任務少的時候自動減少功耗,既省電又不耽誤效率,特別適合需要快速處理海量資料的場景。
「降本增效」,是這次 DeepEP 送出的一份大禮。
除了資源分配,AI 模型裡的「專家」,也就是計算機裡的 GPU 晶片,需要頻繁傳遞資料。資料傳遞慢會導致 GPU 算完一波任務後「乾瞪眼」。
DeepEP 的跨域頻寬最佳化,相當於給 GPU 配了專屬直升機送貨,把等待時間進一步壓縮,自然能榨出更多算力。
還是回到剛才班級大掃除的例子,普通的 GPU 之間傳輸資料慢、互相等,就好像擦玻璃的同學需要水桶,但桶在掃地的同學手裡,只能等對方用完再傳,中間浪費時間。甚至要去隔壁班借,得穿過走廊、爬樓梯,還可能被其他班級的人堵住。
在資料傳輸上,也會出現類似的問題。而 DeepEP 的核心,優化了非對稱域頻寬轉發(如 NVLink 到 RDMA),這使得它特別適合現代高效能計算(HPC)環境中的多節點分散式訓練。
同一伺服器內 GPU 用 NVLink,傳輸速度 150GB/s,幾乎零等待。跨伺服器用 RDMA 網路,速度蹭蹭加快。還有無縫頻寬轉發,避免資料堆積或丟失。
如果說傳統的 AI 訓練中,GPU 跑了 10 個小時,4 個小時在等資料、等同步,實際工作時間只有 6 小時。那麼 DeepEP,能夠把等待時間壓縮到 1 小時,GPU 幹活 9 小時,相當於多了 3 小時算力,真正「榨乾」每一塊 GPU。
這對於很多應用場景,尤其是依賴 MoE 架構的大型語言模型,都有非常大的價值。DeepEP 可以顯著提升這些模型的訓練和推理效率,適用於自然語言處理任務,如翻譯、摘要生成和問答系統。
在程式碼生成領域也有應用,DeepEP 的高效通訊可以加速這些模型的開發和部署,特別是在處理複雜程式設計任務時。
甚至是在推薦系統中,MoE 可以讓不同專家處理不同使用者偏好,DeepEP 的最佳化可以提高系統在分散式環境中的效能,適用於電商平臺或媒體流媒體服務。
「降本增效」的關鍵大招,DeepSeek都傾囊相授了,真· open ai。
我們正在招募夥伴
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)