DeepSeek團隊莫不是有神仙?

OSCHINA
↑點選藍字 關注我們
🔗《2024 中國開源開發者報告》正式釋出
線上閱讀:https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf

在 DeepSeek 開源周的第二天,該團隊釋出了 DeepEP,這是針對 MoE 模型的通訊庫,能提高 GPU 核心之間的吞吐量並降低延遲。此外該庫還支援低精度操作,比如 FP8。
DeepSeek 團隊在倉庫的 README 中寫道:
為了追求極致效能,我們發現並使用了一個在文件描述之外的 PTX 指令:ld.global.nc.L1::no_allocate.L2::256B。
這條指令會導致未定義行為:使用非一致性只讀 PTX 修飾符 .nc 訪問易失性 GPU 記憶體。
但是,在 Hopper 架構上,經過測試,使用 .L1::no_allocate 可以保證正確性,並且效能會好得多。
根據博主「karminski-牙醫」的解讀,no_allocate 這個指令出現在 CUDA PTX ISA 文件的第 214 頁,但只是草草說了句用途,並沒有詳細解釋能帶來什麼提升。
DeepSeek 團隊從這麼“深”的地方挖掘到了一個不被官方詳細介紹的指令——並且帶來極致的效能提升,可見他們對 CUDA 的研究程度之深,以及在 GPU 領域的積累。
CUDA PTX ISA 文件:https://docs.nvidia.com/cuda/pdf/ptx_isa_8.7.pdf
相關閱讀
相關來源:
https://weibo.com/2169039837/Pg2pjpXZF
https://github.com/deepseek-ai/DeepEP
END
熱門文章
分享在看點贊~Orz

相關文章