DeepSeek團隊莫不是有神仙？

2025-09-14 01:40 OSC開源社群

OSCHINA

↑點選藍字關注我們

🔗《2024 中國開源開發者報告》正式釋出

線上閱讀：https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf

在 DeepSeek 開源周的第二天，該團隊釋出了 DeepEP，這是針對 MoE 模型的通訊庫，能提高 GPU 核心之間的吞吐量並降低延遲。此外該庫還支援低精度操作，比如 FP8。

DeepSeek 團隊在倉庫的 README 中寫道：

為了追求極致效能，我們發現並使用了一個在文件描述之外的 PTX 指令：ld.global.nc.L1::no_allocate.L2::256B。

這條指令會導致未定義行為：使用非一致性只讀 PTX 修飾符 .nc 訪問易失性 GPU 記憶體。

但是，在 Hopper 架構上，經過測試，使用 .L1::no_allocate 可以保證正確性，並且效能會好得多。

根據博主「karminski-牙醫」的解讀，no_allocate 這個指令出現在 CUDA PTX ISA 文件的第 214 頁，但只是草草說了句用途，並沒有詳細解釋能帶來什麼提升。

DeepSeek 團隊從這麼“深”的地方挖掘到了一個不被官方詳細介紹的指令——並且帶來極致的效能提升，可見他們對 CUDA 的研究程度之深，以及在 GPU 領域的積累。

CUDA PTX ISA 文件：https://docs.nvidia.com/cuda/pdf/ptx_isa_8.7.pdf

相關閱讀

DeepSeek-R2真的要來了，這次不是KFCVWO50！

相關來源：

https://weibo.com/2169039837/Pg2pjpXZF

https://github.com/deepseek-ai/DeepEP

END

熱門文章

2024年AI程式設計工具的進化

如何公正評價百度開源的貢獻？

AI正在培養一代不會程式設計的“文盲程式設計師”

馬斯克炮轟政府資料庫設計，被真程式設計師打臉

談開源大模型的技術主權問題

↓分享、在看與點贊~Orz

相關文章

項賢明：誤解“全面發展”是學業負擔問題的思想根源

項賢明：誤解“全面發展”是學業負擔問題的思想根源

洪子誠｜讀北島《回答》：堅定、不妥協的意志，否定的、宣言式的詩情

洪子誠｜讀北島《回答》：堅定、不妥協的意志，否定的、宣言式的詩情

東亞新文化｜重新思考“技術影像”：媒體的媒介性及其透明性

東亞新文化｜重新思考“技術影像”：媒體的媒介性及其透明性

有恆產者有恆心

有恆產者有恆心

2024年華語院線：當越來越多的電影開始「有話要說」

2024年華語院線：當越來越多的電影開始「有話要說」

三月的倫敦地鐵裡，北島新作等待每一個迷路的人

三月的倫敦地鐵裡，北島新作等待每一個迷路的人

女導演，好，真好，太好了

女導演，好，真好，太好了

朱永新：一位教育學家心中的理想學生，是這樣的…

朱永新：一位教育學家心中的理想學生，是這樣的…

東正教與福音派能相融嗎？不能——福音派的視角（上篇）

東正教與福音派能相融嗎？不能——福音派的視角（上篇）

芥川龍之介：鼻子（魯迅譯本）

芥川龍之介：鼻子（魯迅譯本）

Copyright © 2025 | WordPress Theme by MH Themes