DeepSeek 新論文來了!梁文鋒以 co-authors 的身份出現在 DeepSeek 新發布的論文中。
DeepSeek 釋出了 NSA(Native Sparse Attention):一種硬體對齊和本機可訓練的稀疏注意力機制,用於超快的長上下文訓練和推理!
NSA(Native Sparse Attention)為新型稀疏注意力機制。透過針對現代硬體的最佳化設計,NSA 可以加快推理速度,同時降低預訓練成本,而不會影響效能。
NSA 是如何實現這一點的?對行業又會有什麼影響呢?一起來看看人工智慧領域優秀答主@小小將 和答主@xcjthu的回答吧。
梁文鋒參與發表的 DeepSeek 新論文 NSA 注意力機制,有哪些資訊值得關注?會帶來哪些影響?
|答主:小小將
非常有價值的文章。
NSA(Native Sparse Attention,原生稀疏注意力機制)要解決的是大模型長上下文建模(Long-context modeling)的問題。長上下文其實就是模型要處理的 tokens 數量很大,比如 128K 上下文,就是對應 128K 個 tokens。
對於 transformer 架構來說,最核心的 self-attention 要一次性處理很長的 token 序列所消耗的算力以及時間成本都很大,計算複雜度是 O(N^2)。
一個比較經濟的辦法就是用稀疏注意力機制:Sparse Attention,所謂 Sparse Attention 是相對原來的 Full Attention 來說的,Full Attention 是每個 token 都要和所有 tokens 計算,而 Sparse Attention 是隻選擇部分重要的 tokens 來計算。
Sparse Attention 是大家推理常用的策略,而 DeepSeek 這裡提出的是 Native Sparse Attention,Native 是強調的是可訓練的 Sparse Attention,而且設計了演算法和硬體結合的技術來實現。
演算法層面,NSA 透過將 attention 的 keys 和 values 組織成時間塊,並透過三種注意力路徑處理它們,從而減少了每次查詢的計算量:壓縮的粗粒度 token、選擇性保留的細粒度 token 以及用於區域性上下文資訊的滑動視窗。


硬體層面,NSA 實現了專用核心以最大化其實際效率,具體有兩個核心設計:
-
硬體對齊系統:最佳化塊狀稀疏注意力機制,以提高 Tensor Core 的利用率和記憶體訪問效率,確保算術強度的平衡。
-
訓練感知設計:透過高效的演算法和反向傳播運算元,實現穩定的端到端訓練。這種最佳化使 NSA 能夠同時支援高效部署和端到端訓練。

27B 的模型實驗表明,使用 NSA 預訓練的模型在通用基準測試、長上下文任務以及基於指令的推理中,保持或超越了全注意力模型的表現。同時,在 64K 長度的序列上,NSA 在解碼、前向傳播和後向傳播過程中均實現了相對於全注意力的顯著加速,驗證了其在整個模型生命週期中的高效性。

所以,NSA 對於後面研發長上下文的大模型很有幫助,在不降低模型效能的基礎上加速模型。
其實我想說的是,從 DeepSeek V3 就可以看到 DeepSeek 團隊一直最重視的是高效訓練,現在的 NSA 更是這方面的體現。
此外,Kimi 團隊同時也釋出了類似的工作 MoBA:長上下文大語言模型中的混合塊注意力機制。(又和 DeepSeek 撞上了!之前 kimi k1.5 也是和 DeepSeek R1 撞了!)
MoBA 透過將混合專家系統(Mixture of Experts, MoE)與稀疏注意力相結合,徹底改變了長上下文處理在大型語言模型(LLMs)中的應用。MoBA 在保持高效能的同時實現了高效性,使長上下文任務的可擴充套件性達到了新的高度。而且,MoBA 的一大核心也是可訓練的塊稀疏注意力機制。



補充一點的是,稀疏注意力不僅可以用於 LLM,其實也可以應用在視覺生成模型 DiT 的加速。比如,
Hao AI Lab 就設計了滑動分塊注意力機制(Sliding Tile Attention, STA)應用於影片 DiT 模型的
加速:
-
將 3D 全注意力機制(FA3)加速高達 10 倍
-
端到端時間從 16 分鐘縮短至 5 分鐘
-
無需額外訓練,且無質量損失!

其核心思路和 DeepSeek 的 NSA 以及 Kimi 的 MoBA 是類似的。

|答主:xcjthu
知乎潛水數載,首答獻給稀疏 Attention 吧!
對 NAS 的介紹已經有很多回答介紹的很詳細了,我這裡就不再贅述。
Attention 的稀疏特性,其實從 BERT 時代開始就已經被廣泛驗證了。最早像 Longformer、BigBird 這些模型提出的幾種稀疏 Attention Pattern(比如 Sliding Window、Global Attention——現在叫 Attention Sink),直到今天依然被廣泛使用。Attention 天然的稀疏性,意味著每個詞元在計算時,只需要從海量的上文中選出 top-k 相關的部分進行 Attention 計算。這個思路很簡單,但難點就在於如何快速找到 top-k 的相關上文。如果逐 token 去選,計算和訪存的過程又會回到 Full-Attention 的複雜度。
那順著這個思路,我們團隊在 2024 年初提出了 InfLLM。核心想法也很簡單:把長文字的 KV Cache 切成塊,然後按塊級別做相關性檢索。這麼做有兩個好處:
1)計算效率提升:不用逐 token 計算相關性;
2)訪存效率提升:避免碎片化訪問不連續的 token。
有了這個框架,InfLLM 可以讓一個 8K 視窗大小的模型處理 128K 的長文字,同時還能顯著加速計算。
讓我感到開心的是,NSA 的論文對 InfLLM 有很高強度的引用,整體的 Attention Pattern 也非常類似!當然,DS 團隊一貫的特色就是優秀的運算元設計+高效的演算法。去年我們做 InfLLM 時,其實也希望能把這套框架應用到預訓練階段,但因為資源受限,加上自己對 infra 的理解不夠深,沒能落地(現在來看確實有點馬後炮了哈哈)。去年 DS 一些同事就和我簡單交流過 InfLLM 的一些內容,直到昨天看到論文才恍然大悟,他們也在關注這個方向!NSA 的軟硬協同的設計著實精彩!看到稀疏 Attention 的思路被大家認可,還是覺得很開心,也激勵自己繼續學習。
(2024 年也湧現了非常多稀疏 Attention 的相關工作,值得大家關注,包括微軟的 Minference,CMU 的 Magicpig 等。)
下面是關於長文字技術的一些思考。
1. NAS 最精彩的部分還是軟硬一體化的設計!
稀疏的特性雖然一直被大家關注,但因為 GPU 的結構的問題,高稀疏性並不能夠總是帶來比較可觀的加速比。正如 Deepseek-V3 帶給大家的震撼一樣,我認為 NAS 的硬體親和性是這篇論文最精彩的部分。這也讓我進行了一些反思,現階段的演算法研究還是要能夠保持對硬體、infra 的直覺,甚至能直接上手寫。這樣才能讓理論加速比真的落地。
2. 稀疏 Attn 為什麼還能超過 Full-Attn?
長文字具有天然的高稀疏性與富噪音性。處理每個 token 確實不要把全文都過一遍,而 Full-attention 機制,總是能確保每兩個 token 之間的相關性不為 0。這也就帶來了計算上的噪音。所以不難理解,一個 well-trained 稀疏 Attn 能夠為每個 token 遮蔽掉部分噪音,效果也能帶來些許提升。但效果的有限提升外,還是效率的提升更讓人驚喜。
3. 長 CoT 是不是需要稀疏注意力機制,以 Mamba 為例的線性模型是不是可行?
在這裡發表一個暴論,現在大部分的線性模型其實基本可以等價一個資訊壓縮率更高的「滑動視窗」。在長思維鏈大放異彩的今天,我們不難想象,「滑動視窗」一邊推理一邊遺忘,不太像是能夠有比較好的上限。當然,混合架構以及 RNN+記憶重放機制 或許就能夠突破上述的障礙。在現階段的長 CoT 時代,KV Eviction 與 RNN 等帶有顯式的遺忘機制的架構,或許上限不高,畢竟每一段思考或許都是有裨益的!
DeepSeek 論文署名梁文鋒的訊息引發熱議,而關於這支 AI 獨角獸最硬核的討論正在知乎持續發酵。
科研工作者@小林學長 第一時間拆解「動態分層稀疏策略」如何實現硬體對齊;
晶片領域優秀答主@mackler 從自身專業領域展望 AI 產業的未來發展;
北京郵電大學工學碩士@奇大 手把手教你如何讓 DeepSeek 變成私人秘書。
……
最前沿的 AGI 討論場域,永遠在問題與答案的碰撞中誕生。
點選【閱讀原文】,看更多 AI 專業洞察。
題圖來源:《電腦夢幻曲》