DeepSeek 革命性 NSA 注意力機制問世。

作者丨鄭佳美

編輯丨馬曉寧

2 月 18 日，馬斯克釋出 Grok 3 的熱度還沒過去，梁文鋒就作為 co-authors 帶著 DeepSeek 研究團隊殺了回來。

公佈新研究的推文釋出不到 3 個小時，就帶來了三十多萬的瀏覽量，火爆程度不遜 OpenAI。

而這次 DeepSeek 團隊最新的研究論文更是重磅，論文中介紹了一種全新的，可用於超快速的長上下文訓練與推理的注意力機制 —— NSA，值得一提的是，NSA 還具有與硬體對齊的特點，十足的硬體友好。

論文中提到的 NSA 核心組成主要包括三點：分別是動態分層稀疏策略、粗粒度的 token 壓縮以及細粒度的 token 選擇。有了這三點核心技術的加持，就能夠在有效降低預訓練成本的情況下，同時顯著提升推理速度，特別是在解碼階段實現了高達 11.6 倍的提升。

更讓人感到眼前一亮的是，DeepSeek 創始人兼 CEO 梁文鋒這次也出現在了合著名單之中，不僅親自上陣，還親自提交了論文。

看熱鬧不嫌事大的網友甚至還藉此調侃奧特曼：DeepSeek 又發了一篇很強的新論文了哦！

DeepSeek 填補了稀疏注意力機制存在的缺陷

隨著 AI 領域的不斷發展，長上下文建模能力的關鍵性日益凸顯，尤其在現實世界的應用中有著廣泛需求，比如深度推理、程式碼庫級程式碼生成和多輪自主代理系統。就比如 DeepSeek 自家的 R1 模型就是突破了這個技術，使其能夠處理整個程式碼庫、長篇文件，並保持成千上萬 token 的對話連貫性，同時也能在長距離依賴的情境下進行復雜推理。

但序列越來越長，傳統的注意力機制就開始因為太過複雜成為了造成執行延遲的最大因素。理論分析顯示，使用 softmax 架構的注意力計算在解碼 64k 長度的上下文時，幾乎佔據了總延遲的 70-80%，傳統注意力機制存在明顯缺陷，提升速度成了一件非常重要的事情。

並且自然的實現高效長上下文建模的方法是利用 softmax 注意力的固有稀疏性，選擇性地計算關鍵的 query-key 對，從而大幅降低計算開銷，並保持模型效能。

近年來，相關研究在這一方向取得了進展，提出瞭如 KV 快取淘汰、塊狀 KV 快取選擇，以及基於取樣、聚類或雜湊的選擇方法等策略。儘管這些方法展示了很大的潛力，但現有的稀疏注意力技術在實際部署時種仍未能達到預期效果。並且大部分研究主要集中於推理階段，缺乏對訓練階段有效支援，因此並不能充分發揮稀疏模式的優勢。

為實現更高效的稀疏注意力，DeepSeek 研究團隊提出了一種原生可訓練的稀疏注意力架構 NSA，這個架構的核心內容是透過動態分層稀疏策略，結合粗粒度的 token 壓縮和細粒度的 token 選擇，從而保留全域性上下文感知能力和區域性精確性。

同時 NSA 透過精妙的演算法設計和針對現代硬體的最佳化，實現在計算速度上的顯著提升，並支援端到端訓練，既提高了推理效率，又減少了預訓練計算量，同時保持了模型效能。

除此之外，新研究還透過使用 Triton，開發了與硬體高度相容的稀疏注意力核心。

DeepSeek 的最佳化策略則是採用不同的查詢分組方法，並透過以下特性實現接近最優的計算強度平衡：

1、組內資料載入：每次內迴圈載入該組所有頭的查詢及其共享的稀疏 KV 塊索引。

2、共享KV載入：內迴圈中連續載入 KV 塊，減少記憶體載入的開銷。

3、網格迴圈排程：由於內迴圈長度在不同查詢塊間幾乎相同，將查詢/輸出迴圈與 Triton 的網格排程器結合，簡化並優化了核心的執行。

DeepSeek：NSA 已在多面碾壓全注意力

在對 NSA 進行技術評估時，研究人員分別從通用基準效能、長文字基準效能、思維鏈推理效能三個角度，分別將 NSA 與全注意力基線和 SOTA 稀疏注意力方法進行比較。

測試中 NSA 的預訓練損失曲線相比全注意力基線呈現出更加穩定和平滑的下降趨勢，且始終優於全注意力模型。

除此之外，為了驗證 NSA在實際訓練和推理中的效果，DeepSeek 研究團隊採用了當前領先的 LLM 常用實踐，選擇了一個結合分組查詢注意力（GQA）和混合專家（MoE）架構的模型作為樣本，該模型的總引數量為 27B，其中 3B 為活躍引數。

在這個基礎上，DeepSeek 對 NSA、全注意力和其他注意力機制分別進行了評估。結果顯示，儘管 NSA 採用了稀疏性，但其整體效能仍然優於所有基線模型，包括全注意力模型，並且在 9 項評測指標中有 7 項表現最好。

另外，在長上下文任務中， NSA 在 64k 上下文的“大海撈針”測試中表現出了極高的檢索精度。這歸功於其分層稀疏注意力設計，透過粗粒度的token壓縮實現了高效的全域性上下文掃描，同時透過細粒度的選擇性標記來保留關鍵的資訊，從而有效平衡了全域性感知與區域性精確度。

同時研究團隊還在 LongBench 基準上，也對 NSA 進行了評估。最終 NSA 以最高平均分0.469，優於其他所有基準。

在思維鏈推理效能評估方面，研究人員透過從 DeepSeek-R1 進行知識蒸餾，並藉助 100 億條 32k 長度的數學推理軌跡進行了監督微調（SFT）。

最後用 AIME 24 基準來評估所生成的兩個模型Full Attention-R（全注意力基準模型）和 NSA-R（稀疏變體模型）的表現。

在 8k 上下文設定下，NSA-R 的準確率超過了 Full Attention-R，差距為 0.075。即使在 16k 上下文環境中，NSA-R 仍然保持著這一優勢，準確率高出 0.054。

NSA 驗證清華姚班早期論文

值得一提的是，論文末尾提到的處理複雜數學問題的示例，再次驗證了兩年前清華大學姚班一篇論文中的結論。

由於 Transformer 架構在注意力機制上的侷限，處理複雜數學問題時，tokens 數量過多常常會導致效能下降，特別是在任務複雜度較高時。

DeepSeek 的最新研究透過最佳化問題理解和答案生成，將所需的tokens數量減少至 2275，從而成功得出了正確答案。而與之對比的基線方法，儘管消耗了 9392 個 tokens，最終卻得出了錯誤的答案。這一顯著的提升展示了新方法在效率和準確性上的優勢。

清華大學姚班的那篇論文探討了在 Transformer 架構下，模型在計算兩個四位數乘法（例如 1234 × 5678 ）時的表現。研究發現，GPT-4 在處理三位數乘法時的準確率為 59%，然而當任務變為四位數乘法時，準確率卻驟降至 4%。這一現象揭示了在面對更復雜計算時，Transformer 架構的推理能力受到顯著限制。