梁文鋒、楊植麟同一天發論文“秀肌肉”,主題居然撞上了!下一代模型要來了?

整理|冬梅
2 月 18 日,DeepSeek 和月之暗面(Moonshot AI)幾乎在同一時間釋出了各自最新的研究成果,巧合的是,兩篇論文的主題高度一致——都聚焦於改進 Transformer 架構中最核心的注意力機制,旨在提升其處理長上下文的能力並降低計算成本。由此可見,大家都在爭相研究如何讓 AI 更好地處理長文字,這不僅說明了行業對高效處理長文字的需求非常迫切,也是技術創新競爭進入白熱化的縮影。
更有趣的是,兩家公司的技術派明星創始人都親自參與了研究,他們的名字分別出現在各自的論文和技術報告中,此舉引發了外界的強烈關注。
2017 年,Transformer 架構被谷歌提出後便在技術圈內掀起熱潮,它的出現被認為是 AI 發展史上的重要里程碑。但如此厲害的注意力機制,卻有一個問題,它計算起來的複雜程度是和輸入序列的長度是相關的,具體來說計算複雜度是輸入序列長度 n 的平方,寫成公式就是 O (n²)。
這就導致了在處理長的文字序列時,比如長度超過 1 萬個 token 的文字,計算所需要的成本會大幅增加,而且還會佔用很多記憶體。這就成了限制模型進一步擴大規模、提升能力的主要障礙。
DeepSeek 和月之暗面這兩個研究團隊都在想辦法解決這個問題,他們用的方法叫稀疏注意力(Sparse Attention)。稀疏注意力的主要思路就是,在進行注意力計算的時候,減少那些沒有必要的互動計算。這樣一來,計算複雜度就能從原來的 O (n²) ,降低到 O (nlogn),甚至能達到 O (n)。而且,在降低複雜度的同時,還儘量讓模型保持對長文字上下文的理解和處理能力。
兩篇論文都說了什麼?
那麼,這兩篇論文都具體說了什麼?
首先是 DeepSeek 的論文,這篇論文名為《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,主要講述了 DeepSeek 提出的一種可原生訓練的稀疏注意力機制 NSA(英文全稱:Natively Trainable Sparse Attention,簡稱 NSA),能夠透過動態分層稀疏策略,結合粗粒度 token 壓縮和細粒度 token 選擇,實現了對長上下文的高效建模。簡而言之,就是能透過減少不必要的計算,讓模型在處理長文字時既快又好。
長上下文建模是指讓語言模型能夠理解和處理很長的文字(比如一本書或一篇長文章)。這對於下一代語言模型非常重要,因為很多工需要模型記住和理解大量的資訊。但現在的問題是,現有的標準注意力機制(比如 Transformer 中的注意力機制)在處理長文字時計算量非常大,導致訓練和推理速度變慢,成本也很高。
稀疏注意力是一種改進的方法,它透過減少不必要的計算來提高效率,同時儘量保持模型的能力。NSA 就是一種新的稀疏注意力方法,它透過兩個關鍵創新來實現高效的長上下文建模,具體而言:
演算法最佳化:NSA 機制設計了一種平衡計算強度的演算法,並且針對現代硬體進行了最佳化。簡單來說,它透過減少不必要的計算步驟,讓模型在保持效能的同時跑得更快。這就像在讀一本很厚的書時,不再需要逐字逐句地讀,而是透過快速瀏覽章節標題和重點段落來理解主要內容。NSA 就像這種高效的閱讀方式,它只關注重要的部分,跳過了不重要的細節,從而節省了時間。
端到端訓練:NSA 還允許模型從頭到尾(從輸入到輸出)進行訓練,而不需要在中間增加額外的計算步驟。這樣既減少了訓練時間,又不會降低模型的表現。
實驗表明,使用 NSA 訓練的模型在多個任務上(比如閱讀理解、長文字生成等)表現得和全注意力模型一樣好,甚至更好。而且,在處理非常長的文字(比如 64k 長度的序列)時,在解碼、前向傳播和後向傳播過程中分別實現了 2.5 倍、3.1 倍和 2.8 倍的加速,同時在多個長上下文任務(如長文字生成、問答和指令推理)中保持了與全注意力模型相當甚至更好的效能。
也就是說,NSA 透過減少不必要的計算,讓模型在處理長文字時既快又好。
下圖是全注意力模型(Full Attention)與 DeepSeek NSA 模型在效能和效率上的對比:
  • 左圖:儘管 NSA 是稀疏的,但它在通用基準測試、長上下文任務和推理評估中的平均表現超越了全注意力基線模型;
  • 右圖:在處理 64k 長度的序列時,NSA 在解碼、前向傳播和後向傳播的所有階段都實現了顯著的計算加速,相比全注意力模型效率大幅提升;
同一天,月之暗面提交的論文名為《MoBA: Mixture of Block Attention for Long-Context LLMs》,也是一篇針對模型架構展開的討論。
月之暗面的論文中提出了一個在核心思想上與 NSA 較為一致的架構:注意力混合架構 MoBA。(英文全稱:Mixture of Block Attention,簡稱 MoBA)。
月之暗面同樣闡述了目前世面上主流 AI 語言模型在處理長文字時,面臨一個很大的問題:隨著文字變長,計算量會急劇增加。這是因為傳統的注意力機制需要計算每個詞與其他所有詞的關係,導致計算複雜度呈二次增長(比如文字長度增加 10 倍,計算量可能增加 100 倍)。這不僅讓模型變慢,還增加了成本。
而現有方法在應對上述問題時都有侷限性,比如:
  • 固定模式:比如只關注文字的開頭或結尾(下沉注意力),或者只關注附近的一小段文字(視窗注意力)。但這些方法的問題是,它們假設某些部分更重要,忽略了其他可能的關鍵資訊。
  • 簡化計算:比如用線性近似代替複雜的注意力計算。雖然這樣計算更快,但在處理複雜任務時,效果可能不如人意。
因此,月之暗面提出了一種新方法,叫做混合塊注意力(MoBA)。它的核心思想是:讓模型自己決定該關注哪些部分,而不是人為規定。這種方法借鑑了“專家混合(MoE)”的思想,就像讓一群專家分工合作,每個人負責自己擅長的部分。
MoBA 的優勢主要有兩點:一是可以靈活切換:MoBA 可以根據需要,自動在全注意力和稀疏注意力之間切換。全注意力適合處理複雜任務,而稀疏注意力適合處理長文字,效率更高;二是高效且不影響效能:MoBA 在保持模型效能的同時,顯著降低了計算量。比如在處理長文字時,它可以跳過一些不重要的部分,只關注關鍵資訊,從而節省時間和資源。
目前,MoBA 已經被用在 Kimi(一個 AI 助手)中,幫助它更好地處理長文字請求。比如,當你讓 Kimi 總結一本長篇小說時,MoBA 可以讓它快速找到關鍵情節,而不需要逐字逐句地分析整本書。
下圖是切注意力混合(MoBA)示意圖:
(a) 切塊注意力混合(MoBA)的一個例項;(b)將塊注意力混合(MoBA)整合到快速注意力機制(Flash Attention)中。
那與全注意力機制相比,效果如何?下圖展示了 MoBA(藍色線條)和全注意力機制(紅色線條)在不同方面的對比情況:
(a) 驗證集上的語言模型損失(序列長度 = 8K);(b) 驗證集上的尾隨語言模型損失(序列長度 = 32K,最後 1K 個標記);(c) 擬合的縮放定律曲線。
  • (a) 子圖:展示了在序列長度為 8K 時,驗證集上的語言模型損失隨著 PFLOP/s – days(一種計算量單位)的變化趨勢。可以看到隨著計算量的增加,兩種方法的語言模型損失都在下降,且 MoBA 和全注意力機制的曲線較為接近。
  • (b) 子圖:顯示了在序列長度為 32K 且只關注最後 1K 個標記時,驗證集上的尾隨語言模型損失隨 PFLOP/s – days 的變化。同樣,隨著計算量上升,損失下降,兩者曲線有相似的下降趨勢。
  • (c) 表格:給出了擬合的縮放定律曲線公式。這些公式可以用於預測在不同計算資源(C)下的損失情況。
也就是說,在不同序列長度和損失計算方式下,MoBA 和全注意力機制在計算量與損失關係上表現出一定的相似性。
一起瞄準思維鏈,
又一起聚焦模型架構
事實上,這不是兩家公司第一次中心思想“大撞車”。
在 DeepSeek 釋出 R1 時,Kimi 也難得地公開了 K1.5 的技術報告。要知道,Kimi 這家公司以前並不太喜歡對外展示自己的技術思路,但這次卻破例了。有意思的是,這兩篇論文的目標非常相似,都是想透過強化學習(RL)來提升 AI 的推理能力。
如果你仔細對比這兩篇論文,會發現 K1.5 的報告在“如何訓練一個推理模型”這個問題上,講得更詳細、更深入。無論是提供的資訊量,還是技術細節的豐富程度,K1.5 都更勝一籌。不過,由於 DeepSeek 的 R1 釋出後吸引了更多人的關注,K1.5 的論文反而被“冷落”了,沒有得到應有的討論和重視。
值得注意的是,連 OpenAI 也注意到了這兩家總是思想撞車的 AI 明星創企。OpenAI 在其關於 o 系列模型推理能力講解的論文裡提及 DeepSeek – R1 和 Kimi K1.5。
DeepSeek – R1 透過獨立研究運用思維鏈學習(COT)方法,實現了在數學解題和程式設計挑戰中的優異表現。
在數學解題中,這種方法可以幫助模型更好地理解問題的邏輯結構,從已知條件逐步推導得出正確答案。例如在解決幾何證明題時,模型可以按照思維鏈的步驟,先識別圖形的性質和已知條件,然後運用相應的定理和規則進行推理,最終完成證明。
在程式設計挑戰中,思維鏈學習使模型能夠更清晰地規劃程式碼結構,理解不同程式碼片段之間的邏輯關係,從而編寫出更高效、準確的程式碼。
Kimi K1.5 同樣透過獨立研究採用思維鏈學習(COT)方法,在數學解題與程式設計挑戰提高了模型效果。
而 OpenAI 選擇 DeepSeek – R1 和 Kimi k1.5 作為對比的推理模型,一方面體現了這兩個模型在推理能力已經得到了行業巨頭的認可;另一方面,這也反映出思維鏈學習(COT)方法在提升模型推理能力方面的有效性和重要性得到了廣泛關注。
這次兩家又一起“槓”上了模型架構,或許從側面說明了,我們距離下一步模型創新又近了一步。
參考連結:
https://arxiv.org/html/2502.11089v1
https://github.com/MoonshotAI/MoBA?tab=readme-ov-file
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
今日薦文
剛剛,DeepSeek被曝首次考慮引入外部資金,新增財務負責人已就位
發論文親自上?創業十多年,DeepSeek梁文鋒的“技術男”屬性從沒改變
微信也接不住DeepSeek的流量?
百度、位元組高管隔空互懟;月之暗面或因DeepSeek調整重心;騰訊已對微信接入DeepSeek灰測 | AI週報
趕緊放棄強化學習?!Meta 首席 AI 科學家楊立昆喊話:當前推理方式會“作弊”,卷大模型沒有意義!
你也「在看」嗎?👇

相關文章