楊植麟跟梁文鋒，論文撞車！

來源：智東西（ID：zhidxcom）

作者：陳駿達

Kimi、DeepSeek又撞新成果，創始人都親自上陣。

智東西2月19日報道，在DeepSeek公佈最新稀疏注意力框架NSA論文的5小時後，“大模型六小虎”之一、月之暗面Kimi團隊公佈了一篇類似主題的MoBA論文，並聲稱在長文字上下文中實現了高效、動態的注意力選擇，提升了大模型在處理超長序列任務時的效率和效能，同時保持了與全注意力機制相當的效果。

▲DeepSeek與月之暗面相隔5小時官宣論文（圖源：X）

和NSA類似，MoBA也是一個稀疏注意力框架，旨在提高長文字處理效率。MoBA上下文長度最大可擴充套件到10M，而NSA最長是64k（剛剛，DeepSeek發新成果！梁文鋒親自參與，實習生挑大樑，顯著加速AI訓練推理）。值得關注的是，DeepSeek創始人梁文鋒是NSA論文共同作者之一，MoBA論文的共同作者中也出現了月之暗面聯合創始人楊植麟、周昕宇的名字。

月之暗面MoBA架構的主要特點包括對長上下文任務的適配，例如，在處理長達100萬tokens的序列時，其速度比全注意力架構快6.5倍。在擴充套件到1000萬tokens時，MoBA的計算時間與標準Flash Attention相比，實現16倍的加速比。

▲MoBA論文截圖（圖源：月之暗面）

此外，這一架構沒有引數門控機制，模型能在全注意力與MoBA間自由切換，與現有的Transformer預訓練模型相容度也較高。

採用MoBA架構的模型在多個長上下文基準測試中，與全注意力模型相當。特別是在RULER基準測試中，MoBA的稀疏度高達62.5%，但效能與全注意力模型幾乎匹配。

昨天，Kimi還面向開發者釋出了一款最新的模型Kimi Latest，對標Kimi智慧助手當前使用的模型，隨智慧助手產品更新而同步升級。這款模型支援自動上下文快取，快取命中的Tokens費用僅為1元/百萬tokens。

專案連結：

https://github.com/MoonshotAI/MoBA

論文連結：

https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf

01.

長文字是AGI關鍵能力，

現有方案可擴充套件性、成本效益不佳

月之暗麵糰隊認為，實現AGI的關鍵能力之一是處理、理解和生成長序列的能力，這種對長序列處理的需求不僅體現在對長輸入提示詞的理解，還體現在對思維鏈（CoT）輸出能力的探索中。

擴充套件大模型的序列長度並非易事，因為傳統的注意力機制會導致計算複雜度呈二次方增長。研究者們需要一種能提高效率，而不會犧牲效能的方法。受到生物學意義上人腦中稀疏連線的啟發，研究者們試圖利用注意力分數的稀疏性，來提升計算效率。

不過，現有的稀疏注意力框架存在一些問題。

部分方法依賴於預定義的結構約束，如基於sink的注意力或滑動視窗注意力。這些方法的有效性已經得到驗證，但僅適用於特定型別的任務，可能會限制模型的整體泛化能力。

另一種方法是動態稀疏注意力機制，如Quest、Minference和RetrievalAttention，這些方法在推理時選擇子集，雖然可以減少長序列的計算量，但未能顯著降低長序列模型的訓練成本，使得LLMs難以高效擴充套件到百萬級的上下文長度。

此外，線性注意力模型（如Mamba、RWKV和RetNet）透過用線性近似替代傳統的softmax注意力，降低了計算開銷。但線性注意力與傳統注意力存在顯著差異，在適應現有的Transformer模型時通常需要高昂的轉換成本，甚至需要從頭開始訓練新模型。更重要的是，這些方法在複雜推理任務中的有效性尚未得到充分驗證。

月之暗麵糰隊希望在保留原始Transformer框架的前提下，打造一款遵循“少結構（less structure）”原則、穩健且適應性強的注意力架構，讓模型自主決定關注點，而不是引入人工干預的偏差。

理想情況下，這種架構能夠在全注意力和稀疏注意力模式之間無縫切換，從而最大化與現有預訓練模型的相容性，並在不犧牲效能的情況下實現高效的推理和訓練加速。

02.

設計靈感源自MoE與稀疏注意力，

可與全注意力無縫切換

月之暗面的MoBA架構能透過動態選擇歷史片段（塊）來提高Transformer模型處理長序列的效率。其設計靈感來源於混合專家（MoE）和稀疏注意力技術。他們創新性地將MoE原則應用於注意力機制本身，從而實現更高效和有效的長序列處理。

▲MoBA注意力機制架構圖（圖源：月之暗面）

MoBA的核心創新在於其塊劃分和選擇策略。它將長序列分割成多個固定大小的塊（block），並透過門控機制動態選擇與每個查詢token最相關的塊，從而實現稀疏注意力。

塊劃分方面，MoBA將將長度為N的上下文劃分為n個塊，每個塊包含B=N/n個連續token。這種方式能夠將注意力集中在區域性區域，從而減少計算量，使得模型可以高效地處理長序列，而不需要對整個序列進行全域性計算。

門控機制透過計算查詢token與每個塊的相關性得分si，並應用top-k選擇機制，動態地為每個查詢token選擇最相關的k個塊。這種機制允許模型動態地關注最有資訊量的塊，而不是整個上下文，還增強了模型對長序列的理解能力。

因果性是自迴歸語言模型的核心特性，確保模型只能基於之前的上下文生成下一個token。MoBA透過限制查詢token不能關注未來的塊，並在當前塊內應用因果掩碼，避免了資訊洩露，確保了生成過程的順序性和邏輯性，這使得模型在處理長序列時能夠保持一致性和準確性。

此外，MoBA借鑑了MoE中細粒度劃分的思想，透過增加塊的數量和減小塊的大小，模型能更精準地捕捉區域性資訊，同時減少不必要的計算。

由於全注意力與稀疏注意力各有優勢，MoBA被設計為全注意力的替代品，可以在訓練和推理過程中無縫切換。這種靈活性使得MoBA能夠與現有的預訓練模型相容，從而在效率和效能之間取得平衡。

具體實現過程中，MoBA透過結合FlashAttention和MoE的最佳化技術，打造了高效的計算流程，具體步驟如下:

1、塊分配：根據門控網路和因果掩碼，確定每個查詢token與哪些KV塊相關聯。

2、順序調整：按照塊分配關係重新排列查詢token的順序，以便按塊進行計算。

3、塊級注意力計算：對每個KV塊及其對應的查詢token分別計算注意力輸出，這一步可透過FlashAttention最佳化，顯著提升計算效率。

4、輸出重組：將計算完成的注意力輸出重新排列回原始順序。

5、線上Softmax組合：使用線上Softmax將不同塊的輸出進行整合，確保最終結果的連貫性。

03.

處理百萬token時快6.5倍，

混合訓練效果與全注意力無異

月之暗麵糰隊主要透過擴充套件法則實驗和消融研究來驗證MoBA的一些關鍵設計選擇。

訓練方面，他們比較了使用全注意力和MoBA訓練的語言模型驗證損失，來進行擴充套件法則實驗。MoBA作為全注意力的替代方案，沒有引入新的引數或移除現有引數，實驗中唯一的區別在於注意力模組，而所有其他超引數（包括學習率和批次大小）保持不變。

MoBA和全注意力的驗證損失曲線顯示出非常相似的擴充套件趨勢。具體而言，這兩種注意力機制之間的驗證損失差異始終保持在1e-3的範圍內。這表明，儘管MoBA的稀疏注意力模式稀疏度高達75%，但其擴充套件效能與全注意力相當。

▲MoBA和全注意力的驗證損失曲線非常相似（圖源：月之暗面）

語言模型損失還會受到資料長度分佈的偏差影響。為了全面評估MoBA的長上下文能力，月之暗麵糰隊評估了尾部token的語言模型損失（trailing LM loss）。這些指標能幫助人們瞭解模型生成序列最後部分的能力，在長上下文理解任務中具有重要意義

測試中，儘管MoBA在所有五個實驗中與全注意力相比，尾部塊的語言模型損失略高，但損失差距逐漸縮小。這一實驗表明了MoBA的長上下文可擴充套件性。

▲MoBA與全注意力模型間的損失差距逐漸縮小（圖源：月之暗面）

研究人員還透過調整塊大小和top-k引數，研究塊粒度對效能的影響。實驗發現，細粒度分割顯著提升了MoBA的效能。

他們還在嘗試了混合訓練策略，先用MoBA訓練90%的資料，再用全注意力訓練剩餘10%的資料。結果顯示，混合訓練策略在保持高效訓練的同時，幾乎達到了全注意力的效能水平。

▲混合訓練策略（綠線）與全注意力策略（紅線）的效能差異較小（圖源：月之暗面）

在多個長上下文基準測試中，MoBA的效能與全注意力模型相當。特別是在RULER基準測試中，MoBA的稀疏度高達62.5%，但效能與全注意力模型幾乎匹配，還在近半數的測驗中實現了更好的表現。

▲MoBA模型在基準測試上的表現（圖源：月之暗面）

MoBA模型在長上下文理解任務上的也具有不錯的表現，於3200-100萬tokens上下文長度的“大海撈針（Needle in a Haystack）”測試中獲得了令人滿意的表現。

▲採用MoBA注意力機制的模型在“大海撈針”測試中的表現（圖源：月之暗面）

MoBA在計算效率方面表現出顯著優勢。其前向傳播時間遠低於傳統的全注意力機制，展現出亞二次複雜度，這意味著隨著序列長度的增加，MoBA的計算開銷增長速度遠低於傳統方法。例如，在處理長達100萬tokens的序列時，MoBA的速度比全注意力快6.5倍。

此外，MoBA的效率優勢在處理更長序列時愈發明顯：在擴充套件到1000萬tokens時，MoBA的計算時間與標準Flash Attention相比，實現16倍的加速比。

這種高效性主要得益於MoBA的塊稀疏注意力機制，以及其結合了MoE和Flash Attention的最佳化實現。這些技術有效解決了傳統注意力機制的二次複雜度問題，顯著提升了模型的計算效率，使其能夠高效處理極長序列。

04.

同日釋出新模型，

將與最新版Kimi保持同步

月之暗面昨天還發布了一個新模型Kimi Latest，這款模型主要是為了彌合Kimi智慧助手和開放平臺之間模型的差異。

在過去，當開發團隊優先滿足智慧助手的情緒化回覆需求時，開放平臺使用者可能遭遇提示詞失效等“破壞性變動”，不符合其對模型效果穩定性的要求。

另一方面，智慧助手的快速迭代特性導致部分試驗性特性雖在某些方面出色，但在其他場景下存在缺陷（如重複輸出），不適合第一時間應用於開放平臺，造成開放平臺與智慧助手所用模型存在差異，引發使用者對同一提示詞在網頁版和API呼叫時回覆不同的疑問。

新模型Kimi Latest對標Kimi智慧助手當前使用的模型，並隨產品更新同步升級（模型名稱始終為kimi-latest）。開放平臺使用者體驗可以體驗最新模型的效果（包括試驗性特性），又能保持原有模型的穩定性。

Kimi Latest模型有五大特點：

1、使用Kimi智慧助手最新的大模型，可能包含尚未穩定的特性。

2、上下文長度為128k，會根據上下文長度自動選擇8k/32k/128k模型作為計費模型。

3、是視覺模型，支援圖片理解。

4、支援自動上下文快取，快取命中的Tokens費用為￥1/M Tokens（暫不支援手動上下文快取）。

5、其餘功能與moonshot-v1系列模型一致，包括ToolCalls、JSON Mode、Partial Mode、聯網搜尋功能等。

月之暗面建議，如果開發者是為了獲取與Kimi智慧助手類似的體驗，或是要開發AI智慧助手或客服，推薦使用Kimi Latest模型；但如果是要進行意圖識別或結構化資料提取，或是已經使用moonshot-v1系列模型且提示詞效果穩定，還是推薦使用原有的moonshot-v1系列模型。

05.

結語：國產開源AI競賽升級

在DeepSeek以現象級開源姿態引爆行業後，國內大模型賽道掀起了一場開源軍備競賽——廠商們不僅爭相開源自家模型，也將內部技術成果以論文形式推向開發者社群。這一舉措有望撬動開發者生態，擴大技術影響力。

不過，在這場競賽中，月之暗面已然不是那個最耀眼的玩家：釋出v1.5撞同款推理模型DeepSeek R1，勢頭完全被DeepSeek蓋過；發新模型和稀疏注意力機制，又撞上階躍星辰新模型開源、馬斯克Grok 3釋出、DeepSeek NSA輪番吸走高關注度。曾經的頂流，被網友戲稱是“大模型圈的汪峰”，如今似乎很難再搶到大模型圈的“頭條”。

本文首發於公眾號“智東西”（ID：zhidxcom）。智東西是國內領先的智慧產業新媒體，歡迎關注。