
防走失,電梯直達
安全島報人劉亞東A
來源:智東西(ID:zhidxcom)
作者:陳駿達

Kimi、DeepSeek又撞新成果,創始人都親自上陣。
智東西2月19日報道,在DeepSeek公佈最新稀疏注意力框架NSA論文的5小時後,“大模型六小虎”之一、月之暗面Kimi團隊公佈了一篇類似主題的MoBA論文,並聲稱在長文字上下文中實現了高效、動態的注意力選擇,提升了大模型在處理超長序列任務時的效率和效能,同時保持了與全注意力機制相當的效果。

▲DeepSeek與月之暗面相隔5小時官宣論文(圖源:X)
和NSA類似,MoBA也是一個稀疏注意力框架,旨在提高長文字處理效率。MoBA上下文長度最大可擴充套件到10M,而NSA最長是64k(剛剛,DeepSeek發新成果!梁文鋒親自參與,實習生挑大樑,顯著加速AI訓練推理)。值得關注的是,DeepSeek創始人梁文鋒是NSA論文共同作者之一,MoBA論文的共同作者中也出現了月之暗面聯合創始人楊植麟、周昕宇的名字。
月之暗面MoBA架構的主要特點包括對長上下文任務的適配,例如,在處理長達100萬tokens的序列時,其速度比全注意力架構快6.5倍。在擴充套件到1000萬tokens時,MoBA的計算時間與標準Flash Attention相比,實現16倍的加速比。

▲MoBA論文截圖(圖源:月之暗面)
此外,這一架構沒有引數門控機制,模型能在全注意力與MoBA間自由切換,與現有的Transformer預訓練模型相容度也較高。
採用MoBA架構的模型在多個長上下文基準測試中,與全注意力模型相當。特別是在RULER基準測試中,MoBA的稀疏度高達62.5%,但效能與全注意力模型幾乎匹配。
昨天,Kimi還面向開發者釋出了一款最新的模型Kimi Latest,對標Kimi智慧助手當前使用的模型,隨智慧助手產品更新而同步升級。這款模型支援自動上下文快取,快取命中的Tokens費用僅為1元/百萬tokens。
專案連結:
https://github.com/MoonshotAI/MoBA
論文連結:
https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf
01.
長文字是AGI關鍵能力,
現有方案可擴充套件性、成本效益不佳
月之暗麵糰隊認為,實現AGI的關鍵能力之一是處理、理解和生成長序列的能力,這種對長序列處理的需求不僅體現在對長輸入提示詞的理解,還體現在對思維鏈(CoT)輸出能力的探索中。
擴充套件大模型的序列長度並非易事,因為傳統的注意力機制會導致計算複雜度呈二次方增長。研究者們需要一種能提高效率,而不會犧牲效能的方法。受到生物學意義上人腦中稀疏連線的啟發,研究者們試圖利用注意力分數的稀疏性,來提升計算效率。
不過,現有的稀疏注意力框架存在一些問題。
部分方法依賴於預定義的結構約束,如基於sink的注意力或滑動視窗注意力。這些方法的有效性已經得到驗證,但僅適用於特定型別的任務,可能會限制模型的整體泛化能力。
另一種方法是動態稀疏注意力機制,如Quest、Minference和RetrievalAttention,這些方法在推理時選擇子集,雖然可以減少長序列的計算量,但未能顯著降低長序列模型的訓練成本,使得LLMs難以高效擴充套件到百萬級的上下文長度。
此外,線性注意力模型(如Mamba、RWKV和RetNet)透過用線性近似替代傳統的softmax注意力,降低了計算開銷。但線性注意力與傳統注意力存在顯著差異,在適應現有的Transformer模型時通常需要高昂的轉換成本,甚至需要從頭開始訓練新模型。更重要的是,這些方法在複雜推理任務中的有效性尚未得到充分驗證。
月之暗麵糰隊希望在保留原始Transformer框架的前提下,打造一款遵循“少結構(less structure)”原則、穩健且適應性強的注意力架構,讓模型自主決定關注點,而不是引入人工干預的偏差。
理想情況下,這種架構能夠在全注意力和稀疏注意力模式之間無縫切換,從而最大化與現有預訓練模型的相容性,並在不犧牲效能的情況下實現高效的推理和訓練加速。
02.
設計靈感源自MoE與稀疏注意力,
可與全注意力無縫切換
月之暗面的MoBA架構能透過動態選擇歷史片段(塊)來提高Transformer模型處理長序列的效率。其設計靈感來源於混合專家(MoE)和稀疏注意力技術。他們創新性地將MoE原則應用於注意力機制本身,從而實現更高效和有效的長序列處理。

▲MoBA注意力機制架構圖(圖源:月之暗面)
MoBA的核心創新在於其塊劃分和選擇策略。它將長序列分割成多個固定大小的塊(block),並透過門控機制動態選擇與每個查詢token最相關的塊,從而實現稀疏注意力。
塊劃分方面,MoBA將將長度為N的上下文劃分為n個塊,每個塊包含B=N/n個連續token。這種方式能夠將注意力集中在區域性區域,從而減少計算量,使得模型可以高效地處理長序列,而不需要對整個序列進行全域性計算。
門控機制透過計算查詢token與每個塊的相關性得分si,並應用top-k選擇機制,動態地為每個查詢token選擇最相關的k個塊。這種機制允許模型動態地關注最有資訊量的塊,而不是整個上下文,還增強了模型對長序列的理解能力。
因果性是自迴歸語言模型的核心特性,確保模型只能基於之前的上下文生成下一個token。MoBA透過限制查詢token不能關注未來的塊,並在當前塊內應用因果掩碼,避免了資訊洩露,確保了生成過程的順序性和邏輯性,這使得模型在處理長序列時能夠保持一致性和準確性。
此外,MoBA借鑑了MoE中細粒度劃分的思想,透過增加塊的數量和減小塊的大小,模型能更精準地捕捉區域性資訊,同時減少不必要的計算。
由於全注意力與稀疏注意力各有優勢,MoBA被設計為全注意力的替代品,可以在訓練和推理過程中無縫切換。這種靈活性使得MoBA能夠與現有的預訓練模型相容,從而在效率和效能之間取得平衡。
具體實現過程中,MoBA透過結合FlashAttention和MoE的最佳化技術,打造了高效的計算流程,具體步驟如下:
1、塊分配:根據門控網路和因果掩碼,確定每個查詢token與哪些KV塊相關聯。
2、順序調整:按照塊分配關係重新排列查詢token的順序,以便按塊進行計算。
3、塊級注意力計算:對每個KV塊及其對應的查詢token分別計算注意力輸出,這一步可透過FlashAttention最佳化,顯著提升計算效率。
4、輸出重組:將計算完成的注意力輸出重新排列回原始順序。
5、線上Softmax組合:使用線上Softmax將不同塊的輸出進行整合,確保最終結果的連貫性。
03.
處理百萬token時快6.5倍,
混合訓練效果與全注意力無異
月之暗麵糰隊主要透過擴充套件法則實驗和消融研究來驗證MoBA的一些關鍵設計選擇。
訓練方面,他們比較了使用全注意力和MoBA訓練的語言模型驗證損失,來進行擴充套件法則實驗。MoBA作為全注意力的替代方案,沒有引入新的引數或移除現有引數,實驗中唯一的區別在於注意力模組,而所有其他超引數(包括學習率和批次大小)保持不變。
MoBA和全注意力的驗證損失曲線顯示出非常相似的擴充套件趨勢。具體而言,這兩種注意力機制之間的驗證損失差異始終保持在1e-3的範圍內。這表明,儘管MoBA的稀疏注意力模式稀疏度高達75%,但其擴充套件效能與全注意力相當。

▲MoBA和全注意力的驗證損失曲線非常相似(圖源:月之暗面)
語言模型損失還會受到資料長度分佈的偏差影響。為了全面評估MoBA的長上下文能力,月之暗麵糰隊評估了尾部token的語言模型損失(trailing LM loss)。這些指標能幫助人們瞭解模型生成序列最後部分的能力,在長上下文理解任務中具有重要意義
測試中,儘管MoBA在所有五個實驗中與全注意力相比,尾部塊的語言模型損失略高,但損失差距逐漸縮小。這一實驗表明了MoBA的長上下文可擴充套件性。

▲MoBA與全注意力模型間的損失差距逐漸縮小(圖源:月之暗面)
研究人員還透過調整塊大小和top-k引數,研究塊粒度對效能的影響。實驗發現,細粒度分割顯著提升了MoBA的效能。
他們還在嘗試了混合訓練策略,先用MoBA訓練90%的資料,再用全注意力訓練剩餘10%的資料。結果顯示,混合訓練策略在保持高效訓練的同時,幾乎達到了全注意力的效能水平。

▲混合訓練策略(綠線)與全注意力策略(紅線)的效能差異較小(圖源:月之暗面)
在多個長上下文基準測試中,MoBA的效能與全注意力模型相當。特別是在RULER基準測試中,MoBA的稀疏度高達62.5%,但效能與全注意力模型幾乎匹配,還在近半數的測驗中實現了更好的表現。

▲MoBA模型在基準測試上的表現(圖源:月之暗面)
MoBA模型在長上下文理解任務上的也具有不錯的表現,於3200-100萬tokens上下文長度的“大海撈針(Needle in a Haystack)”測試中獲得了令人滿意的表現。

▲採用MoBA注意力機制的模型在“大海撈針”測試中的表現(圖源:月之暗面)
MoBA在計算效率方面表現出顯著優勢。其前向傳播時間遠低於傳統的全注意力機制,展現出亞二次複雜度,這意味著隨著序列長度的增加,MoBA的計算開銷增長速度遠低於傳統方法。例如,在處理長達100萬tokens的序列時,MoBA的速度比全注意力快6.5倍。
此外,MoBA的效率優勢在處理更長序列時愈發明顯:在擴充套件到1000萬tokens時,MoBA的計算時間與標準Flash Attention相比,實現16倍的加速比。
這種高效性主要得益於MoBA的塊稀疏注意力機制,以及其結合了MoE和Flash Attention的最佳化實現。這些技術有效解決了傳統注意力機制的二次複雜度問題,顯著提升了模型的計算效率,使其能夠高效處理極長序列。
04.
同日釋出新模型,
將與最新版Kimi保持同步
月之暗面昨天還發布了一個新模型Kimi Latest,這款模型主要是為了彌合Kimi智慧助手和開放平臺之間模型的差異。
在過去,當開發團隊優先滿足智慧助手的情緒化回覆需求時,開放平臺使用者可能遭遇提示詞失效等“破壞性變動”,不符合其對模型效果穩定性的要求。
另一方面,智慧助手的快速迭代特性導致部分試驗性特性雖在某些方面出色,但在其他場景下存在缺陷(如重複輸出),不適合第一時間應用於開放平臺,造成開放平臺與智慧助手所用模型存在差異,引發使用者對同一提示詞在網頁版和API呼叫時回覆不同的疑問。
新模型Kimi Latest對標Kimi智慧助手當前使用的模型,並隨產品更新同步升級(模型名稱始終為kimi-latest)。開放平臺使用者體驗可以體驗最新模型的效果(包括試驗性特性),又能保持原有模型的穩定性。
Kimi Latest模型有五大特點:
1、使用Kimi智慧助手最新的大模型,可能包含尚未穩定的特性。
2、上下文長度為128k,會根據上下文長度自動選擇8k/32k/128k模型作為計費模型。
3、是視覺模型,支援圖片理解。
4、支援自動上下文快取,快取命中的Tokens費用為¥1/M Tokens(暫不支援手動上下文快取)。
5、其餘功能與moonshot-v1系列模型一致,包括ToolCalls、JSON Mode、Partial Mode、聯網搜尋功能等。
月之暗面建議,如果開發者是為了獲取與Kimi智慧助手類似的體驗,或是要開發AI智慧助手或客服,推薦使用Kimi Latest模型;但如果是要進行意圖識別或結構化資料提取,或是已經使用moonshot-v1系列模型且提示詞效果穩定,還是推薦使用原有的moonshot-v1系列模型。
05.
結語:國產開源AI競賽升級
在DeepSeek以現象級開源姿態引爆行業後,國內大模型賽道掀起了一場開源軍備競賽——廠商們不僅爭相開源自家模型,也將內部技術成果以論文形式推向開發者社群。這一舉措有望撬動開發者生態,擴大技術影響力。
不過,在這場競賽中,月之暗面已然不是那個最耀眼的玩家:釋出v1.5撞同款推理模型DeepSeek R1,勢頭完全被DeepSeek蓋過;發新模型和稀疏注意力機制,又撞上階躍星辰新模型開源、馬斯克Grok 3釋出、DeepSeek NSA輪番吸走高關注度。曾經的頂流,被網友戲稱是“大模型圈的汪峰”,如今似乎很難再搶到大模型圈的“頭條”。
本文首發於公眾號“智東西”(ID:zhidxcom)。智東西是國內領先的智慧產業新媒體,歡迎關注。