OpenAI繼續“暴力計算”,中國團隊拿出演算法“手術刀”

來源|中國經營報
記者|李玉洋
就在埃隆·馬斯克在X平臺直播Grok 3的“萬億引數”狂歡前,中國AI大模型圈正上演著更隱秘的技術革命。
近期,深度求索(DeepSeek)和月之暗面(MoonShot)同日釋出了新論文,且兩家明星公司的創始人也都有署名,雙方不約而同劍指Transformer架構最核心的注意力機制(Attention Mechanism),讓大模型能更高效處理更長的上下文。
前者提出原生稀疏注意力(NSA,Native Sparse Attention),宣稱處理64K(用來描述文字的長度,64K就是6.4萬)長文字速度提升11.6倍;後者祭出塊注意力混合架構(MoBA,Mixture of Block Attention),在10M token場景提速16倍
《中國經營報》記者注意到,就在一個月前,國內“AI大模型六小虎”之一的MiniMax也在其首個開源模型MiniMax-01中大規模引入了一種新的注意力機制——閃電注意力(Lightning Attention),核心是透過將注意力計算分解為多個小塊(blocks),採用線性複雜度的計算方式,來實現對長序列的高效處理。
不同的是,深度求索和月之暗面的嘗試都屬於“稀疏注意力機制”(Sparse Attention),而MiniMax則是“線性注意力機制”(Linear Attention)。
“MoBA和NSA都是對Transformer架構中傳統注意力機制的有力挑戰,它們分別從不同的角度出發,探索了稀疏注意力的可能性。MoBA在簡單性、靈活性和相容性上較優,而NSA在精細化、硬體友好性和端到端訓練能力上較強。”創新奇智CTO張發恩告訴記者。
“底層模型一次重大迭代對產品帶來的最佳化效果,遠超在工程實現層面對產品‘雕花’。”MiniMax副總裁劉華對記者表示。
而深度求索和月之暗面這場看似巧合的“撞題”,實則是中國大模型初創公司首次集體向AI底層架構發起衝鋒:當OpenAI用“暴力計算”碾壓賽道時,中國團隊正試圖用演算法手術刀,切開Transformer的“心臟”換上一套中國製造的節拍器。
稠密模型已被放棄
注意力機制,是大語言模型(LLM)的核心機制。2017年6月,那篇開啟LLM革命的Transformer論文的標題就是《Attention Is All You Need(注意力就是你所需要的一切)》,而這篇論文被引用次數至今已達15.3萬。
注意力機制之所以重要,是因為它能讓AI模型像人一樣,知道在處理資訊時該如何取捨,才能抓住資訊中關鍵的部分。在大模型的訓練階段和推理階段,注意力機制都會發揮作用。
不過,當大模型要處理的上下文越來越長,標準Transformer採用的 Full Attention(全注意力機制)對計算資源的佔用就會越嚴重。以看書為例,假如讓模型看《紅樓夢》,傳統的“全注意力機制”會閱讀文本里的每個詞,並拿它與其他所有詞作比較,導致文字越長,計算量就會爆炸式增長。
正如月之暗面在MoBA論文的摘要部分所寫:“傳統注意力機制中固有的計算複雜性的平方增加,帶來令人望而卻步的計算開銷。”於是,如何找到一個既沒那麼佔用計算資源和記憶體,又不損失模型效能的注意力機制最佳化方法,成為大模型研究的重要課題。
據悉,MoBA的靈感來源於混合專家網路(MoE,Mixture of Experts)和稀疏注意力技術。前者主要應用於Transformer架構中的前饋網路(FFN)層,而後者被廣泛用於擴充套件Transformer以處理長上下文。
“MoE的核心思想是將一個複雜的任務分解成多個子任務,每個子任務由一個‘專家’來處理,然後透過一個門控機制(Gating Mechanism)來決定哪個專家負責哪個子任務。”張發恩解釋道,在MoBA中,輸入序列的Key和Value被分成多個塊,每個塊可以看作是一個“專家”,每個Query token不再與所有“Key-Value對”計算注意力,而是透過門控機制選擇最相關的幾個塊,只與這些塊中的“Key-Value對”計算注意力。
他還做了一個類比,如果把注意力機制比作一個學生(Query)向一群老師(Key-Value)請教問題的過程,那麼傳統注意力是學生向所有老師提問,每個老師都給出解答,學生綜合所有老師的答案。而MoBA的做法是,學生先對所有老師進行初步評估(門控),選出幾位最相關的老師(Top-k塊),然後只向這幾位老師請教,綜合他們的答案。
張發恩還表示,月之暗面MoBA的主要貢獻在於將MoE引入到注意力機制,具有無縫切換全注意力和稀疏注意力的靈活性,同時實現複雜度較低。
劉華表示,經過兩年的發展,以Transformer架構為代表的稠密模型已經被放棄,MoE成為大家共同的選擇。而在未來兩到三年裡,類似GPT-3.5到GPT-4這樣的技術突破再發生兩次是高度可預期的。
“我們希望有更多的開發者一起探索非Transformer的底層架構,只有非Transformer的底層架構得到大家共識,被更多人應用,將來大模型才能處理越來越多更復雜的任務。” 劉華說。
大模型智慧“湧現”
雖然月之暗面和深度求索兩者都提出稀疏注意力演算法以降低計算複雜度並擴充套件上下文處理能力,但在實現路徑上存在顯著差異。
據瞭解,NSA透過動態分層稀疏策略,採用“粗粒度區域篩選—細粒度特徵關聯”的雙階段機制,首先對輸入特徵進行空間維度的區域級壓縮,進而在篩選出的關鍵區域內執行細粒度令牌級注意力計算,這種層級化稀疏架構有效平衡了計算效率與特徵捕獲能力。
根據華泰證券的研報,深度求索的NSA是把KV Cache進行了“三層級”(粗層級、細層級、小視窗級)劃分,並從中有選擇性地捨棄掉一部分,達到“稀疏”效果,提高了效率。
除了最佳化軟體演算法,NSA還優化了硬體Kernel,以配合NSA的稀疏Attention,實現更高效的軟硬體編排。
和MoBA“化零為整,專家坐鎮”的做法相比較,張發恩認為NSA是“層層遞進,精益求精”。
如果把注意力機制比作一個人(Query)閱讀一本書(Key-Value)的過程,那麼傳統注意力逐字逐句地閱讀整本書,不放過任何細節。“NSA會先快速瀏覽每個章節的摘要(壓縮),再根據摘要的重要性,選擇幾個關鍵章節(選擇)。然後對於每個句子,仔細閱讀其上下文(滑動視窗)。綜合摘要、關鍵章節和上下文資訊,形成對整本書的理解(融合)。”張發恩表示。
值得注意的是,深度求索的NSA還是第一個把稀疏注意力用於預訓練。為什麼之前動態稀疏注意力不能做預訓練?因為在預訓練的時候會遇到各種各樣的困難,主要是它和當前的硬體不是非常地對齊。所以,當前動態稀疏注意力的一些工作,都是主要用來加速推理,而不是從頭開始預訓練。麻省理工學院(MIT)計算機科學與人工智慧實驗室在讀博士松琳認為,深度求索這篇論文具有開創性,既想在預訓練上加速,又想在做推理的時候也加速。
根據NSA和完全Attention機制在不同資料集上的評測,研究人員評估了預訓練的NSA模型和全注意力基線模型在涵蓋知識、推理和編碼能力的綜合基準測試套件上的表現。儘管NSA具有稀疏性,但其仍實現了更優的綜合性能,在9項指標中有7項超越了包括全注意力在內的所有基線模型。
這表明雖然NSA在較短序列上可能未充分發揮其效率優勢,但仍展現出強勁效能。此外,NSA在推理相關基準測試中取得顯著提升,說明基於NSA的預訓練有助於模型發展專門的注意力機制。這種稀疏注意力預訓練機制迫使模型聚焦於最關鍵的資訊,透過過濾無關注意力路徑的噪聲,潛在地提升了效能。
有趣的是,月之暗面與深度求索曾在2025年春節前同期釋出K1.5和R1兩個推理模型,此次同期釋出論文是兩家公司的再次“撞車”。
這充分說明了兩位創始人在技術路線上的不謀而合。“DeepSeek R1和Kimi K1.5都指向了ORM based RL,而Kimi MoBA和DeepSeek NSA再一次都指向了可以反向傳遞的learned sparse attention。”清華大學教授章明星分享道。
而這些突破正在改寫行業規則——當OpenAI、Meta等海外巨頭用天量算力碾壓賽道,中國團隊則試圖用演算法創新、工程創新的手術刀打破技術壟斷。
2月24日,深度求索迎來開源周,陸續開源FlashMLA、DeepEP、DeepGEMM、DualPipe等程式碼庫。深度求索將成本優勢共享給整個AI社群,讓更多企業和開發者能夠以更低的硬體投入,真正實現了“DS非常省硬體成本,開源出來大家一起省”。記者注意到,國內AI晶片獨角獸摩爾線程官宣,已高效完成深度求索開源庫FlashMLA和DeepGEMM的適配。
“這對於行業發展都是好訊息。”國內一家AI晶片公司的員工如此評價深度求索的開源周。同時,摩爾線程方面也表示:“深度求索低算力需求模型對國產晶片的發展確實是一個重要機遇。國產模型+國產晶片可以形成完整的AI閉環,加速國產AI生態發展程序。”
張發恩表示,現在他為AI大模型所湧現的能力感到亢奮。
*本文不代表鳳凰網財經觀點,轉載已獲授權。

 👇【 熱門影片推薦 】👇

點選在看 持續關注↓↓↓

相關文章