DeepSeek&北大拿下ACL2025高分論文!梁文鋒署名

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:新智元 |編輯:定慧 好睏
【導讀】北大DeepSeek聯合釋出的NSA論文,目前已被ACL 2025錄用並獲得了極高評分,甚至有望衝擊最佳論文獎。該技術顛覆傳統注意力機制,實現算力效率飛躍,被譽為長文字處理的革命性突破。
重磅驚喜!
北大與DeepSeek合作,並由梁文鋒親自提交到arXiv的論文,將有望斬獲ACL 2025最佳論文(ACL Best Paper)。
論文地址:https://arxiv.org/abs/2502.11089
要知道今年的ACL格外的卷,總投稿數高達8000多篇,創歷史之最,而ACL 2024總投稿數僅為4407,幾乎翻倍!
原生稀疏注意力(Native Sparse Attention,NSA)論文的Meta Review的OA分數已經確認得到了4.5分,這是一個相當高的分數,滿分為5分。

按照ACL的OA評分標準,4.5分已經獲得了Borderline Award,也就是說非常有望獲得ACL這屆的最佳論文。
這篇論文的釋出在當時引起廣泛的社群關注,NSA把AI行業的焦點從「模型規模競賽」拉向「算力效率競賽」,堪稱2025年上半年最具槓桿效應的底層技術突破之一。
DeepSeek-R1的釋出引發了AI行業的「價值重估」,DeepSeek用「低成本+同效能」的開源技術撼動了當時AI界人們固有的「有卡才行」的認知。
而NSA技術進一步實現了「長下文的算力平權」,讓開源模型也能達到閉源模型(ChatGPT、Gemini等)才能滿足的上下文視窗。
NSA將長文字處理速度提高了最多11倍,該方法結合了演算法創新和改進的硬體,提高效率而不用犧牲硬體效能。
NSA的出現,是對傳統注意力機制的一次革新,傳統模型依賴於全注意力機制,將每個Token與其他所有Token進行比較。
傳統機制雖然對於短篇文字有效,但隨著文字長度的增加,這一過程會顯著變慢,並且計算成本變得非常高。
NSA是DeepSeek-R1「爆火出圈」後的第一篇論文,同時在NSA釋出一週後,DeepSeek進行了更廣為人知的「開源周」活動分享。

硬體對齊與原生可訓練稀疏注意力
為什麼要革新傳統的注意力機制?
長文字處理能力是新一代語言模型的關鍵需求,但傳統注意力機制帶來的巨大計算開銷一直是一個棘手的問題。
在這種背景下,稀疏注意力機制展現出了提升計算效率同時又能保持模型效能的巨大潛力。
北大和DeepSeek提出名為NSA的創新性稀疏注意力機制,它能夠原生支援訓練,透過將演算法創新與硬體最佳化相結合,實現了高效的長文字處理。
NSA採用了動態分層的稀疏策略:在保證全域性資訊獲取的同時,還能夠精確捕捉區域性細節,這得益於其巧妙結合了粗粒度的令牌壓縮和細粒度的令牌選擇。
NSA架構如下圖所示,透過三條並行的注意力分支來處理輸入序列。對於每一個查詢(query),前面的鍵(key)和值(value)會分別被處理成三種不同的注意力方式:
  • 壓縮注意力(Compressed Attention),用於捕捉粗粒度的整體模式;
  • 選擇性注意力(Selected Attention),專注於重要的詞塊;
  • 滑動注意力(Sliding Attention),負責獲取區域性上下文資訊。
每條分支所生成的不同注意力模式。圖中的綠色區域表示需要計算注意力分數的部分,而白色區域則是可以跳過、不計算的區域。
NSA的主要創新點有兩個:一是透過精心設計的演算法平衡了計算密度,並針對現代硬體做了專門最佳化,顯著提升了執行速度;二是實現了端到端的訓練模式,在確保模型效能的前提下大幅降低了預訓練的計算量。
如圖1所示,實驗結果顯示:採用NSA預訓練的模型在通用基準測試、長文字處理和指令推理等多個任務上,效能均達到或超過了使用完整注意力機制的模型。
此外,在處理64k長度序列時,無論是decoding、前向傳播還是反向傳播,NSA都展現出了顯著的速度優勢,充分證明了它在模型全生命週期中的高效性。
該論文第一作者為北京大學計算機學院碩士生袁境陽(北京大學,導師為張銘教授),合作者包括高華佐(DeepSeek),代達勱(DeepSeek),羅鈞宇(北京大學)、肖之屏(華盛頓大學)等。
通訊作者為梁文鋒(DeepSeek),曾旺丁(DeepSeek),張銘教授(北京大學)。

錄用論文一覽
除了NSA論文外,北京大學張銘教授團隊的其他論文也同樣上榜。

資料為中心視角下大模型的高效後訓練

論文名: A Survey on Efficient LLM Training: From Data-centric Perspectives

這是首個從資料中心視角系統性剖析LLM高效後訓練的綜述。
該文創新性地提出了一個涵蓋資料選擇、質量增強、合成數據生成、資料蒸餾與壓縮及自演化資料生態的分類框架,深入總結了各領域代表性方法並展望未來研究方向,旨在為學界和業界探索大規模模型訓練中資料利用的最大潛力提供關鍵啟示。
該論文作者包含羅鈞宇(北京大學,導師為張銘教授),吳伯涵(北京大學),羅霄(UCLA),肖之屏(華盛頓大學),靳軼喬(佐治亞理工),塗榮成(南洋理工大學),尹楠(HKUST),王一帆(對外經貿),袁境陽(北京大學),琚瑋(四川大學),張銘(北京大學,通訊作者)。

首個金融多模態評估資料集FinMME
論文名:FinMME: A Financial Multi-Modal Evaluation Dataset
為應對金融領域多模態大模型評估的迫切需求,並提供高質量的多模態推理驗證資料集。
北京大學Dlib實驗室聯合香港科技大學等重磅推出了首個大規模、高質量的金融多模態評估資料集FinMME。
該資料集包含超過11,200個金融研究樣本,覆蓋18個核心金融領域和10種主要圖表型別,並引入獨創的FinScore評估系統。
實驗結果表明,即便是頂尖模型如GPT-4o在FinMME上也面臨顯著挑戰,凸顯了其在衡量金融多模態理解與推理能力方面的深度與價值。
論文作者包含羅鈞宇(北京大學,導師為張銘教授),寇智卓(HKUST),楊禮銘(北京大學),羅霄(UCLA),黃進晟(北京大學),肖之屏(華盛頓大學),彭靖姝(HKUST),劉程中(HKUST),吉嘉銘(HKUST),劉譞哲(北京大學),韓斯睿(HKUST),張銘(北京大學,通訊作者),郭毅可(HKUST)。

大語言模型中的數學推理增強方法
該論文涉及大語言模型中的數學推理增強方法。思維鏈(CoT)提示已成為激發大語言模型(LLM)推理能力的核心方法,但其生成的推理步驟中存在難以檢測的「幻覺」。
現有的消除大語言模型幻覺的方法如過程獎勵模型(Process Reward Model)或自一致性校驗如同黑箱操作,難以提供可驗證的證據,制約了糾正幻覺的能力。
論文提出一種創新的Safe驗證框架。區別於傳統模糊評分機制,Safe創新性地證明驗證定理的正確性,從根本上識別並消除幻覺。實驗表明,本論文提出的Safe驗證框架在多個數學模型和資料集上實現顯著效能提升,實現神經符號系統在數學推理中的有機融合。
本研究迴歸了形式數學語言的初衷——為人類易錯的證明過程提供堅實保障。Safe框架為數學教育、程式碼生成等高風險領域提供了可驗證的推理解決方案。
該論文第一作者為資料科學與工程所博士生劉成武(北京大學,導師為張銘教授),合作者包括袁野(北京大學)、尹伊淳(華為諾亞方舟實驗室)、徐妍(華為諾亞方舟實驗室)、許鑫(香港科技大學)、陳造宇(香港理工大學)、尚利峰(華為諾亞方舟實驗室)、劉群(華為諾亞方舟實驗室)、張銘(北京大學,通訊作者)。

基於大語言模型的交通流量預測方法
論文名: Embracing Large Language Models in Traffic Flow Forecasting
交通流量預測旨在基於歷史交通狀況和路網結構,預測未來交通流量,這是智慧交通系統中的關鍵問題。
現有方法主要聚焦於捕捉和利用時空依賴性來進行流量預測,儘管取得了一定進展,但在面對測試時交通條件變化時表現不足。
針對這一挑戰,本文提出了一種基於大語言模型(LLM)的新方法——LEAF (Large Language Model Enhanced Traffic Flow Predictor)。
與以往工作主要使用LLM的生成能力來直接生成未來交通流量序列不同,LEAF使用LLM的判別能力。
具體來說,LEAF採用雙分支結構,分別透過圖結構和超圖結構捕捉不同的時空關係。兩個分支在預訓練階段獨立訓練,並在測試時生成不同的預測結果。
隨後,利用大語言模型從這些預測中選擇最有可能的結果,並透過排序損失函式作為學習目標來增強兩個分支的預測能力。在多個數據集上的廣泛實驗驗證了LEAF的有效性,證明其在流量預測任務中能夠更好地適應測試環境變化。
該論文第一作者為資料科學與工程所博士生趙禹昇(北京大學,導師為張銘教授),合作者包括羅霄(加州大學洛杉磯分校)、溫浩珉(卡耐基梅隆大學)、肖之屏(華盛頓大學)、琚瑋(四川大學),張銘(北京大學,通訊作者)。

作者介紹
袁境陽
北京大學計算機學院研究生,導師為張銘教授。
主要研究方向是高效大語言模型和稀疏注意力機制,曾獲北京市優秀畢業生、北京大學優秀畢業生等稱號。
羅鈞宇

北京大學計算機學院博士生,導師為張銘教授。
他的研究方向關注於高效的LLM、LLM後訓練、自適應學習等。
在ICML,CVPR,ACL,TPAMI等頂級刊物上以第一作者發表多篇文章。
趙禹昇
北京大學計算機學院研究生,導師為張銘教授。
研究方向包括圖神經網路、時空預測、多模態等,關注測試資料的分佈偏移問題。
劉成武

北京大學計算機學院資料科學與工程所博士生,導師是DLIB實驗室的張銘教授。
他的研究方向是自然語言處理、大語言模型的數學推理和自動定理證明。
他在北京大學外國語學院獲得了文學學士學位,並修讀獲得了資訊科學技術學院的計算機科學與技術雙學位。
張銘
北京大學計算機學院二級教授,博士生導師,北大-安克大模型演算法與應用聯合實驗室主任。2021年CCF傑出教育獎獲得者。
張銘教授本碩博都畢業於北京大學計算機系,長期致力於機器學習、圖神經網路、知識圖譜、文字挖掘、語言模型、推薦系統、教育大資料、科學智慧等相關研究。
先後主持國家重點研發計劃課題、國家自然科學基金等前沿專案,發表科研論文 300 多篇,谷歌學術被引用21800餘次。合作提出的LINE模型是圖機器學習領域著名的的基準模型,目前單篇被引用 6700 餘次。
獲得了機器學習頂級會議ICML 2014唯一的最佳論文獎,以及WWW 2016 最佳論文提名。
在近期利用率僅為20%左右的幾大頂會中,張銘教授的課題組的中機率都在50%以上。
其中,在ICML 2025中了4篇論文。
AAAI 2025也是5篇上榜。
還有ICLR 1篇,KDD 1篇,NAACL 1篇主會 2篇Finding。
參考資料:

https://luo-junyu.github.io 
https://pkudlib.github.io/

https://mp.weixin.qq.com/s/nvjSyUBR4DBBQgF1e1OwsQ

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章