點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

Vamba團隊 投稿轉載自:量子位(QbitAI)
Mamba混合架構影片模型來了,不再對影片token進行壓縮——
而是透過改進模型架構設計的方式提升模型在訓練及推理預填充階段處理影片token的效率。

滑鐵盧大學陳文虎團隊與多倫多大學、零一萬物、向量學院以及M-A-P的研究人員提出了一種新的Mamba-Transformer混合模型Vamba。

透過大量實驗驗證,研究團隊發現Vamba在同等硬體條件下可處理的影片幀數較傳統Transformer架構提升4倍,訓練記憶體消耗降低50%以上,並且可實現單步訓練速度的翻倍。
同時,該方法完整保留了原始影片的時空特徵,避免傳統方法因降取樣或池化操作導致的關鍵動作或場景的資訊丟失。
在多個長影片的評價標準上,Vamba保持了高準確率和出色的效能,尤其在LVBench長影片理解基準上相較先前的高效長影片理解模型達到了約4.3%的效能提升。團隊現已開源Vamba模型的程式碼、模型權重以及訓練、推理指令碼供研究社群進一步探索與應用。
核心方法
目前流行的多模態大語言模型多使用Transformer作為模型的基本結構,其中的因果注意力機制相對於輸入的token序列長度存在二次時間/空間複雜度關係。
在長影片理解任務中,多模態大模型一般會將影片轉化為一段極長的token序列,因此這些模型往往需要高昂的訓練或推理成本。舉例來說,一種較為流行的影片編碼方式為使用CLIP或者SigLIP編碼器將影片的每幀轉換為約196個token。
基於這種編碼方式,一個512幀的影片輸入將會轉換為約10萬個影片token,從而造成極高的訓練或推理複雜度。現有方法在處理這個問題時,往往採用壓縮影片token數量的模型設計,即透過不同的壓縮機制合併或刪除一些非必要的影片token並縮短影片token序列長度,從而降低多模態模型在長影片理解任務上的資源消耗。
儘管相關研究已經取得了一定的進展,這些高效的長影片理解模型仍然存在一個共同的問題,即過度的影片token序列壓縮可能會造成一定程度的資訊損失。這使得目前的高效長影片理解模型在效能方面仍然與最頂級的模型存在一定差距。
Vamba的核心設計思路是將原本作用於整個影片+文字序列的運算成本高昂的因果自注意力運算操作分解為兩個更為高效且協同操作的計算元件。
(1)在處理文字token的過程中,透過引入交叉注意力機制使文字token獲得影片token的資訊。此類操作的計算開銷相比將文字與影片同時經由因果注意力模組處理更為可控,同時確保文字語義與視覺資訊的高效對齊。
(2)針對海量的影片token,採用基於狀態空間模型(SSM)的Mamba-2模組進行序列建模。該模組透過選擇性掃描機制,在保持了更新影片token序列時可以檢索全域性序列資訊的同時,將計算複雜度從Transformer的二次複雜度降至線性複雜度,從而突破了長影片序列的處理瓶頸。
如圖所示,對於文字token輸入,Vamba使用了因果自注意力機制和交叉注意力機制同時處理文字token,從而省去了影片token在因果注意力模組中所需要的計算成本。在此基礎上,Vamba使用Mamba-2模組處理影片token序列,從而既保持了對影片序列的資訊更新又將該操作所需要的複雜度控制在了線性範圍。

研究團隊透過不同幀數的影片輸入,對Vamba與Transformer模型在訓練與推理中的計算成本進行了比較。對比發現Vamba在長影片/高幀數輸入的情景下(128幀及以上的影片輸入),相比Transformer類模型達到了50%以上的執行時間與視訊記憶體需求下降。同時,Vamba可以準確地描述影片內容,根據使用者輸入的問題對影片進行分析,並作出相應的回答。

總結
本文介紹了Vamba模型,一種專為高效理解超長影片設計的Mamba-Transformer混合模型。
該方法透過整合面向文字token的交叉注意力機制與面向影片token的Mamba-2模組更新策略,在顯著降低計算複雜度與視訊記憶體佔用的同時,實現了對長、中、短影片理解任務的效能提升。基於LVBench等資料集的大量實驗評估表明,Vamba在長影片理解任務中以4.3%的顯著優勢超越了現有的高效長影片理解模型,並在多個分佈各個影片時常區間的基準測試中展現出了卓越的競爭力。
論文地址:https://arxiv.org/abs/2503.11579專案主頁:https://tiger-ai-lab.github.io/Vamba/程式碼倉庫:https://github.com/TIGER-AI-Lab/Vamba模型權重:https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
