多榜單登頂！華為&哈工深團隊提出AdaReTaKe，突破長影片理解極限

第一作者為哈爾濱工業大學（深圳）博士生王霄和華為大模型研究員佀慶一，該工作完成於王霄在華為實習期間。王霄的研究方向為多模態影片理解和生成，佀慶一的研究方向為多模態理解、LLM post-training和高效推理。

隨著影片內容的重要性日益提升，如何處理理解長影片成為多模態大模型面臨的關鍵挑戰。長影片理解能力，對於智慧安防、智慧體的長期記憶以及多模態深度思考能力有著重要價值。

華為與哈爾濱工業大學（深圳）聯合提出了一個全新的長影片理解框架 ——AdaReTaKe（Adaptively Reducing Temporal and Knowledge redundancy）。無需訓練，該框架透過在推理時動態壓縮影片冗餘資訊，使多模態大模型能夠處理長度提升至原來的8 倍（高達 2048 幀），在多個基準測試中超越同規模模型 3-5%，位列 VideoMME、MLVU、LongVideoBench 和 LVBench 四個長影片理解榜單開源模型第一，為長影片理解設立了新標杆。

論文標題：AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding
論文連結：https://arxiv.org/abs/2503.12559
開原始碼：https://github.com/SCZwangxiao/video-FlexReduc.git

下圖展示了 AdaReTaKe 的效果。在單卡 A100 上基於 QWen2VL 實驗，AdaReTaKe 將輸入影片 context length 壓縮固定的 16K，進而將所能處理的最大幀數由 256 提升至 2048，持續地提升多個 benchmark 上的表現。

在 AdaReTaKe 的 Github 倉庫中可以發現其使用方法比較簡潔，只需要對 transformers 匯入的模型進行簡單的 patch 即可，支援 QWen2VL、QWen2.5VL、LLaVA-OneVision 等多種多模態理解模型。

接下來，將從前言、設計思路、方法以及實驗效果四個方面介紹 AdaReTaKe。

前言

隨著多模態大模型需要處理的序列長度越來越長，其視訊記憶體開銷的大頭越來越趨向於被 KV Cache [1] 佔據。為了減少視訊記憶體開銷，從而處理更長影片以獲得更多有效資訊，現有方法主要採用視覺序列壓縮技術，基於 Attention 的稀疏性質，透過刪除、合併冗餘 token 減少序列長度。但是已有方法未能充分挖掘視覺稀疏程度在影片時序上、大模型層間的不一致性。

設計思路

大多數視覺序列壓縮技術的核心是尋找 attention 過程中的 Heavy Hitter [2]。即最收到 prompt 關注的多個視覺 token，如下圖所示。

Heavy Hitter 在影片時序上分佈不均勻。如下圖所示，研究團隊對 VideoMME 上隨機取樣的 64 個影片實驗發現，時序上 Heavy Hitter 密度差距最多可以達到 7 倍。

Heavy Hitter 在大模型層間分佈不均勻。如下圖所示，研究團隊對 VideoMME 全量影片實驗發現，大模型不同層之間 Heavy Hitter 密度差距最多可以達到 4 倍，且這種密度差異並非單調變化。

基於上述發現，團隊設計了 AdaReTaKe 方法，賦能影片大模型在相同的計算資源和上下文視窗下儘可能多的放入更有資訊量的資訊，從而實現對更長序列的理解和更多細節的捕捉。具體方法如下：

方法

AdaReTaKe 框架圖

ReTaKe 系列的核心有兩個方面，其一是大模型影片序列分塊壓縮方法（來自 ReTaKe），其二是動態壓縮率分配方法（AdaReTaKe），根據時間與模型層間冗餘性差異動態分配壓縮率。

大模型影片序列分塊壓縮方法

大模型影片序列分塊壓縮方法首先將影片幀分割成若干個包含 τ 幀的塊，透過視覺編碼器和投影層提取每塊的特徵，並根據最大上下文長度為每個塊分配一個基於其內容的壓縮比率，確保最終序列長度不超過。然後，將每個塊依次輸入大模型進行預填充。每一個分塊預填充（chunk prefilling）結束後，壓縮其對應的 KV cache，從而在減少冗餘的同時保持重要細節，提高長影片序列處理能力。

基於影片時間與模型層間冗餘性的壓縮率分配

1. 時間自適應分配

將長影片分塊，根據相鄰幀相似度動態分配壓縮比。靜態片段高壓縮，動態片段保留更多細節。

2. 層次自適應分配

不同模型層關注不同抽象特徵（如淺層紋理、深層語義），透過注意力分數調整各層壓縮比率，避免 “一刀切” 策略。

3. 理論保障

提出壓縮損失上界理論，確保動態分配策略接近最優解，資訊保留最大化。

實驗結果分析

基準方法比較

ReTaKe 方法能夠一致提升各個基準的長影片理解能力。實驗結果顯示，AdaReTaKe 方法在 VideoMME、MLVU、LongVideoBench 和 LVBench 四個長影片理解基準上，對於 LLaVA-Video、QWen2VL 和 QWen2.5VL 三種基準模型有一致且穩定的效能提升，平均提升幅度高達 3%-5%。對於平均時長最長（超過 1 小時）的 LVBench，AdaReTaKe 將 7B 和 72B 模型的準確率分別提升 5.9% 和 6.0%。

消融實驗

研究團隊透過一系列對比實驗深入探討了 AdaReTaKe 模型各元件對效能提升的具體貢獻。首先，將基線模型（#0）與加入了 token 壓縮的方法進行對比，發現儘管 token 壓縮引入了輕微的效能下降（#1），但它允許模型在同一上下文長度內處理更多的幀（#2），從而捕捉到更豐富的資訊，最終實現了淨效能增益。其次，在不同層和不同幀之間應用不同的壓縮比率（分別為 #3 和 #4），結果顯示這種分配策略能夠有效提升模型效能，驗證了 AdaReTaKe 方法的有效性。最後，透過擴充套件上下文長度至 MLLMs 的一般上限（#5），模型效能得到了顯著提升。

ReTaKe 對細粒度時序感知能力的影響

總的來說，如果單純考慮 ReTaKe 對影片的壓縮，可能會對某些細粒度任務（如 Needle QA，NQA）的效能造成輕微損害。但由於它使得模型能夠在相同上下文長度內處理更多的幀，從而吸收了更豐富的資訊。因此最終，這種潛在的損害不僅被有效抵消，還在多個任務中實現了超越基線的表現。

實驗對比了基線模型 LLaVA-Video-7B 和 QWen2VL-7B 的表現，結果顯示：單純實現 token 壓縮導致 Needle QA 效能略有下降，這是由於壓縮不可避免地帶來了一定的資訊丟失，但在其他相對粗粒度的任務中，如動作順序（AO）、關鍵資訊檢索（KIR）以及時間定位（TG），ReTaKe 的壓縮策略帶來了略微的效能提升。最終，得益於更密集的幀取樣，模型能夠補償因壓縮造成的細微資訊損失，並有效增強了對動作的理解及關鍵資訊的提取。

視覺化結果

視覺化結果顯示，ReTaKe 能有效識別並保留關鍵資訊和細微語義變化的區域，如身體動作和麵部表情，同時過濾掉靜態場景中的冗餘幀。

長影片理解榜單

團隊於 VideoMME 榜單位列第二位，開源模型第一位，僅次於 Gemini-1.5-Pro。在 MLVU、LongVideoBench 和 LVBench 榜單位列第一位，其中 LongVideoBench 是超過 GPT-4o 的首個開源模型。

未來研究方向

原生影片壓縮模組：當前依賴訓練後的啟發式壓縮策略，未來可設計端到端壓縮模組，將壓縮能力和模型深度融合。

智慧分塊策略：現有影片分塊方法依賴固定時長，探索基於語義邊界的分塊（如場景切換）可進一步提升效率。

多模態聯合最佳化：結合音訊、文字等多模態訊號，構建冗餘評估的綜合指標，實現更精準的壓縮。

總結

長影片理解是最接近人類接收資訊方式的場景，也是長序列推理在多模態場景下的首要戰場，ReTaKe 系列論文透過大模型影片 token 壓縮技術，解決了長影片理解中的動態冗餘難題，為 AI 處理小時級影片提供了新正規化，助力學術界與工業界探索影片智慧的邊界。未來，隨著原生壓縮與多模態融合的突破，長影片理解將邁向更智慧的時代！

參考文獻

[1] Hooper, Coleman, Sehoon Kim, Hiva Mohammadzadeh, Michael W. Mahoney, Yakun Sophia Shao, Kurt Keutzer, and Amir Gholami. KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization. NeurIPS 2024,

[2] Zhang, Zhenyu, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng, Ruisi Cai, Zhao Song, et al. H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models. NeurIPS 2023.

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]