點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心
該工作第一作者為中國人民大學高瓴人工智慧學院碩士生程傳奇,目前於螞蟻技術研究院實習,其主要研究領域為多模態大模型,螞蟻技術研究院副研究員關健為共同第一作者。
在視覺語言模型(Vision-Language Models,VLMs)取得突破性進展的當下,長影片理解的挑戰顯得愈發重要。以標準 24 幀率的標清影片為例,僅需數分鐘即可產生逾百萬的視覺 token,這已遠超主流大語言模型 4K-128K 的上下文處理極限。當面對影視級的長影片內容時,傳統解決方案的不足愈加凸顯:粗放式的幀取樣策略往往造成關鍵幀資訊遺漏,而特徵融合方法雖能降低資料維度,卻不可避免地導致語義完整性受損。
近日,螞蟻和人大的研究團隊帶來了一個創新性的解決方案。他們提出視覺語言大模型 ViLAMP(Video-Language Model with Mixed Precision),實現了對超長影片的高效處理。這個方法的核心在於其獨特的 “混合精度” 策略:對影片中的關鍵內容保持高精度分析,而對次要內容進行強力壓縮,就像人類在觀看影片時會重點關注關鍵場景,而對過渡時空資訊只做快速掃描一樣。

-
論文標題:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
-
論文地址:https://arxiv.org/abs/2504.02438
-
Github:https://github.com/steven-ccq/ViLAMP
實驗結果令人振奮:ViLAMP 在 Video-MME 等五個主流影片理解基準上全面超越現有方案,特別是在處理長影片時展現出顯著優勢。更重要的是,它可以在單張 A100 GPU 上連續處理長達 1 萬幀(按每秒 1 幀計算約 3 小時)的影片內容,同時保持穩定的理解準確率。這一突破不僅大大提升了影片處理效率,更為線上教育、影片監控、直播分析等實際應用場景帶來了新的可能。相關論文已被 ICML 2025 接收。

橫軸:處理的影片幀數(從 0 到 10,000 幀),縱軸: GPU 記憶體使用量(MB)。測試在單塊 NVIDIA A100 GPU 上進行。

VideoNIAH(影片版本大海撈針任務)測試結果。橫軸:影片總長度(2K-10K 幀);縱軸:表示目標影片在完整影片中的相對位置(0% 表示在開頭,100% 表示在結尾)。
影片資訊在時空維度均呈現稀疏性與冗餘性
為解決長影片處理的效率問題,研究團隊首先對主流視覺語言模型(包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA)進行了系統性分析,發現了影片資訊在時間和空間上均存在顯著的稀疏性和冗餘性:
-
幀間注意力分析:在現有模型中,使用者 Query 對相應影片的注意力高度集中 ——90% 的注意力僅分佈在不到 5% 的影片幀上(稱為關鍵幀)。更重要的是,這 5% 的關鍵幀之間往往存在很強的視覺相似度。
-
幀內注意力分析:在每一幀的內部,模型的注意力也展現出相似的稀疏性質 ——50% 的 patch(幀劃分的最小單位)就承載了 80% 的模型注意力,但這些受關注的 patch 與關鍵幀中的對應 patch 具有遠超隨機基線水平的相似度。
這一發現表明現有模型在處理影片時存在大量計算資源的浪費。實際上,處理長影片不需要對每一幀、每個 patch 都投入同樣的計算量。基於此,研究團隊提出 “差分蒸餾原則”(Differential Distill Principle):識別並保留重要的影片資訊,同時壓縮那些雖然相關但高度冗餘的資訊。其中,重要資訊應該同時滿足兩個條件:(1)高查詢相關性:與當前使用者 Query 高度相關;(2)低資訊冗餘性:包含獨特的影片資訊。這一原則為後續設計高效的影片處理演算法奠定了理論基礎。
ViLAMP: 基於差分蒸餾的雙層混合精度架構
前文的注意力分析揭示了一個關鍵問題:現有視覺語言模型對影片中所有幀和 patch 都採用相同的處理方式,導致大量計算資源的浪費。基於這一認識,研究團隊提出了專門面向長影片處理的高效架構 ViLAMP,它能夠根據資訊的重要程度自適應地分配計算資源。

ViLAMP 模型結構圖
ViLAMP 透過層次化的壓縮框架實現這一策略:在幀級別,對重要的關鍵幀保留完整的視覺 token 表示,以捕獲關鍵資訊;而對於非關鍵幀,則採用強力壓縮策略;在 patch 級別,透過差分機制增大重要 patch 的權重。
模型具體包含兩個核心機制:
1. 差分關鍵幀選擇(Differential Keyframe Selection,DKS)
為實現關鍵幀的高效識別,ViLAMP 採用了基於貪心策略的選擇演算法。該演算法在最大化與使用者 Query 的相關性的同時,透過差分機制降低幀間冗餘,確保選中的關鍵幀既重要又多樣化。
2. 差分特徵合併(Differential Feature Merging,DFM)
針對非關鍵幀的處理,ViLAMP 創新性地透過差分加權池化,將每個非關鍵幀壓縮為單個資訊量最大化的 token。在壓縮過程中,模型賦予那些與使用者 Query 相關且具有獨特性的 patch 較高的權重,同時降低與相鄰的關鍵幀有顯著重複的 patch 的權重,從而在大幅降低計算量的同時保留關鍵資訊。
這種雙層混合精度架構既確保了模型能夠準確捕獲影片中的關鍵資訊,又顯著降低了計算開銷。
突破性效能:全面超越現有方案
在五個主流影片理解基準上的實驗表明:
1. ViLAMP 以 7B 引數量達到或超越了部分 70B 量級模型的表現,特別是在 Video-MME 長影片子集上比現有最優模型提升 4.8%。
2. 針對當前影片理解基準中影片長度不足的問題,本文提出了面向影片理解場景的 “大海撈針” 任務 ——VideoNIAH。該任務將一段目標短影片(1 分鐘以內)插入到小時級別的長影片中,要求模型在不依賴先驗資訊的情況下,從超長影片上下文中定位並理解該片段,進而回答相關問題。與傳統基於文字的 NIAH 任務不同,VideoNIAH 中的答案無法直接從影片對應的文字描述中提取。因此,該任務本質上更具挑戰性,難以達到語言模型在文字 NIAH 任務中所表現出的近乎完美的準確率(例如 99%)。VideoNIAH 任務的效能上限受限於模型對目標短影片原始 QA 的理解水平,進一步凸顯了該任務對影片內容深層次理解能力的嚴格要求。在這一新提出的超長影片理解基準上,ViLAMP 在處理包含 10K 幀(約 3 小時)的影片時仍能保持 58.15% 的準確率(原始 QA 資料集準確率 78.9%),超越 VideoChat-Flash 基線模型 12.82%,展現出較強的長影片建模能力。
3. 計算效率顯著提升:記憶體消耗相比 LLaMA-VID 基線降低約 50%,在 8,192 幀情況下計算量減少 80% 以上。
4. 深入的消融實驗表明:與已有的關鍵幀選擇方案相比,DKS 在長影片場景下表現出明顯優勢;與 Q-former 和平均池化等特徵融合方案相比,DFM 在所有資料集上都展現出 3 個百分點以上的效能優勢。

模型表現

Video-MME 排行榜

計算效率對比
結語
ViLAMP 透過創新的差分蒸餾框架成功突破了長影片處理的計算瓶頸,不僅在效能上實現了飛躍,更為影片理解領域提供了新的研究思路。該工作的原理性貢獻和實用價值將推動影片理解技術在更多實際場景中的落地應用。期待未來看到更多基於此框架的創新發展。
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
