3B模型逆襲7B巨頭!Video-XL-Pro突破長影片理解極限,大海撈針準確率超98%

Video-XL-Pro團隊投稿量子位 | 公眾號 QbitAI
3B模型超越Meta 7B模型,超長影片理解SOTA重新整理了!
來自上海交通大學、北京智源研究院、特倫託大學的聯合研究團隊推出了Video-XL-Pro,實現近一萬幀影片的單卡處理,大海撈針準確率超98%。
現有的多模態大模型在超長影片訓練和應用中仍存在顯著瓶頸:一方面,難以大規模訓練超長影片;另一方面,在處理長影片時,仍然面臨效能差和效率低的雙重挑戰。
對此,Video-XL-Pro創新採用“重構式token壓縮”技術,並且使用較少的訓練資料,在多個基準評測上超越了之前Meta釋出的7B模型Apollo-7B,以及同尺寸的知名開源模型Qwen2.5-VL-3B、InternVL2.5-4B等,專案程式碼,模型,訓練資料均已開源

模型結構

Video-XL-Pro的核心在於其提出的重構性token壓縮技術(ReCoT),該技術透過自監督學習生成全面且緊湊的影片token,顯著提升了影片理解的效率和質量。
ReCoT包含兩個關鍵元件:動態token合成器(DTS)和語義引導掩碼(SGM)。
DTS透過輕量級的時空注意力塊對token進行壓縮,有效捕捉影片中的動態運動;而SGM則透過自適應掩碼策略,減少冗餘視覺token,從而最佳化重構學習過程。
這些創新設計使得模型在僅需3B引數的情況下,效能超越了許多7B引數的模型。
此外,為了增強模型對超長影片理解能力,模型還引入了查詢選擇器,使得在輸入上下文超過限制時模型能夠選擇性關注和查詢有關的片段。
為了進一步提升訓練效率,研究團隊還提出了影片資料集剪枝策略。
這些方法透過篩選高質量影片資料,顯著降低了計算成本,同時保障模型的效能。

評測基準

Video-XL-Pro選用多個主流影片理解評測基準,對模型進行了全面的評測,對於長影片理解任務,評測了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench
其中MLVU,VideoMME,LongVideoBench集中在評測模型的長影片理解能力。
VNbench則是兼顧長影片與短影片,TempCompass則是評測模型在影片中的時間理解能力。
如表1所示,Video-XL-Pro在多個主流的長影片評測基準上展現了卓越效能。
在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斬獲了第一名,不光超越同參數量的知名開源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一眾7B模型,包括Meta釋出的7B模型Apollo-7B等。
在VideoMME,LongVideoBench,Video-XL-Pro也超越了絕大部分同參數量模型,並達到與7B模型相當的水準。
最後在VNbench上,VIdeo-XL-Pro也取得有競爭力的結果,說明模型在增強長影片理解能力的同時,也能兼顧短影片能力。
值得注意的是,VIdeo-XL-Pro只使用了相對較少的SFT資料(1M),低於Apollo的3.2M,遠低於Qwen2.5-VL,InternVL2.5等知名開源模型,進一步說明了方法的有效性。
Video-XL-Pro還進行了影片「大海撈針」測試來評估其處理超長上下文的能力。
得益於ReCot模組和查詢選擇器的設計,使得模型可以輸入極長的上下文序列,在相同硬體條件下,模型可以以8192幀為輸入,達到了近99%的準確率。

時間理解

為了更全面的評估模型效能,我們還選用了經典時間評測基準Charades-STA和最新的長影片時間評測基準V-STaR。
V-STaR注重在極長影片中找出與問題相關的片段,精準回答片段時間範圍,現有開源模型在V-STaR中很難取得很好的成績,即便是Qwen2.5-VL-7B,mIoU得分也僅為11.48。
Video-XL-Pro-3B在最新的V-STaR長影片時間基準測試斬獲25.07的mIoU得分,在IoU>0.7時仍能達到15.58的準確率,遠上超越一眾知名開源模型,包括InternVL2.5-8BQwen2.5-VL-7B,並超越上一代冠軍Video-LLaMA3,展現了卓越的長影片時間理解能力,並且在Charades-STA上也有著不俗的表現。

總結

該工作提出了Video-XL-Pro模型,利用自監督學習壓縮視覺標記,使用相對少量資料下訓練的3B模型就能獲得超越大多數7B模型的效能。
Video-XL-Pro在多個主流長影片理解基準評測上表現優異。
模型有望在多個長影片理解的應用場景中展現出廣泛的應用價值,成為得力的長影片理解助手。
目前,模型、程式碼、訓練資料均已開源,以促進長影片理解社群的合作和發展。
論文連結:https://arxiv.org/abs/2503.18478程式碼連結:https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro模型連結:https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B訓練資料鏈接:https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章