
作者 | 智源研究院 MLVU 團隊
當前,研究社群亟需全面可靠的長影片理解評估基準,以解決現有影片理解評測基準在影片長度不足、型別和任務單一等方面的侷限性。因此,智源聯合北郵、北大和浙大等多所高校提出首個多工長影片理解評測基準 MLVU(A Comprehensive Benchmark for Multi-Task Long Video Understanding)。
MLVU 擁有充足且靈活可變的的影片長度、包含多種長影片來源、涵蓋多個不同維度的長影片理解任務。透過對 20 個最新的流行多模態大模型(MLLM)評測發現,排名第一的 GPT-4o 的單選正確率不足 65%,揭示了現有模型在長影片理解任務上仍然面臨重大挑戰。我們的實證研究還探討了多個影響大模型長影片理解能力的關鍵因素,期待 MLVU 能夠推動社群對長影片理解研究的發展。
使用 MLLM 進行長影片理解具有極大的研究和應用前景。然而,當前研究社群仍然缺乏全面和有效的長影片評測基準,它們主要存在以下問題:
•影片時長不足:當前流行的 Video Benchmark[1,2,3] 主要針對短影片設計,大部分影片的長度都在 1 分鐘以內。
•影片種類和任務型別不足:現有評測基準往往專注在特定領域的影片(例如電影 [4, 5],第一視角 [6])和特定的影片評測任務(例如 Captioning[2],Temporal Perception[7],Action Understanding[8])
•缺乏合理的長影片理解任務設計:現有部分長影片理解評測任務往往只和區域性幀有關 [4];或者使用針對經典電影進行問答 [9],MLLMs 可以直接憑藉 text prompt 正確回答問題而不需對影片進行分析。
針對以上不足,我們提出了 MLVU:首個全面的多工長影片理解 Benchmark。MLVU 具有以下特點:

-
充足且靈活的影片時長MLVU 的影片時長覆蓋了 3 分鐘到超過 2 小時,平均影片時長 12 分鐘,極大擴充套件了當前流行的 Video Benchmark 的時長範圍。另外,MLVU 的大部分任務標註過程中進行了片段 – 問題對應標註(例如,Video Summarization 任務分段標註了影片的前 3 分鐘,前 6 分鐘…)。MLLMs 可以靈活地在 MLVU 上選擇測試不同時長情況下的長影片理解能力。
-
覆蓋真實和虛擬環境的多種影片來源MLVU 收集了包括電影、電視劇、紀錄片、卡通動畫片、監控影片、第一視角影片和遊戲影片等多個型別的長影片。覆蓋了長影片理解的多個領域範圍。
-
針對長影片理解設計的全面任務類別我們針對長影片理解設計了 9 類不同的任務,並進一步將他們任務分為三類:全面理解,單細節理解、多細節理解。
•全面理解任務:要求 MLLMs 理解和利用影片的全域性資訊來解決問題;
•單細節理解任務:要求 MLLMs 根據問題定位長影片中的某一細節,並利用該細節來解決問題;
•多細節理解任務:要去 MLLMs 定位和理解長影片中的多個相關片段來完成和解決問題。
此外,我們還包括了單項選擇題形式和開放生成式問題,全面考察 MLLMs 在不同場景下的長影片理解能力。(文末提供了 MLVU 的 9 類任務示例圖參考)
-
合理的問題設定與高質量答案標註
以情節問答(Plot Question Answering)任務為例。一部分 Benchmark[9, 10] 使用電影 / 電視的角色作為問題線索來對 MLLMs 進行提問,然而他們使用的影片多為經典電影 / 電視,MLLMs 可以直接使用自有知識回答問題而不需要對輸入影片進行理解。另一部分 Benchmark[4] 試圖避免這個問題,但由於長影片的複雜性,僅僅利用代詞和描述性語句來指代情節細節非常困難,他們的問題非常寬泛或者需要在問題中額外指定具體的時間片段而不是讓 MLLMs 自己根據題目尋找對應細節。
MLVU 透過精細的人工標註克服了這些問題,在所有的情節問答任務中,MLVU 均使用“具有詳細細節的代詞”來指代情節中的人物、事件或背景,避免了問題洩露帶來的潛在影響,MLLMs 需要根據問題提供的線索識別和定位相關片段才能進一步解決問題。此外,MLVU 的 Plot QA 問題具備豐富的多樣性,增強了評測的合理性和可靠性。

我們在 MLVU 上對 20 個流行的 MLLM 進行了評測,包括開源模型和閉源模型。評測結果如下:

實驗結果發現:
(1)長影片理解仍然是富有挑戰的任務。儘管 GPT-4o[11] 在所有任務中均取得了第 1 名的成績,然而,它的單選平均準確率只有 64.6%。所有的模型都在需要細粒度理解能力的任務上(單細節、多細節理解任務)表現糟糕。此外,大部分模型的效能都會隨著影片時長增加顯著下降。

(2)開源模型和閉源模型之間存在較大的差距。開源模型中單項選擇題效能最強的 InternVL-1.5[12] 單選平均準確度僅有 50.4%;開放生成式題目最強的 LLaMA-Vid 得分僅有 4.22,均遠遠落後於 GPT-4o 的 64.6% 和 5.80。此外,現有長影片模型並沒有在長影片理解任務上取得理想的成績,說明當前的 MLLMs 在長影片理解任務上仍然存在較大的提升空間。
(3)上下文長度、影像理解能力、LLM Backbone 是 MLLMs 提升長影片理解能力的關鍵因素。實證研究發現,提升上下文視窗,提升 MLLM 的影像理解能力,以及使用更強大的 LLM Backbone 對長影片理解的效能具有顯著的提升作用。這揭示了未來 MLLMs 在提升長影片理解能力的重要改進方向。

我們提出 MLVU,首個專為長影片理解任務設計的全面多工評測基準。MLVU 極大擴充套件了現有基準的影片長度、提供了豐富的影片型別,並針對長影片理解設計了多樣化的評估任務,從而為 MLLMs 提供了一個可靠高質量的長影片理解評測平臺。
透過評估當前流行的 20 個 MLLMs,我們發現,長影片理解仍然是一個富有挑戰和具有巨大提升空間的研究領域。透過實證研究,我們揭示了多個影響長影片理解能力的因素,為未來 MLLMs 的長影片理解能力構建提供了洞見。此外,我們將不斷擴充套件和更新 MLVU 覆蓋的影片型別和評估任務,期待 MLVU 能夠促進社群對長影片理解研究的發展。
附錄:MLVU 的任務示例圖

部分參考文獻:
[1] Li K, Wang Y, He Y, et al. Mvbench: A comprehensive multi-modal video understanding benchmark[J]. arXiv preprint arXiv:2311.17005, 2023.
[2] Xu J, Mei T, Yao T, et al. Msr-vtt: A large video description dataset for bridging video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5288-5296.
[3] Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.
[4] Song E, Chai W, Wang G, et al. Moviechat: From dense token to sparse memory for long video understanding[J]. arXiv preprint arXiv:2307.16449, 2023.
[5] Wu C Y, Krahenbuhl P. Towards long-form video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1884-1894.
[6] Mangalam K, Akshulakov R, Malik J. Egoschema: A diagnostic benchmark for very long-form video language understanding[J]. Advances in Neural Information Processing Systems, 2024, 36.
[7] Yu Z, Xu D, Yu J, et al. Activitynet-qa: A dataset for understanding complex web videos via question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 9127-9134.
[8] Wang Z, Blume A, Li S, et al. Paxion: Patching action knowledge in video-language foundation models[J]. Advances in Neural Information Processing Systems, 2023, 36.
[9] Li Y, Wang C, Jia J. LLaMA-VID: An image is worth 2 tokens in large language models[J]. arXiv preprint arXiv:2311.17043, 2023.
[10] Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.
[11] OpenAI. Gpt-4o. https://openai.com/index/hello-gpt-4o/, May 2024.
[12] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.
內容推薦
新應用時代,融合AI技術的應用開發變得更加複雜。在6月14日至15日的ArchSummit全球架構師峰會上,來自位元組、百度和騰訊雲等知名企業的資深架構師分享了他們如何運用AI模型及技術管理手段,解決實際問題。「AI前線」精選了大會上聚焦AI模型及其應用開發的系列PPT,關注「AI前線」,回覆關鍵詞「應用開發」免費獲取。

InfoQ 將於 8 月 18 日至 19 日在上海舉辦 AICon 全球人工智慧開發與應用大會,匯聚頂尖企業專家,深入端側AI、大模型訓練、安全實踐、RAG應用、多模態創新等前沿話題。現在大會已開始正式報名,6 月 30 日前可以享受 8 折優惠,單張門票節省 960 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。

你也「在看」嗎?👇