介紹

影片理解是多模態大型語言模型（MLLMs）發展的關鍵一步。隨著影片中心的 MLLMs 模型的提出，需要有更全面的基準測試來評估這些模型在影片理解方面的能力，包括細粒度理解、時空建模以及長上下文處理等。傳統的影片基準測試通常需要基於目標能力精心選擇影片，並進行繁瑣的查詢-響應對標註，以匹配特定影片內容。這個過程不僅挑戰重重，而且資源消耗巨大。

為了開發和評估影片理解模型，需要一個既能夠擴充套件到不同影片源和長度，又能夠高效執行的基準測試框架。本論文提出了利用合成影片構建影片理解測試基準的方法 VideoNIAH

。這種方法可以解耦影片內容與其對應的查詢-響應對，透過插入無關的影像或文字“針”來生成測試資料，從而提高測試的多樣性和效率。

同時，使用與現實影片內容相對應的查詢-響應對可能存在資料洩露風險，影響基準測試的公平性。合成影片生成方法可以有效避免這一問題。研究者們利用 VideoNIAH 方法制作了一個能夠有效評估影片模型的細粒度理解能力和時空建模能力，同時支援長上下文評估的合成影片理解基準 VNBench，包含 1350 個樣本。

為了解決這一問題，研究者們提出了 VideoNIAH，一個透過合成影片生成的基準構建框架。

論文標題：

Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs

論文連結：

https://arxiv.org/abs/2406.09367

專案連結：

https://videoniah.github.io/

VideoNIAH方法

VideoNIAH（Video Needle In A Haystack）創新性地將測試影片內容與其查詢-響應對解耦，透過在原始影片中插入無關的影像/文字“針”（needles），並僅從這些針生成註釋。這種方法不僅確保了影片來源的多樣性和查詢響應的多樣性，還透過插入多個針來嚴格評估模型對時間理解的能力。

VNBench構造

利用 VideoNIAH，研究者們構建了一個全面的影片基準測試 VNBench，包括檢索、排序和計數等任務。VNBench 能夠有效評估影片模型的細粒度理解能力和時空建模能力，同時支援長上下文評估。

VNBench 的特點主要表現在以下三個方面：

“針”型別（Needle Type）的多樣性：

編輯內幀（Edit）：使用人為新增的字幕作為"針"，這些字幕被嵌入到影片幀中，模擬了在影片中尋找特定文字資訊的場景。
插入幀間（Insert）：使用影像作為"針"，這些影像作為靜態片段插入到影片幀之間，考察模型對影片中靜態影像的識別和記憶能力。
級別劃分：根據影像的可識別性分為兩個級別，第一級使用常見物體（如水果影像），第二級使用更具挑戰性的地標影像/物體影像，增加了任務的難度。

影片"乾草堆"（Video Haystack）的多樣性

時間分佈：VNBench使用的影片"乾草堆"來自不同的資料來源，影片時長從10秒到180秒不等，覆蓋了短、中、長三種不同的影片長度，以評估模型對不同影片長度的適應能力。
內容覆蓋：影片內容包含多種場景，確保了評估的廣泛性和影片源的多樣性。

查詢（Query）的多樣性

檢索任務：要求模型從影片中檢索出特定的"針"，考察模型的細粒度理解和資訊提取能力。
排序任務：要求模型識別並排序影片中所有插入"針"的時間順序，考察模型對影片時間動態和事件序列的理解能力。
計數任務：要求模型計算影片中特定物件的出現次數，包括對單個幀內和跨幀的重複模式的識別和追蹤，考察模型在時空維度上的理解能力。
任務分類：VNBench 的三個任務型別分別對應不同的影片理解能力評估，檢索任務評估資訊檢索能力，排序任務評估時間推理能力，計數任務評估對影片內容的長期記憶和模式識別能力。透過這些設計，VNBench 能夠全面地評估影片理解模型在多樣化的影片內容和查詢條件下的效能，為影片理解技術的研究提供了一個有力的基準測試工具。

實驗及分析結果

在論文中，透過 VNBench 對影片理解多模態大型語言模型（MLLMs）進行了一系列評估，分析結果揭示了以下幾個關鍵點：

專有模型與開源模型的效能差異：專有模型（如Gemini 1.5 Pro和GPT-4系列）在大多數VNBench任務上的表現優於開源模型。這表明專有模型可能擁有更優越的影片理解能力，這可能歸功於更大的模型引數和更全面的訓練過程。
任務難度與模型表現：模型在單針短依賴任務（檢索任務）上的表現普遍優於多針長依賴任務（排序和計數任務）。這表明當前的影片模型在處理需要長期依賴資訊的任務時仍然面臨挑戰。
排序任務的效能差距：在排序任務上，專有模型與開源模型之間的效能差距尤為顯著。大多數開源模型在排序任務上幾乎無法完成任務，這可能是由於它們在訓練過程中忽視了時間序列建模的能力。
計數任務的困難即使是最先進的專有模型，在計數任務上的表現也不理想。特別是在需要檢測和追蹤影片中特定空間區域內的“針”時（Counting-E-2任務），所有模型的表現都很差，這表明當前的影片模型在理解和建模影片中的細粒度時空關係方面仍有不足。
影片上下文長度的影響隨著影片處理時長的增加，開源模型的效能顯著下降，而專有模型由於具有更長的上下文處理視窗，效能波動不大。這表明當前模型在處理長影片內容時的能力有限。
“針”位置的影響透過改變“針”在影片中的位置，研究發現專有模型由於其較長的上下文視窗，能夠準確回憶所有插入的資訊，而開源模型則表現出在長序列中對中間資訊的回憶不足。