
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報道。投稿郵箱:[email protected];[email protected]
今天向大家介紹一項來自香港大學黃超教授實驗室的最新科研成果 VideoRAG。這項創新性的研究突破了超長影片理解任務中的時長限制,僅憑單張 RTX 3090 GPU (24GB) 就能高效理解數百小時的超長影片內容。

-
論文標題:VideoRAG: Retrieval-Augmented Generation with
Extreme Long-Context Videos -
論文連結:https://arxiv.org/abs/2502.01549
-
程式碼開源地址:https://github.com/HKUDS/VideoRAG
-
實驗室主頁:https://github.com/HKUDS
VideoRAG 採用了創新的多模態知識索引框架,將這些海量影片內容濃縮為簡潔、結構化的知識圖譜,從而支援跨影片推理。其多模態檢索正規化能夠有效對齊文字語義與視覺內容,確保從多個長影片中精準檢索出相關片段,生成全面而精確的回答。
此外,研究團隊還建立了全新的 LongerVideos 基準資料集,包含 160+ 個影片,涵蓋了講座、紀錄片和娛樂等類別,為該領域的未來研究提供了有力支援。
總的來說,VideoRAG 擁有以下優勢:
-
高效理解數百小時的超長影片內容
-
將影片內容濃縮為結構化的知識圖譜
-
採用多模態檢索以精準響應查詢
-
建立了全新的長影片基準資料集

研究背景
RAG (Retrieval-Augmented Generation)技術透過在推理階段引入外部知識,顯著增強了預訓練大語言模型(LLM)的能力。然而,當前成熟的 RAG 框架主要聚焦於文字領域,在影片理解任務中的應用仍面臨諸多限制。影片資料包含豐富的視覺、語音和文字等多模態異構資訊,尤其是在處理超長影片(如系列講座、紀錄片)時,跨影片語義關聯和長時序依賴建模成為兩大核心挑戰。現有的端到端方法受限於上下文長度或 GPU 視訊記憶體,難以高效處理長達數小時甚至更長的影片內容;而其他框架通常採用截斷或分片處理策略,導致上下文資訊割裂,跨影片知識整合困難。此外,如何在大規模影片庫中高效檢索相關內容仍是亟待解決的難題。
針對上述挑戰,我們提出了一種創新的 RAG 框架 ——VideoRAG,旨在實現高效且全面的超長影片理解。在索引階段,VideoRAG 採用雙通道索引架構,透過構建文字知識圖譜建模跨影片片段的語義關聯與時序依賴,並結合層級化的多模態特徵編碼,保留細粒度的影片資訊;在檢索階段,引入自適應混合檢索正規化,融合知識圖譜與多模態特徵嵌入,精準識別與查詢最相關的影片內容。在首個超長跨影片理解基準資料集 LongerVideos 上的多維度評估表明,VideoRAG 展現了卓越的長影片理解能力,為複雜影片場景下的知識提取與整合提供了新的解決方案。
VideoRAG 框架設計

VideoRAG 透過多模態知識索引和知識驅動的資訊檢索,高效地捕捉、組織和檢索影片中的視覺、音訊和語義資訊,支援為無限時長的影片輸入生成準確的響應,為理解超長影片提供了全新的解決方案。
雙通道多模態影片知識索引
與傳統文字文件不同,影片透過視覺、音訊和文字等多模態傳遞資訊。傳統的文字 RAG 方法在影片內容理解上存在顯著侷限,主要體現在無法直接捕捉視覺動態、難以保持影片幀間的時間依賴性,以及難以處理視覺與文字之間的跨模態互動。VideoRAG 採用雙通道架構,高效組織和索引長時間影片內容,同時保留多模態資訊的語義豐富性:
-
基於圖的文字知識對齊
-
視覺 – 文字對齊:將影片均勻劃分為多個短片段,並從每個片段中均勻取樣不超過 10 幀,以高效提取關鍵視覺元素。隨後透過視覺語言模型(VLM)生成自然語言描述,捕捉物件、動作和場景動態; -
音訊 – 文字對齊:透過自動語音識別(ASR)技術轉錄影片中的對話和敘述,並與視覺描述融合,生成統一的語義表示; -
跨影片知識圖譜:基於大語言模型(LLMs)識別實體與關係,構建全域性知識圖譜,並支援增量式跨影片語義整合(如實體合併、動態演化),確保跨影片內容的一致性與關聯性。
-
多模態上下文編碼
-
使用多模態編碼器將視覺資訊與文字查詢對映到同一特徵空間,實現高效的語義檢索,同時保留難以透過文字描述的視覺細節,如光照變化和複雜物件特徵。
混合多模態檢索正規化
我們提出了一個創新的多模態檢索方法,結合語義理解和視覺上下文,精準識別與查詢相關且資訊量豐富的影片片段,生成更準確的回答:
-
文字語義匹配:透過知識圖譜中的實體匹配找到相關文字塊,包括查詢重構、實體匹配、文字塊選擇和影片片段檢索等步驟;
-
視覺內容匹配:將查詢重寫為描述性語句,與多模態編碼器編碼的影片片段嵌入進行跨模態檢索;
-
LLM 過濾機制:利用 LLMs 進一步評估影片片段的相關性,生成關鍵詞以綜合相關資訊,確保生成的回答既符合語義連貫性,又與查詢高度相關。
內容整合與響應生成
在檢索到相關的影片片段後,我們實現了兩階段的內容提取過程。首先,我們透過 LLMs 從查詢中提取關鍵詞,然後與取樣幀一同作為 VLM 的輸入,生成更詳細的視覺描述。最終,VideoRAG 利用通用的大語言模型(如 GPT-4 或 DeepSeek )根據查詢和檢索到的內容生成準確的響應。
實驗評估
我們在首個超長跨影片理解基準資料集 LongerVideos 上對 VideoRAG 進行了全面的實證評估,涵蓋了與現有 RAG 方法(NaiveRAG、GraphRAG、LightRAG)、支援超長影片輸入的 LVMs(LLaMA-VID、NotebookLM、VideoAgent)的效能對比,以及模型元件的消融實驗(-Graph、-Vision)和具體案例分析。
LongerVideos 基準資料集與評估指標
我們構建了 LongerVideos 資料集,包含 164 個影片(總時長超過 134 小時),涵蓋講座、紀錄片和娛樂三大類別,最長影片是完整的《黑悟空》遊戲通關攻略影片,長達約 21.36 小時。LongerVideos 支援對跨影片推理能力的評估,打破了當前影片問答基準資料集中普遍存在的單影片時長不足 1 小時和單影片理解場景的限制。

我們採用兩種評估協議來衡量模型的效能:
-
勝率評估:使用基於 LLM 的判斷,透過 GPT-4o-mini 對不同模型生成的回答進行排名,並提供解釋性反饋;
-
定量評估:在勝率比較的基礎上,加入分數評定,為每個查詢設定標準答案,並採用 5 分制(1 為最差,5 為最好)進行評估。
我們從五個維度對模型進行評估:
-
全面性(Comprehensiveness):評估回答覆蓋的廣度;
-
賦能性(Empowerment):評估回答如何幫助讀者更好地理解和做出判斷;
-
可信度(Trustworthiness):評估回答的可信度,包括細節資訊的充分性和與常識的一致性;
-
深度(Depth):評估回答是否具備深入分析;
-
資訊密度(Density):評估回答中相關資訊的濃縮程度,避免冗餘。

效能對比
-
與 RAG 方法對比(使用勝率評估):
-
VideoRAG 的卓越效能:VideoRAG 在 所有維度指標和所有影片型別 上均顯著優於 NaiveRAG、GraphRAG 和 LightRAG 等基線。說明基於知識圖與多模態上下文編碼的索引能夠有效捕捉和組織影片中的視覺動態和語義資訊,此外混合多模態檢索正規化透過將文字語義匹配與基於視覺內容嵌入的檢索相結合,有效提升了跨影片檢索精度;
-
進一步基線模型對比分析:相較於 NaiveRAG,VideoRAG 在全面性和賦能性維度具有更為顯著的優勢,源於我們透過高效的知識索引框架整合跨影片資訊,實現更全面的檢索與生成。相較於 GraphRAG 和 LightRAG,VideoRAG 依託多模態上下文融合和查詢感知檢索,在視覺 – 文字資訊對齊和精準內容選擇上更具優勢,使回答更具語境連貫性和理解深度,在知識驅動的影片問答任務中顯著領先。

-
與支援超長影片輸入的 LVMs 模型對比(使用定量評估,以 NaiveRAG 為基線):VideoRAG 在 所有維度指標和所有影片型別 上均顯著優於 LLaMA-VID、NotebookLM 和 VideoAgent 等基線,改進主要歸因於:
-
增強的長上下文建模:透過圖增強的多模態索引與檢索機制,VideoRAG 有效處理跨影片知識連線和依賴關係,超越了 LLaMA-VID 等模型在處理長影片時的計算限制;
-
卓越的多模態融合:VideoRAG 擅長融合視覺、音訊和文字資訊,提供更精細的跨模態對齊與全面理解,明顯優於專注於單一模態的模型,如 VideoAgent(視覺)和 NotebookLM(語音轉錄)。

消融實驗
為了評估 VideoRAG 框架中多模態索引和檢索設計的有效性,我們進行了兩種模型變體的消融實驗:變體 1(-Graph):去除了基於圖的索引 – 檢索管道,限制了模型在跨影片關係建立上的能力;變體 2(-Vision):去除了多模態編碼器中的視覺索引和檢索元件。實驗結果表明:
-
去除圖形模組(-Graph):效能顯著下降,驗證了基於圖的索引 – 檢索機制在捕捉複雜的跨影片關係和建立跨影片知識依賴方面的關鍵作用;
-
去除視覺模組(-Vision):效能顯著下降,證明了視覺資訊處理和多模態上下文融合對影片理解至關重要性。

案例分析
為了全面評估 VideoRAG 的能力,我們對查詢 “評分者在強化微調中的作用” 進行案例分析。該查詢來自 OpenAI 2024 年釋出的 12 天影片系列(時長約 3.43 小時),目標資訊位於第 2 天的內容中。
我們展示了 VideoRAG 的響應及對應檢索到的影片片段。分析表明,VideoRAG 成功提取了第 2 天的相關內容:評分員的基本概念、評分系統的操作機制、部分打分示例,並利用檢索資訊構建詳細且有據可依的答案。

與 LightRAG 的對比分析顯示,VideoRAG 在細節和技術深度上明顯優於 LightRAG。雖然兩者都描述了評分系統的核心概念,但 LightRAG 在解釋 “評分員評分機制” 時缺乏關鍵技術細節,而 VideoRAG 提供了更全面且精準的技術解釋。

該案例研究驗證了 VideoRAG 在以下三個方面的有效性:
-
精確構建知識圖譜,捕捉複雜關係;
-
高精度的多模態資訊檢索;
-
有效處理和綜合多個超長影片中的資訊。
結論
本文介紹了 VideoRAG,一個針對超長影片理解的框架。透過將基於知識圖譜的文字資訊和多模態上下文編碼無縫整合,VideoRAG 能高效處理、索引和檢索長影片中的豐富資訊。
在 LongerVideos 基準上的實證評估表明,VideoRAG 在多個維度上超越了現有的 RAG 方法和長影片理解模型,其核心貢獻包括:
-
精確的影片知識結構構建:有效組織跨影片資訊,捕捉複雜關係;
-
高效的多模態資訊檢索:融合視覺、音訊和文字資訊,提供更準確、細緻的檢索結果;
-
強大的長影片處理能力:突破上下文長度和計算限制,處理多個超長影片的跨影片資訊。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]