單卡3090實現超長影片理解!港大團隊打造首個超長影片理解引擎VideoRAG

程式碼開源地址:
https://github.com/HKUDS/VideoRAG
論文地址:
https://arxiv.org/abs/2502.01549
實驗室主頁:
https://sites.google.com/view/chaoh
檢索增強生成(Retrieval-Augmented Generation, RAG)透過推理階段動態引入與查詢相關的外部知識,顯著拓展了大語言模型的預訓練知識,使其能夠與大型私有資料庫或最新的資訊互動。
然而,當前 RAG 主要應用於文字領域,而影片作為複雜的多模態資訊載體,融合視覺、語音和文字等異構模態,在長時間跨度和多影片場景下的有效建模與資訊檢索仍面臨諸多挑戰。
在與大規模影片庫進行互動時,現有視覺-語言模型(Vision-Language Models, VLMs)受限於基座模型的上下文長度及推理階段的 GPU 視訊記憶體,通常依賴取樣固定數量的影片幀來簡化處理。這種方法不免會破壞影片內容的跨片段連續性並導致關鍵資訊丟失。
此外,傳統方法難以為回答提供精確的索引支援,可能引發幻覺問題。為保留跨幀實體關係,部分現有方法採用重量級目標檢測與追蹤模型保留影片視覺資訊,計算成本高且儲存大量與未來查詢無關的冗餘資訊,同時難以泛化至檢測模型未見過的實體。
針對上述挑戰,香港大學黃超教授實驗室聯合百度提出 VideoRAG

,一種面向超長影片理解的多模態 RAG 框架。

VideoRAG 採用動態知識圖譜構建與多模態特徵編碼,將影片內容壓縮為基於多模態上下文的結構化知識表示,從而支援跨影片推理與精準內容檢索。在回答生成過程中,VideoRAG 根據查詢動態提取原始影片的細粒度內容,避免儲存冗餘資訊,提高推理效率。
為推動相關研究,團隊還構建了超長跨影片理解基準資料集 LongerVideos,涵蓋講座、紀錄片、娛樂三類場景,共 164 個影片,總時長 134 小時,為超長影片理解提供了嚴格的測試環境。
VideoRAG 可在單張 RTX 3090 GPU(24GB)上高效處理長達數百小時的影片內容。實驗結果表明,VideoRAG 在超長影片理解任務上具備可溯源的檢索能力與全面的回答生成能力,其效能優於傳統 RAG 方法(如 NaiveRAG、GraphRAG、LightRAG),以及支援長影片輸入的模型(如 LLaMA-VID、VideoAgent)。
此外,在影片問答任務中,VideoRAG 超越了 Google 商業閉源模型 NotebookLM,為超長影片理解提供了新的解決方案。
VideoRAG 框架設計
超長影片理解可視為在無長度和數量約束的影片知識庫 上進行的檢索問答任務。為提升檢索效率與回答質量,VideoRAG 構建了一種基於圖的雙通道多模態知識索引,結合 query 驅動的檢索機制,實現高效的影片知識獲取與理解。
1.1 雙通道多模態影片知識索引
索引階段的目標是對原始影片中的多模態內容進行知識壓縮,併為潛在答案提供影片中可追溯的錨點。索引建立包括兩個模組:(1)基於知識圖的多模態內容對齊,將多模態資訊轉換為結構化的文字表示,同時提取實體、事件、場景等語義關係和時序關聯;(2)多模態上下文編碼,以稠密向量形式儲存細粒度跨模態互動特徵,增強檢索的精準度。
1.1.1 基於知識圖的多模態內容對齊
首先,將影片 均勻劃分為短片段 ,並從每個片段均勻取樣不超過 10 幀以高效提取關鍵視覺元素,輸入 VLM 生成物件、動作和場景的文字描述。同時,透過 ASR 技術提取對話與旁白內容,與視覺描述結合組成完整的影片文字知識庫。
為保留影片中的語義連貫性和上下文關聯性,VideoRAG 進一步利用 LLM 從文字知識庫中抽取知識圖譜 ,其中 為實體集合, 為實體間的語義和時序關係。
文字知識 被分割為語義單元 以適應 LLM 上下文視窗,並使用 LLM 從中提取實體 和關係 。
在跨影片知識整合階段,VideoRAG 透過實體對齊合併等價實體,以保證全域性一致性;對於新增影片,則透過 LLM 動態檢測新實體與關係,自動擴充套件知識圖結構,同時歸納多來源實體描述。
此外,為提升檢索效率,VideoRAG 採用文字編碼器對所有文字片段 進行編碼,生成嵌入矩陣 。
1.1.2 多模態上下文編碼
由於部分視覺細節(如光照變化、複雜物體屬性)難以直接轉換為文字描述,VideoRAG 進一步引入多模態編碼器對所有影片片段 進行編碼,得到視覺嵌入矩陣 ,從而將視覺內容和文字查詢對映到相同的特徵空間,實現更精細的跨模態檢索。
最終,VideoRAG 結合知識圖譜多模態嵌入,構建影片知識庫的混合索引結構
1.2 混合多模態檢索正規化
在檢索階段,VideoRAG 基於構建的雙通道索引 ,針對輸入查詢進行文字語義匹配與視覺內容檢索,並在必要時回溯至原始影片以獲取更細粒度的資訊,確保查詢的精準性與效率。
在基於知識圖譜的文字檢索中,VideoRAG 先利用 LLM 將使用者查詢解析為適合實體匹配的陳述句,並基於相似度匹配知識圖譜中的實體以檢索相關文字內容。隨後,基於 GraphRAG 回溯最符合查詢語義的文字子集 ,並對映至對應的影片片段,形成候選集合 。
在視覺檢索中,VideoRAG 解析查詢中的視覺元素,生成場景描述,並透過多模態編碼器匹配已索引的視覺嵌入,篩選出最接近的 K 個影片片段,構成檢索結果 。最終,系統結合文字和視覺檢索結果,取其交集,並經 LLM 評估篩選,確定最終的候選片段集
1.3 內容整合與響應
在檢索結果基礎上,VideoRAG 透過多模態推理提升響應質量。首先,LLM 從使用者查詢中提取關鍵詞 ,並結合檢索到的影片幀和音訊轉錄,輸入 VLM 生成更詳細的視覺描述:
隨後,VideoRAG 結合文字-視覺聯合表示 與文字檢索結果 ,構建最終的檢索集合:
最終,VideoRAG 採用通用大語言模型(如 GPT-4 或 DeepSeek)基於 query 與檢索內容生成準確、可溯源的響應。
實驗驗證與效能評估
我們在構建的首個超長跨影片理解基準資料集 LongerVideos 上對 VideoRAG 進行了系統測試,實驗涵蓋了與現有 RAG 方法(NaiveRAG、GraphRAG、LightRAG)、支援超長影片輸入的 LVMs(LLaMA-VID、NotebookLM、VideoAgent)的效能對比,以及模型元件的消融實驗(-Graph、-Vision)和具體案例分析。
2.1 LongerVideos 基準資料集與評估指標
LongerVideos 共包含 164 個影片,總時長超過 134 小時,涵蓋講座、紀錄片和娛樂三大類別,支援對模型跨影片推理能力的評估。該資料集突破了現有基準資料集中單影片時長普遍不足 1 小時的侷限性,為超長影片理解提供了更加嚴格和全面的測試環境。
我們採用以下兩種評估協議來衡量模型的效能:
  • 勝率評估由 GPT-4o-mini 對不同模型的回答進行排序,並提供解釋性反饋;
  • 定量評估在勝率比較的基礎上,對回答進行評分,以 NaiveRAG 的回答作為標準,並採用 5 分制(1 為最差,5 為最好,NaiveRAG 為 3)進行評估。
我們從五個維度對模型進行分析:
  • 全面性(Comprehensiveness)評估回答的廣度;
  • 賦能性(Empowerment)評估回答如何幫助讀者更好地理解和做出判斷;
  • 可信度(Trustworthiness)評估回答的可靠性,包括細節資訊的充分性和與常識的一致性;
  • 深度(Depth)評估回答是否包含深入分析和推理;
  • 資訊密度(Density)衡量回答的資訊濃縮程度,避免冗餘。

2.2 模型效能對比
2.2.1 與現有RAG方法的對比分析

我們採用勝率評估方法,對 VideoRAG 與現有 RAG 方法(NaiveRAG、GraphRAG、LightRAG)在不同影片型別和評估維度上的表現進行全面對比。
整體效能優勢實驗結果表明,VideoRAG 在所有維度上均優於現有方法,表明其基於知識圖譜與多模態上下文編碼的索引機制能夠有效捕捉並組織影片中的視覺動態特徵和語義資訊。此外,VideoRAG 透過結合基於查詢的文字語義檢索與視覺資訊匹配,顯著提升了跨影片檢索的精確度。
細粒度對比
  • 相較於 NaiveRAGVideoRAG 在資訊全面性和知識整合能力方面展現出更明顯的優勢。這得益於其圖結構索引框架,能夠高效地整合跨影片資訊,並降低影片內容轉換過程中的資訊損失。
  • 相較於 GraphRAG 與 LightRAGVideoRAG 透過多模態上下文融合及 query 感知的檢索策略,在視覺-文字資訊對齊與內容定位方面更具優勢,使得回答更加連貫且富有深度。

2.2.2 與超長影片理解模型的對比分析

為了進一步評估 VideoRAG 在處理超長影片方面的能力,我們與 LLaMA-VID、NotebookLM(閉源)、VideoAgent 等模型進行了定量評估,並設定 NaiveRAG 作為基準(得分 3 分)。
  • 長影片建模能力的提升透過圖增強的多模態索引與檢索機制,VideoRAG 有效處理跨影片知識連線和依賴關係,超越了 LLaMA-VID 等模型在處理長影片時的輸入上下文限制和計算資源限制;
  • 多模態資訊融合的優勢相較於僅依賴單一模態的模型(例如 VideoAgent 主要依賴視覺資訊,NotebookLM 主要依賴語音轉錄文字),VideoRAG 在問答過程中透過 query 導向的細粒度建模,減少了索引構建階段的冗餘資訊,在確保檢索效率的同時,提升了多模態內容的理解能力。

2.3 消融實驗

為了分析 VideoRAG 關鍵設計元件的貢獻,我們進行了兩種模型變體的消融實驗:變體 1(-Graph):去除基於圖的索引與檢索模組;變體 2(-Vision)去除多模態編碼器中的視覺索引與檢索模組。實驗結果表明:
  • 去除知識圖譜模組(-Graph)模型在跨影片資訊整合上的能力顯著下降,說明知識圖譜在刻畫實體關係、捕捉跨影片語義關聯及提升回答連貫性方面起到了關鍵作用;
  • 去除視覺模組(-Vision)生成的回答在細節豐富度方面明顯降低,表明視覺資訊對於影片內容理解至關重要,多模態融合有助於提升答案的完整性與細節表達能力。

2.4 案例分析

為評估 VideoRAG 在處理長影片問答任務中的實際表現,我們對查詢 "The role of graders in reinforcement fine-tuning" 進行案例分析。該查詢來自 OpenAI 2024 年釋出的 12 天影片系列(總時長 3.43 小時),目標資訊位於第 2 天的影片內容中。
我們展示了 VideoRAG 的回答及對應檢索到的影片片段。案例中 VideoRAG 成功檢索到第 2 天影片的相關片段(10:35、10:39、11:10),涵蓋評分員的基本概念、評分系統原理、得分機制以及部分評分示例,基於檢索內容生成了全面詳細且有依據的回答。
VideoRAG 在全面性和技術深度上明顯優於 LightRAG,雖然兩者都描述了評分系統的核心概念,但 LightRAG 在解釋“評分員評分機制”時缺乏關鍵技術細節。
這一案例驗證了 VideoRAG 在長影片問答任務中的優勢,包括精準的跨影片資訊檢索、語義整合能力以及回答的完整性和深度。同時,VideoRAG 能夠提供清晰的參考索引,有效降低模型幻覺的風險,為複雜的長影片理解任務提供了更可靠的解決方案。
總結與未來展望
本文提出了VideoRAG,一個面向超長影片的多模態 RAG 框架。透過知識圖譜索引、多模態上下文編碼查詢感知檢索,VideoRAG 能高效解析、組織和檢索長影片內容。
3.1 核心優勢
  • 低計算資源實現超長影片理解突破上下文與計算限制,單張 RTX 3090(24GB)可解析數百小時影片;
  • 高效多模態 RAG 框架結合動態知識圖譜與多模態特徵編碼,構建結構化影片知識索引,支援跨影片推理,並透過查詢感知的細粒度檢索減少冗餘資訊儲存;
  • 標準化評測基準提出了超長跨影片理解資料集 LongerVideos,推動超長影片理解研究;
  • 優於現有方法在勝率評估和定量評估中均優於現有 RAG、LVMs 以及基於 pipeline 的方法,並在影片問答上超越 Google 商業閉源模型 NotebookLM。
未來工作將進一步最佳化即時流媒體解析多語言支援能力,拓展長影片理解的應用邊界。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章