單張3090讓大模型“看”《黑悟空》,港大百度釋出VideoRAG

VideoRAG團隊 投稿

量子位 | 公眾號 QbitAI
處理數百小時超長影片,單張3090就夠了?!
這是來自香港大學黃超教授實驗室釋出的最新研究成果——VideoRAG
具體而言,VideoRAG可以在單張RTX 3090 GPU (24GB)上高效處理長達數百小時的超長影片內容。這意味著只需要一張普通的顯示卡,就能一口氣完整觀看一部《黑悟空》這樣的長影片。
此外,VideoRAG還擁有創新的多模態檢索機制
它採用了動態知識圖譜構建和多模態特徵編碼的技術,將影片內容濃縮為基於多模態上下文的結構化知識表示。這不僅支援複雜的跨影片推理,還能夠精準地進行多模態內容檢索。
而且,為了推動該領域的進一步發展,研究團隊還發布了LongerVideos基準資料集
該資料集涵蓋了160多個長達數小時的影片,為未來的研究提供了寶貴的支援。
更多具體內容如下。

突破傳統文字RAG跨模態侷限

儘管RAG (Retrieval-Augmented Generation) 技術透過引入外部知識顯著提升了大語言模型的效能,但其應用場景仍侷限於文字領域。
影片作為一種複雜的多模態資訊載體,涵蓋視覺、語音和文字等異構特徵,其理解與處理面臨三大關鍵挑戰:
  • 多模態知識融合:傳統文字RAG方法難以有效捕捉影片中的跨模態互動,特別是在建模視覺動態特徵(如目標運動軌跡)與語音敘述之間的時序關聯方面存在侷限;
  • 長序列依賴建模:現有方法往往透過影片截斷或關鍵幀提取來簡化處理,這不可避免地導致動作連續性損失,造成上下文割裂,影響跨影片知識整合的效果,難以保持長時影片的語義連貫性;
  • 規模化檢索效率:在大規模影片庫場景下,現有方法在檢索速度與結果質量間存在明顯權衡,且多依賴單一模態(如語音轉錄文字)進行檢索,未能充分利用視覺語義資訊。
為突破上述限制,團隊提出創新性RAG框架VideoRAG,透過雙通道架構實現以下技術創新:
1、圖譜驅動的跨模態知識關聯:構建動態演化的語義網路,將影片片段對映為結構化知識節點,有效捕捉並建模跨影片語義關聯;
2、有效的多模態上下文編碼:建立視覺-文字聯合表徵空間,保留細粒度時空特徵表示,顯著增強影片內容理解能力;
3、適應混合檢索方法:融合知識圖譜推理與視覺特徵匹配,突破計算資源限制,實現低視訊記憶體消耗下的百小時級影片精準檢索。
基於首個超長跨影片理解基準資料集LongerVideos的全方位評估表明,VideoRAG在超長影片內容理解任務上展現出卓越效能,為教育知識庫構建、影視內容分析等實際應用場景提供了極具潛力的解決方案。

VideoRAG框架設計

VideoRAG創新性地融合多模態知識索引與知識驅動檢索機制,實現對影片中視覺、音訊及語義資訊的高效捕捉、系統化組織與精準檢索。
該框架突破了傳統影片長度限制,支援對理論上無限時長的影片輸入進行智慧分析,為超長影片理解領域開創了新正規化。

雙通道多模態影片知識索引:突破傳統正規化

影片作為複雜的多模態資訊載體,融合了視覺、音訊及文字等多維度資訊,其處理難度遠超傳統文字。
現有的文字RAG方法在處理影片資料時面臨三大根本性挑戰:視覺動態特徵提取、時序依賴性建模以及跨模態語義互動。針對這些挑戰,VideoRAG創新性地提出雙通道架構,實現了對長影片的高效組織與智慧索引,同時保持了多模態內容的語義完整性:
  • 基於知識圖譜的多模態語義對齊
視覺-文字對映在視覺語義建模環節,本框架採用精細化的影片分段策略,將影片流按時序均勻劃分為連續片段。為平衡計算效率與資訊完整性,每個片段透過智慧取樣演算法提取不超過10個代表性關鍵幀。
隨後,藉助先進的視覺語言模型(VLM),自動生成高質量的自然語言描述,實現對影片畫面中物體、動作語義及場景動態等多維度特徵的系統性捕捉。
  • 音訊語義轉換與融合
在音訊處理模組,系統部署了高效能的語音識別(ASR)技術,精確提取影片中的對話內容與旁白資訊。
透過創新的語義融合機制,將音訊文字資訊與視覺描述進行深度整合,構建統一的跨模態語義表示體系,有效保留了視聽資訊的語義完整性。
  • 跨影片知識網路構建
基於LLMs識別實體關係,動態合併多影片語義節點,形成全域性知識網路,確保跨影片內容的一致性與關聯性。
  • 多模態上下文編碼
為實現跨影片的語義關聯,框架基於大語言模型(LLMs)設計了動態知識圖譜構建機制。
系統自動識別並提取影片內容中的核心實體與關係資訊,透過智慧合併演算法動態融合多個影片的語義節點,最終形成結構化的全域性知識網路。
這一創新設計確保了跨影片內容的語義一致性,作為後續內容檢索的基礎。

混合檢索正規化:多維度影片理解

VideoRAG創新性地融合文字語義與視覺內容的雙重匹配機制,透過深度語義理解與多模態資訊融合,實現了超高精度的影片片段檢索。該框架包含三大核心技術模組:
1)知識驅動的語義匹配模組: 基於知識圖譜的高階語義理解機制,系統執行多層次的智慧檢索流程。
首先進行查詢意圖重構,隨後透過實體關係網路進行精準匹配,繼而完成相關文字塊的智慧篩選,最終定位目標影片片段。這種層級化的檢索策略確保了語義理解的深度與準確性。
2)跨模態視覺內容匹配引擎: 系統採用先進的語義轉換技術,將使用者查詢智慧轉化為標準化的場景描述。
透過專用多模態編碼器,即時生成影片片段的高維特徵向量表示,並基於創新的相似度計算演算法,實現精確的跨模態內容匹配。這一設計顯著提升了視覺語義檢索的準確性。
3)基於大語言模型的智慧過濾機制: 框架整合了先進的大語言模型(LLMs)技術,對檢索結果進行多維度的相關性評估與智慧篩選。
透過深度語義理解,有效過濾低相關性內容與噪聲資訊,確保系統輸出高質量、準確度的回答。這種智慧過濾機制提升了檢索結果的可靠性。

響應生成:雙階段深度理解框架

在成功檢索到相關影片片段後,VideoRAG透過創新性的雙階段內容理解與生成機制,實現高質量的智慧問答:
基於大語言模型的語義理解與關鍵詞提取。系統首先對使用者查詢進行深度語義分析,智慧提取核心關鍵詞與意圖特徵。
這些高價值的語義資訊隨後與精選的影片關鍵幀一起,輸入到先進的視覺語言模型(VLM)中,生成富含視覺細節的場景描述。這種融合式的處理方法顯著提升了系統對視覺內容的理解深度。
多模態知識整合與答案生成。在第二階段,系統呼叫先進的大語言模型(如GPT4或DeepSeek),將檢索到的多模態資訊與使用者查詢進行深度融合。
透過專門最佳化的提示工程,模型能夠綜合利用文字語義、視覺特徵和上下文資訊,生成既包含豐富視覺細節,又具備深層語義理解的高質量回答。這一設計確保了系統響應的準確性、完整性和連貫性。

實驗驗證

團隊在業界首個超長跨影片理解基準資料集LongerVideos上,對VideoRAG框架進行了系統性的效能評估與實驗驗證。評估工作涵蓋三大關鍵維度:
(1) 與主流RAG框架的對比實驗
透過與當前主流的檢索增強生成系統(包括NaiveRAG、GraphRAG和LightRAG)進行全面對比,深入驗證了VideoRAG在影片理解與資訊檢索方面的技術優勢。
(2) 與當前視覺模型的效能對標
針對支援超長影片輸入的大規模視覺模型(LLaMA-VID、NotebookLM、VideoAgent),進行了詳盡的效能對比。
(3) 深入的模型元件分析
透過系統性的消融實驗(包括移除知識圖譜元件-Graph、視覺理解模組-Vision),結合典型案例分析,深入考察了各核心元件對系統整體效能的貢獻。

LongerVideos超長影片理解基準測試資料

LongerVideos是首個專注於超長影片理解的綜合性基準資料集,收錄了總計164個高質量影片,累計時長突破134小時
該資料集經過精心策劃,系統性地涵蓋了學術講座、專業紀錄片和綜合娛樂節目三大核心應用場景,既確保了內容的多樣性與代表性,也為跨影片推理能力的評估提供了堅實基礎。
相較於現有影片問答基準資料集普遍存在的侷限性(如單影片時長不足1小時、場景單一等),LongerVideos實現了顯著的技術突破。
透過延長單個影片的時間跨度,並支援複雜的跨影片語義理解與推理,該資料集為超長影片理解技術的發展提供了更加全面、科學的評估基準。
這些創新特性不僅彌補了現有評估體系的不足,更為相關技術的進步提供了重要的測試資料集。
此外,團隊設計了一套的雙層評估框架,透過定性與定量相結合的方式,系統性地驗證VideoRAG的效能表現:
  • 勝率評估:採用基於大語言模型的智慧評估方案,透過部署GPT-4-mini作為專業評判器,對比分析不同模型生成的答案質量。
  • 定量評估:在勝率評估的基礎上,建立了嚴格的定量評估體系。透過預設標準答案並採用精細的5分制評分標準(1分代表最低質量,5分代表最優表現),實現了評估結果的可量化與可比較性。
評估框架涵蓋五個核心維度:
1、內容全面性(Comprehensiveness):衡量答案對相關資訊的覆蓋範圍與完整度;
2、使用者賦能性(Empowerment):評估答案在提升使用者理解力與決策能力方面的效果;
3、回答可信度(Trustworthiness):考察答案的準確性、細節充實度及與常識的協調性;
4、分析深度(Depth):驗證答案在解析問題時的深入程度與洞察力;
5、資訊密度(Density):評估答案在保持精練性的同時傳遞有效資訊的能力。

RAG綜合性能評估:VideoRAG的技術優勢

實驗結果顯示,VideoRAG在所有評估維度和影片型別中均展現出顯著優勢,全面超越了包括 NaiveRAG、GraphRAG和LightRAG在內的現有RAG方法。
這一卓越表現主要源於兩大核心技術創新:首創的知識圖譜索引與多模態上下文編碼融合機制,精準捕獲影片中的動態視覺特徵與深層語義資訊;以及創新的混合多模態檢索正規化,透過有機結合文字語義匹配與視覺內容嵌入檢索,顯著提升了跨影片檢索的精確度。
與NaiveRAG相比,本系統在內容全面性(Comprehensiveness)和使用者賦能性(Empowerment)方面表現卓越,這得益於其先進的知識索引架構和強大的跨影片資訊整合能力。
實驗證明,VideoRAG的創新架構能夠更有效地處理和整合跨影片的複雜資訊,為使用者提供更加全面和深入的答案。
在與GraphRAG和LightRAG的對比中,VideoRAG在視覺-文字資訊對齊和查詢感知檢索等關鍵技術指標上均實現突破,使生成的答案在上下文連貫性和理解深度方面獲得顯著提升,成功引領知識驅動型影片問答技術的新發展。
這些技術優勢充分證明了VideoRAG在處理複雜影片理解任務時的卓越能力。

與長影片理解模型的效能對比

VideoRAG在所有維度和影片型別上效能均顯著超越LLaMA-VID、NotebookLM和VideoAgent等主流長影片模型。這種全方位的效能優勢,充分體現了本系統在處理超長影片內容時的技術的優勢。
透過創新性地引入圖增強的多模態索引和檢索機制,VideoRAG成功突破了傳統LVMs在處理長影片時面臨的計算瓶頸。這一機制不僅能高效處理跨影片的知識連線,更可以準確捕捉複雜的資訊依賴關係,在效能上顯著超越了LLaMA-VID等現有模型。
相比僅依賴單一模態的基線模型(如專注於視覺的VideoAgent和側重語音轉錄的NotebookLM),VideoRAG展現出優異的多模態資訊融合能力。
系統透過精細的跨模態對齊機制,實現了視覺、音訊和文字資訊的深度整合,為超長影片內容理解提供了更全面、更深入的分析能力。

消融實驗分析

為系統評估VideoRAG框架中多模態索引和檢索機制的有效性,團隊設計了兩組對照實驗。
實驗透過移除核心功能模組,構建了兩個關鍵變體:變體1(-Graph)移除了基於圖的索引-檢索管道,變體2(-Vision)則去除了多模態編碼器中的視覺索引和檢索元件。
這種針對性的模組消融設計,使團隊能夠精確評估各核心元件的貢獻度。
  • 圖索引機制的作用。變體1(-Graph)的實驗結果顯示,移除圖形模組後系統性能出現顯著下降。
這一現象有力證實了基於圖的索引-檢索機制在處理複雜影片內容時的關鍵價值。該機制不僅能有效捕捉跨影片間的深層關聯,更在構建影片知識依賴網路方面發揮著不可替代的作用。
  • 視覺處理能力的作用。變體2(-Vision)的實驗資料同樣呈現出效能的大幅下滑,充分說明了視覺資訊處理對於影片理解的重要性。
這一結果強調了多模態上下文融合在提升系統整體效能方面的關鍵作用,突顯了視覺模組作為VideoRAG框架核心元件的重要地位。

影片理解的案例分析

1、查詢設定與資料來源
本案例選取了極具代表性的查詢:”The role of graders in reinforcement fine-tuning”,基於OpenAI 2024年釋出的12天系列影片(總時長3.43小時)進行分析
目標資訊主要集中在第2天的內容中,這種複雜的跨影片查詢場景為系統性能評估提供了理想的測試環境。
2、VideoRAG的檢索表現
實驗結果展示了VideoRAG卓越的資訊檢索和整合能力。
系統準確定位並提取了第2天影片中的核心內容,包括評分員的基本定義、評分系統的運作機制以及具體的評分示例。透過多維度的資訊聚合,VideoRAG成功構建了一個全面、準確且具有充分證據支援的專業回答。
3、系統性能對比分析
與LightRAG的對比結果凸顯了VideoRAG在處理深度技術內容方面的顯著優勢。
儘管兩個系統都能夠提供評分系統的基礎概念解釋,但VideoRAG在評分員評分機制的技術細節闡述上明顯更勝一籌。
相比LightRAG給出的表層描述,VideoRAG提供了更深入、更專業的技術解析,體現了系統在處理複雜專業內容時的獨特優勢。
本案例研究透過案例分析,再次驗證了VideoRAG在三個核心技術維度的卓越效能:
1、知識圖譜構建能力
系統展現出優異的知識圖譜構建能力,不僅能精確捕獲影片內容間的複雜關聯關係,更能構建起完整的知識依賴網路,為深度理解提供了堅實基礎。
2、多模態檢索精度
在多模態資訊檢索方面,VideoRAG實現了高度精確的檢索效果,能夠準確定位和提取跨模態的關鍵資訊,充分體現了系統在處理複雜資訊檢索任務時的技術優勢。
3、跨影片資訊整合
系統在處理和整合來自多個超長影片的關鍵資訊時表現出色,透過先進的資訊融合機制,實現了複雜影片內容的高效處理和準確理解。

VideoRAG: 技術創新與未來展望

  • 突破性技術架構
VideoRAG透過開創性的雙通道索引架構,成功實現了跨影片知識的深度關聯與細粒度視覺特徵的精確保留。這一創新設計不僅突破了傳統影片理解的侷限,更為複雜場景下的知識圖譜構建開闢了新途徑。
  • 先進檢索機制
系統創新性地提出混合檢索正規化,透過有機融合語義匹配與內容嵌入技術,顯著提升了多模態資訊的對齊精度。這種先進的檢索機制為處理複雜的跨模態影片內容提供了更可靠的技術支援。
  • 標準化評估體系
透過建立LongerVideos基準,VideoRAG為長影片理解研究提供了一個規範化的評估平臺。這一基準的建立不僅推動了領域研究的標準化發展,也為後續技術突破提供了可靠的驗證基礎。
  • 未來發展方向
展望未來,VideoRAG將重點拓展兩大關鍵領域:即時影片流處理能力的增強,以及多語言支援體系的構建。這些創新探索將進一步擴充套件影片知識的應用邊界,釋放更大的影片理解技術潛力。

程式碼開源地址:

https://github.com/HKUDS/VideoRAG

論文:

https://arxiv.org/abs/2502.01549

實驗室主頁(香港大學資料科學實驗室):

https://github.com/HKUDS

—  —
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章