
近年來,檢索增強生成(RAG)技術蓬勃發展,其透過引入外部文字知識有效減少了大語言模型在進行即時、專業領域文字知識問答時的幻覺問題。由於多模態資料(文字、影像、影片等)存在更加豐富的上下文資訊,如何構建多模態檢索增強生成(MRAG)系統,提升對外部多模態知識的利用,引起了眾多研究者的關注。
華為雲大模型應用演算法團隊系統性地調研了多模態檢索增強生成(MRAG)的最新研究進展和主要技術路徑,形成本領域的綜述文章一篇,引用或介紹了相關論文510餘篇,目前以預印版形式上傳到github和arXiv網站,期望能為各位研究人員和工程人員提供一定的技術參考。

GitHub專案連結:https://github.com/PanguIR/MRAGSurvey
總覽
多模態檢索增強生成(MRAG)透過將文字、影像、影片等多模態資料整合到檢索與生成過程中,顯著提升了多模態大語言模型(MLLM)的效能。傳統檢索增強生成(RAG)系統主要依賴文字資料,透過動態引入外部知識有效減少了幻覺現象並提高了回答準確性,但其單模態特性限制了系統對多模態資料中豐富上下文資訊的利用。MRAG透過擴充套件RAG框架實現多模態檢索與生成,從而能夠提供更全面且符合上下文語境的回答。在MRAG框架中,檢索階段涉及從多模態資料中定位並整合相關知識,生成階段則利用多模態大語言模型(MLLM)融合多種資料型別的資訊進行答案合成。這種方法不僅提升了問答系統的質量,還能透過將回答錨定在多模態事實知識上顯著降低幻覺發生率。最新研究表明,在需要同時理解視覺與文字資訊的關鍵場景中,MRAG的表現顯著優於傳統單模態RAG系統。
該綜述系統梳理了MRAG研究的現狀,聚焦四大核心維度:關鍵技術元件、資料集、評估方法與指標,以及現有侷限性。透過深入解析這些方面,綜述旨在為MRAG系統的構建與最佳化提供全景式洞察。此外,綜述還著重探討了當前挑戰並提出了未來研究方向,以推動這一前沿領域的持續探索。綜述的研究工作揭示了MRAG在多模態資訊檢索與生成領域的革命性潛力,為其發展與應用提供了前瞻性視角。
一、MRAG發展階段縱覽(從1.0到3.0)
多模態檢索增強生成(MRAG)是傳統檢索增強生成(RAG)框架的重要演進,在繼承其基礎架構的同時,擴充套件了處理多模態資料的能力。傳統RAG僅能處理純文字,而MRAG整合了影像、音訊、影片與文字等多模態資料,從而能夠應對現實世界中資訊跨模態的複雜多樣化應用場景。
MRAG發展初期,研究者將多模態資料轉化為統一的文字表徵。這種方法透過複用基於文字的檢索與生成機制,實現了從RAG到MRAG的無縫過渡。儘管該策略簡化了多模態資料整合流程並優化了端到端使用者體驗,但也存在顯著缺陷:例如轉換過程會導致影像中的視覺細節、音訊中的聲調特徵等模態特異性資訊丟失,制約了系統充分挖掘多模態輸入潛力的能力。後續研究聚焦於突破這些限制,開發出更先進的MRAG系統最佳化方法。
這些突破性進展顯著提升了MRAG的效能與泛用性,使其在多項多模態任務中達到業界最優水平。本文將MRAG的演進歷程劃分為三個鮮明發展階段:
MRAG1.0
MRAG1.0的架構(通常被稱為"偽MRAG")與傳統RAG高度相似,包含三個核心模組:文件解析與索引、檢索、生成。雖然整體流程基本保持一致,但其核心差異體現在文件解析階段。在該階段,系統會採用專用模型(例如OCR模型)將多模態資料轉化為特定模態的文字描述(caption),這些描述文字將與常規文字資料共同儲存,以供後續環節呼叫。

MRAG2.0
MRAG2.0的架構透過文件解析與索引技術保留多模態資料,同時引入多模態檢索和多模態大語言模型(MLLM)進行答案生成,真正邁入了多模態時代。

MRAG3.0
MRAG3.0架構在文件解析與索引階段整合文件截圖以最小化資訊損失。在輸入階段引入多模態搜尋規劃模組,統一視覺問答(VQA)與檢索增強生成(RAG)任務,同時提升使用者查詢精準度。輸出階段透過多模態資料增強模組,將純文字轉化為多模態形式生成增強答案,從而實現生成資訊的富媒體化升級。

二、MRAG的技術模組元件
MRAG系統包含五大關鍵技術元件:多模態文件解析與索引、多模態搜尋規劃、多模態檢索、多模態生成。
多模態文件解析與索引(Multimodal Document Parsing and Indexing)
多模態文件解析與索引旨在為MRAG系統透過解析外部知識庫中的多模態文件,提升生成答案的質量,主要分為抽取式與表示式兩類:
(1)抽取式方法:
a)純文字抽取:早期工具(如PyMuPDF)直接提取文字,但忽略多模態資訊。OCR技術透過文字檢測、識別與解析三階段提升精度,但存在誤差累積和計算資源消耗問題。
b)多模態抽取:保留原始模態資料,但需針對不同模態設計專用模型(如TableNet解析表格)。近期MLLMs趨向統一框架處理多模態資料。
(2)表示式方法:直接以文件截圖或子影像作為輸入,利用MLLMs編碼全域性與區域性資訊。
多模態搜尋規劃(Multimodal Search Planning)
多模態搜尋規劃旨在透過有效檢索和整合多模態資訊以應對MRAG系統的複雜查詢。其方法主要分為兩類:固定規劃(Fixed Planning)和自適應規劃(Adaptive Planning)。
(1)固定規劃(Fixed Planning)
早期MRAG系統採用固定的處理流程,缺乏對不同查詢需求的動態適應能力,主要包括兩種正規化:
a)單模態檢索規劃
文字中心化(Text-centric):將多模態查詢(如圖文混合)轉換為純文字形式進行檢索。但這種方法可能導致語義偏差,無法精準捕捉使用者意圖。
影像中心化(Image-centric):無論查詢特性如何,均優先執行影像檢索。然而,研究表明強制影像檢索可能引入無關視覺噪聲,尤其在文字資訊已足夠時反而降低效能。
b)多模態檢索規劃
近期研究嘗試結合文字和視覺檢索,但仍採用固定流程。例如,強制對所有含影像的查詢執行Google Lens搜尋,再重新生成查詢。這種剛性設計可能導致冗餘計算,且無法根據查詢需求靈活調整。
侷限性:
a)無法適應多樣化查詢需求,檢索策略與資訊需求不匹配;
b)冗餘檢索增加計算開銷,並可能引入噪聲;
c)部分查詢可能無需檢索,但固定流程仍執行不必要的操作。
(2)自適應規劃(Adaptive Planning)
針對固定規劃的不足,自適應方法透過動態調整策略最佳化檢索過程。
優勢:
a)根據查詢上下文和中間結果靈活調整策略;
b)減少冗餘檢索,提升效率;
c)更精準匹配使用者意圖,避免噪聲干擾。
多模態檢索(Multimodal Retrieval)
MRAG系統中多模態檢索包含三個核心元件:檢索器、重排序器和最佳化器。這些元件各司其職又相互關聯,共同提升大語言模型資訊檢索的質量與相關性。

多模態生成(Multimodal Generation)
多模態大模型(MLLMs)透過整合文字、影像、音訊和影片等多種資料型別,實現了跨模態內容的生成。根據輸入和輸出的生成視角,相關研究可分為模態輸入和模態輸出兩類。
(1)模態輸入:研究重點從單一文字模態,擴充套件到簡單模態影像擴充套件到複雜模態(如影片),再擴充套件到任意模態的統一處理。
(2)模態輸出:從單一文字答案到多模態輸出(如文字+影像/影片)以及輸出增強(檢索配圖、位置識別等)演進。

三、MRAG資料集基準
為評估MRAG系統在現實世界多模態理解和知識問答任務中的綜合能力,綜述系統整合了現有資料集以全面測評MRAG流程。這些資料集分為兩大類:
(1)檢索與生成聯合元件:要求系統檢索外部知識並生成精準回答,評估檢索與生成的協同能力。
(2)純生成任務:聚焦模型在不依賴外部檢索的情況下產出上下文準確輸出的能力。該分類體系能細緻評估MRAG系統在不同場景下的優勢與侷限性。



總結
本綜述對多模態檢索增強生成(MRAG)這一新興領域進行了全面探討,揭示了其透過整合文字、影像、影片等多模態資料來增強多模態大語言模型(MLLM)能力的巨大潛力。與傳統基於文字的RAG系統不同,MRAG致力於解決跨模態資訊檢索與生成的挑戰,從而提升響應內容的準確性與相關性,同時減少幻覺現象。本綜述從四大核心視角系統性地解析了MRAG:關鍵技術元件、資料集、評估方法與指標以及現存侷限性。研究不僅指出了當前面臨的挑戰——例如多模態知識的有效整合與生成內容的可靠性保障,同時提出了未來研究方向。透過提供結構化的領域概覽與前瞻性見解,本綜述旨在為研究者推動MRAG發展提供指引,最終促進構建更強大、更通用的多模態檢索增強生成系統。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
