SIGIR2025|MRAMG-Bench:北大華為雲釋出“多模態檢索增強——多模態生成”資料集

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
檢索增強生成(RAG)為大語言模型(LLMs)提供高質量的外部知識庫和高效的檢索器,作為提升語言模型事實準確性的RAG方法大多聚焦於檢索 + 文字生成的模式,對影像等非文字模態的輸出能力支援有限。為了解決這一領域空缺,北京大學與華為雲的聯合研究團隊上提出了一個全新的評測基準——MRAMG-Bench,旨在推動RAG邁向 Multimodal Retrieval-Augmented Multimodal GenerationMRAMG)。MRAMG-Bench包含六個精心設計的英文資料集,涵蓋4,346篇文件、14,190張影像和4,800個QA對,資料來自網頁、學術和生活等三個領域,跨越七個不同的資料來源,引入分級難度和圖片順序推理,能夠有效模擬使用者在現實互動場景中面臨的複雜認知挑戰。該研究成果已被 SIGIR 2025 錄用。

單位 | 北大,華為雲
論文標題 | MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation
論文地址 | https://arxiv.org/pdf/2502.04176
資料地址 | https://huggingface.co/MRAMG
Github 地址https://github.com/MRAMG-Bench/MRAMG

研究背景與動機

傳統的RAG方法主要關注檢索文字知識,限制了它們利用多模態資訊(如影像和表格)的能力。隨著多模態大模型(MLLMs)的發展,多模態檢索增強生成(MRAG)應運而生,其在傳統RAG的技術基礎上,透過進一步結合文字和其他模態資訊,有效提升了生成的文本回答的質量。然而,儘管檢索過程已經結合了多模態資訊,現有的MRAG方法主要關注多模態輸入和基於文字的輸出。實際上,LLM部署中的一種新興趨勢是生成多模態輸出,即同時生成文字和影像。使用者在許多場景中更傾向於看到影像而非僅僅是文字,尤其是在一些關鍵情境中,如圖1所示。

圖1: MRAMG任務的示意圖(上方),且展示瞭如何透過結合文字和影像來增強清晰度和理解力的情境(下方)。
圖文結合的答案在傳達資訊時具有重要優勢。影像能夠直接展示資訊,增強說服力,比如在描述貓的外觀時,照片比文字更具直觀性。而圖文結合則透過融合文字與影像,提升了理解效果,尤其在步驟式說明中,圖文並茂能夠幫助更好地理解過程。除此之外,影像還可作為答案的補充元素,能夠進一步豐富資訊,例如在描述旅遊景點時,結合文字和影像能有效增強答案的表現力,使資訊更加生動和有吸引力。
為了解決MRAG中缺乏圖文輸出這一關鍵問題,我們首先形式化地提出了多模態檢索增強多模態生成(MRAMG)任務,並且注意到對於這一關鍵任務,缺乏合適的RAG資料集來評估該任務上的表現,如圖2所示。為此,我們構造了MRAMG-Bench,專門用於全面評估MRAMG任務。

 圖2 MRAMG-Bench與現有的的RAG 資料集的比較

資料構造

MRAMG-Bench的構建過程可以分為三個階段:(1)資料選擇與預處理,(2)問答生成與最佳化,(3)資料質量檢查。該過程的概述如圖 3 所示。

圖3:MRAMG-Bench 的構建流程
第一階段——資料選擇與預處理:
網頁資料(Web Data):我們使用了來自維基百科頁面的資料,具體包括 Wit、WikiWeb2M 和 WebQA 資料集。這些資料集包含文字和影像的豐富整合,並被劃分為多個難度級別。Web 資料集中的內容涉及各種主題,幷包含文字和與其相關的影像(如圖片、圖表等。這些資料集被定義為低難度類別,旨在測試模型的基本多模態處理能力。
學術資料(Academic Data):
我們從 arXiv 資料庫中收集了 2023 至 2024 年間釋出的 150 篇 LaTeX 原始檔及其對應的 PDF 文件。這些資料集被歸類為中等難度,命名為 MRAMG-Arxiv,主要用於測試生成模型如何處理學術類多模態資訊,特別是圖文結合的內容。
生活資料(Lifestyle Data):
生活資料集包含來自 RecipeQA、ManualsLib 和 Technical 資料集 的內容,重點是實際應用場景,特別是食譜和操作手冊。這些資料集通常含有較多影像,特別適用於測試模型在複雜環境下的表現。該型別資料集被定義為高難度,包含多種影像型別(單影像、無影像、多影像),以及複雜的影像插入任務。透過這些資料集,模型需處理多模態資料和圖文對齊的挑戰。
第二階段——問答生成與最佳化:
在此階段,我們利用GPT-4o和人工註釋的方式生成和最佳化問答對。為了確保資料集的高質量,每個問答對都經過仔細篩選,確保它們能夠有效測試MRAMG任務中的各類推理能力。
第三階段——資料質量檢查:
我們採用了多階段質量檢查流程,首先利用GPT-4o對生成的資料進行初步篩選和驗證。然後,專家和人工註釋員會對資料進行進一步的核查,以確保資料集的準確性和一致性。這些檢查包括文字和影像的匹配度,確保每個問答對的文字內容和圖片內容相輔相成,且影像的插入位置與問題的內容緊密相關。

資料集構成

MRAMG-Bench 包含六個精心策劃的英文資料集,涵蓋來自網頁、學術和生活三個領域的內容。資料集總量包括:4,346篇文件、14,190張圖片和4,800個QA對,旨在為多模態檢索增強生成任務提供一個多樣化和挑戰性的資料基礎。資料集不僅包括常規的簡單問答對,還設計了難度分級和圖片順序選擇的推理任務,能有效測試模型在處理複雜場景時的推理能力。

圖4: MRAMG-Bench的資料統計情況

多模態檢索增強—多模態生成框架

該框架包括兩個階段:(1)檢索相關多模態文件。
(2) 基於檢索到的資訊生成多模態答案,使用基礎生成模型。在第二階段,我們提出了三種不同的答案生成策略:
(a)基於語言大模型的方法(LLM-based):使用LLM直接生成多模態答案。由於LLM無法直接處理影像,因此我們利用影像在文字上下文中的描述資訊,以及影像本身的標題,作為文字的替代輸入提供給語言模型。在生成的答案中,影像將以佔位符的形式表示。
(b)基於多模態大模型的方法(MLLM-based ):使用MLLM直接生成多模態答案。該方法接受影像輸入,選擇適當的影像並將其與文字一起輸出,輸出中的影像同樣表示為佔位符。
(c)基於規則的方法(Rule-based):首先透過生成模型獲得純文字答案,並將其劃分為句子。然後構建“句子——影像”二部圖,利用二部圖匹配演算法將適當的影像插入到文字答案中,從而生成多模態答案。

實驗結果

5:MRAMG-Bench的綜合性能評估結果。
我們對11種流行的生成模型在MRAMG-Bench上的表現進行了全面評估,其結果如圖4所示。實驗結果表明,諸如GPT-4o、Gemini、Claude和Deepseek-V3等先進語言模型在所有領域資料和方法中始終優於小型開源模型。這些小型模型在不同方法和資料集領域中普遍表現不佳。相比之下,大型開源模型顯著縮小了與閉源模型的效能差距,尤其在簡單的資料集(如網頁資料)上,效能接近閉源模型。然而,在更具挑戰性的資料集上,開源模型與閉源模型的差距變得更加明顯,暴露了它們在處理複雜MRAMG任務時的侷限性。
在不同多模態答案生成方法的比較中,出現了一個整體效能趨勢:
LLM-based > MLLM-based > Rule-based。
LLM-Based 方法: 透過將影像的上下文資訊整合到生成過程中,該方法能夠實現自然且準確的影像插入,強調了上下文在確保插入準確性方面的關鍵作用。
MLLM-Based 方法: 在較簡單的資料集(如網頁資料)上有效,但在其他困難資料集上表現下降,顯示多模態模型在處理複雜圖文的侷限性。
Rule-Based 方法: 儘管這些方法在較簡單的資料集上的效能明顯低於基於模型的方法,但隨著資料集複雜度的增加,效能差距逐漸縮小。對於生活領域,基於規則的方法甚至超越了某些基於模型的方法。
總體而言,儘管基於規則方法在資源受限或對穩定性要求較高的場景中,提供了一個可行且高效的替代方案。同時,基於LLM的方法通常表現更優,展示了現代大型模型在上下文推理方面的強大能力。

總結

隨著多模態答案需求的增加,MRAMG已成為與實際需求緊密對接的關鍵任務。為填補該任務評估資源的空白,我們推出了 MRAMG-Bench 基準資料集,包含4,800個涵蓋不同領域和難度的問答對,並提出了結合統計與大語言模型指標的全面評估策略。此外,我們推出了通用MRAMG框架,支援生成交織的文字-影像響應。透過對11種主流生成模型的評估,我們發現它們在處理複雜資料集和影像順序選擇上存在顯著侷限性,凸顯了深入研究MRAMG任務的必要性。該基準為未來的MRAMG方法設計與評估提供了重要基礎,並已在Hugging Face平臺上開源。我們期待更多研究共同推動多模態RAG技術的發展,歡迎大家積極使用並貢獻!

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章