
在數字化浪潮席捲而來的今天,視覺文件已然成為資訊傳遞的重要載體。從學術報告中的複雜圖表,到商業計劃書裡的精妙佈局,再到醫療檔案中的多維資料展示,這些富含視覺元素的文件,不僅僅是簡單的文字堆砌,而是融合了多種視覺元素。它們在教育、金融、法律等多個領域發揮著重要的作用,幫助我們更直觀、高效地理解和傳遞資訊。
然而,如何從海量的視覺豐富文件中高效檢索並生成準確的答案,一直是自然語言處理領域的重大挑戰,同時也具有極高的應用價值。
來自阿里巴巴通義實驗室、中國科學技術大學和上海交通大學的最新研究成果——ViDoRAG (Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents),透過創新的多智慧體框架和動態迭代推理機制,為視覺豐富文件檢索增強生成(RAG)提供有效解決方案。

論文地址:
https://arxiv.org/abs/2502.18017
Github地址:
https://github.com/Alibaba-NLP/ViDoRAG
資料集地址:
https://huggingface.co/datasets/autumncc/ViDoSeek
為了解決現有 RAG 方法在處理視覺豐富文件時面臨的挑戰,尤其是檢索階段無法有效整合文字和視覺特徵,以及生成階段推理能力不足的問題,我們提出了 ViDoRAG 框架。
ViDoRAG 透過引入基於高斯混合模型(GMM)的多模態混合檢索策略,以及多智慧體迭代推理機制,顯著提升了模型在視覺豐富文件上的檢索和推理能力,為相關領域的研究提供了新的思路和方法。
與此同時,我們注意到現有資料集僅聚焦於單張圖片或單個文件的問答任務,缺乏在大規模文件集合情景下針對檢索和複雜推理能力的系統性評估。
為彌補這一空白,我們提出了 ViDoSeek 資料集。該資料集專為視覺豐富文件的檢索-推理-回答任務設計,旨在為大規模文件集合的檢索和生成能力評估提供一個更具挑戰性和實用性的基準。
ViDoSeek 的推出,不僅為 ViDoRAG 框架的驗證和最佳化提供了有力支援,更為未來相關研究提供了一個高質量的基準,推動視覺文件問答領域的進一步發展。

ViDoSeek Benchmark:專注於大規模資料文件集合下的檢索和複雜推理
為精準評測 RAG 在視覺文件處理上的效能,我們精心打造了 ViDoSeek 資料集。這並非傳統意義上簡單的影像問答或文件問答集合,而是一個專為大規模文件檢索、複雜推理與精準問答設計的綜合性評估。
在 ViDoSeek 中,每個查詢都指向大型文件集合中的唯一答案,並配有明確的參考頁面標註,涵蓋了文字、圖表、表格、佈局等多種內容型別,完美模擬真實世界中多樣化的文件場景。

ViDoSeek 匯聚了約 1200 個精心設計的問題,覆蓋了文字、圖表、表格和二維佈局等多種內容型別。每一個問題都能在大規模文件集合中找到唯一的答案,並且配有明確的參考頁面標註。這使得 ViDoSeek 不僅能夠評估模型的檢索能力,還能全面考察其在大型文件集合情境下的推理和理解能力。
ViDoSeek 對問題型別進行了細緻劃分,單跳推理問題要求模型從單一資訊源中直接獲取答案,而多跳推理問題則需要模型在多個文件或資訊片段之間建立聯絡,進行深層次的推理和整合。這種複雜性要求整個系統不僅要具備精準的檢索能力,還要能夠有效地整合和分析來自不同文件的資訊。
這種設計不僅增加了資料集的挑戰性,也為模型的推理能力提供了全方位的試煉場,從而對 RAG 系統的綜合能力提出更高要求。這種對複雜文件結構和內容的深度把控,正是 ViDoSeek 的獨特魅力所在,它為 RAG 系統提供了一個貼近實戰的演練場,讓模型在 “真刀真槍” 的考驗中錘鍊能力。

ViDoRAG:多智慧體迭代推理,開啟類人思考新正規化
我們進一步提出了 ViDoRAG,一個針對視覺文件複雜推理的多智慧體 RAG 框架。相比於傳統的 RAG 框架,ViDoRAG 的核心在於其多模態混合檢索策略和多智慧體生成流程。這些特性使得 ViDoRAG 在處理視覺文件時如魚得水,能夠更加精準地檢索、理解和生成答案。

2.1 多模態混合檢索:打破視覺與文字的隔閡
在處理視覺文件時,傳統的 RAG 方法往往面臨著一個棘手的問題:如何有效地整合視覺和文字資訊。純視覺檢索方法雖然能夠捕捉到影像中的關鍵資訊,但在理解文字內容時卻顯得力不從心;而純文字檢索方法則在處理視覺資訊時存在天然的侷限性。這種割裂的檢索方式,不僅導致了檢索結果的不準確,也限制了模型對文件的全面理解。
為了解決這一問題,ViDoRAG 提出了多模態混合檢索策略。這一策略的核心在於將視覺和文字特徵進行有機結合,透過高斯混合模型(GMM)動態調整檢索結果的分佈。
具體來說,ViDoRAG 首先分別透過視覺和文字管道進行資訊檢索,然後利用 GMM 模型對檢索結果進行融合。GMM 模型能夠根據查詢與文件集合之間的相似度分佈,自動確定每個模態的最優檢索數量。這種方法不僅提高了檢索的準確性,還減少了不必要的計算,使得模型能夠更高效地處理大規模文件集合。
2.2 多智慧體迭代推理:開啟類人思考新正規化
在檢索到相關資訊後,如何生成準確且全面的答案,是 RAG 系統的另一個關鍵挑戰。傳統的 RAG 方法在生成答案時,往往缺乏足夠的推理能力,尤其是在處理複雜推理任務時,容易出現答案不準確或不完整的問題。為了解決這一問題,ViDoRAG 引入了多智慧體生成流程,透過模擬人類的推理過程,逐步提煉出最終的答案。
ViDoRAG 的多智慧體生成流程包括三個智慧體:探索者(Seeker)、檢查員(Inspector)和回答者(Answerer)。
探索者負責從粗略的檢視中選擇相關的圖片,基於查詢和檢查員的反饋,逐步篩選出最相關的圖片。
檢查員對探索者選擇的圖片進行詳細審查,提供反饋或初步答案。如果當前資訊足以回答查詢,檢查員會提供一個草稿答案和相關圖片的引用;如果資訊不足,檢查員則會指出需要進一步獲取的資訊,並保留相關圖片以供後續審查。
回答者在最終步驟中,驗證檢查員草稿答案的一致性,並根據參考圖片和草稿答案,給出最終答案。
這種多智慧體的協作方式,不僅提高了生成答案的準確性,還使得整個過程更加高效。透過模擬人類的推理過程,ViDoRAG 能夠更好地處理複雜的視覺文件任務,生成更加準確和全面的答案。


實驗與分析
在實驗中,研究者們採用了多種模型進行端到端評估,評估指標主要為準確率,透過 GPT-4o 對參考答案和最終答案進行比較打分。
實驗結果顯示,ViDoRAG 在 ViDoSeek 基準測試中表現出色,顯著優於現有的方法。例如,在 GPT-4o 模型上,ViDoRAG 的準確率達到了 79.4%,比傳統 RAG 方法提高約 10% 以上,這一結果充分證明了 ViDoRAG 框架的有效性和優越性。

在檢索效能方面,ViDoRAG 的動態檢索策略展現了顯著的優勢。透過 GMM 動態確定檢索文件數量,不僅提高了檢索的準確性,還為生成階段減少了不必要的計算開銷。這種動態調整機制使得 ViDoRAG 能夠更加高效地處理大規模文件集合,進一步提升了模型的效能和效率。

研究者基於 ViDoRAG 驗證了其 Test-Time Scaling。研究發現,在 ViDoRAG 框架下,不同模型的互動輪次存在明顯差異:效能更強的模型由於其出色的推理能力,能夠更快地理解任務需求並生成高質量的答案,因此所需的推理迭代次數更少;而效能相對較弱的模型則需要更多的推理迭代次數,透過逐步積累資訊和調整思路,最終才能生成較為準確的答案。
這種差異表明 ViDoRAG 能夠根據模型的效能特點,靈活地調整推理過程,從而在不同模型上都能實現較好的效果。

在時延分析中,由於多智慧體系統的迭代特性,ViDoRAG 的延遲相較於傳統 RAG 有所增加。具體來說,每個智慧體依次執行特定任務,這雖增加了時延,但生成答案的質量卻顯著提升。因此,在複雜 RAG 任務中,這種延遲與準確率之間的權衡是值得的。


總結和展望
ViDoRAG 的提出,為大規模視覺文件集合的檢索增強生成提供了一條全新的路徑。憑藉創新的多智慧體框架和多模態混合檢索策略,ViDoRAG 在複雜視覺文件的推理和生成能力方面取得了顯著提升,同時也為未來的研究和應用指明瞭新方向。
接下來的工作將重點聚焦於最佳化系統效率和減少模型幻覺,以在保持高準確率的同時,進一步降低計算成本,提高響應速度和可擴充套件性。這包括對多智慧體框架的最佳化,以及更精細的檢索和生成流程管理。此外,我們還將探索更加嚴格的驗證機制和更精準的推理步驟,以確保生成的答案更具可靠性和準確性。
ViDoRAG 的發展不僅推動了視覺文件問答技術的進步,也為未來 RAG 領域的研究提供了重要的參考和啟示。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
·
