RAG終極框架！港大開源RAG-Anything：統一多模態知識圖譜

新智元報道

編輯：LRST

【新智元導讀】最近，由香港大學黃超教授團隊釋出的開源專案「一體化的多模態RAG框架」RAG-Anything，有效解決了傳統RAG的技術侷限，實現了「萬物皆可RAG」的處理能力。

RAG-Anything的核心技術創新在於構建了統一的多模態知識圖譜架構，能夠同時處理並關聯文件中的文字內容、圖表資訊、表格資料、數學公式等多種型別的異構內容，解決了傳統RAG系統僅支援文字處理的技術限制，為多模態文件的智慧理解提供了新的技術方案。

專案地址：https://github.com/HKUDS/RAG-Anything

實驗室主頁: https://sites.google.com/view/chaoh

RAG-Anything作為一個專為多模態文件設計的檢索增強生成（RAG）系統，專注解決複雜場景下的智慧問答與資訊檢索難題。

該系統提供完整的端到端多模態文件處理解決方案，能夠統一處理文字、影像、表格、數學公式等多種異構內容，實現從文件解析、知識圖譜構建到智慧問答的全流程自動化，為下一代AI應用提供了可靠的技術基礎。

該專案在開源框架LightRAG的基礎上進行了深度擴充套件與最佳化，其多模態處理能力現已獨立演進為RAG-Anything，並將基於此平臺持續迭代更新。

背景與技術驅動

多模態理解的時代需求

隨著人工智慧技術的快速發展和大型語言模型能力的顯著提升，使用者對AI系統的期望已經從單純的文字處理擴充套件到對真實世界複雜資訊的全面理解。

現代知識工作者每天面對的文件不再是簡單的純文字，而是包含豐富視覺元素、結構化資料和多媒體內容的複合型資訊載體。

這些文件中往往蘊含著文字描述、圖表分析、資料統計、公式推導等多種資訊形態，彼此相互補充、共同構成完整的知識體系。

在專業領域的實際應用中，多模態內容已成為知識傳遞的主要載體。科研論文中的實驗圖表和數學公式承載著核心發現，教育材料透過圖解和示意圖增強理解效果，金融報告依賴統計圖表展示資料趨勢，醫療文件則包含大量影像資料和檢驗資料。

這些豐富的視覺化內容與文字描述相互補充，共同構成了完整的專業知識體系。

面對如此複雜的資訊形態，傳統的單一文字處理方式已無法滿足現代應用需求。各行業都迫切需要AI系統具備跨模態的綜合理解能力，能夠同時解析文字敘述、影像資訊、表格資料和數學表示式，並建立它們之間的語義關聯，從而為使用者提供準確、全面的智慧分析和問答服務。

傳統RAG系統的技術瓶頸

儘管檢索增強生成（RAG）技術在文字問答領域取得了顯著成功，但現有的RAG系統普遍存在明顯的模態侷限性。

傳統RAG架構主要針對純文字內容設計，其核心元件包括文字分塊、向量化編碼、相似性檢索等，這些技術棧在處理非文字內容時面臨嚴重挑戰：

內容理解侷限：傳統系統通常採用OCR技術將影像和表格強制轉換為文字，但這種方式會丟失視覺佈局、顏色編碼、空間關係等重要資訊，導致理解質量大幅下降。
檢索精度不足：純文字向量無法有效表示圖表的視覺語義、表格的結構化關係和公式的數學含義，在面對"圖中的趨勢如何"或"表格中哪個指標最高"等問題時，檢索準確性嚴重不足。
上下文缺失：文件中的圖文內容往往存在密切的相互引用和解釋關係，傳統系統無法建立這種跨模態的語義關聯，導致回答缺乏完整性和準確性。
處理效率低下：面對包含大量非文字元素的複雜文件，傳統系統往往需要多個專用工具配合處理，流程複雜、效率低下，難以滿足實際應用需求。

RAG-Anything的實用價值

RAG-Anything專案針對上述技術挑戰而設計開發。專案目標是構建一個完整的多模態RAG系統，解決傳統RAG在處理複雜文件時的侷限性問題。

系統採用統一的技術架構，將多模態文件處理從概念驗證階段推進到實際可部署的工程化解決方案。

此外，系統還採用了端到端的技術棧設計，覆蓋文件解析、內容理解、知識構建和智慧問答等核心功能模組。

在檔案格式支援方面，系統相容PDF、Office文件、影像等常見格式。技術架構上，系統實現了跨模態的統一知識表示和檢索演算法，同時提供標準化的API介面和靈活的配置引數。

RAG-Anything的技術定位是作為多模態AI應用的基礎元件，為RAG系統提供可直接整合的多模態文件處理能力。

RAG-Anything的核心技術優勢

RAG-Anything 透過創新的技術架構和工程實踐，在多模態文件處理領域實現了顯著突破：

· 端到端多模態處理架構

構建完整的自動化處理鏈路，從原始文件輸入開始，系統能夠智慧識別並精確提取文字、影像、表格、數學公式等異構內容。

透過統一的結構化建模方法，建立從文件解析、語義理解、知識構建到智慧問答的全流程自動化體系，徹底解決了傳統多工具拼接帶來的資料損失和效率問題。

· 廣泛的文件格式相容性

原生支援PDF、Microsoft Office套件（Word/Excel/PowerPoint）、常見影像格式（JPG/PNG/TIFF）以及Markdown、純文字等多達10餘種主流文件格式。

系統內建智慧格式檢測和標準化轉換機制，確保不同來源的文件都能透過統一的處理管道獲得一致的高質量解析結果。

· 深度內容理解技術棧

整合視覺、語言語義理解模組和結構化資料分析技術，實現對各類內容的深度理解。

影像分析模組支援複雜圖表的語義提取，表格處理引擎能夠準確識別層次結構和資料關係，LaTeX公式解析器確保數學表示式的精確轉換，文字語義建模則提供豐富的上下文理解能力。

· 多模態知識圖譜構建

採用基於實體關係的圖結構表示方法，自動識別文件中的關鍵實體並建立跨模態的語義關聯。

系統能夠理解圖片與說明文字的對應關係、表格資料與分析結論的邏輯聯絡，以及公式與理論闡述的內在關聯，從而在問答過程中提供更加準確和連貫的回答。

· 靈活的模組化擴充套件

基於外掛化的系統架構設計，支援開發者根據特定應用場景靈活配置和擴充套件功能元件。

無論是更換更先進的視覺理解模型、整合專業領域的文件解析器，還是調整檢索策略和嵌入演算法，都可以透過標準化介面快速實現，確保系統能夠持續適應技術發展和業務需求的動態變化。

RAG-Anything系統架構

RAG-Anything基於創新的三階段技術架構，突破傳統RAG系統在多模態文件處理上的技術瓶頸，實現真正的端到端智慧化處理。

多模態文件解析透過多模態解析引擎處理PDF、Office、影像等格式文件，包含文字提取、影像分析、公式識別和表格解析四個核心模組。
跨模態知識構建構建跨模態知識圖譜，透過實體關係抽取和多模態融合技術，建立統一的圖譜表示和向量資料庫。
檢索生成結合圖譜檢索和向量檢索，透過大型語言模型生成精準回答。系統採用模組化設計，具備高度可擴充套件性和靈活性。

高精度文件解析技術

採用基於MinerU 2.0的先進結構化提取引擎，實現對複雜文件的智慧解析。系統能夠準確識別文件的層次結構，自動分割文字塊、定點陣圖像區域、解析表格佈局、識別數學公式。

透過標準化的中間格式轉換，保證不同文件型別的統一處理流程，最大化保留原始資訊的語義完整性。

深度多模態內容理解

統內建專業化的模態處理引擎，針對不同內容型別提供定製化的理解能力：

視覺內容分析：整合視覺大模型，自動生成高質量影像描述，準確提取圖表中的資料關係和視覺要素。
表格智慧解析：深度理解表格的層次結構，自動識別表頭關係、資料型別和邏輯聯絡，提煉資料趨勢和統計規律。
數學公式理解：精確識別LaTeX格式的數學表示式，分析變數含義、公式結構和適用場景。
擴充套件模態支援：支援流程圖、程式碼片段、地理資訊等專業內容的智慧識別和語義建模。

所有模態內容透過統一的知識表示框架進行整合，實現真正的跨模態語義理解和關聯分析。

統一知識圖譜構建

RAG-Anything將多模態內容統一建模為結構化知識圖譜，突破傳統文件處理的資訊孤島問題。

實體化建模：將文字段落、圖表資料、數學公式等異構內容統一抽象為知識實體，保留完整的內容資訊、來源標識和型別屬性。
智慧關係構建：透過語義分析技術，自動識別段落間的邏輯關係、圖文間的說明關係、以及結構化內容間的語義聯絡，構建多層次的知識關聯網路。
高效儲存索引：建立圖譜資料庫和向量資料庫的雙重儲存機制，支援結構化查詢和語義相似性檢索，為複雜問答任務提供強大的知識支撐。

雙層次檢索問答

RAG-Anything採用雙層次檢索問答機制，以實現對複雜問題的精準理解與多維響應。

該機制同時兼顧細粒度資訊抽取與高層語義理解，顯著提升了系統在多模態文件場景下的檢索廣度與生成深度。

智慧關鍵詞分層提取：

細粒度關鍵詞：精確定位具體實體、專業術語、資料點等詳細資訊
概念級關鍵詞：把握主題脈絡、分析趨勢、理解抽象概念

混合檢索策略：

精準實體匹配：透過圖譜結構快速定位相關實體節點
語義關係擴充套件：利用圖譜的關聯關係發現潛在相關資訊
向量相似性檢索：捕獲語義層面的相關內容
上下文融合生成：整合多源資訊，生成邏輯清晰、內容準確的智慧回答

透過這種雙層次的檢索架構，系統能夠處理從簡單事實查詢到複雜分析推理的各類問題，真正實現智慧化的文件問答體驗。

快速部署指南

RAG-Anything提供兩種便捷的安裝部署方式，滿足不同使用者的技術需求。推薦使用PyPI安裝方式，可實現一鍵快速部署，體驗完整的多模態RAG功能。

安裝方式

選項1：從PyPI安裝



pip install raganything

選項2：從原始碼安裝

git clone https://github.com/HKUDS/RAG-Anything.gitcd RAG-Anythingpip install -e .

多場景應用模式

RAG-Anything基於模組化架構設計，為不同應用場景提供兩種靈活的使用路徑，滿足從快速原型到生產級部署的各類需求：

方式一：一鍵式端到端處理

適用場景：處理完整的PDF、Word、PPT等原始文件，追求零配置、全自動的智慧處理。

核心優勢：

全流程自動化：從文件上傳到智慧問答，無需人工干預
智慧結構識別：自動檢測標題層次、段落結構、影像位置、表格佈局、數學公式
深度內容理解：多模態內容的語義分析和向量化表示
知識圖譜自構建：自動生成結構化知識網路和檢索索引

技術流程：原始文件 → 智慧解析 → 多模態理解 → 知識圖譜構建 → 智慧問答

示例程式碼：

import asynciofrom raganything import RAGAnythingfrom lightrag.llm.openai import openai_complete_if_cache, openai_embedasyncdefmain(): rag = RAGAnything( working_dir="./rag_storage", llm_model_func=..., # LLM vision_model_func=..., # VLM embedding_func=..., # 嵌入模型 embedding_dim=3072, max_token_size=8192 )# 處理文件並構建圖譜await rag.process_document_complete( file_path="your_document.pdf", output_dir="./output" )# 多模態問答查詢

    result = await rag.query_with_multimodal("Could you share insights on the experiment results and the associated data tables?", mode="hybrid")

print(result)asyncio.run(main())

方式二：精細化手動構建

適用場景：已有結構化的多模態內容資料（影像、表格、公式等），需要精確控制處理流程和定製化功能擴充套件。

核心優勢：

精確控制：手動指定影像、表格等關鍵內容的處理方式
定製化處理：根據特定領域需求調整解析策略
增量構建：支援逐步新增和更新多模態內容
專業最佳化：針對特定文件型別進行深度最佳化

示例程式碼：



from lightrag import LightRAGfrom raganything.modalprocessors import ImageModalProcessor, TableModalProcessor# 初始化 LightRAG 系統rag = LightRAG(working_dir="./rag_storage", ...)# 處理影像內容image_processor = ImageModalProcessor(lightrag=rag, modal_caption_func=your_vision_model_func)image_content = {"img_path": "fig1.jpg","img_caption": ["Figure1: RAG-Anything vs Baselines"],"img_footnote": [""]}description, entity_info = await image_processor.process_multimodal_content(    modal_content=image_content,    content_type="image",    file_path="RAG-Anything.pdf",    entity_name="fig1-RAG-Anything vs Baselines")# 處理表格內容table_processor = TableModalProcessor(lightrag=rag, modal_caption_func=your_llm_model_func)table_content = {"table_body": """    | Methods | Accuracy | F1 |    |------|--------|--------|    | RAGAnything | 95.2% | 0.94 |    | Baseline    | 87.3% | 0.85 |    ""","table_caption": ["Table1: RAG-Anything vs Baselines"],"table_footnote": ["Dataset-A"]}description, entity_info = await table_processor.process_multimodal_content(    modal_content=table_content,    content_type="table",    file_path="RAG-Anything.pdf",    entity_name="tab1-RAG-Anything vs Baselines")