社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
三篇關鍵綜述
[1] ZHAO P, ZHANG H, YU Q, 等. Retrieval-Augmented Generation for AI-Generated Content: A Survey[A/OL]. arXiv, 2024[2024-06-21]. http://arxiv.org/abs/2402.19473.
[2] GAO Y, XIONG Y, GAO X, 等. Retrieval-Augmented Generation for Large Language Models: A Survey[A/OL]. arXiv, 2024[2024-03-27]. http://arxiv.org/abs/2312.10997.(best)
[3] FAN W, DING Y, NING L, 等. A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models[A/OL]. arXiv, 2024[2024-06-17]. http://arxiv.org/abs/2405.06211.
這三篇綜述把RAG的三個基本正規化,樸素RAG、高階RAG、模組化RAG介紹的非常清楚明瞭。
發展歷程
自2021年RAG技術出現之後,RAG首先被用於LLMs的預訓練階段來增強語言模型,隨後被用於微調與推理任務中。自ChatGPT釋出以來,用於推理階段的RAG方法如雨後春筍般大量出現,並且迅速演化出了三種正規化,分別是NaiveRAG,AdvancedRAG與ModularRAG;2024年微軟開源的GraphRAG開啟了RAG的第四種正規化,融合了知識圖譜;在2024年下半年AgenticRAG出現,是前四種正規化的集大成者,且具有自適應性。

圖1:按照主要設計重點、提出時間及影響力(以引用量體現)梳理的檢索增強生成(RAG)和檢索增強大語言模型(RA – LLMs)方法。請注意,圖中所示的第一作者、年份以及模型名稱可用於查詢相應參考文獻。[3]

圖2:RAG研究技術樹。涉及RAG的階段主要包括預訓練、微調和推理。隨著LLMs的出現,對RAG的研究最初側重於利用LLMs強大的上下文學習能力,主要集中在推理階段。隨後的研究更加深入,逐漸與LLMs的微調相結合。研究人員也一直在探索透過檢索增強技術在預訓練階段增強語言模型的方法。[3]
RAG基本概念
3.1 為什麼需要RAG?
大型語言模型(LLMs)已經取得了顯著的成就,儘管它們仍然面臨著很大的侷限性,尤其是在特定領域或知識密集型任務中,特別是在處理超出其訓練資料或需要當前資訊的查詢時,會產生 "幻覺"。為了克服這些挑戰,檢索增強生成(RAG)透過語義相似性計算從外部知識庫中檢索相關文件塊,從而增強了 LLM。透過引用外部知識,RAG 可有效減少生成與事實不符內容的問題。將 RAG 整合到 LLM 中已被廣泛採用,RAG 已成為推動聊天機器人發展的一項關鍵技術,並提高了 LLM 在現實世界應用中的適用性。
3.2 RAG的起源
摘要:大型預訓練語言模型已被證明可以將事實知識儲存在其引數中,並在下游 NLP 任務中進行微調後獲得最先進的結果。然而,它們訪問和精確操作知識的能力仍然有限,因此在知識密集型任務上,它們的效能落後於特定任務架構。此外,為它們的決策提供出處和更新它們的世界知識仍然是有待解決的研究課題。迄今為止,具有顯式非引數記憶體可變訪問機制的預訓練模型只針對下游提取任務進行過研究。我們為檢索增強生成(RAG)探索了一種通用的微調方法–將預先訓練的引數記憶和非引數記憶結合起來用於語言生成的模型。我們引入的 RAG 模型中,引數記憶是預先訓練的 seq2seq 模型,非引數記憶是維基百科的密集向量索引,透過預先訓練的神經檢索器訪問。我們比較了兩種 RAG 方案,一種是在整個生成序列中使用相同的檢索段落,另一種是每個標記使用不同的段落。我們在廣泛的知識密集型 NLP 任務中對我們的模型進行了微調和評估,並在三個開放領域的質量保證任務中確定了技術水平,其效能優於引數 seq2seq 模型和特定任務的檢索和提取架構。在語言生成任務中,我們發現 RAG 模型生成的語言比最先進的純引數 seq2seq 基線模型生成的語言更具體、更多樣、更真實。
創新: 這篇論文試圖解決的問題是如何在知識密集型的自然語言處理(NLP)任務中,有效地結合預訓練的語言模型(具有引數化記憶)和非引數化記憶(透過檢索機制訪問的外部知識庫),以提高模型的效能。具體來說,論文提出了一種名為檢索增強生成(Retrieval-Augmented Generation, RAG)的模型,旨在透過以下方式解決現有模型的侷限性:
-
1. 知識訪問和操作的精確性:儘管大型預訓練語言模型能夠儲存大量事實知識,但它們在訪問和精確操作這些知識方面的能力有限。這導致在知識密集型任務上,這些模型的效能通常不如特定任務架構。 -
2. 決策的可解釋性:預訓練模型很難提供其決策過程的解釋,這在需要透明度的應用場景中是一個挑戰。 -
3. 世界知識的更新:預訓練模型在更新其知識庫方面存在困難,這限制了它們適應新資訊的能力。
為了解決這些問題,論文提出了RAG模型,它結合了預訓練的序列到序列(seq2seq)模型(作為引數化記憶)和透過預訓練神經檢索器訪問的維基百科密集向量索引(作為非引數化記憶)。RAG模型透過端到端訓練,能夠在多種知識密集型任務上實現最先進的效能,同時生成更具體、多樣和事實性的語言。
3.3 RAG簡單流程與總覽

圖3:應用於問答的RAG過程的代表性例項。它主要包括3個步驟。1)索引。文件被分割成塊,編碼成向量,儲存在向量資料庫中。2)檢索。根據語義相似度檢索與問題最相關的Top k塊。3)生成。將原始問題和檢索到的塊一起輸入LLM,生成最終答案。[2]

圖4:RAG三種正規化的比較。(左)樸素RAG主要由三部分組成:索引、檢索和生成。(中)高階RAG圍繞檢索前和檢索後提出了多種最佳化策略,其過程與樸素RAG相似,仍然遵循鏈狀結構。(右)模組化RAG繼承和發展了以前的正規化,整體上展示了更大的靈活性。這在引入多個特定功能模組和替換現有模組方面表現得很明顯。整個過程並不侷限於順序檢索和生成;它包括迭代和自適應檢索等方法。[2]

圖5:RAG技術生態系統總覽[2]
高階RAG
定義:
高階 RAG 引入了具體的改進措施,以克服 Naive RAG 的侷限性。為了提高檢索質量,它採用了檢索前和檢索後策略。為了解決索引問題,高階 RAG 透過使用滑動視窗方法、細粒度分割和元資料的整合,改進了索引技術。此外,它還採用了多種最佳化方法來簡化檢索過程。
關鍵論文:
摘要:隨著大型語言模型(LLMs)的出現,檢索增強生成(RAG)技術的潛力引起了相當多的研究關注。為了增強 RAG 系統的各個方面,人們引入了許多新穎的演算法和模型。然而,由於缺乏標準化的實施框架,再加上 RAG 過程本身錯綜複雜,研究人員在一致的環境中比較和評估這些方法既具有挑戰性,又耗費時間。現有的 RAG 工具包(如 LangChain 和 LlamaIndex)雖然可用,但往往笨重臃腫,無法滿足研究人員的個性化需求。為了應對這一挑戰,我們提出了 FlashRAG,這是一個高效、模組化的開源工具包,旨在幫助研究人員在統一的框架內複製現有的 RAG 方法和開發自己的 RAG 演算法。我們的工具包實現了 12 種先進的 RAG 方法,並收集和整理了 32 個基準資料集。我們的工具包具有多種功能,包括可定製的模組化框架、豐富的預實現 RAG 作品集、全面的資料集、高效的輔助預處理指令碼以及廣泛而標準的評估指標。我們的工具包和資源可在 https://github.com/RUC-NLPIR/FlashRAG 上獲取。
創新:
A:論文提出了FlashRAG,一個模組化的開源工具包,來解決在RAG研究中遇到的問題。以下是FlashRAG解決這些問題的關鍵特性和方法:
-
1. 模組化RAG框架:FlashRAG實現了一個易於擴充套件的RAG過程,提供了13個元件,涵蓋四個主要類別:裁判器(judger)、檢索器(retriever)、精煉器(refiner)和生成器(generator)。這些元件可以單獨使用或組合成一致的流程。 -
2. 預實現的先進RAG演算法:FlashRAG提供了12種先進的RAG演算法的實現,如Self-RAG和FLARE,覆蓋了順序RAG、條件RAG、分支RAG和迴圈RAG類別。這些方法已在統一設定下進行了評估,提供了基準報告。 -
3. 全面的基準資料集:為了提高RAG研究中資料集的一致性和可重用性,作者編譯了32個常用的RAG基準資料集,並將其預處理成統一格式。 -
4. 高效的輔助指令碼:為了最小化RAG實驗的設定時間,FlashRAG提供了一套全面的輔助指令碼,包括下載和切片Wikipedia以建立語料庫、構建檢索索引以及預先準備檢索結果。 -
5. 支援多種評估指標:FlashRAG支援多種評估指標來衡量RAG過程的質量,包括檢索方面的指標(如recall@k、precision@k、F1@k和MAP)和生成方面的指標(如token級別的F1分數、精確匹配、準確率、BLEU和ROUGE-L)。 -
6. 實驗結果和討論:論文透過一系列實驗展示了FlashRAG的能力,包括提供可復現的基準和探索性研究。這些實驗使用了不同的資料集和評估指標,展示了FlashRAG在不同設定下的效能。 -
7. 工具包結構:FlashRAG的結構包括環境模組、元件模組和管道模組,這種分層模組化設計使得研究人員可以輕鬆地組裝和執行完整的RAG過程。
透過這些特性,FlashRAG旨在幫助研究人員更容易地複製現有的RAG方法,開發新的演算法,並專注於最佳化他們的研究。

圖6:FlashRAG工具箱總覽

圖7:高階RAG鏈 來源:https://github.com/gomate-community/TrustRAG
摘要:從金融應用中產生的非結構化文字資料(如財報電話會議記錄)中提取和解讀複雜資訊,即便採用當前運用檢索增強生成(RAG,即利用向量資料庫進行資訊檢索的 VectorRAG 技術)的最佳實踐,對大語言模型(LLMs)來說仍是巨大挑戰,這是由於特定領域術語以及文件格式複雜等難題所致。我們引入一種全新的組合方法 ——HybridRAG,它融合了基於知識圖譜(KGs)的 RAG 技術(即 GraphRAG)與 VectorRAG 技術,以增強從金融文件中提取資訊的問答(Q&A)系統,該系統能夠生成準確且與上下文相關的答案。我們對一組以問答格式呈現的財報電話會議記錄文件進行實驗,這些文件自然地提供了一系列真實的問答對。實驗表明,在檢索和生成階段,從向量資料庫和知識圖譜中同時檢索上下文的 HybridRAG,在檢索準確率和答案生成方面,均優於單獨使用的傳統 VectorRAG 和 GraphRAG。所提出的技術應用範圍不僅限於金融領域。
創新:
相關研究主要集中在資訊檢索(IR)領域,包括以下幾個方面:
-
1. BM25演算法:Robertson和Zaragoza (2009) 探討了使用基於相似性搜尋的BM25演算法,該演算法根據詞頻(Term Frequency, TF)、逆文件頻率(Inverse Document Frequency, IDF)和文件長度來計算文件的相關性得分。 -
2. 密集向量模型:Johnson等人 (2019) 研究了使用k近鄰(k Nearest Neighbours, KNN)演算法的密集向量模型,這些模型能夠捕捉資料中的深層語義關係。透過計算向量之間的相似性(如餘弦相似性),模型能夠返回與查詢向量最相似的k個向量對應的資料實體。 -
3. 稀疏編碼器模型:Zaharia等人 (2010) 探索了基於稀疏編碼器的向量模型,這些模型在處理高維資料時保持瞭解釋性,這是密集向量表示中常面臨的挑戰。這些模型透過將文件和使用者查詢對映到從大量訓練資料中派生的關聯術語的廣泛陣列中,來編碼文件和查詢的擴充套件術語。 -
4. RAG系統的侷限性:當前在RAG系統中使用的大多數檢索方法依賴於關鍵詞和基於相似性的搜尋,這可能限制了RAG系統的整體準確性。論文中提到,儘管之前的努力主要集中在透過調整LLM提示、微調等來提高G部分的準確性,但這些方法對RAG系統的整體準確性影響有限,因為如果R部分提供的上下文不相關,答案也將不準確。 -
5. 檢索增強型生成(RAG)模型:Siriwardhana等人 (2023) 研究瞭如何改進RAG模型在開放領域問答中的領域適應性。 -
6. 混合專家模型(Mixture-of-Experts, MoE):Du等人 (2022) 提出了GLaM模型,這是一種透過混合專家模型來高效擴充套件語言模型的方法。 -
7. 路徑縮放語言模型(Pathways Language Model, PaLM):Chowdhery等人 (2023) 提出了PaLM模型,這是一種透過路徑縮放來擴充套件語言模型的方法。
這些相關研究為論文提出的“Blended RAG”方法提供了理論和技術基礎,特別是在語義搜尋和混合查詢策略方面。
1.3 模組化RAG
定義:
模組化 RAG 架構超越了前兩種 RAG 正規化,具有更強的適應性和多功能性。它採用了多種策略來改進其元件,例如為相似性搜尋新增搜尋模組,以及透過微調完善檢索器。為應對特定挑戰,還引入了重組 RAG 模組和重排 RAG 管道等創新方法。向模組化 RAG 方法的轉變正變得越來越普遍,它既支援順序處理,也支援跨元件的整合端到端訓練。儘管模組化 RAG 與眾不同,但它建立在高階 RAG 和樸素 RAG 的基本原則之上,表明了 RAG 系列的進步和完善。
關鍵論文:
摘要:檢索增強生成(RAG)顯著增強了大型語言模型(LLM)處理知識密集型任務的能力。應用場景日益增長的需求推動了 RAG 的發展,導致高階檢索器、大型語言模型和其他互補技術的整合,反過來又擴大了 RAG 系統的複雜性。然而,快速的進步正在超越基本的 RAG 正規化,許多方法在 "先檢索後生成 "的過程中難以統一。在此背景下,本文探討了現有 RAG 正規化的侷限性,並介紹了模組化 RAG 框架。透過將複雜的 RAG 系統分解為獨立的模組和專門的運算子,它為高度可重構的框架提供了便利。模組化 RAG 超越了傳統的線性架構,採用了更先進的設計,集成了路由、排程和融合機制。本文在廣泛研究的基礎上,進一步確定了流行的 RAG 模式–線性、條件、分支和迴圈,並全面分析了它們各自在實現上的細微差別。模組化 RAG 為 RAG 系統的概念化和部署提供了創新機會。最後,本文探討了新運算子和新範例的潛在出現,為 RAG 技術的持續發展和實際部署奠定了堅實的理論基礎和實踐路線圖。
創新:
論文透過提出模組化RAG(Modular RAG)框架來解決現有RAG系統的侷限性和挑戰。具體的解決策略包括:
-
1. 模組化架構:將複雜的RAG系統分解為獨立的模組和專門的運算子,形成一個高度可重配置的框架。 -
2. 三層架構設計: -
L1 Module:關注RAG系統的核心過程,每個階段被視為一個獨立模組。 -
L2 Sub-module:在每個模組內部進一步細化和最佳化功能。 -
L3 Operator:模組或子模組中具體的功能實現。 -
3. RAG Flow:模組和運算子的組合形成RAG流程,可以靈活地表示當前的RAG方法。 -
4. 索引(Indexing):最佳化文件分塊和元資料附加,以及結構化組織,提高檢索效率。 -
5. 預檢索(Pre-retrieval):透過查詢擴充套件、查詢轉換和查詢構造來改善基於原始使用者查詢的檢索效果。 -
6. 檢索(Retrieval):選擇合適的檢索器,並透過檢索器微調來提高檢索的質量和效率。 -
7. 後檢索(Post-retrieval):對檢索到的文字塊進行重排、壓縮和選擇,以最佳化上下文資訊的利用。 -
8. 生成(Generation):使用LLM生成答案,並透過生成器微調、驗證等方法提高答案的可靠性。 -
9. 協同(Orchestration):透過路由、排程和融合機制控制RAG流程,使系統能夠適應不同的查詢和場景。 -
10. 靈活性和擴充套件性:模組化RAG提供了在不同應用場景中適應和擴充套件新方法的靈活性。 -
11. 理論和實踐指導:論文不僅提出了理論框架,還探討了模組化RAG在實際部署中的潛力,為未來的研究方向和實踐探索提供了指導。
透過這些策略,模組化RAG框架旨在提高RAG系統的靈活性、可擴充套件性和可維護性,同時滿足不斷增長和多樣化的應用需求和期望。

圖8:三種 RAG 正規化之間的比較。
GraphRAG
定義:
檢索增強生成(RAG)是一種強大的技術,它透過從外部來源檢索知識、技能和工具等附加資訊來增強下游任務的執行。圖本身具有 "節點由邊連線 "的特性,可以編碼大量的異構和關係資訊,這使其成為 RAG 在大量實際應用中的黃金資源。
綜述:
摘要:最近,檢索增強生成技術(RAG)在應對大型語言模型(LLM)的挑戰方面取得了顯著的成功,而無需重新訓練。透過參考外部知識庫,RAG 完善了 LLM 的輸出,有效緩解了 "幻覺"、特定領域知識缺乏和資訊過時等問題。然而,資料庫中不同實體之間複雜的關係結構給 RAG 系統帶來了挑戰。為此,GraphRAG 利用實體間的結構資訊,實現更精確、更全面的檢索,捕捉關係知識,促進更準確、更能感知上下文的響應。鑑於 GraphRAG 的新穎性和潛力,對當前技術進行系統回顧勢在必行。本文首次全面概述了 GraphRAG 方法。我們將 GraphRAG 工作流程正規化,包括基於圖形的索引、圖形引導的檢索和圖形增強的生成。此外,我們還研究了 GraphRAG 的下游任務、應用領域、評估方法和工業用例。最後,我們探討了未來的研究方向,以激發進一步的探索並推動該領域的進步。
貢獻:
這篇論文提供了對Graph Retrieval-Augmented Generation (GraphRAG) 方法論的全面概述。以下是論文的主要內容總結:
-
1. 背景介紹:論文首先介紹了大型語言模型(LLMs)的發展以及它們在自然語言處理(NLP)中的重要性。同時指出了LLMs在缺乏特定領域知識、即時更新資訊和專有知識時可能遇到的問題。 -
2. GraphRAG概念:提出了GraphRAG作為一種解決上述問題的框架,透過結合圖資料庫中的結構化資訊來增強LLMs的輸出。 -
3. 工作流程:詳細介紹了GraphRAG的三個主要階段:圖基礎索引(G-Indexing)、圖引導檢索(G-Retrieval)和圖增強生成(G-Generation)。 -
4. 核心技術:探討了GraphRAG系統中使用的核心技術,包括圖神經網路(GNNs)和語言模型(LMs)。 -
5. 訓練方法:討論了檢索器和生成器的獨立訓練方法,以及它們的聯合訓練策略。 -
6. 下游任務和應用領域:分析了GraphRAG在多種下游任務中的應用,如問答、資訊提取等,並探討了其在不同應用領域(醫療、金融、教育等)的潛在影響。 -
7. 評估方法和工業用例:提供了評估GraphRAG系統性能的方法,包括基準測試和工業應用案例。 -
8. 未來研究方向:論文最後提出了GraphRAG領域的未來研究方向,包括動態和自適應圖、多模態資訊整合、可擴充套件和高效的檢索機制等。 -
9. 貢獻總結:論文總結了對現有GraphRAG方法論的系統化回顧,提供了對GraphRAG技術、應用和未來研究方向的全面理解。
整體而言,這篇論文為理解和應用GraphRAG提供了一個全面的視角,併為未來的研究和應用指明瞭方向。
關鍵論文:
摘要:透過檢索增強生成(RAG),大型語言模型(LLM)能夠從外部知識源檢索資訊,從而回答涉及私有或未見文件的問題。然而,RAG 在處理全域性問題(如“資料集的主要主題是什麼?”)時表現不佳,因為這類問題本質上是查詢聚焦的摘要任務,而非直接檢索。現有的 QFS 方法也難以處理大規模文字。為此,我們提出圖 RAG 方法,該方法結合了兩種方法的優勢,能夠隨著問題普遍性和文字量的增加而擴充套件。圖 RAG 透過 LLM 構建圖索引,先從文件中提取實體圖,再預生成相關實體的摘要。在回答問題時,每個摘要生成部分答案,最終彙總為完整回答。實驗表明,圖 RAG 在處理大規模資料集的全域性問題時,能顯著提升答案的全面性和多樣性。全球和本地圖 RAG 的開源 Python 實現即將釋出。
創新:
這篇論文提出了一種名為 Graph RAG(Graph Retrieval-Augmented Generation)的方法,旨在解決以下問題:
-
1. 檢索增強生成(RAG)的侷限性:傳統的 RAG 方法在處理針對整個文字語料庫的全域性性問題時存在不足,例如“資料集中的主要主題是什麼?”這類問題。這是因為這類問題本質上是查詢聚焦的摘要(Query-Focused Summarization, QFS)任務,而不是傳統的顯式檢索任務。 -
2. 大規模文字的摘要生成:現有的 QFS 方法難以擴充套件到 RAG 系統所索引的大規模文字。由於大型語言模型(LLMs)的上下文視窗限制,直接檢索文字塊可能無法滿足全域性摘要的需求。 -
3. 資訊丟失問題:在處理大量文字時,資訊可能會在較長上下文中丟失,這要求在設計摘要方法時考慮到資訊的完整性和連貫性。 -
4. 全域性性問題的回答:為了支援人類對整個文字語料庫的全域性性理解,需要一種能夠透過提問來應用和細化使用者對資料的心理模型的方法。
Graph RAG 方法透過以下步驟來解決這些問題:
-
使用 LLM 構建基於圖的文字索引,包括從源文件派生出的實體知識圖譜。 -
為所有緊密相關的實體組預生成社群摘要。 -
給定一個問題時,使用每個社群摘要生成部分響應,然後將所有部分響應再次彙總以生成最終的響應。
該方法的目標是在使用者問題的一般性和要索引的源文字數量方面實現擴充套件,同時提高生成答案的全面性和多樣性。論文還提供了一個開源的 Python 實現,用於全域性和本地 Graph RAG 方法。

圖9:GraphRAG流程。如上圖所示,GraphRAG包括兩個處理階段,分別是:索引階段和查詢階段。索引階段利用LLM來自動化構建知識圖譜,提取出對應的節點(如實體)、邊(如關係)和協變數(如主張,claim),然後利用社群發現技術(如Leiden演算法)對整個知識圖譜進行子圖劃分,然後自底而上對子圖利用LLM進行摘要、總結。針對特定查詢,“全域性答案(Global Search)”彙總所有與之相關的社群摘要最後彙總生成答案。與傳統RAG一樣,GraphRAG也需要將源文件轉化為文字片段(TextUnits),這個片段既會被用於圖譜抽取,也會作為知識的引用源,以便追溯回最初的原始文字內容。

圖10:GraphRAG資料流
摘要:檢索增強生成(RAG)系統透過整合外部知識源來增強大型語言模型(LLM),從而根據使用者需求提供更準確、更貼近語境的回答。然而,現有的 RAG 系統有很大的侷限性,包括依賴於平面資料表示和對上下文的認識不足,這可能導致無法捕捉複雜的相互依存關係的零散答案。為了應對這些挑戰,我們提出了 LightRAG,將圖結構納入文字索引和檢索過程。這一創新框架採用了雙層檢索系統,從低層次和高層次知識發現兩方面加強了綜合資訊檢索。此外,圖結構與矢量表示法的整合有助於高效檢索相關實體及其關係,從而在保持上下文相關性的同時顯著縮短響應時間。增量更新演算法進一步增強了這一能力,確保了新資料的及時整合,使系統能夠在快速變化的資料環境中保持有效性和響應速度。廣泛的實驗驗證表明,與現有方法相比,LightRAG 在檢索準確性和效率方面都有顯著提高。我們已將 LightRAG 開源,可透過以下連結獲取:https://github.com/HKUDS/LightRAG。
創新:
論文提出了一個名為LightRAG的檢索增強型生成(RAG)系統,旨在透過整合圖結構改善大型語言模型(LLMs)的資訊檢索和生成能力。以下是論文的主要內容總結:
-
1. 問題陳述: -
現有RAG系統在處理需要複雜實體關係理解的查詢時存在限制,如依賴於平面資料表示和缺乏上下文感知能力。 -
2. LightRAG框架: -
提出了一個圖結構化文字索引和雙級檢索系統的框架,以增強從文件中檢索全面資訊的能力。 -
引入了增量更新演算法,使系統能夠快速適應新資料,保持在動態資料環境中的有效性。 -
3. 方法論: -
使用LLMs提取實體和關係,構建知識圖譜,並透過圖結構最佳化資訊檢索過程。 -
實現了雙級檢索策略,分別關注於低層次的具體資訊和高層次的廣泛話題檢索。 -
結合圖結構和向量表示,提高檢索效率和結果的全面性。 -
4. 實驗評估: -
透過大量實驗,驗證了LightRAG在檢索準確性、模型消融、響應效率和新資訊適應性方面相較現有方法的顯著改進。 -
使用了四個不同領域的資料集進行評估,並與多個基線方法進行了比較。 -
5. 主要貢獻: -
提出了一個圖增強的RAG系統,透過圖結構化索引有效地表示實體間的複雜相互依賴關係。 -
開發了LightRAG模型,該模型結合了雙級檢索和圖增強文字索引,以實現全面且成本效益的檢索。 -
進行了廣泛的實驗,證明了LightRAG相比基線方法在多個評估維度上的有效性。 -
6. 開源實現: -
作者提供了LightRAG的開源實現,可透過GitHub訪問。
總體而言,論文的創新之處在於將圖結構應用於文字索引和檢索過程,提出了一個能夠處理複雜查詢並快速適應新資料的高效RAG系統。透過這種方法,LightRAG能夠生成更準確、更具上下文相關性的回答,極大地提高了RAG系統在實際應用中的有效性和實用性。
摘要:最近發展起來的檢索增強生成(RAG)技術能夠高效地構建特定領域的應用程式。然而,它也有侷限性,包括向量相似性與知識推理相關性之間的差距,以及對數值、時間關係、專家規則等知識邏輯的不敏感性,這些都阻礙了專業領域知識服務的有效性。在這項工作中,我們引入了一個專業領域知識服務框架,稱為知識增強生成(KAG)。KAG的設計初衷是為了應對上述挑戰,充分發揮知識圖譜(KG)和向量檢索的優勢,透過五個關鍵方面雙向增強大型語言模型(LLM)和知識圖譜(KG),從而提高生成和推理效能:(1)LLM友好的知識表示;(2)知識圖譜和原始塊之間的相互索引;(3)邏輯形式引導的混合推理引擎;(4)知識與語義推理的對齊;(5)KAG的模型能力增強。我們將 KAG 與多跳問題解答中現有的 RAG 方法進行了比較,發現它的效能明顯優於最先進的方法,在 F1 分數方面,KAG 在 hotpotQA 上取得了 19.6% 的相對改進,在 2wiki 上取得了 33.5% 的相對改進。我們已將 KAG 成功應用於螞蟻金服集團的兩個專業知識問答任務,包括電子政務問答和電子健康問答,與 RAG 方法相比,在專業性方面取得了顯著提高。此外,我們即將在開源KG引擎OpenSPG上原生支援KAG,讓開發者可以更輕鬆地構建嚴謹的知識決策或便捷的資訊檢索服務。這將促進 KAG 的本地化開發,使開發人員能夠以更高的準確性和效率構建領域知識服務。
創新:
這篇論文提出了一個名為知識增強生成(KAG)的專業領域知識服務框架,旨在解決以下問題:
-
1. 檢索過程中的模糊性:傳統的檢索增強生成(RAG)技術在檢索過程中存在模糊性,這影響了知識服務的專業性和準確性。 -
2. 通用語言模型的“幻覺”問題:通用語言模型在理解和推理方面存在侷限性,這可能導致生成的答案不準確或不完整。 -
3. 複雜系統中的級聯損失:在複雜的知識服務系統中,不同元件之間的錯誤傳遞可能導致整體效能下降。 -
4. 專業知識的準確性、資訊的完整性和邏輯的嚴格性:在科學計算、醫學和法律等專業領域中,對知識的準確性、資訊的完整性以及規則、時間和價值的邏輯嚴格性有特別高的要求。 -
5. 知識圖譜(KG)的整合不足:儘管一些現有工作嘗試將知識圖譜整合到RAG框架中,但它們並沒有充分利用知識圖譜在專業領域知識管理方面的能力。
為了解決這些問題,KAG框架透過雙向增強大型語言模型(LLM)和知識圖譜(KG),提出了五個關鍵改進:
-
1. LLM友好的知識語義表示:提出了一種適合LLM的知識表示框架,以支援與LLM的相容。 -
2. 知識圖譜和原始文字塊之間的相互索引:透過建立圖結構和原始文字塊之間的索引,提高了檢索的準確性。 -
3. 基於邏輯形式的混合推理和求解:提出了一種結合了語言和符號的問題解決過程。 -
4. 基於語義推理的知識對齊:透過定義領域知識的各種語義關係,提高了知識表示和檢索的準確性。 -
5. KAG模型:針對KAG框架所需的能力,如索引構建、檢索、問題理解、語義推理和摘要生成,增強了通用LLM的特定能力。
透過這些改進,KAG框架在多跳問答任務上的表現顯著優於現有的RAG方法,並在螞蟻集團的電子政務和電子健康問答任務中實現了專業水平的顯著提升。

圖11:KAG 框架。左側顯示的是 KAG-Builder,右側顯示的是 KAG-Solver。圖片底部的灰色區域代表 KAG-模型。

圖12:一個專為大型語言模型(LLM)設計的友好型知識表示框架。LLMFriSPG將例項與概念區分開來,透過概念實現與 LLMs 的對接。SPG 的屬性被劃分為知識區和資訊區,也就是靜態區和動態區,分別與具有嚴格模式約束的決策專業知識以及具有開放資訊表示的文件檢索索引知識相相容。圖中的紅色虛線描繪了從資訊提煉為知識的融合與挖掘過程。增強的文件塊表示方法為 LLMs 提供了可追溯且易於解讀的文字上下文。
AgenticRAG
定義:
Agentic RAG 將 ReACT 的推理能力與 Agent 的任務執行能力相結合,建立一個動態和自適應的系統。與遵循固定管道的傳統 RAG 不同,Agentic RAG 透過使用 ReACT 根據使用者查詢的上下文動態協調 Agent,引入了靈活性。這使得系統不僅能夠檢索和生成資訊,還能夠根據上下文、不斷變化的目標和與之互動的資料採取明智的行動。這些進步使 Agentic RAG 成為一個更強大和靈活的框架。模型不再僅限於被動響應使用者查詢;相反,它可以主動規劃、執行並調整其方法以獨立解決問題。這使得系統能夠處理更復雜的任務,動態適應新挑戰,並提供更具上下文相關性的響應。
綜述:
摘要:大型語言模型(LLM)透過實現類似人類的文字生成和自然語言理解,給人工智慧(AI)帶來了革命性的變化。然而,對靜態訓練資料的依賴限制了它們響應動態即時查詢的能力,導致輸出結果過時或不準確。檢索增強生成(RAG)作為一種解決方案應運而生,它透過整合即時資料檢索來增強 LLM,從而提供與上下文相關的最新響應。儘管前景看好,但傳統的 RAG 系統受到靜態工作流程的限制,缺乏多步驟推理和複雜任務管理所需的適應性。Agentic Retrieval-Augmented Generation(Agentic RAG)透過將自主人工智慧代理嵌入 RAG 管道,超越了這些限制。這些代理利用代理設計模式–反射、規劃、工具使用和多代理協作–動態管理檢索策略,迭代完善上下文理解,並調整工作流程以滿足複雜的任務要求。這種整合使 Agentic RAG 系統能夠在各種應用中提供無與倫比的靈活性、可擴充套件性和上下文感知能力。本調查報告從代理式 RAG 的基本原理和 RAG 範例的演變開始,對代理式 RAG 進行了全面探討。它對代理 RAG 架構進行了詳細分類,重點介紹了在醫療保健、金融和教育等行業中的關鍵應用,並探討了實用的實施策略。此外,該書還探討了在擴充套件這些系統、確保道德決策和最佳化實際應用效能方面的挑戰,同時詳細介紹了實施 Agentic RAG 的框架和工具。
貢獻:
這篇論文提供了對Agentic Retrieval-Augmented Generation(Agentic RAG)的全面探索,主要內容可以總結如下:
-
1. 問題闡述: -
大型語言模型(LLMs)在依賴靜態訓練資料時存在侷限性,特別是在動態、即時查詢響應方面的挑戰。 -
2. Agentic RAG介紹: -
介紹了Agentic RAG的概念,它透過將自主AI代理整合到RAG流程中來克服LLMs的侷限性,利用代理設計模式實現動態管理檢索策略、迭代細化上下文理解,並適應性地調整工作流程。 -
3. RAG的演變: -
論文概述了從Naïve RAG到Advanced RAG、Modular RAG、Graph RAG,最終到Agentic RAG的演變過程,並討論了每種正規化的關鍵特徵、優勢和侷限。 -
4. Agentic RAG架構分類: -
提供了一個詳細的Agentic RAG架構分類,包括單代理、多代理和基於圖的框架,並探討了每種架構的特點和適用場景。 -
5. Agentic RAG的應用案例: -
論文探討了Agentic RAG在醫療保健、金融、教育等多個行業中的關鍵應用,並提供了具體的用例分析。 -
6. 工具和框架: -
討論了支援Agentic RAG系統開發的工具和框架,如LangChain、LlamaIndex、Hugging Face Transformers和Qdrant等。 -
7. 基準測試和資料集: -
論文討論了評估RAG系統性能的基準測試和資料集,強調了標準化評估的重要性。 -
8. 挑戰和未來方向: -
論文總結了Agentic RAG系統面臨的挑戰,包括多代理架構的協調複雜性、可擴充套件性和延遲問題,以及倫理考慮,並提出了未來研究的方向。 -
9. 結論: -
強調Agentic RAG在動態和複雜環境中的潛力,呼籲進一步的研究和創新以解決現有挑戰,並探索Agentic RAG的未來方向。
整體而言,這篇論文為理解和應用Agentic RAG提供了一個全面的框架,並強調了其在解決傳統LLMs侷限性和推動AI技術發展中的重要性。
關鍵論文:
摘要:儘管大型語言模型(LLM)具有卓越的能力,但由於它們僅依賴於它們封裝的引數知識,因此它們經常產生包含事實不準確性的響應。檢索增強生成(RAG),一個特設的方法,增強與檢索相關的知識LM,減少這樣的問題。然而,不加區別地檢索和納入固定數量的檢索通道,無論檢索是否必要,或者通道是否相關,都會減少LM的多功能性,或者可能導致無用的響應生成。我們引入了一個新的框架,稱為自反射檢索增強生成(SELF-RAG),提高LM的質量和真實性,透過檢索和自我反思。我們的框架訓練了一個任意的LM,它可以根據需要自適應地檢索段落,並使用特殊的令牌(稱為反射令牌)生成和反射檢索到的段落及其自己的世代。生成反射令牌使LM在推理階段可控,使其能夠根據不同的任務需求調整其行為。實驗表明,SELFRAG(7 B和13 B引數)顯著優於國家的最先進的LLM和檢索增強模型在一組不同的任務。具體來說,SELF-RAG在開放域QA、推理和事實驗證任務上優於ChatGPT和檢索增強的Llama 2-chat,並且相對於這些模型,它在提高長格式生成的真實性和引用準確性方面表現出顯著的收益。
創新:
這篇論文提到了多個與SELF-RAG相關的研究領域和具體工作,主要包括以下幾個方面:
-
1. 檢索增強生成(Retrieval-Augmented Generation, RAG):RAG方法透過在LLMs的輸入中加入檢索到的相關文字段落來減少知識密集型任務中的事實錯誤。SELF-RAG在RAG的基礎上進行了改進,透過自我反思機制來更智慧地決定何時進行檢索以及如何利用檢索到的資訊。 -
2. 並行RAG工作(Concurrent RAG work):一些並行工作提出了新的訓練或提示策略來改進RAG方法。例如,Lin等人(2023)透過兩步微調策略來改進RAG,而Yoran等人(2023)和Xu等人(2023)則使用自然語言推理模型和摘要模型來過濾或壓縮檢索到的段落。 -
3. 訓練和生成與批評者(Training and generating with critics):一些研究使用強化學習(如PPO)從人類反饋中訓練LLMs,以使模型與人類偏好對齊。SELF-RAG則透過在訓練階段使用批評者模型來生成反思標記,從而在推理階段實現可控生成。 -
4. LLM精煉(LLM refinement):一些工作透過迭代提示模型生成任務輸出、自然語言反饋和精煉任務輸出來提高模型效能,但這種方法可能會犧牲推理效率。 -
5. 檢索增強的LLMs:論文還比較了SELF-RAG與使用檢索增強的LLMs(如ChatGPT和Llama2-chat)的效能,展示了SELF-RAG在多個任務上的優勢。 -
6. 自我評估引導的解碼框架(Self-evaluation-guided decoding framework):Xie等人(2023)提出了一個自我評估引導的解碼框架,但主要集中在推理任務上,而SELF-RAG則在更廣泛的任務上應用了自我反思機制。
這些相關工作為SELF-RAG提供了理論基礎和實踐背景,SELF-RAG在此基礎上透過引入自我反思和按需檢索的概念,提出了一種新的提高LLMs生成質量的方法。
AgenticRAG工作流程
Agentic RAG 的關鍵創新在於其能夠自主使用工具、做出決策並規劃下一步,並且具有推理的能力。管道遵循以下核心階段:

圖13:AgenticRAG工作流程,使用者查詢提交,之後一個 Agent 在 向量資料庫 中搜索,文件以嵌入的形式儲存,確保高效快速地檢索相關資訊,如果檢索到的資料不足,Agentic會細化查詢並進行額外的檢索嘗試,以提取更好的結果。使用功能工具進行外部資料獲取:如果 向量資料庫 缺乏必要的資訊,Agent 使用 功能工具 從外部來源(如 API、網路搜尋引擎或專有資料流)收集即時資料。這確保系統提供最新和上下文相關的資訊。大型語言模型 (LLM) 響應生成:檢索到的資料傳遞給 LLM,它綜合這些資料生成針對查詢的詳細、上下文感知的響應。Agent 驅動的改進:在 LLM 生成響應後,Agentic進一步細化以確保準確性、相關性和連貫性,然後將其交付給使用者。
各RAG正規化比較


相關的重要論文
多模態RAG
這篇論文介紹了一個名為VisRAG(Vision-based Retrieval-augmented Generation)的系統,旨在解決現有檢索增強生成(RAG)系統在處理多模態文件時面臨的問題。具體來說,VisRAG試圖解決以下幾個關鍵問題:
-
1. 利用視覺資訊:傳統的RAG系統僅基於文字,無法利用佈局和影像等視覺資訊,而這些資訊在現實世界中的多模態文件中起著至關重要的作用。 -
2. 消除資訊丟失:在從多模態文件中獲取文字資訊的過程中,通常需要一個解析階段,包括版面識別、光學字元識別(OCR)和文字合併等步驟。這個解析過程不可避免地引入了錯誤和資訊丟失,從而可能對檢索和生成階段產生負面影響。 -
3. 直接處理文件影像:VisRAG透過直接將文件作為影像嵌入到視覺-語言模型(VLM)中,而不是首先解析文件以獲取文字,從而繞過了解析階段,保留了文件中的所有資訊。 -
4. 提高保留和利用原始文件資料資訊的能力:與基於文字的傳統RAG相比,VisRAG最大化了原始文件中資料資訊的保留和利用,消除了解析過程中引入的資訊丟失。 -
5. 多模態文件的RAG處理:在現實世界的應用中,知識通常以多模態文件的形式呈現,如教科書和手冊,這些文件可能包含交錯的文字和圖形。VisRAG旨在透過直接處理這些文件的影像,而不是依賴於提取的文字內容,來改進RAG在多模態文件上的應用。
總的來說,VisRAG試圖透過建立一個基於VLM的RAG流程,來解決傳統RAG系統在處理包含文字和影像的多模態文件時的資訊丟失和利用不足的問題。
這篇論文主要解決的問題是如何提高文件檢索系統在處理視覺豐富文件時的效率和效能。具體來說,論文指出現代文件檢索系統雖然在文字匹配方面表現出色,但在有效利用視覺線索(如表格、圖形、頁面佈局或字型等)方面存在不足,這限制了它們在實際文件檢索應用中的效能,例如增強型檢索(Retrieval Augmented Generation, RAG)。
為了解決這個問題,論文提出了兩個主要貢獻:
-
1. ViDoRe(Visual Document Retrieval Benchmark):這是一個新的基準測試,用於評估文件檢索系統在頁面級別檢索視覺豐富文件的能力。它涵蓋了多個領域、語言和設定。 -
2. ColPali:這是一個新的檢索模型架構,它利用最新的視覺-語言模型(Vision Language Models, VLMs)來從文件頁面的影像中生成高質量的上下文嵌入,並通過後期互動匹配機制(late interaction matching mechanism)實現快速的查詢匹配。ColPali在效能上大幅超越了現有的文件檢索管道,同時具有更快的處理速度和端到端可訓練性。
邏輯推理RAG
這篇論文提出了一個名為AirRAG(Activating Intrinsic Reasoning for Retrieval Augmented Generation via Tree-based Search)的新方法,旨在解決以下問題:
-
1. 複雜任務中的推理能力:傳統的檢索增強生成(RAG)模型在處理複雜任務時,往往難以有效地檢索到足夠的知識,並且難以理解問題的複雜推理邏輯。 -
2. 單一解空間的限制:現有的迭代或遞迴RAG方法在面對複雜問題時,常常陷入單一解空間,無法充分啟用大型語言模型(LLMs)的決策能力。 -
3. 推理過程中的解決方案空間探索:現有的方法在推理過程中難以有效探索解決方案空間,導致生成的推理步驟質量低下,無法有效指導自我探索。
為了解決這些問題,AirRAG透過以下方式進行改進:
-
設計了五種基本推理動作(系統分析、直接回答、檢索回答、查詢轉換和摘要回答),並通過蒙特卡洛樹搜尋(MCTS)擴充套件到廣泛的樹基推理空間。 -
引入自一致性驗證來探索潛在的推理路徑,並實現推理擴充套件。 -
使用計算最優策略將更多的推理計算應用於關鍵動作,以實現效能提升。
總的來說,AirRAG旨在透過結合系統分析和有效的推理動作,顯著啟用LLMs的內在推理能力,並擴充套件特定任務的解決方案空間。
個性化記憶擴充套件
https://github.com/mem0ai/mem0?tab=readme-ov-file

Mem0是一個為AI助手和代理提供智慧記憶層的開源專案,旨在透過智慧記憶層增強AI助手和代理的能力,實現個性化的AI互動。Mem0的核心功能包括:
-
1. 多層次記憶:支援使用者級、會話級和AI代理級的記憶保留,確保不同層次的互動資訊都能被有效處理。 -
2. 自適應個性化:根據使用者互動不斷改進,提供精準的個性化記憶,透過分析使用者的使用模式,自動調整其行為以更好地滿足使用者需求。 -
3. 開發者友好API:提供簡單易用的API介面,方便開發者整合到現有的應用程式中。 -
4. 跨平臺一致性:確保在不同平臺和裝置上保持統一的行為和資料一致。 -
5. 託管服務:提供無憂的託管解決方案,便於部署和維護。
Mem0的工作流程主要包括以下幾個步驟:
-
1. 記憶提取:處理新資料,如使用者的聊天曆史或最近的互動,提取相關的事實和偏好,並將其儲存在資料儲存中。 -
2. 記憶搜尋:將提取的記憶轉換為嵌入向量,並在向量資料庫中搜索類似的現有記憶。 -
3. 記憶更新:根據新記憶和現有記憶的相似度,決定如何將新資訊與現有知識庫整合,包括新增新記憶、修改現有記憶、合併相關記憶或刪除過時資訊。 -
4. 基於記憶的響應:當用戶提出問題或請求資訊時,Mem0首先在其向量資料庫中搜索相關記憶,並使用這些記憶生成個性化的響應。
RAG系統性能最佳化
這篇論文試圖解決的主要問題是在資源受限的環境中部署高效的檢索增強型生成(Retrieval-Augmented Generation, RAG)系統時面臨的挑戰。具體來說,論文指出了以下幾個關鍵問題:
-
1. 小語言模型(Small Language Models, SLMs)在現有RAG框架中的效能退化問題:當在資源受限場景(如邊緣裝置、隱私敏感應用和即時處理系統)中部署小語言模型時,現有的RAG系統由於SLMs的語義理解和文字處理能力有限,導致效能嚴重下降。 -
2. 對大型語言模型(Large Language Models, LLMs)的過度依賴:目前的RAG系統在構建索引、知識檢索和最終回答生成的整個流程中,主要依賴於LLMs,這導致了巨大的計算開銷和資源需求,限制了它們在資源受限場景中的部署。 -
3. 現有RAG系統與SLMs的架構不匹配:原本為利用LLMs高階能力而設計的RAG架構,在多個關鍵功能上無法適應SLMs的固有限制,如複雜的查詢解釋、多步推理、查詢與文件之間的語義匹配和細微資訊合成。
為了解決這些問題,論文提出了一個名為MiniRAG的新型RAG系統,該系統透過兩個關鍵技術創新來實現極端簡單和高效的設計:語義感知的異構圖索引機制和輕量級拓撲增強檢索方法。這些創新使得MiniRAG即使在使用SLMs時也能實現與基於LLMs的方法相當的效能,並且只需要25%的儲存空間。此外,論文還提供了一個全面的基準資料集,用於在實際的裝置上評估輕量級RAG系統在處理複雜查詢時的表現。
其他相關綜述
檢索增強生成(RAG)是一種強大的技術,它透過從外部來源檢索諸如知識、技能和工具等額外資訊,來提升下游任務的執行效果。圖因其內在的 “由邊連線節點” 的特性,編碼了大量異構且具有關聯性的資訊,這使其在眾多實際應用中成為RAG的寶貴資源。因此,我們最近看到越來越多的關注聚焦於為RAG配備圖結構,即圖檢索增強生成(GraphRAG)。然而,與傳統RAG不同,在傳統RAG中檢索器、生成器和外部資料來源可以在神經嵌入空間中統一設計,而圖結構資料的獨特性,例如格式多樣和特定領域的關係知識,在為不同領域設計GraphRAG時帶來了獨特且重大的挑戰。鑑於GraphRAG廣泛的適用性、相關的設計挑戰以及其近期的迅速發展,迫切需要對其關鍵概念和技術進行系統且最新的綜述。基於這一動機,我們對GraphRAG進行了全面且最新的綜述。
我們的綜述首先透過定義其關鍵元件,包括查詢處理器、檢索器、組織者、生成器和資料來源,提出了一個整體的GraphRAG框架。此外,認識到不同領域的圖呈現出不同的關係模式且需要專門的設計,我們回顧了為每個領域量身定製的GraphRAG技術。最後,我們討論了研究挑戰並集思廣益提出方向,以激發跨學科的機遇。我們的綜述資源庫在https://github.com/Graph – RAG/GraphRAG/ 上公開維護。
本文對檢索增強生成(RAG)進行了全面研究,追溯其從基礎概念到當前前沿水平的發展歷程。RAG 將檢索機制與生成式語言模型相結合,以提高輸出的準確性,解決大語言模型(LLMs)的關鍵侷限性。該研究探索了 RAG 的基本架構,重點關注檢索與生成如何整合,以處理知識密集型任務。
文中詳細回顧了 RAG 的重大技術進展,包括檢索增強語言模型中的關鍵創新,以及在問答、摘要和基於知識的任務等各個領域的應用。討論了近期的研究突破,提出了提高檢索效率的新方法。此外,本文還審視了諸如可擴充套件性、偏差以及部署中的倫理問題等當前面臨的挑戰。提出了未來的研究方向,重點在於提升 RAG 模型的穩健性、擴大 RAG 模型的應用範圍,以及解決其社會影響問題。
本綜述旨在為研究人員和從業者提供基礎資源,幫助他們理解 RAG 在自然語言處理中的潛力及其發展軌跡。
總結
RAG發展的越來越不像“RAG”了,倒是很像工程實踐的框架而且與agent連線越來越緊密,但主要還是依據以下幾條思路的研究和創新:
-
1. 資料庫層面,從最開始的簡單詞嵌入,到向量資料庫,到知識圖譜,再到混合的多種型別資料庫。 -
2. 資料方面,從單純的文字擴充套件到多模態資料,包括文字、音訊、圖片、影片。獲取結構化良好,高質量,乾淨,冗餘小的資料。 -
3. 資料處理方面,從需要大量的預處理步驟到一些端到端的RAG方案,例如用VLM直接處理非結構化文件。 -
4. 知識層面,由於本質還是要讓模型在短時間內理解領域知識,所以用各種手段(常見的有微調)最佳化各種環節中的各種模組,chunk,rerank,embedding,router,檢索器,生成器,索引構建,查詢最佳化。以及各個模組之間的超引數要匹配,例如embedding模型的視窗和chunk的大小匹配。 -
5. workflow方面,設計編排一個高效準確的RAG pipeline。 -
6. 推理執行層面,加速RAG響應時間,降低延遲和開銷。 -
7. 動態自動化層面,由於RAG涉及的流程和元件越來越複雜,讓RAG系統作為一個agentic主動去自適應不同的複雜查詢,並自我完善。
實踐中如何選擇合適的工具來構建RAG系統
這篇論文探討了檢索增強型生成(Retrieval-Augmented Generation, RAG)技術在提升大型語言模型(Large Language Models, LLMs)效能方面的應用。RAG技術透過結合預訓練模型和基於檢索的模型的優勢,提供了一個增強模型效能的穩健框架。然而,儘管RAG技術在整合最新資訊、減少幻覺(hallucinations)和提高響應質量方面已被證明是有效的,特別是在專業領域,但現有的RAG方法仍然存在實施複雜和響應時間過長的問題。
論文的主要目標是透過廣泛的實驗來識別RAG的最佳實踐,以平衡效能和效率。具體來說,論文試圖解決的問題包括:
-
1. RAG方法的複雜性:RAG工作流程涉及多個處理步驟,每個步驟都可以以不同的方式執行,這增加了實施的複雜性。 -
2. 響應時間的延長:在執行RAG時,需要在多個步驟中進行選擇,這可能影響系統的效率和響應時間。 -
3. 系統性能的最佳化:如何系統地最佳化RAG流程中的每個元件,以實現整體效能的提升。 -
4. 多模態檢索技術的整合:探索如何將多模態檢索技術整合到RAG中,以增強對視覺輸入的問題回答能力,並加速多模態內容的生成。
論文透過實驗研究了現有的RAG方法及其潛在的組合,並提出了一些策略,以便於在不同的應用場景中部署RAG,同時平衡效能和效率。此外,論文還展示瞭如何透過“檢索即生成”策略,利用多模態檢索技術顯著提升對視覺輸入的問題回答能力,並加速多模態內容的生成。
工程實踐
RAG框架(強推RAGFlow)
這裡langchain,llama_index等python包當然也是可以的,但是開發難度比較高。
文件解析(強推MinerU)
另一種是用多模態大模型方案構建端到端的RAG流程
RAG的12個痛點
檢索增強生成(RAG)技術雖然在提升內容準確性和相關性方面具有顯著優勢,但在實際應用中也存在一些痛點。根據參考資料,我們可以大致總結下存在的共性痛點以及解決方案:
-
1. 內容缺失:當知識庫中缺少上下文時,RAG系統可能會提供一個看似合理但不正確的答案,而不是表示不知道。解決方案包括清理資料和精心設計提示詞。 -
2. 錯過排名靠前的文件:重要文件可能未出現在系統檢索元件返回的頂部結果中,導致系統無法提供準確的響應。解決方案包括調整檢索策略和嵌入模型調優。 -
3. 不在上下文中 — 整合策略限制:文件整合長度限制超過LLM視窗大小,導致整合策略受限。解決方案是調整檢索策略和嵌入模型調優。 -
4. 檔案資訊未提取:文件中的關鍵資訊未被提取出來。解決方案包括資料清洗、提示詞壓縮和長內容優先排序。 -
5. 格式錯誤:輸出格式與預期不符。解決方案是改進提示詞、格式化輸出和使用大模型的Json模式。 -
6. 答案不正確:缺乏具體細節,導致特需求的答案不正確。解決方案是採用先進的檢索策略。 -
7. 回答不完整:回答不全面。解決方案包括查詢轉換和細分問題。 -
8. 資料提取可擴充套件性:資料攝取的可擴充套件性問題。解決方案是並行處理和提升處理速度。 -
9. 結構化資料QA:結構化資料問答問題。解決方案是鏈式思維表格包和混合自洽查詢引擎包。 -
10. 從複雜PDF中提取資料:從複雜PDF中提取資料困難。解決方案是嵌入式表格檢索技術。 -
11. 後備模型:需要一個後備模型策略。解決方案是Neutrino路由器或OpenRouter。 -
12. LLM安全性:大語言模型的安全性問題。這是一個需要持續關注和解決的問題。
RAG落地時需要考慮的若干問題
-
檢索效率低下: -
痛點描述: 在龐大的資料集中進行有效檢索是一個挑戰,尤其是當需要即時響應時。 -
相關問題: 如何最佳化檢索演算法以減少查詢延遲? -
資訊融合困難: -
痛點描述: 將檢索到的資訊與生成的內容無縫融合是一項複雜任務,需要精確的演算法來確保資訊的準確性和連貫性。 -
相關問題: 如何設計有效的資訊融合策略? -
上下文理解的侷限性: -
痛點描述: 模型可能難以準確理解查詢的上下文,特別是在複雜或模糊的情境中。 -
相關問題: 如何提高模型對上下文的理解能力? -
資料偏差和噪聲: -
痛點描述: 檢索到的資料可能包含偏差和噪聲,這會影響模型的輸出質量。 -
相關問題: 如何識別並減少資料中的偏差和噪聲? -
答案准確性和可靠性問題: -
痛點描述: 生成的答案可能不夠準確或可靠,尤其是在需要精確事實性回答的情況下。 -
相關問題: 如何驗證和提高生成答案的準確性? -
可擴充套件性問題: -
痛點描述: 隨著資料量的增加,模型可能難以保持高效能和可擴充套件性。 -
相關問題: 如何確保模型能夠處理大規模資料? -
資源消耗: -
痛點描述: RAG技術通常需要大量的計算資源,這在資源受限的環境中是一個挑戰。 -
相關問題: 如何最佳化模型以減少資源消耗? -
隱私和安全問題: -
痛點描述: 處理敏感資料時,需要確保使用者隱私和資料安全。 -
相關問題: 如何實現隱私保護的資料處理?
參考文獻
[1] ZHAO P, ZHANG H, YU Q, 等. Retrieval-Augmented Generation for AI-Generated Content: A Survey[A/OL]. arXiv, 2024[2024-06-21]. http://arxiv.org/abs/2402.19473.
[2] GAO Y, XIONG Y, GAO X, 等. Retrieval-Augmented Generation for Large Language Models: A Survey[A/OL]. arXiv, 2024[2024-03-27]. http://arxiv.org/abs/2312.10997.(best)
[3] FAN W, DING Y, NING L, 等. A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models[A/OL]. arXiv, 2024[2024-06-17]. http://arxiv.org/abs/2405.06211.
[4]LEWIS P, PEREZ E, PIKTUS A, 等. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks[A/OL]. arXiv, 2021[2025-01-27]. http://arxiv.org/abs/2005.11401. DOI:10.48550/arXiv.2005.11401.
[5] JIN J, ZHU Y, YANG X, 等. FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research[A/OL]. arXiv, 2024[2024-11-03]. http://arxiv.org/abs/2405.13576. DOI:10.48550/arXiv.2405.13576.
[6] SARMAH B, HALL B, RAO R, 等. HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction[A/OL]. arXiv, 2024[2024-08-24]. http://arxiv.org/abs/2408.04948. DOI:10.48550/arXiv.2408.04948.
[7] GAO Y, XIONG Y, WANG M, 等. Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks[A/OL]. arXiv, 2024[2024-08-24]. http://arxiv.org/abs/2407.21059. DOI:10.48550/arXiv.2407.21059.
[8] PENG B, ZHU Y, LIU Y, 等. Graph Retrieval-Augmented Generation: A Survey[A/OL]. arXiv, 2024[2024-08-21]. http://arxiv.org/abs/2408.08921.
[9] EDGE D, TRINH H, CHENG N, 等. From Local to Global: A Graph RAG Approach to Query-Focused Summarization[A/OL]. arXiv, 2024[2024-08-03]. http://arxiv.org/abs/2404.16130. DOI:10.48550/arXiv.2404.16130.
[10] SINGH A, EHTESHAM A, KUMAR S, 等. Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG[A/OL]. arXiv, 2025[2025-01-26]. http://arxiv.org/abs/2501.09136. DOI:10.48550/arXiv.2501.09136.
[11] ASAI A, WU Z, WANG Y, 等. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection[A/OL]. arXiv, 2023[2025-01-27]. http://arxiv.org/abs/2310.11511. DOI:10.48550/arXiv.2310.11511.
[12] YU S, TANG C, XU B, 等. VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents[A/OL]. arXiv, 2024[2024-10-30]. http://arxiv.org/abs/2410.10594.
[13] FAYSSE M, SIBILLE H, WU T, 等. ColPali: Efficient Document Retrieval with Vision Language Models[A/OL]. arXiv, 2024[2024-10-27]. http://arxiv.org/abs/2407.01449. DOI:10.48550/arXiv.2407.01449.
[14] FENG W, HAO C, ZHANG Y, 等. AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation via Tree-based Search[A/OL]. arXiv, 2025[2025-01-27]. http://arxiv.org/abs/2501.10053. DOI:10.48550/arXiv.2501.10053.
[15] FAN T, WANG J, REN X, 等. MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation[A/OL]. arXiv, 2025[2025-01-26]. http://arxiv.org/abs/2501.06713. DOI:10.48550/arXiv.2501.06713.
[16] HAN H, WANG Y, SHOMER H, 等. Retrieval-Augmented Generation with Graphs (GraphRAG)[A/OL]. arXiv, 2025[2025-01-26]. http://arxiv.org/abs/2501.00309. DOI:10.48550/arXiv.2501.00309.
[17] GUPTA S, RANJAN R, SINGH S N. A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions[A/OL]. arXiv, 2024[2024-11-08]. http://arxiv.org/abs/2410.12837. DOI:10.48550/arXiv.2410.12837.
[18] WANG X, WANG Z, GAO X, 等. Searching for Best Practices in Retrieval-Augmented Generation[A/OL]. arXiv, 2024[2025-01-26]. http://arxiv.org/abs/2407.01219. DOI:10.48550/arXiv.2407.01219.
[19] Papers with Code – RAG[EB/OL]. [2025-01-28]. https://paperswithcode.com/task/rag.
[20] Graph Memory[EB/OL]. [2025-01-28]. https://docs.mem0.ai/open-source/graph-memory.
[21] OROZ T. Comparative Analysis of Retrieval Augmented Generator and Traditional Large Language Models[J]. Data Science.
[22] INFINIFLOW. 萬字長文梳理 2024 年的 RAG[EB/OL]. [2025-01-28]. http://mp.weixin.qq.com/s?__biz=MzkyMTU5MDM2MQ==&mid=2247484133&idx=1&sn=196c5c05baa8896555c8f2cab895c681&chksm=c039ee778047e58bc96c44caafb88d17168076736c090a08da93a6f44704a67634c09063da15#rd.
技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
關於我們
