效能不降反增？縮減率2.64的偽圖索引為何有助於RAG

論文題目：

Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning

作者單位：

中國人民大學（RUC），上海演算法創新研究院（IAAR）

論文地址：

https://arxiv.org/pdf/2405.16933

程式碼地址：

https://github.com/IAAR-Shanghai/PGRAG

研究動機

檢索增強生成（RAG）透過整合外部檢索庫，為大語言模型（LLMs）提供了一種經濟的知識更新策略，從而擴充套件了 LLMs 的知識邊界。然而，資料質量本質上決定著檢索效能的上限，因此，如何挖掘和組織龐大的知識，從源頭確保資料的質量，是當前 RAG 研究領域的首要議題。

知識精煉（Refinement）因其能夠去除無關或冗餘資訊，大幅降低知識庫的儲存成本，常被用於檢索前的索引階段，對原始文字進行知識細化。例如，在基於知識圖譜（KGs）的 RAG 方法中，文字常被轉化為 KGs，以捕捉不同細粒度知識孤島之間的深層語義。這種將概念聚合的知識細化方法，透過顯式揭示隱含的關聯關係，能夠為 LLMs 提供關聯的結構化上下文資訊，從而支援更復雜的推理。

然而，在多數情況下，構建嚴格、完整的 KGs 是極具困難且非必要的，因為 LLMs 本身就具備強大的語義理解能力，能夠在靈活的半結構化資料上進行結構化推理。為此，我們放鬆了 KG schema 對於資料和關係模式的嚴格約束，構建了一種介於傳統 KGs 與 Chunk 切分之間的形態結構——偽圖（PG）。

如圖 1 所示，我們將多篇新聞文件中抽取的不同粒度知識，以標記的邏輯串聯起來，形成一個結構最佳化、知識密集、表示靈活的檢索知識結構 PG。這種中間形態結構既保留了 KGs 的知識性和壓縮性，又兼具普通 Chunk 劃分的通用性，可有效避免生成器注意力被無關的噪聲資訊所分散。

接著，我們將 PG 納入到前處理 RAG 框架中，提出的 PG-RAG 不僅能確保 LLMs 快速訪問背景資訊，減少生成響應的延遲，還能有效過濾無關細節，提升召回和響應內容的相關性。具體地，在檢索階段，PG-RAG 模仿人類翻閱筆記的行為，利用偽圖索引在偽圖知識庫上進行自適應遊走，收集並整合的結構化上下文資訊到 LLMs 中，緩解證據缺失導致的幻覺生成現象。

實驗結果表明，在文字縮減率高達 2.64 條件下的單文件任務中，PG-RAG 在所有關鍵評估指標上顯著優於當前最佳基準 KGP-LLaMA，整體效能平均提升約 11.6%。其中，BLEU 分數提升約 14.3%，QE-F1 提高約 23.7%。在多文件場景中，PG-RAG 的平均效能至少比最佳基準高約 2.35%。同時，其 BLEU 和 QE-F1 穩定提升約 7.55% 與 12.75%。

背景回顧

在知識庫構建，即索引階段，我們需要先對原始資料進行清洗和抽取，將其轉換為統一的純文字格式，我們還需進行文字分塊，適應 LLMs 中的上下文限制，然後，獲取分塊的嵌入用於後續的向量檢索。如上表所示，現有的索引構建方法主要分為以下幾類：

1. 標準分塊將資料劃分為固定大小的塊；

2. 鏈式分塊允許在塊之間建立線性關聯，小塊用於檢索，大塊進行召回；

3. 樹形分塊，如 MEMWALKER 和 RAPTOR，則透過提取和整合段落及其摘要，將形成的摘要樹用於層次化檢索；與新增全域性資訊的增量式索引構建方法不同；

4. 提煉並組織文字的壓縮式索引構建策略不僅能過濾噪聲，還保留了知識間的關聯關係。例如，T-RAG 透過提取實體及其從屬關係形成的實體樹，輔助增強上下文。基於 KGs的 RAG，如 KG-RAG、SURGE 等，透過在高度壓縮的圖結構上進行實體匹配與上下文擴充（基於遊走或圖嵌入）召回的高質量子圖，能確保證據的質量，但 KGs 構建困難；

5. 一些方法透過簡化 KGs

的 schema，減少知識構建的複雜性，使其更易於維護。例如，Graph-RAG 和 KGP，透過在固定塊上用“聚類+語義邊”的方式進行知識融合，但這樣的知識細化缺乏對知識和知識間豐富關係的挖掘和表徵；緊隨本文發表的 HippoRAG 直接將文字轉為無 schema 的 KGs，以模擬人腦內部知識聯想記憶所依賴的海馬索引結構，從一定程度上平衡了檢索庫的知識性和構建方法的普適性。

我們提出的 PG-RAG，則藉助 LLMs 的通用學習能力，自主梳理文件內容，將生成的表意清晰，脈絡分明的層次化導圖直接作為需要長期記憶的知識（偽圖）索引，避免策略固有或人為預設的 schema 限制。

具體地，偽圖索引構建策略的本質是在無 schema 限制的 KGs 基礎上，設限了一種簡單且常用的記憶 schema：它引導知識從寬泛的超主題逐步聚焦到特定主題，再經由多條明確的關鍵詞路徑路由到具體的事實中去，後又延申至更多相似或互補的關聯事實。這種方法由淺入深，允許 PG 在保持對全域性視角的把握的同時，具備深入挖掘區域性細節的潛力。

偽圖的構建

3.1 事實核查項（FCIs）的抽取與驗證

抽取 FCIs：我們先將原始文字轉化為包含 FCIs（由 LLMs 抽取）的可驗證的事實核查文字（示例見下圖）。需要注意的是，LLMs 集中於識別那些可以驗證原始文字的關鍵事實。這種目標明確的驗證式抽取方式使得 LLMs 專注於能夠直接支援或反駁原文宣告的可驗證事實，從而儘量避免因上下文缺失或解釋錯誤而引發的幻覺。

這些資訊項可以是細粒度的（如具體的資料、日期和地點）或粗粒度的（如觀點或政策）。在思維導圖生成前，對文字進行這樣預轉化，能確保事實知識不被遺漏。

驗證 FCIs：為了確保所提取的 FCIs 與原始文字的一致性，我們依次對每篇文章獲取的 FCIs 進行校驗。具體地，我們採用了結合 BERT-Score 和 ROUGE-L 指標的綜合評估函式，用於評估 FCIs 與原始文字在語義相似和細節召回兩方面的表現：

對於未驗證透過的原始文字，我們用 LLMs 重新生成 FCIs，直至驗證透過。

3.2 思維導圖生成（文件內知識的梳理）

我們將驗證透過的 FCIs 轉化為一個層次化的導圖：

將驗證過的 FCIs 和它們對應的核心主題（MT）輸入到 LLMs 中。
提示 LLMs 將 FCIs 轉化為圍繞 MT 的思維導圖。形成的思維導圖表意清晰、脈絡分明，將文字的主題、關鍵詞（路由）和事實等多種型別的知識，用有向的導航線串聯成多條知識路由鏈（事實路徑），實現了對文件內知識的梳理。

3.3 知識融合（文件間關係的構建）

我們對多個獨立的思維導圖進行聚類和連結，形成偽圖網路：

知識嵌入學習（導圖索引的構建）：透過沿事實路徑提取並拼接節點屬性，為每個節點生成一個包含豐富上下文資訊的嵌入向量，以捕捉從主題到該節點的知識資訊：
構建聚類：計算節點嵌入向量之間的相似度，將相似節點聚集為一類，併為每類分配一個唯一的超節點。
知識連結：為類內節點和對應超節點建立相似連結，將原本孤立的思維導圖透過相似的主題或互補的事實關聯，增強了網路的導航性和資訊的可訪問性。

透過以上三個步驟，我們實現了對知識的提取、組織和融合，形成了一個靈活的結構化知識網路用於索引。與嚴格的 KGs 相比（存在資料模式限制，例如將《史蒂夫·喬布斯傳》固定在書名或書籍的實體型別中），偽圖放鬆資料模式約束、允許資料根據不同上下文進行適應性劃分。以《史蒂夫·喬布斯傳》為例，該資料可以充當不同型別的節點：

提供思維導圖起點的主題實體。例如，下面的事實路徑展示了《史蒂夫·喬布斯傳》作為一個主題，關聯傳記中的具體內容：

《史蒂夫·喬布斯傳》-> 喬布斯的生平事蹟 -> …
《史蒂夫·喬布斯傳》-> 喬布斯的職業生涯 -> …
《史蒂夫·喬布斯傳》-> 喬布斯的個人生活 -> …

提供與主題直接相關的詳細資料或描述的事實實體。例如，在“美國出版商西蒙舒斯特對外發布出版訊息”的主題下，《史蒂夫·喬布斯傳》可以直接作為一個事實實體，與出版資訊關聯：

美國出版商西蒙舒斯特對外發布出版訊息 -> 出版書籍 ->《史蒂夫·喬布斯傳》

充當主題實體與事實實體之間的中間資訊節點的路由實體，幫助闡明和指導知識的傳遞路徑。例如，在“人物傳記閱讀記錄”的主題中，《史蒂夫·喬布斯傳》可以用於導航，展示喬布斯傳記帶來的啟發等：

人物傳記閱讀記錄 ->《史蒂夫·喬布斯傳》-> 啟發 -> 創新精神 …
人物傳記閱讀記錄 ->《史蒂夫·喬布斯傳》-> 啟發-> 領導力 …
美國出版商西蒙舒斯特對外發布出版訊息 ->《史蒂夫·喬布斯傳》-> 釋出日期 -> …
美國出版商西蒙舒斯特對外發布出版訊息 ->《史蒂夫·喬布斯傳》-> 市場反響 -> …

同時，偽圖還放鬆了關係的預設限制。KGs 中的關係通常是預定義的，具有較高的約束性，而偽圖採用更通用、更靈活的關係表徵方式。相比於固定的相似關係或者預設的複雜關係，偽圖的導航線可以隱含地表徵包括並列、因果、邏輯後續等更豐富的關係型別。這些關係根據資料本身的語境和內容自動確定，能夠更準確地反映知識點之間的實際聯絡。

偽圖的檢索

4.1 關鍵資訊定位

我們首先借助 LLMs 將查詢轉換為關鍵答題要點（KPs），輔助檢索器在 PG 知識庫中召回特定的資訊。例如，對於簡單的事實查詢“乾眼症的發生趨勢”，答題要點可以是“乾眼症呈增加或減少趨勢”。對於查詢，如“哪些環境因素可能導致孩子乾眼症症狀加重”，模型可生成多角度答題要點，如電子螢幕使用時間、室內空氣質量等，確保回答全面。

4.2 逆向DFS擴充上下文

一旦關鍵點被發現，人們通常會對上下文進一步挑選用於證據的細化。我們設計的偽圖檢索演算法（PGR）參考這種檢索直覺，在偽圖上定位到的錨節點處進行逆向 DFS 搜尋。例如，針對問題“北京實施了哪些防洪措施？”，PGR 首先定位到事實路徑“北京 -> 防洪措施 -> 停工”，然後，從錨節點“停工”出發，逆向遍歷到的路由節點“防洪措施”能更為全面地支援查詢。

對於細節問題，如“防洪措施中的停工與停產有何區別？”，“防洪措施”下的“停產”節點比“停課”有更高的貢獻度，作為錨節點補充知識，支援問題的回答。同時，為了提高效率，我們在矩陣中模擬從錨節點逐步進行向上進行 DFS 的自然選擇方法，透過預載遊走所需的 ID 和評估所需的向量作為模板矩陣，用於並行執行候選節點的重要性評估與選擇。其中，ID 模板矩陣記錄了從根節點到葉子節點完整路徑的 IDs。向量模板矩陣儲存了對應位置的知識嵌入。

4.3 控制矩陣生成

對於每個錨節點，我們透過生成控制矩陣以評估候選節點對該節點的支援度。具體控制條件如下：

支援：如果相似度差值小於支援閾值（例如 0.03），則候選節點的貢獻權重設為1。
模糊：如果相似度差值介於支援閾值和模糊閾值之間（例如 0.05），則貢獻權重設為0.5。
拒絕：如果相似度差值超過模糊閾值，則貢獻權重設為 0。

接著，我們計算候選節點的貢獻值，貢獻權重×節點重要性（節點與 KP 的相似性），然後對遊走邊界進行初步限制：

從錨節點開始向左遍歷，計算並記錄貢獻值，直到貢獻值為 0 的位置停止，確定左邊界。
然後從左邊界向右遍歷其他行，計算並記錄貢獻值，遇到貢獻值為 0 的位置停止，即不擴充套件後續的子節點，最終生成該錨節點對應的控制矩陣（CM）。

4.4 通路矩陣生成

為了進一步細化從錨節點出發的可達範圍，確保控制和選擇只在可達的候選節點上進行，我們截取了從錨節點出發到限定上限父節點的通路範圍（在控制矩陣的生成過程中，錨節點向左遍歷的最後一個非零貢獻值節點位置即為上限“父節點”位置）。

在模板矩陣中，可以透過行的左遍歷來追溯從任一葉子節點到父節點的路徑。探索從任一父節點可達的子節點路徑，只需在 ID 模板矩陣中找到所有 ID 等於該父節點 ID 的位置，即為共父節點的索引。從這些索引位置向右遍歷，即可以找到從該父節點出發的所有遍歷路徑。在 ID 矩陣中，共父節點的所有路徑通常會在連續行中出現。

因此，從任何一個葉子節點到某一父節點的 DFS 可轉化為確定包含該父節點的區域性連續行的邊界。具體地，左邊界為上限父節點的列索引，而上下邊界由共父的起始和結束行的行索引確定。接著，從這些邊界位置並行向右遍歷至 ID 不為空以確定右邊界，然後，將區域內的值設為 1，其餘處設為 0，形成從一個錨節點出發的通路矩陣 PM，指示了從該節點出發的連通候選。

4.5 結構化上下文生成

染色矩陣：將每個錨節點對應的控制矩陣 CM 與通路矩陣 PM 進行點乘，生成染色矩陣。具體地，節點只有在被選擇時會被“染色”，其著色的強度取決於該節點與關鍵點（KP）的相似度及其對錨節點的支援度。同一節點可以根據不同的查詢或錨節點被多次著色，每次著色程度都可能不同。

聚合矩陣：透過疊加所有錨節點的染色矩陣，形成聚合矩陣。這個矩陣中的每個元素記錄了候選節點在多個錨節點引導的子圖上的總“顏色強度”，即對查詢的總貢獻值。

上下文的選擇：從聚合矩陣中選出總貢獻值最高的行（事實路徑），並將其整合成知識庫中的導圖形式，用於支援問題的回答。

實驗要點總結

5.1 資料集

本實驗中，我們選取了 CRUD-RAG 基準測試中的三個問答（QA）資料集，以評估 RAG 系統在知識密集型應用中的效能，包括模型在回答單文件事實能力和結合多文件資訊進行推理的能力：

單文件問答（1-Document QA）專注於基於事實的問題解答，考察模型精確定位和提取相關資訊的能力。
雙文件問答（2-Document QA）用於測試模型是否能夠利用兩篇文件中的資訊進行推理和整合。
三文件問答（3-Document QA）包含的問題需要模型必須同時綜合三篇文件的資訊才能作答，進一步增加了任務的難度，要求模型具備深層次的理解和分析能力。

5.2 基線

基礎模型（w/o RAG）：GPT-3.5
傳統的 RAG：關鍵詞檢索（BM25）、密集檢索（DPR）、混合搜尋（BM25+DPR）、混合搜尋+重排
基於樹的 RAG：Tree traversal、Collapsed tree retrieval
基於圖的 RAG：Graph-RAG、KGP

5.3 整體比較

傳統 RAG 方法表現較好，優於直接使用基礎生成模型，尤其是使用具有混合重排序機制的 RAG。
基於樹的 RAG 方法在大資料集上表現不佳，因為聚合效果不好，單個節點資訊過載，噪聲大。
基於圖的 RAG 方法（Graph-RAG 和 KGP）在多文件任務中表現優於其他基線方法，但在單文件任務中優勢不明顯。
PG-RAG 得益於其精煉的偽圖結構和基於遊走的上下文擴充機制，在不同難度的任務中均表現出色。

5.4 知識構建方法分析

傳統 RAG 僅進行簡單分塊，樹基和圖基 RAG 透過融合演算法在塊間建立關聯關係資訊，但均未改變知識原本的嵌入分佈，PG-RAG 透過利用 LLMs 進行語義分割，得到的事實嵌入分佈更為分散，利於聚類，即知識的融合。
RAPTOR Cluster 在大資料集上聚類效果差，KNN 聚類耗時較長，而 PG-RAG 方法知識融合的速度快且效果佳。