

作者單位:
論文地址:
程式碼地址:


實驗結果表明,在文字縮減率高達 2.64 條件下的單文件任務中,PG-RAG 在所有關鍵評估指標上顯著優於當前最佳基準 KGP-LLaMA,整體效能平均提升約 11.6%。其中,BLEU 分數提升約 14.3%,QE-F1 提高約 23.7%。在多文件場景中,PG-RAG 的平均效能至少比最佳基準高約 2.35%。同時,其 BLEU 和 QE-F1 穩定提升約 7.55% 與 12.75%。


的 schema,減少知識構建的複雜性,使其更易於維護。例如,Graph-RAG 和 KGP,透過在固定塊上用“聚類+語義邊”的方式進行知識融合,但這樣的知識細化缺乏對知識和知識間豐富關係的挖掘和表徵;緊隨本文發表的 HippoRAG 直接將文字轉為無 schema 的 KGs,以模擬人腦內部知識聯想記憶所依賴的海馬索引結構,從一定程度上平衡了檢索庫的知識性和構建方法的普適性。
具體地,偽圖索引構建策略的本質是在無 schema 限制的 KGs 基礎上,設限了一種簡單且常用的記憶 schema:它引導知識從寬泛的超主題逐步聚焦到特定主題,再經由多條明確的關鍵詞路徑路由到具體的事實中去,後又延申至更多相似或互補的關聯事實。這種方法由淺入深,允許 PG 在保持對全域性視角的把握的同時,具備深入挖掘區域性細節的潛力。




3.2 思維導圖生成(文件內知識的梳理)
-
將驗證過的 FCIs 和它們對應的核心主題(MT)輸入到 LLMs 中。 -
提示 LLMs 將 FCIs 轉化為圍繞 MT 的思維導圖。形成的思維導圖表意清晰、脈絡分明,將文字的主題、關鍵詞(路由)和事實等多種型別的知識,用有向的導航線串聯成多條知識路由鏈(事實路徑),實現了對文件內知識的梳理。
3.3 知識融合(文件間關係的構建)
我們對多個獨立的思維導圖進行聚類和連結,形成偽圖網路:
-
知識嵌入學習(導圖索引的構建):透過沿事實路徑提取並拼接節點屬性,為每個節點生成一個包含豐富上下文資訊的嵌入向量,以捕捉從主題到該節點的知識資訊: -
構建聚類:計算節點嵌入向量之間的相似度,將相似節點聚集為一類,併為每類分配一個唯一的超節點。 -
知識連結:為類內節點和對應超節點建立相似連結,將原本孤立的思維導圖透過相似的主題或互補的事實關聯,增強了網路的導航性和資訊的可訪問性。

透過以上三個步驟,我們實現了對知識的提取、組織和融合,形成了一個靈活的結構化知識網路用於索引。與嚴格的 KGs 相比(存在資料模式限制,例如將《史蒂夫·喬布斯傳》固定在書名或書籍的實體型別中),偽圖放鬆資料模式約束、允許資料根據不同上下文進行適應性劃分。以《史蒂夫·喬布斯傳》為例,該資料可以充當不同型別的節點:
-
提供思維導圖起點的主題實體。例如,下面的事實路徑展示了《史蒂夫·喬布斯傳》作為一個主題,關聯傳記中的具體內容: -
《史蒂夫·喬布斯傳》-> 喬布斯的生平事蹟 -> … -
《史蒂夫·喬布斯傳》-> 喬布斯的職業生涯 -> … -
《史蒂夫·喬布斯傳》-> 喬布斯的個人生活 -> … -
提供與主題直接相關的詳細資料或描述的事實實體。例如,在“美國出版商西蒙舒斯特對外發布出版訊息”的主題下,《史蒂夫·喬布斯傳》可以直接作為一個事實實體,與出版資訊關聯: -
美國出版商西蒙舒斯特對外發布出版訊息 -> 出版書籍 ->《史蒂夫·喬布斯傳》 -
充當主題實體與事實實體之間的中間資訊節點的路由實體,幫助闡明和指導知識的傳遞路徑。例如,在“人物傳記閱讀記錄”的主題中,《史蒂夫·喬布斯傳》可以用於導航,展示喬布斯傳記帶來的啟發等: -
人物傳記閱讀記錄 ->《史蒂夫·喬布斯傳》-> 啟發 -> 創新精神 … -
人物傳記閱讀記錄 ->《史蒂夫·喬布斯傳》-> 啟發-> 領導力 … -
美國出版商西蒙舒斯特對外發布出版訊息 ->《史蒂夫·喬布斯傳》-> 釋出日期 -> … -
美國出版商西蒙舒斯特對外發布出版訊息 ->《史蒂夫·喬布斯傳》-> 市場反響 -> …
同時,偽圖還放鬆了關係的預設限制。KGs 中的關係通常是預定義的,具有較高的約束性,而偽圖採用更通用、更靈活的關係表徵方式。相比於固定的相似關係或者預設的複雜關係,偽圖的導航線可以隱含地表徵包括並列、因果、邏輯後續等更豐富的關係型別。這些關係根據資料本身的語境和內容自動確定,能夠更準確地反映知識點之間的實際聯絡。

偽圖的檢索

4.3 控制矩陣生成
對於每個錨節點,我們透過生成控制矩陣以評估候選節點對該節點的支援度。具體控制條件如下:
-
支援:如果相似度差值小於支援閾值(例如 0.03),則候選節點的貢獻權重設為1。 -
模糊:如果相似度差值介於支援閾值和模糊閾值之間(例如 0.05),則貢獻權重設為0.5。 -
拒絕:如果相似度差值超過模糊閾值,則貢獻權重設為 0。
接著,我們計算候選節點的貢獻值,貢獻權重×節點重要性(節點與 KP 的相似性),然後對遊走邊界進行初步限制:
-
從錨節點開始向左遍歷,計算並記錄貢獻值,直到貢獻值為 0 的位置停止,確定左邊界。 -
然後從左邊界向右遍歷其他行,計算並記錄貢獻值,遇到貢獻值為 0 的位置停止,即不擴充套件後續的子節點,最終生成該錨節點對應的控制矩陣(CM)。
為了進一步細化從錨節點出發的可達範圍,確保控制和選擇只在可達的候選節點上進行,我們截取了從錨節點出發到限定上限父節點的通路範圍(在控制矩陣的生成過程中,錨節點向左遍歷的最後一個非零貢獻值節點位置即為上限“父節點”位置)。

上下文的選擇:從聚合矩陣中選出總貢獻值最高的行(事實路徑),並將其整合成知識庫中的導圖形式,用於支援問題的回答。



5.1 資料集
本實驗中,我們選取了 CRUD-RAG 基準測試中的三個問答(QA)資料集,以評估 RAG 系統在知識密集型應用中的效能,包括模型在回答單文件事實能力和結合多文件資訊進行推理的能力:
-
單文件問答(1-Document QA)專注於基於事實的問題解答,考察模型精確定位和提取相關資訊的能力。 -
雙文件問答(2-Document QA)用於測試模型是否能夠利用兩篇文件中的資訊進行推理和整合。 -
三文件問答(3-Document QA)包含的問題需要模型必須同時綜合三篇文件的資訊才能作答,進一步增加了任務的難度,要求模型具備深層次的理解和分析能力。
-
基礎模型(w/o RAG):GPT-3.5 -
傳統的 RAG:關鍵詞檢索(BM25)、密集檢索(DPR)、混合搜尋(BM25+DPR)、混合搜尋+重排 -
基於樹的 RAG:Tree traversal、Collapsed tree retrieval -
基於圖的 RAG:Graph-RAG、KGP
-
傳統 RAG 方法表現較好,優於直接使用基礎生成模型,尤其是使用具有混合重排序機制的 RAG。 -
基於樹的 RAG 方法在大資料集上表現不佳,因為聚合效果不好,單個節點資訊過載,噪聲大。 -
基於圖的 RAG 方法(Graph-RAG 和 KGP)在多文件任務中表現優於其他基線方法,但在單文件任務中優勢不明顯。 -
PG-RAG 得益於其精煉的偽圖結構和基於遊走的上下文擴充機制,在不同難度的任務中均表現出色。

-
傳統 RAG 僅進行簡單分塊,樹基和圖基 RAG 透過融合演算法在塊間建立關聯關係資訊,但均未改變知識原本的嵌入分佈,PG-RAG 透過利用 LLMs 進行語義分割,得到的事實嵌入分佈更為分散,利於聚類,即知識的融合。 -
RAPTOR Cluster 在大資料集上聚類效果差,KNN 聚類耗時較長,而 PG-RAG 方法知識融合的速度快且效果佳。

5.5 知識構建結果分析

與直接使用原始查詢相比,PGR 使用的 KPs 能更準確地反映查詢意圖,提高證據的召回率。此外,在矩陣結構上進行 DFS 的複雜度為 O(m+3n),優於傳統 DFS 的複雜度 O(m×n),因為,樹深度 n 通常很小,在 3~5 左右。

本論文提出的偽圖結構透過放鬆傳統 KGs 中對於資料和關係的模式約束,旨在構建一個更加靈活和自適應的知識網路。它能夠根據語境靈活劃分資料,表徵多樣化的關係,形成一個更加全面、系統的知識索引,從而提高知識的組織和訪問效率,支援複雜的推理和分析任務。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
