
(本文閱讀時間:10分鐘)
近年來,檢索增強生成(Retrieval Augmented Generation, RAG)系統在透過外部檢索擴充套件大語言模型(LLMs)能力方面取得了顯著進展。然而,面對現實世界工業應用中複雜多樣的需求,這些系統仍面臨挑戰。僅依賴直接檢索的方式,往往難以從專業語料庫中精準提取深層次的領域特定知識,並進一步進行有效的邏輯推理。
為了解決這一問題,微軟亞洲研究院的研究員們提出了 PIKE-RAG (sPecIalized KnowledgE and Rationale Augmented Generation)方法,專注於提取、理解和應用領域特定知識,同時構建連貫的思考邏輯,以逐步引導 LLMs 獲得準確的響應。

具體來說,PIKE-RAG 旨在解決以下問題:
1. 知識來源的多樣性:現有 RAG 方法在從多樣化的資料來源中高效提取私有知識和揭示潛在思考邏輯方面存在困難,尤其是在複雜的工業場景中。PIKE-RAG 透過構建多層異構圖,能夠表示不同層次的資訊和知識,從而更好地解決這一問題。
2. 多樣的能力與統一方法的矛盾:現有 RAG 方法未能充分考慮不同應用場景中的複雜性和特定需求。透過任務分類和系統能力分級,PIKE-RAG 提供了一種能力需求驅動的方案搭建策略,顯著提高了系統在不同複雜性問題上的適應能力。
3. LLMs 的領域專業知識不足:在工業應用中,RAG 需要利用專業領域的私有知識和邏輯,但現有方法在應用於專業領域時表現不佳,尤其是在 LLMs 不擅長的領域。PIKE-RAG 透過知識原子化和任務動態分解,增強了對領域特定知識的提取和組織能力。此外,該系統能夠自動從系統互動日誌中提取領域知識,透過 LLMs 微調將學習到的知識固化下來,以更好地應用於未來的問答任務中。
PIKE-RAG
論文連結:
https://arxiv.org/abs/2501.11551
GitHub 連結:
https://github.com/microsoft/PIKE-RAG

如圖1所示,研究員們提出了一個多功能且可擴充套件的 RAG 框架。在該框架中,透過調整主模組內的子模組,可以實現側重不同能力的 RAG 系統。該框架主要由多個基本模組組成,包括檔案解析、知識提取、知識儲存、知識檢索、知識組織、以知識為中心的推理,以及任務分解與協調。透過這種模組化的架構設計,PIKE-RAG 能夠根據不同的系統能力需求,靈活搭建不同的 RAG 方法,從而應對實際場景中的複雜需求。

圖1:PIKE-RAG 框架全景圖
以下透過醫藥領域的四個案例,詳細介紹 PIKE-RAG 系統在不同能力側重下的應用與最佳化:
側重事實資訊檢索能力的系統流程
任務示例:“查詢某位病人在某日的就診記錄”
在此流程中需要重點關注的挑戰是:知識的理解和提取常因不恰當的知識分塊而受阻,導致語義連貫性被破壞,檢索過程複雜且低效;常用的基於嵌入模型的知識檢索會受到嵌入模型在對齊專業術語和別名方面的侷限性影響,使得系統精準度降低。如圖2所示,PIKE-RAG 在知識抽取過程中可以使用具備上下文感知能力的分片技術、自動的術語標籤對齊技術以及多粒度的知識抽取方法等模組,提高知識抽取和檢索的準確度,增強事實資訊的檢索能力。

圖2:側重事實資訊檢索能力的系統流程
側重事實資訊檢索和連結能力的系統流程
任務示例:“查詢並總結某位病人近五年的就診情況”
相較於資訊檢索能力,資訊的連結不僅需要有效的知識提取和利用,同時還需要系統具備較強的領域相關知識,能夠準確理解任務並對其進行合理的分解。為了達到這一目標,PIKE-RAG 可以在上述流程中增加任務分解模組,分步驟地從知識庫中提取相關的知識並進行連結,直至給出最終回答。

圖3:側重事實資訊檢索和連結能力的系統流程
側重基於事實進行推理預測能力的系統流程
任務示例:“根據某位病人的病情描述,推測其最可能患的疾病”
基於事實進行推理預測的任務在考驗系統組織、收集、檢索資訊能力的同時,還要求 LLMs 能夠準確理解這些資訊,並結合自身掌握的領域知識進行合理推理和預測。為此需要在知識組織階段增加對結構化知識的提取和整理,例如從過往的非正式病情描述中提取專業的病症描述,並與確診的疾病和治療手段進行對映。實驗發現,相較於原始的病情描述,結構化、標準化的病例能夠顯著提升 LLMs 的推斷預測能力。

圖4:側重基於事實進行推理預測能力的系統流程
側重基於事實進行創新生成能力的系統流程
任務示例:“根據某位病人的病情描述,建議合理的治療方案和應對措施”
LLMs 在處理領域知識時,需要從複雜知識庫中提取邏輯推理並關聯多個因素,這對其理解力要求較高。創造性問題開放性強,評估答案質量困難。為了更準確地回答此類問題,我們引入了多智慧體規劃能力,透過不同角色模擬,從更多視角檢索知識。例如,在醫療診斷中,不同科室的智慧體醫生可以提供更全面的治療建議。

圖5:側重基於事實進行創新生成能力的系統流程

如圖6所示,研究員們構建了包括資訊資源層、語料庫層和知識提煉層的異構圖,以實現語義理解和基於推理的檢索,從而支援多種下游任務。
資訊資源層負責捕捉多樣的資訊來源,並將其視為源節點,透過邊來表示節點之間的引用關係。這種結構有助於資訊的交叉引用和知識的上下文化,為依賴多個來源的複雜推理任務奠定了基礎。
語料庫層會將解析的資訊組織成文字塊,同時保留文件的原始層級結構。對於多模態內容(如表格、圖形等),透過 LLMs 進行提取和總結,並將其作為塊節點整合到知識庫中,可確保多模態知識能夠被高效檢索。此外,該層支援不同粒度的知識提取,允許在各種內容型別中進行準確的語義分塊和檢索。
在知識提煉層,語料庫進一步被提煉為結構化的知識形式,例如知識圖譜、原子知識和結構化的表格知識。透過在提煉層組織結構化知識,系統能夠基於更深層的領域知識進行推理和綜合,進而顯著增強相關能力。

圖6:包含三層資訊的異構知識庫示例
在檢索階段,研究員們會同時考慮三個層級的知識。除了常見的語義級別的關聯外,資訊資源層和知識提煉層的資訊也會被用於評估檢索知識的關聯性。

圖7:資訊檢索會同時考慮三層資訊對於知識權重的影響

儘管目前利用現有的 LLMs 可以進行知識抽取、整理和檢索,並完成任務分解、推理和預測。但在某些領域,如醫療健康等,存在大量有價值的私有資料和知識,讓 LLMs 理解這些私有知識並更好地用於領域任務的分解、推理和預測是一個挑戰。
為此,研究員們在 PIKE-RAG 中增加了支援系統自我進化和學習的模組。具體而言,PIKE-RAG 會定期分析系統執行日誌,從中提取專家反饋並進一步微調 LLMs。為了應對專家反饋效率低和成本高的問題,研究員們還在系統中引入了資料自動收集模組。對於回答錯誤的問題,系統會利用進化演算法自動嘗試不同的知識抽取和檢索策略,直到問題得到正確回答。進化出的好的策略會被儲存用來微調 LLMs,使獲取的知識得以固化並應用於未來的問答中。透過執行此過程,系統可以不斷進化,持續獲得與領域相關的知識與經驗。圖8和9展示了資料收集過程以及收集的資料如何被用以微調任務分解元件。

圖8:一種自發無監督的資料收集機制

圖9:如何從收集的資料中提取知識和推理邏輯並固化到模型中

在公開的基準測試中,PIKE-RAG 在多個多跳問答資料集(如 HotpotQA、2WikiMultiHopQA、MuSiQue)上展示了優異的效能。與現有的基準方法相比,PIKE-RAG 在準確性、F1 得分等指標上均表現出色。在 HotpotQA 資料集上,PIKE-RAG 的準確性達到了87.6%,在 2WikiMultiHopQA 上達到了82.0%,在更具挑戰性的 MuSiQue 資料集上,準確性為59.6%。這些結果表明,PIKE-RAG 在處理複雜推理任務方面具有顯著優勢,特別是在需要整合多源資訊和執行多步驟推理的場景中。
多層次的檢索機制和任務分解策略使得 PIKE-RAG 能夠有效地從私有知識庫中提取相關資訊,並在推理過程中逐步構建連貫的邏輯鏈。這種創新方法不僅在公開資料集(wikipedia)上展現出卓越的效能,也在法律領域的基準測試中(如 LawBench 和 Open Australian Legal QA)取得了顯著成績,進一步驗證了其在專業領域應用中的潛力。

隨著 LLMs 能力的不斷增強,其在工業場景中的應用潛力正逐漸釋放。然而,基於安全和隱私等考量,許多特定領域的私有資料無法直接用於 LLMs 訓練,這在一定程度上限制了 LLMs 在這些場景中的表現。PIKE-RAG 能夠將這些私有資料轉化為更有效的知識和邏輯,從而指導 LLMs 在特定領域做出更精準的決策。
PIKE-RAG 已經在工業製造、採礦、製藥等多個領域進行了測試應用,並顯著提升了問答系統的準確度。未來,研究員們將持續拓展其在更多領域的應用範圍,同時也將繼續探索其他形式的知識和邏輯,以及它們與特定場景的最佳適配。此外,研究員們也將研究和關注更高效的模型對齊與微調方法,以便能夠用更少量的資料將特定的知識和邏輯有效整合到現有模型中。
你也許還想看:
