破解RAG衝突難題!中科院團隊提出CK-PLUG:僅一個引數,實現大模型知識依賴的精準動態調控

破解RAG衝突難題!中科院團隊提出CK-PLUG:僅一個引數,實現大模型知識依賴的精準動態調控
在大語言模型(LLMs)檢索增強生成(RAG)技術快速迭代的今天,一個根本性難題始終存在困擾 RAG 的可信生成:當模型引數記憶與外部檢索知識衝突時,如何實現知識依賴的精準調控?
目前方法只能依賴大模型自身判斷知識可信度,這超過了模型能力的範圍;並且現有的對齊技術都是單邊提升模型的知識偏好,無法有效的實現知識依賴的雙向控制。
然而現實場景中,大模型使用者應該根據具體的 RAG 部署場景(如模型先進性、檢索質量等)來靈活調控模型更多的相信檢索上下文還是自己的引數知識,從而得到更可靠的模型生成。
中科院計算所聯合新加坡國立大學、加州大學默塞德分校團隊提出創新解決方案 CK-PLUG,一個功能強大但隨查隨用的知識依賴調控技術,僅透過一個引數 token-level 地精準控制語言模型在生成過程中對內外部知識的依賴程度
CK-PLUG 能夠在模型生成時自動檢測並調整知識衝突,使得模型能夠在不同的 RAG 場景下靈活應對,並在準確性和流暢性之間找到最佳平衡。
CK-PLUG 的提出為大語言模型的知識依賴控制技術提供了重要支援,推動了 LLM 向更加智慧、可調節的知識生成方向發展。
論文標題:
Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models
論文連結:
https://arxiv.org/pdf/2503.15888
程式碼連結:
https://github.com/byronBBL/CK-PLUG
引言
▲ 圖1. LLM 很難在引數化知識和上下文知識之間確定優先順序,尤其是在面對過時的引數或誤導性的上下文時,這降低了現實場景中的可靠性
檢索增強生成(Retrieval-Augmented Generation, RAG)作為大語言模型(LLMs)應用的關鍵技術,透過結合外部知識與語言模型的生成能力,顯著提高了文字生成的準確性。然而,外部上下文與模型內部知識之間的衝突問題嚴重影響了生成結果的可靠性,常導致事實矛盾或邏輯謬誤。
當前技術面臨的核心挑戰在於知識依賴的不可控性:依賴模型內部知識難以有效處理知識更新緩慢的問題,而過於依賴檢索上下文又容易受到低質量資訊的干擾。如圖 1 所示,當模型知識庫過時但檢索質量高時,應傾向採納外部知識;反之,在檢索結果存在大量噪聲時,則應優先依靠模型內部知識。
現有方法(如透過對齊技術實現單一維度的 factuality、faithfulness 最佳化)通常缺乏靈活、雙向的動態知識依賴控制能力,嚴重限制了 RAG 系統在實際應用中的表現。
為此,我們提出了 CK-PLUG,一種在推理階段進行知識依賴動態控制的有效方法,其創新點包括:
  • 置信增益度量(Confidence-Gain):透過衡量插入外部上下文後引數感知令牌的資訊增益,量化模型引數知識與外部上下文之間的一致性,從而有效檢測知識衝突。
  • 知識可控調製機制:基於可調引數  對引數依賴與上下文依賴的預測分佈進行精細的加權融合,實現對知識偏好的靈活動態控制。
  • 自適應平衡策略:引入基於熵的自動化置信評估模組,自適應選擇最佳的知識依賴策略,無需手動調參,有效降低系統部署難度。
具體而言,CK-PLUG 透過 Confidence-Gain指標準確檢測知識衝突,保留具有正置信度增益(表明引數知識與外部知識一致)的令牌,並對負置信度增益(引數與外部知識衝突)的令牌動態調整預測策略。
對於後者,CK-PLUG 利用可調引數  實現了引數感知與上下文感知機率分佈的精細配比融合。同時,CK-PLUG 還提供了無需人工干預的自適應模式,透過熵值置信評估實現內部知識和外部上下文的自動平衡。
在實際的 RAG 任務評測中,CK-PLUG 表現出明顯的優勢:在手動的  控制下,該框架在具有反事實檢索上下文的 QA 任務的記憶召回(MR)中實現了大幅度的調整。
例如,在 LLaMA3-8B-instruct上,CK-PLUG 將 MR 從 9.89% 調製到 71.93%,明顯區別於 42.09% 的基線 MR。在自主模式(-free)下,CK-PLUG 則能在六個不同的 RAG 下游任務中持續實現效能的穩定提升。
此外,我們透過深入的解釋性分析進一步闡明瞭 CK-PLUG 實現有效知識依賴控制的內在機制。綜上所述,CK-PLUG 為推動大模型在知識可控性和可信生成能力方面的實際應用,提供了一種更具普適性和實用性的方案。
基於置信增益的衝突檢測
作者首先提出了一種知識衝突檢測機制,作為 CK-PLUG 啟用控制的開關。該機制可以有效識別模型引數知識與檢索到的外部上下文之間存在潛在衝突的令牌,以進行針對性的干預,避免全域性調整導致的生成質量崩潰。
首先作者定義兩種預測機率分佈
  • 引數化分佈:僅基於輸入問題  的模型預測機率,反映模型內部知識。
  • 上下文增強分佈:結合問題  與檢索上下文  的預測機率,融合內外知識。
基於上述定義,圖 2 可以很好反映插入不同上下文後關鍵 token 預測機率分佈的熵變化:
  • 衝突上下文增加熵值,機率分佈更無序,模型對答案更不確定。  
  • 支援上下文顯著降低熵值,模型因內外知識一致而更自信。  
▲ 圖2. 在納入衝突或支援上下文後,知識敏感令牌的機率分佈熵的變化
基於定義置信增益(CG)為上述兩種分佈的熵之差,衡量上下文引入後模型置信度的變化:
CG > 0 表示外部上下文增強模型置信度(支援性知識);CG < 0(或低於閾值)則意味外部上下文引發潛在衝突,導致置信度下降(衝突性知識)。圖 3 展示了兩種型別的衝突檢測例項。
▲ 圖3. 在 LLaMA3-8B 上對兩種型別的衝突上下文下生成的令牌的置信度增益的說明,證明了在檢測潛在知識衝突方面的有效性
CK-PLUG:引數和上下文的依賴調製
CK-PLUG 在下一令牌預測階段,對於檢測到有潛在衝突的 token 透過調製引數感知與上下文感知的機率分佈,實現精細的知識依賴控制,圖 4 清晰的展示 CK-PLUG 的框架。
▲ 圖4. CK-PLUG 控制 LLM 輸出中知識依賴的例項。在令牌生成過程中,它檢測潛在的衝突並調節衝突令牌的機率分佈。調製首先計算上下文感知分佈,然後透過基於調優引數的加權和將其與引數感知分佈整合。
首先,定義引數感知的對數機率分佈為:
而上下文感知的機率分佈則透過從整體對數機率分佈中剝離引數貢獻來獲得:
如圖 4 所示,CK-PLUG 的核心思想是透過調製上述兩個分佈的權重,針對可能存在知識衝突的令牌進行干預。具體計算公式如下:
其中,置信增益(CG)用於指示外部上下文是否引入了知識衝突。調製函式  定義為:
其中  為自適應合理性約束:
透過可調超引數 ,使用者可實現靈活的知識依賴調控。增大  使模型更依賴引數知識,減小  則更傾向於檢索上下文知識,從而有效處理知識衝突問題。
此外,CK-PLUG 還提供了一種自適應模式,基於熵值自動平衡引數與上下文依賴,無需手動設定 ,顯著增強了系統的實用性和可信度。具體實現為透過基於熵的困惑度來自動化配置 
實驗
作者在廣泛的注入反事實上下文的 RAG 任務(NQ、ConFIQA、MQuAKE)以及通用的 RAG 任務(NQ、HotpotQA、FEVER、T-REX、ELI5、WOW)上分別全面地評估了 CK-PLUG 對 LLMs 的知識依賴調控自適應增強能力。
除此之外,作者設計知識捕獲演算法進行了深入的可解釋研究,部分任務表現和解釋分析的實驗結果如下表所示。更多結果煩請移步我們的文章或程式碼。
▲ 表1. CK-PLUG 在各注入反事實上下文的資料集上的知識依賴調控效果
▲ 圖5. CK-PLUG 在關鍵知識 token 上的解釋性分析展示
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·