論文標題：

Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation

論文連結：

https://arxiv.org/pdf/2406.18676

程式碼連結：

https://github.com/dongguanting/DPA-RAG

檢索器與大模型存在偏好差異嗎？

在理想的檢索增強生成（RAG）系統，我們希望大語言模型（LLM）透過參考與其知識偏好一致的文件來增強他的推理能力。然而在實際應用中，檢索器和大模型作為 RAG 系統的兩個獨立元件，具有不同的模型架構、訓練目標和任務正規化。這些差異導致基於向量相似度檢索的文件難以完全匹配 LLMs 推理時的知識需求。除此以外，檢索到的文件甚至可能與 LLMs 的自身知識衝突，破壞 LLM 原有的推理能力。

如圖所示，我們對 GPT-3.5 在三個 QA 資料集上比較了兩種實驗設定：讓大模型直接回答問題和參考不同相似度的檢索文件回答問題，每個問題的結果可以分為四種情況：

完全正確：LLM 直接回答與參考檢索文件均能回答正確
對齊知識：LLM 直接回答錯誤，但參考檢索文件均能回答正確。
未對齊知識：LLM 直接回答正確，但參考檢索文件回答錯誤。
完全錯誤：LLM 直接回答與參考檢索文件均能回答錯誤

我們有以下發現：

在“檢索知識對齊”情況下，向量相似度極低的文件（第100名）仍能支援 LLM 推匯出正確答案。
相反，在“檢索知識未對齊”場景中，向量相似度高的文件（第10名）甚至比相似度低的文件（第100名）更容易誤導 LLM。
令人意外的是，一些含有答案事實資訊的文件也難以與 LLM 的偏好對齊。

這些結果印證了“檢索到的文件不完全匹配 LLM 推理的知識偏好”的觀點。因此，減少 LLM 與檢索器之間的偏好差異是構建可靠的 RAG 系統的關鍵挑戰。

雙重偏好對齊方法：DPA-RAG

DPA-RAG 共分為三個階段：偏好知識構建，Reranker 與 LLM 間對齊，LLM 自我對齊。

2.1 偏好知識構建

2.1.1 偏好知識提取

為了與 LLMs 的知識偏好對齊，我們首先應該定位能提高/削弱 LLM 推理效能的知識。我們設計了以下方法：

資料準備：給定訓練集，包含查詢、Top-K 檢索文件集和答案。
文件選擇：從前 k 個檢索文件中分層抽樣四個文件（第 1、25、50、100 個）構成文件子集。
結果分類：對於每個問題，讓 LLM 直接回答/參考文件回答，並對結果打上“兩者正確”、“兩者錯誤”、“對齊知識”和“未對齊知識”的偏好標籤。
樣本篩選：從訓練集中篩選樣本，要求文件子集至少包含一個“對齊知識”或“未對齊知識”的文件，構建偏好資料集。

這樣幫助我們精確地提取能夠影響 LLM 推理表現的知識，提升模型的可靠性。

2.1.2 多樣化查詢增強

由於偏好資料集的樣本並不充足，這很大程度降低了資料的多樣性與複雜性。因此，我們進一步貼合 RAG 系統精心設計了五種查詢增強策略：

改寫（Rephrasing）：用相同意圖改寫原查詢。
複雜化（Complexity）：增加原查詢的語義複雜度。
分解（Decomposition）：將原查詢分解成多個子問題。
約束（Constraint）：在原查詢中新增更多條件和約束語句。
查詢語言（SPARQL）：基於 SPARQL 語法重寫原查詢並直接生成。

我們使用 GPT-3.5 生成 5 種增強資料集並與原始資料集合並。為了保證增強資料質量，我們使用 NLI 模型對原始查詢與增強查詢意圖進行一致性判斷：，並過濾“矛盾”標籤的增強資料以保證資料質量。

2.2 Reranker與LLM間對齊

在獲得 LLM 偏好資料後，我們引入了多粒度偏好對齊任務，將偏好知識蒸餾到重排器（Reranker）中，為檢索器與 LLM 的知識偏好對齊搭建橋樑。

2.2.1 Point-wise偏好對齊

區分知識對於 LLMs 的有益或有害是 Reranker 最應具備的基礎能力。我們用交叉熵損失訓練 Reranker，來學習文件對於查詢屬於“對齊知識”還是“未對齊知識”：

其中，是標籤（正向/負向），用於判斷是否為對齊或未對齊知識。

2.2.2 List-wise偏好對齊

進一步的，我們提出 List-wise 偏好對齊目標，讓 Reranker 獲得精細化排序偏好知識的能力。對於每個查詢的 K 個文件集合，我們利用 RAG 系統中的 LLM 作為偏好獎勵模型對文件進行評分，無需外部專家模型。而為減輕 LLM 偏好評分的偏見，我們對 LLM 偏好評分和檢索器的向量相似度得分進行歸一化加權求和：

透過偏好得分我們可以進一步得到 LLM 的知識偏好順序，並使用 RLHF 損失訓練到 Reranker 中：

其中，和表示文件和的標籤，對應偏好順序中的“贏”或“輸”。表示輸出的 logits。

2.2.3 對比偏好對齊

為防止 LLM 被高度相似但未對齊的知識誤導，我們進一步引入對比偏好對齊損失來最佳化表示空間。我們基於監督對比學習，將對齊的文件作為正樣本，從 batch 中隨機取樣文件作為負樣本：

其中，是每個批次中的樣本數，表示批次中標籤與相同的樣本數，是溫度引數，是指示符。

多工最佳化

最後，我們採用 MGDA-UB 方法最佳化多工的權重，實現最終的多粒度對齊損失函式：

2.3 LLM自我對齊

在初步對齊外部 RAG 元件的偏好後，我們希望指導 LLM 在推理過程中關注對齊知識，來實現內部知識對齊。首先我們引入了一個知識預對齊階段：

2.3.1 預對齊階段

如圖所示，對於每個樣本，我們隨機選擇一個“對齊”或“未對齊”的文件，以及 k-1 個隨機文件來構成一個 top-k 文件集，我們希望透過區分，讓 LLM 會隱式學習從 Top-K 文件中捕捉對齊自我偏好的知識。

2.3.2 監督微調階段

在預對齊任務後，我們載入預訓練引數並使用相同的目標函式進行後續的監督微調（SFT）階段。我們使用傳統的 QA 格式訓練集，並使用已偏好對齊的重排序器對訓練集的文件重排序進行 LLM 監督微調。預對齊階段學習到的偏好知識識別能力使 LLM 在 SFT 階段更有效地關注對齊知識，從而進一步解鎖 LLM 內部的對齊潛力。

實驗

3.1 主實驗

1. 效能顯著提升：DPA-RAG（LLaMA2-7B）在所有四個資料集上相比傳統 RAG 基線有超過 5% 的顯著效能提升。這一現象在 Qwen2-7B、LLaMA3-8B、GPT-3.5 和 GPT-4 等多個模型中都非常一致，展示了方法的適用性和有效性。

2. 小型 Reranker 效能優異：較小的 Reranker 如 BGE 和 ColBERTv2 可以達到或超過基於大型語言模型作為 Reranker 的效能。這證明了我們選擇 BGE 作為對齊基礎的動機，因為它在高效性和有效性之間達到了平衡。

3. 資料篩選是偏好對齊：在偏好對齊方法中，DPA-RAG 優於基於 logits 的直接對齊方法（如 REPLUG），強調了多層次對齊的重要性。除此以外，使用 Filco 資料過濾也展現了強大的對齊能力，這說明訓練語料庫中存在未對齊的知識。進一步突出我們在資料層進行偏好最佳化的重要性。

3.2 模型引數量尺度分析

1. RAG 能力在低引數規模（<7B）下效能急劇提升：在 TQA 與 HQA 上，隨著引數從 500M 增加到 7B，RAG 的效能（F1 分數）急劇上升了 40%，然後在引數超過 7B 後趨於穩定。這表明 RAG 能力的出現與模型引數之間有強烈的關聯。在某個閾值（7B）以下，模型引數量增加會帶來 RAG 能力顯著提升。

2. DPA-RAG 的效能增益更穩定：與基線相比，DPA-RAG 在引數擴充套件的過程中提供了穩定的效能提升，並在兩個資料集上展示了較為平滑的效能增長曲線。

3. DPA-RAG 在不對齊資料集上表現更強：DPA-RAG 在 TQA 和 HQA 資料集上的效能增益呈現出有趣的差異。在 TQA 中，7B 模型的平均 F1 分數已超過 60，這也使得偏好對齊帶來的進一步提升空間有限。反觀 HQA ，由於存在更多未對齊的知識且平均 F1 分數低於 50，DPA-RAG 提供的對齊增益更為明顯。

3.3 偏好對齊分析

DPA-RAG 在“對齊知識”類別表現優異，同時顯著減少了“未對齊知識”類別。這表明 DPA-RAG 能夠有效地對齊了檢索器與LLM 的知識偏好。有趣的是，DPA-RAG 在“完全正確”類別的改進，甚至超過了“對齊知識”類別。考慮到“未對齊知識”顯著減少，這表明 DPA-RAG 優先解決了檢索文件中的衝突。這與我們流程的核心原則一致：首先透過偏好對齊的 Reranker 從外部對齊知識，然後透過自對齊階段讓 LLM 捕捉內部的偏好對齊資訊。

3.4 資料增強討論

為研究我們擴充後的查詢在 RAG 效能上的影響，我們隨機選擇每個資料集的 1,000 個樣本，並使用 Intag 技術進行開放意圖標註。我們透過以下公式計算：多樣性 = 與複雜性。圖中展示了增廣資料的質量，說明我們的五種方法一致地提高了資料複雜性。特別是複雜化（Complexity）和分解方法（Decomposition）顯著提升了複雜性和多樣性分數。進一步的，我們按實際比例將擴充資料與原訓練集混合，計算資料質量。

表中顯示所有五種增廣策略都在不同程度上提高了 LLM 的效能。令人驚訝的是，當我們綜合這兩個指標時，NQ 的整體效能趨勢隨總質量分數的增長而增加。這個發現進一步驗證了在 RAG 任務中，RAG 的能力與查詢的複雜性和多樣性高度相關。

3.5 順序訓練 vs. 混合訓練

本文在預對齊階段後對 QA 資料集進行順序 SFT（逐步微調）。而另一種策略是將偏好資料與 QA 任務資料直接混合進行聯合訓練。與標準 QA 微調相比，我們發現直接混合兩種任務的訓練資料會導致明顯的效能下降和波動。這可能是由於多工訓練中的最佳化衝突。然而，在預對齊階段後的順序訓練則表現出穩定的效能提升，說明了順序訓練的有效性。

結論

在本文中，我們揭示了 RAG 元件之間固有的偏好差異，並首次提出了 DPA-RAG 以對齊多樣的知識偏好。具體來說，我們逐步從訓練集中提取並過濾 LLM 偏好的知識，並提出五種高質量的查詢擴充策略來緩解資料稀缺問題。基於這些偏好資料，我們將三種不同粒度的偏好對齊能力整合到 Reranker 中，實現 RAG 元件間的外部偏好對齊。此外，我們引入 LLM 自對齊任務，以消除 LLM 的知識偏差，實現內部對齊。

實驗結果表明，DPA-RAG 在四個知識密集的 QA 資料集上都優於所有強大的基線方法。廣泛的分析還為構建可靠的 RAG 系統提供了實用的見解。

更多閱讀