阿里通義、港科大等提出RAG與長文字對比新框架，助力智慧路由決策機制設計

背景：RAG與長文字語言模型的權衡

隨著大型語言模型（LLMs）的快速發展，輸入長度限制從最初的 4K token 到如今普遍支援的 128K 甚至百萬級 token 輸入，“長文字”（Long Context, LC）的定義也在發生著鉅變。

檢索增強生成（RAG）技術曾經作為處理超長文字的關鍵解決方案，透過檢索與問題（query）相關的文字片段來滿足輸入長度的限制。

然而，隨著模型上下文視窗的顯著擴充套件和長文字處理能力的質的飛躍，一個富有挑戰性的問題浮出水面：在當前 LLMs 已具備如此強大的長文字理解能力的背景下，RAG 是否仍然是處理長文字必不可少的方案？

儘管 LLMs 在長文字處理能力上取得了顯著進展，但我們不能忽視其固有的侷限性。長文字處理不僅帶來了顯著的計算開銷，還面臨著事實準確性降低、幻覺產生機率增加、專業領域適應性不足，以及容易生成過於宏觀和籠統答案等挑戰。

特別值得注意的是，在超長文字（超過 100K tokens）的場景下，RAG 與 LC LLMs 在不同任務型別和上下文類別中的相對優勢仍然缺乏系統性的研究和定論。

考慮到 RAG 在計算效率上的顯著優勢，如果能夠準確預判在特定場景下哪種方案更具優勢，就能在系統性能和計算資源消耗之間找到最優的平衡點。

近日，阿里巴巴通義實驗室 RAG 團隊聯合香港科技大學與賓夕法尼亞州立大學提出了一套創新的 RAG 與 LC LLM 系統性比較框架，為高效設計 RAG 與長文字處理路由機制提供了全新思路。

論文標題：

LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs – No Silver Bullet for LC or RAG Routing

論文地址：

https://arxiv.org/abs/2502.09977

開源地址:

https://github.com/Alibaba-NLP/LaRA

已有研究回顧

本篇論文首先回顧了關於 RAG 和 LC LLM 的先前研究，發現現有文獻尚未就二者優劣達成一致結論。不同研究在各種基準測試和實驗設定下得出了截然不同的結果。

早期研究主要採用了 LLM 時代之前的問答資料集，如 Qasper、NarrativeQA 和 QuALITY 等。例如，[1]在這些資料集上進行廣泛實驗後發現，對於 Llama2-70B 和 GPT-43B 等較大模型，RAG 表現普遍優於長上下文方法。而 [2]則透過整合這些資料集建立了一個新的 benchamrk 得出了相反的結論。

然而這些早期資料集普遍存在兩個關鍵問題：

1. 上下文長度不足，難以滿足當前對“長上下文”的定義要求。QASP 和 QLTY 的平均長度分別僅為 4912 和 6592 個 tokens。一方面主流 LLM 已經能處理 128k 甚至 1M 的上下文，另一方面現代 RAG 系統通常使用 300-600 個 token 的 chunk 大小，檢索 5-10 個 chunk，使得 RAG 與長上下文 LLM 在總體上下文規模上已無顯著差異；

2. 早期資料集可能已被廣泛用於 LLM 的訓練，存在資料洩露問題。例如，研究表明 Gemini-1.5-Pro 在 NQ（Natural Questions）資料集上能達到 100% 的準確率，幾乎可以確定存在資料洩露現象 [2]。

近期的長文字 benchmark也難以有效地比較 RAG 和長上下文能力。以最近被廣泛用於比較兩種方法的 ∞-Bench 為例，[3]和 [4]分別在其英文問答（En.QA）和英文多選（En.MC）任務上進行實驗，卻得出了完全相反的結論：前者認為長上下文 LLM 更強，後者則支援 RAG 表現更佳。

然而，這兩個任務的平均文字長度分別高達 192.6k 和 184.4k tokens，遠超大多數 LLM 的上下文限制。

為適應輸入要求，研究者不得不採用截斷操作，但這可能導致問題答案被意外截除，使得答案不再存在於提供給 LLM 的上下文中，從而無法真實反映 LLM 處理長文字的能力。

為驗證這一假設，研究者採用瞭如下方法：將超長上下文分段輸入 LLM，並修改 prompt 允許模型在無法確定答案時拒絕回答。在多次分段輸入後，我們透過多數投票機制確定最終答案。

實驗結果表明，透過這種方法，長上下文 LLM 的效能獲得了顯著提升，更準確地反映了其真實能力（下表中 vote 項）。

此外，先前研究主要依賴 F1-score、Exact Match（EM）等自動評估指標，但這些方法存在準確性不足的問題。例如，當標準答案為 “Allyson Kalia”，而模型預測為 “Allyson Kalia is convicted of the murder of Kiran's younger brother, Rosetta.”

這樣一個實質正確但提供了額外資訊的回答，僅能獲得 0.29 的 F1 分數，嚴重低估了模型的實際表現。將 ∞-Bench 的評估方法從自動化指標轉變為 LLM 評估後，模型得分顯著提升（下表中 LLM 項）。

這一發現表明，以往研究中使用的長文字資料集可能並沒有指標所顯示的那麼具有挑戰性，傳統評估方法可能系統性地低估了模型處理長文字的真實能力。

儘管許多其他長文字 benchamrk 都對 RAG 和 LC LLM 進行了比較，但由於這些 benchmark 的設計初衷主要是評估模型的長文字處理能力，而非專門針對兩種方法的對比，導致其任務設計和上下文選擇並未充分模擬真實 RAG 應用場景。

這使得它們難以真實反映在實際使用環境中 RAG 與 LC 的相對優勢，也無法為規劃系統的設計提供有效指導。

LaRA Benchmark

為了系統地比較 RAG 和 LC LLM 的效能，研究者設計並構建了 LaRA benchamrk。LaRA 的開發過程分為四個關鍵階段：長文字收集、任務設計、資料標註和評估方法制定。以下將詳細介紹 LaRA 的各個構建環節。

長文字收集

LaRA 基準測試的長文字收集遵循四個核心原則：

1. 時效性：優先選擇新近釋出的高質量長文字，最大限度地降低這些文字被用於 LLM 訓練的可能性，從而避免資料洩露問題。

2. 長度適配：考慮到主流開源和商業模型的能力範圍，研究者設計了 32k 和 128k 兩種上下文長度規格。每個文件的長度都被控制為接近但不超過這些閾值，從而避免在測試過程中需要進行截斷處理。

3. 自然性：所有文字均為天然長文字，而非人工拼接無關短文字或構造的偽長文字，確保實驗結果能夠真實反映模型在自然長文字環境中的表現。

4. 權威性：所有長文字均來自可靠權威的來源，保證內容創作者具備相應的專業知識、聲譽和資質。

基於上述原則，研究者選取了三類代表性文字作為上下文材料：

1. 小說文字：分別選取中篇和長篇小說作為 32k 上下文測試材料。為防止資料洩露，研究者設計了多階段的基於 LLM 的人物實體識別和替換機制，確保測試內容與模型訓練語料存在顯著差異。

2. 財務報告：選取美國上市公司 2024 年最新發布的年報和季報，分別用於 32k 和 128k 上下文長度測試，保證資料的新穎性。

3. 學術論文：透過拼接多篇 2024 年發表的具有引用關係的相關論文，構建連貫且內容相關的學術長文字。

任務設計

LaRA 設計了四種核心任務，全面系統地評估 RAG 和長上下文 LLM 在不同能力維度上的表現：

1. Location（定位）任務

主要評估模型的精確資訊檢索和單點定位能力。在這類任務中，問題的答案可以在文字的特定位置直接找到，無需複雜推理。測試模型能否在長文字中準確定位並提取關鍵資訊。

2. Reasoning（推理）任務

要求模型進行邏輯推理或數學運算，答案無法直接從文字中獲取。例如，模型需要對財務報告中的資料進行進一步計算，或基於文字中的資訊進行邏輯推導，才能得出正確答案。

3. Comparison（比較）任務

測試模型在長文字中定位、整合並比較多處資訊的能力。模型需要找到文字中分散的相關資訊點，進行對比分析，才能正確回答問題，考驗模型的全域性理解和資訊整合能力。

4. Hallucination Detection（幻覺檢測）任務

評估模型識別無法回答問題並拒絕作答的能力。這類任務中的問題表面上與上下文相關，但實際上文字中並未提供足夠資訊或根本未涉及該問題。模型需要準確識別這種情況並拒絕回答，而非生成可能的幻覺內容。

資料標註

LaRA 採用了 GPT-4o 與人工協同標註的方式生成高質量的問答對（QA pairs）。

研究團隊首先為每種上下文型別和任務類別人工設計了獨立的 Seed QAs 和 prompt，然後利用這些種子問答引導 GPT-4o 基於提供的上下文生成新的問答對，透過人工取樣的方式驗證生產質量和透過率，然後進一步最佳化調整 Seed QAs 和 prompt，重複這個過程達到較高的生成質量。詳細的 prompt 設計和生成流程可參考論文附錄。

長文字標註本身就是一項複雜的長文字任務，為了有效解決這一挑戰，研究者採取了以下策略：

1. 分段處理法

○ 對於 Location 和 Reasoning 任務，研究者將完整長文字拆分為多個約 10k tokens 的短文字片段，然後針對每個片段生成對應的問答對。

○ 這種方法帶來兩個顯著優勢：

確保生成的問答對均勻分佈在全文各處，增強了資料分佈的多樣性，同時支援 “lost-in-the-middle” 實驗
將複雜的長文字處理轉化為短文字處理，顯著提高了生成質量

2. 多段輸入法

○ 對於 Comparison 任務，研究者一次輸入多個文字段落，要求模型基於多段內容生成需要比較的問題

○ 這種方法還支援探究模型效能與比較資訊之間距離的關係

3. 文字拆分策略

○ 小說和財報採用均勻劃分策略

○ 學術論文則保留原有結構，將拼接的多篇論文直接拆分，以保證每篇論文的完整性和連貫性

評估方法

針對 F1-score 等傳統自動化評估指標導致的得分普遍偏低、評估不準確等問題，LaRA 採用了基於 LLM 的評估方法。為確保評估的準確性和可靠性，LaRA 選擇僅包含具有明確答案的問題型別，避免了總結、續寫等開放性問題，使評估更加客觀可靠。

在這種明確邊界的問題設定下，LLM 能夠提供高度準確的評估結果。研究者透過計算人工評估結果與 LLM 評估結果之間的 Cohen's Kappa 一致性係數，驗證了 LLM 評估方法的準確性和可靠性。

實驗結果

3.1 主要實驗結果

LaRA 對 7 個開源模型和 4 個閉源模型進行了全面評估，得出以下主要發現：

1. 模型能力與 RAG 效果關係

RAG 對能力較弱的模型提供了更顯著的效能提升。分析表明模型基礎能力與 RAG 有效性之間存在明顯相關性：模型能力越弱，RAG 帶來的改進就越明顯。

例如，在 128k 上下文長度條件下，RAG 分別使 Llama-3.2-3B-Instruct 和 Mistral-Nemo-12B 的準確率提高了 6.48% 和 38.12%。而對於具備強大長文字處理能力的模型（如 GPT-4o 和 Claude-3.5-sonnet），長上下文方法通常優於 RAG，凸顯了這些模型直接處理大規模上下文的有效性。

2. 上下文長度影響

隨著上下文長度增加，RAG 的優勢變得更加明顯。在 32k 上下文長度條件下，長上下文方法在所有模型中平均準確率比 RAG 高 2.4%。然而，當上下文長度增至 128k 時，這一趨勢發生逆轉，RAG 的平均表現超過長上下文方法 3.68%。

3. 任務型別表現差異

RAG 在單點定位任務中與長上下文方法表現相當，並在幻覺檢測方面展現出顯著優勢。相比之下，長上下文方法在推理任務和比較任務中表現更為出色，但是更容易產生幻覺。

3.2 文字型別分析

研究者進一步對不同型別上下文進行了實驗分析，發現無論是長上下文方法還是 RAG 方法，在處理不同文字型別時均呈現出一致的效能模式：學術論文上表現最佳，而小說文字上表現最差。

學術論文通常具有較低的資訊冗餘度，同時保持強烈的邏輯性和嚴密的結構。這些特點使學術論文類似於一種天然的 COT 資料，為模型提供了清晰的推理路徑，有助於模型更準確地定位和推匯出正確答案。

而小說文字中存在大量重複和相似表達，這顯著增加了模型精確定位關鍵資訊的難度。同時，小說的敘事性和多層次表達也容易誘導模型產生與原文不符的幻覺內容，導致回答精確度下降。

3.3 檢索消融實驗

研究者分析了檢索資訊長度對 RAG 效能的影響，主要從兩個關鍵維度展開：檢索 chunk 數量和單個 chunk 大小。為觀察這些引數對大小不同模型的影響，研究團隊選取了 Qwen-2.5-72B-Instruct 和 Qwen-2.5-7B-Instruct 兩個模型進行對比實驗。

如下圖所示，實驗結果揭示了模型規模與最優檢索配置之間的重要關係：

1. 大型模型的檢索特性

對於 72B 規模的模型，隨著檢索 chunk 數量的增加，效能呈現持續提升趨勢。這主要得益於大型模型更強大的長上下文處理能力，能夠有效整合和利用更多的檢索資訊。

2. 小型模型的檢索特性

相比之下，7B 規模的模型在檢索 chunk 數量達到某個中間值時效能達到峰值，之後繼續增加檢索量反而導致效能下降。這表明對於小型模型，過多的檢索資訊引入的噪聲最終會超過其帶來的資訊增益。

3. Chunk大小的影響

研究發現，無論是過大還是過小的 chunk 大小都會導致效能下降。在合理範圍內增加 chunk 大小確實能帶來一定改善，但其影響程度明顯小於調整檢索 chunk 數量所產生的效果。

結論

研究結果表明，當前 LC LLMs 在處理超長文字時並未展現出對 RAG 的全面碾壓性優勢，兩者在不同應用場景中呈現出顯著的互補性特徵。

在模型基礎能力較弱（如引數量低於 70B 的開源模型）、上下文長度較長、涉及單點定位或需要嚴格抑制幻覺等場景下，RAG 方案仍保持顯著優勢；而當採用 GPT-4o 等前沿閉源模型處理結構嚴謹的學術文字、或需要執行復雜推理與跨段落比較任務時，直接使用 LC LLMs 往往能取得更優效果。

侷限與未來方向

LaRA 主要聚焦於真實場景中具有確定性答案的問答任務，對 RAG 和長上下文方法進行了系統性比較，但仍存在一些值得進一步探索的研究方向：

1. 開放性問題的評估

當前 LaRA 主要限於有明確答案的問題型別，尚未涵蓋總結、推斷、創作等開放性任務。這類任務在實際應用中同樣重要，但評估標準和方法較為複雜，需要在未來版本中進一步研究和完善。

2. 複合任務的模擬

雖然 LaRA 設計了定位、推理、比較和幻覺檢測四種代表性任務，但實際應用場景中往往涉及多種能力的綜合運用。未來研究應考慮設計更復雜的混合任務型別，更準確地模擬真實應用環境中的挑戰。

參考文獻

[1] Xu, Peng, et al. 'Retrieval meets long context large language models.'The Twelfth International Conference on Learning Representations. 2023.

[2] Lee, Jinhyuk, et al. 'Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?.'arXiv preprint arXiv:2406.13121 (2024).

[3] Li, Zhuowan, et al. 'Retrieval augmented generation or long-context llms? a comprehensive study and hybrid approach.'Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track. 2024.

[4] Yu, Tan, Anbang Xu, and Rama Akkiraju. 'In defense of rag in the era of long-context language models.'arXiv preprint arXiv:2409.01666 (2024).

更多閱讀