北大團隊提出LongRePS框架:面向長上下文場景的思維鏈過程監督方案

©PaperWeekly 原創·作者 |韋錫宇
單位 |北京大學計算語言所
研究方向 |長上下文建模

研究簡介

當前大語言模型(LLMs)在處理長上下文任務時面臨核心挑戰:如何在超長輸入中有效檢索和聚合分散資訊。思維鏈(Chain of Thought CoT)是一種常見的激發模型思考的技術,能夠透過引導模型逐步推理來提升其在複雜任務中的表現,在這篇文章中我們對思維鏈在長下文任務中的作用進行探究。
如下圖所示,我們首先驗證了 CoT 在長下文中的有效性,在 32k-128k 文字中,CoT 使模型推理準確率平均提升 3.5%,且增益隨文字長度增加,表明 CoT 對長上下文任務具有顯著促進作用。

更進一步的,在 Musique 資料集上,同樣是推理時間成本增大(test-time scaling)的操作,我們發現 CoT 帶來的收益遠超多數投票(Majority Voting)的收益,並且 CoT 與理論上限(Oracle)之間仍然有將近 20% 的效能差異。
受上述觀察啟發,為了引導模型生成高質量 CoT,並用其提升模型長下文能力,我們提出了 LongRePS(Long-context Resoning Path Supervision, LongRePS)框架,一個面向長上下文場景的思維鏈過程監督方案。
LongRePS 框架包含一個自採樣機制,用於從模型中生成多樣化的推理路徑,以及一個專門為長上下文場景設計的質量評估方案。實驗結果表明,LongRePS 在多個長上下文基準測試中均取得了顯著的效能提升。
論文標題
Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision
論文連結
https://arxiv.org/pdf/2502.20790
程式碼連結
https://github.com/lemon-prog123/LongRePS

方法描述

LongRePS 框架的核心在於如何生成和篩選高質量的推理路徑。首先,我們透過自採樣機制從模型中生成多樣化的推理路徑。
在取樣過程中,模型被要求將回答分解為可驗證的部分,並從長文字中提取相關資訊,最終基於這些資訊得出結論。為了確保推理路徑的質量,我們設計了一個質量評估方案,該方案從答案正確性過程可靠性兩個維度對推理路徑進行評估。
答案正確性(Answer Correctness AC):要求推理路徑最終得出的答案與標準答案一致,簡單的來說,我們從模型的輸出中分離出推理路徑和問題回答,並將問題回答與標準答案比較,決定是否拋棄取樣樣本。
過程可靠性(Process Reliability):則要求推理路徑在邏輯上連貫、簡潔且忠實於輸入文字中的資訊。在長上下文場景中,評估推理路徑的可靠性尤其具有挑戰性,因為它需要引用大量的輸入文字。即使使用能夠處理長輸入的 llm,確保評估準確性仍然很困難,而且計算成本很高。為了解決這一難點,我們將過程可靠性分解為兩個驗證方面:
源文字忠實性(Source Faithfulness SF)保證了推理路徑對源文字的忠實性,可以透過進行簡單的字串匹配來有效地測量。
內在一致性(Intrinsic Consistency IC)高質量的 CoT 應該表現出邏輯一致性(適當的問題分解、資訊的邏輯使用和健全的推理鏈)、完整性(主要依賴於檢索到的資訊,而不是模型的內部知識),以及簡潔性(避免不相關或過多的細節)。
考慮到評估這些維度的複雜性,我們採用 LLM 評分來度量。由於 LLM 只需要接受模型輸出的推理路徑作為打分依據,這一分解極大減少了評估方案的計算成本。

實驗分析

3.1 訓練過程

我們使用 LLaMA-3.1-8B 和 Qwen-2.5-7B 作為基模型,採用兩階段訓練方案:先使用 300 條資料對基座模型進行指令跟隨預熱,在預熱後模型上進行自採樣,生成 3000 條推理路徑,再基於篩選後的 2,100 條優質路徑對預熱後模型進行監督微調。所有訓練流程都在 8 張 A100 上完成,訓練資料來自 MuSiQue 資料集。
Baseline:
  • 基礎預訓練模型(Base Model)
  • 結果監督模型(Model with Outcome Supervision):在預熱後模型上用相同的資料進行結果監督微調。

3.2 實驗結果

我們採用 F1-Score 作為效能評價指標,並選取了來自 LongBenchV1 和 LongBenchV2 的不同 QA 任務進行測試,括號內的數字顯示了使用 LongRePS 後模型效能相比於結果監督的變化(綠色表示改善,紅色表示退化)。
過程監督優於結果監督:相較於結果監督的傳統方法,使用過程監督的模型域內資料集上表現更佳,這一現象在 LLaMA 上尤其明顯,使用 LongRePS 為 LLaMA 帶來了 13.6 分的顯著效能提升,這表明,過程監督能夠更有效地引導模型在複雜任務中生成高質量的推理路徑。
更強的泛化性:LongRePS 框架不僅在域內任務上表現出色,還在多個長上下文基準測試中展現了更優越的泛化能力。在 LongBenchV1 和 LongBenchV2 的多個任務上,LLaMA 和 Qwen 模型分別取得了平均 9.3 和 8.1 分的提升,達到與 GPT-4o-mini 相近的效能表現。說明透過過程監督生成的推理路徑能夠幫助模型更好地適應多樣化的長上下文場景,進一步提升其泛化效能。
質量評估方案的有效性:
我們進一步檢驗我們的評估方案在選擇高質量的 CoTs 作為訓練資料方面的有效性。我們著重於檢查過程可靠性的標準:源忠實性和內在一致性。結果表明,合併每個評估標準會帶來正向的效能收益,當三個評估標準一起工作時,可以實現最高的效能。
取樣規模的影響:
我們分析了每個訓練樣例中抽樣的候選 CoTs 數量如何影響模型效能。我們觀察到模型效能隨著樣本量的增加先增加後降低,不同模型到達峰值的取樣數量也有所差異。我們推測,這種現象可能是由於在更大的 CoT 候選庫也增大了保持一致的質量評估的難度。
推理路徑來源的影響:
最後,除了從基本模型中自採樣推理路徑之外,我們還研究了直接從更有能力的模型(GPT-4o-mini 和 GPT-4o)中取樣推理路徑對模型效能造成的影響。可以看出,從更強的模型中直接取樣,提高推理路徑質量,也能有效地增強模型在長文字場景下的能力。

總結與展望

本文提出了一種過程監督框架(LongRePS)來提升 LLM 在長下文任務場景下的效能,透過三階段的質量檢測方案,LongRePS 可以透過模型自採樣生成訓練資料並顯著提升模型效能。
實驗結果表明,LongRePS 不僅在特定任務上表現出色,還展現了強大的泛化能力。我們相信,LongRePS 將減少長上下文訓練對人工標註資料的依賴,為長上下文語言模型的研究提供新的思路,並推動該領域的進一步發展。
LongRePS 完成於 2025 年 2 月,結合近年來長上下文相關研究的進展,我們認為 LongRePS 在以下幾個方面值得進一步探索:
  • 更大規模的模型 & 更長的上下文:受限於 GPU 資源的限制,LongRePS 還沒有在更大規模的模型和更長的上下文上進行訓練微調,我們相信在思考能力更強的大規模模型和更貼近長上下文場景的訓練資料的基礎上,LongRePS 將會帶來更好的效能改善。
  • 更多領域任務的參與:LongRePS 目前的訓練資料還只侷限於長文字 QA 任務,在訓練資料中加入不同領域任務的高質量推理路徑,模型的泛化性將會發生什麼程度變化,值得關注。
更多閱讀

#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章