MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 知乎

作者 | zss123

Reasoning模型正在興起，近期也引發了大量的研究。本文主要是總結近期reasoning模型的強化學習實現路徑，給相關領域帶來一些參考。

核心強化學習訓練方法論

本章節將深入探討強化學習訓練的基礎方面，這些方法論在各種應用中均有所體現，即使在不明確涉及外部工具的場景下也是如此。然而，值得注意的是，許多現代大型語言模型的強化學習應用本質上都涉及某種形式的“工具”，例如程式碼執行環境，即便它不是一個外部應用程式介面 (API)。

強化學習的資料管理：默默無聞的英雄

資料在任何機器學習正規化中都扮演著至關重要的角色，強化學習也不例外。高質量、相關性強的資料是訓練出高效能智慧體的基石。

1. 資料選擇策略：從數量到質量與相關性的超越

強化學習訓練資料的選擇越來越強調質量和相關性，而非單純追求數量。研究表明，從多樣化且與目標任務緊密相關的領域獲取資料至關重要。例如，在數學推理任務中，研究者傾向於使用如 OpenThoughts、NuminaMATH、MATH 以及 DeepScaleR 等資料集。對於更廣泛的問答任務，Natural Questions (NQ)、TriviaQA、HotpotQA 和 SQuAD 等資料集是常見的選擇。而在如 CUDA 核心生成這樣的專業任務中，則會採用像 KernelBench 這樣的特定資料集。

選擇可驗證的問題或任務是一個關鍵策略，這極大地便利了後續獎勵函式的定義和計算。此外，平衡資料集的難度分佈和多樣性也受到重視。例如，TORL 框架採用 LIMR 技術來提取具有均衡難度分佈的高質量樣本，而 DeepResearcher 則透過調整不同資料集的比例來側重於多跳推理場景的訓練。

2. 資料清洗與過濾：確保訊號純度

為了保證輸入給強化學習演算法的訊號是純淨且有效的，資料清洗和過濾是不可或缺的步驟。

嚴格的驗證流程是常用的手段，這通常涉及人類專家和強大的預訓練模型（例如 ReTool 中使用的 Deepseek-R1）進行雙重驗證，以過濾掉無效或低質量的資料。TORL 框架會過濾掉基於證明的問題以及那些驗證標準模糊的問題。DeepResearcher 則會過濾掉具有時效性、高度主觀性或潛在有害的問題。

防止模型依賴記憶資訊而非學習預期技能是一個核心挑戰。DeepResearcher 實施了“汙染檢測”機制，透過排除那些基礎模型無需搜尋工具即可回答的問題，確保智慧體學習的是搜尋等技能，而非利用資料洩漏。這種策略有效地迫使模型學習使用工具或進行更深層次的推理。

格式標準化和驗證對於後續強化學習過程的效率和穩定性至關重要。例如，ReTool 對其程式碼整合資料進行格式驗證，以確保能夠高效地檢測計算工具的呼叫觸發器。

3. 強化學習軌跡的資料增強與準備

除了選擇和清洗現有資料外，針對強化學習的需求對資料進行增強和特定格式的準備也是常見的做法。

對於需要“冷啟動”的場景，例如工具整合任務，通常會基於已有的文字推理資料進行增強。ReTool 框架使用結構化的提示模板，自動將基於文字的推理資料 (Dinit) 轉換為程式碼整合的推理資料 (DCI)，其中人工計算步驟被替換為相應的程式碼片段及其直譯器的執行結果。

為了簡化獎勵函式的計算，有時會對答案格式進行轉換。例如，DAPO-Math-17K 資料集將數學問題的答案轉換為整數形式，從而簡化了基於規則的獎勵計算，並最大限度地減少了公式解析器可能引入的錯誤。這種務實的做法使得複雜的推理任務更易於應用強化學習。

資料篩選和準備的細緻工作，其意義遠不止於簡單的資料預處理。這些步驟實際上構成了對學習環境的一種隱性塑造。透過精心挑選例如可驗證的問題，剔除模糊不清的內容，或是轉化資料格式以簡化正確結果的識別（如將答案轉為整數，或生成程式碼整合資料），研究人員在獎勵函式發揮作用之前，就已經在引導智慧體朝向期望的行為模式發展。確保資料“可驗證”意味著獎勵機制可以更加可靠；將答案轉換為整數則簡化了獎勵機制，減少了學習訊號中潛在的噪聲或複雜性。這表明，“強化學習資料工程”正成為一個高度專業化的領域，資料準備不再僅僅是初步步驟，而是強化學習設計中不可或缺的一環，它透過預先調整學習環境來巧妙地影響策略學習。

同時，資料策略也體現了對模型“學習捷徑”這一問題的積極規避。例如，DeepResearcher 中的汙染檢測機制（過濾掉基礎模型無需工具即可回答的問題）以及對可驗證、無歧義問題的關注，都反映了一種前瞻性的策略。研究者預見到，作為強大模式匹配器的大型語言模型，如果資料允許，它們會利用任何“捷徑”。如果模型能從其引數化知識中直接找到答案，它可能就不會學習使用工具。如果資料未經過此類“捷徑”的過濾，強化學習智慧體可能會透過簡單回憶資訊或利用資料集偏見來最大化獎勵，而不是學習預期的複雜技能（如多跳推理、工具使用）。這會導致在真正需要該技能的任務上泛化能力差。這突顯了大型語言模型強化學習中的一個根本性挑戰：確保智慧體學習的是過程，而不僅僅是模仿資料中的表面相關性。資料管理是應對這一挑戰的第一道防線。

下表 1 概述了不同研究工作中採用的強化學習訓練資料策略。

強化學習演算法實現細節：學習的引擎

強化學習演算法是驅動智慧體學習的核心。近年來，針對大型語言模型的特性，研究者們在經典演算法的基礎上進行了諸多改進和創新。

1. 主流演算法：PPO 及其變種

近端策略最佳化 (Proximal Policy Optimization, PPO) 是當前大型語言模型強化學習領域應用最為廣泛的演算法之一。它被許多框架作為基礎演算法。PPO 的目標函式（例如，在 ReTool 的研究中由公式 1 給出）旨在最佳化策略模型，同時透過剪裁重要性取樣權重或增加 KL 散度懲罰項，限制新策略與舊策略之間的差異，從而提高訓練的穩定性。

組相對策略最佳化 (Group Relative Policy Optimization, GRPO) 是 PPO 的一個流行變種，它通常透過對同一提示生成的多個響應的獎勵進行歸一化來估計優勢函式，從而避免了訓練一個獨立的價值網路 (critic) 。DAPO 演算法也以樸素 GRPO 作為基線進行比較。這種方法可以減少計算開銷，尤其適用於大型模型。

除了 PPO 和 GRPO，還湧現了一系列針對特定問題或為了提升特定效能而設計的專門化變種：

• DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) 引入了“Clip-Higher”機制以促進探索，透過“動態取樣”過濾掉資訊量不足的提示，採用詞元級別的策略梯度，並設計了“過長獎勵調整”機制。
• VAPO (Value-model-based Augmented PPO) 在 PPO 的基礎上增加了多種技術，如長度自適應的廣義優勢估計 (GAE)、詞元級策略梯度損失、價值預訓練、解耦 GAE、Clip-Higher 以及正樣本語言模型損失等。
• Dr. GRPO (GRPO Done Right) 是對 GRPO 的改進，透過移除優勢計算中的歸一化項，旨在消除響應級長度偏差和問題級難度偏差，從而恢復到使用蒙特卡洛回報估計優勢的標準 PPO 目標。
• StarPO (State-Thinking-Actions-Reward Policy Optimization) 是一個通用的軌跡級智慧體強化學習框架，支援 PPO 和 GRPO，並提出了一個更穩定的變體 StarPO-S 。

2. 關鍵演算法改進與技術

為了更好地將強化學習應用於大型語言模型，研究者們在核心演算法的基礎上引入了多項關鍵技術：

• 優勢估計 (Advantage Estimation): PPO 通常使用廣義優勢估計 (GAE) 。VAPO 引入了長度自適應 GAE 和解耦 GAE 。GRPO 和 Dr. GRPO 則使用基於組的或蒙特卡洛回報的估計方法。
• 裁剪策略 (Clipping Strategies): PPO 的裁剪機制對於維持訓練穩定性至關重要。DAPO 和 VAPO 透過“Clip-Higher”技術對此進行了增強，該技術解耦了重要性取樣比率的上下裁剪範圍，允許對低機率詞元進行更大幅度的機率提升，從而鼓勵探索。RAGEN 的 StarPO-S 也採用了類似的解耦裁剪策略。
• 價值函式處理 (Value Function Handling): 儘管 GRPO 通常省略了學習的價值函式，但基於 PPO 的方法如 VAPO 則投入資源進行穩健的價值模型訓練，包括使用價值預訓練來減輕初始化偏差。StarPO-S 為了提高穩定性也重新引入了基於評論家的基線。
• 詞元級與樣本級損失 (Token-level vs. Sample-level Loss): DAPO 和 VAPO 提倡使用詞元級的策略梯度損失。這種方法為訓練批次中的所有詞元分配統一的權重，解決了在樣本級損失中較長序列對損失貢獻較小的問題，並防止長樣本中不期望的模式（如無意義內容或重複）對損失產生不成比例的低影響。
• 探索增強 (Exploration Enhancements): 為了促進模型探索更廣闊的策略空間，研究者們採用多種策略，例如在 TORL 中省略 KL 損失或設定較高的訓練溫度，在 DAPO 和 VAPO 中使用 Clip-Higher ，以及在 StarPO-S 中移除 KL 項。

3. 獎勵函式設計：引導智慧體

獎勵函式是強化學習中引導智慧體行為的核心機制。其設計直接影響學習效率和最終效能。

• 基於結果的獎勵 (Outcome-Based Rewards): 一種普遍採用的方法是使用簡單的、基於規則的準確性獎勵。例如，在可驗證答案的任務（如數學問題）中，如果最終預測答案與真實答案等價，則獎勵為 +1，否則為 -1 或 0 。
• 組合獎勵 (Combined Rewards): DeepRetrieval 框架採用複合獎勵函式，該函式由特定任務的檢索效能獎勵 (rretrieval，例如文獻搜尋的 Recall@K、經典資訊檢索的 NDCG@K 或 SQL 的執行準確率）和格式遵循獎勵 (rformat，獎勵模型遵循特定輸出結構，如 <think> 和 <answer> 標籤）組成。
• 懲罰項 (Penalties): 為了抑制不期望的行為，會引入懲罰項。Kevin-32B 對使用 PyTorch 函式或不包含 CUDA 核心的響應（旨在緩解獎勵駭客問題）給予 0 分獎勵。TORL 曾研究過程式碼可執行性懲罰（-0.5），但發現它並未提升模型效能。DAPO 對超過最大生成長度的截斷樣本應用“軟性超長懲罰” 。RAGEN 對不符合格式的響應進行懲罰。
• 折扣因子 (Discount Factors): 在多輪互動的設定中，折扣因子用於平衡即時獎勵和未來獎勵的重要性。Kevin-32B 在多輪訓練中使用了 0.4 的折扣因子，其中一個響應的獎勵是當前核心及其後續所有核心得分的折扣總和。
• 避免神經獎勵模型 (Avoiding Neural Reward Models): SEARCH-R1 明確指出，由於在大規模強化學習中大型語言模型對特定獎勵形式的敏感性以及額外的計算成本，他們避免了訓練神經獎勵模型。這與一些未在這些材料中詳述的其他 RLHF (Reinforcement Learning from Human Feedback) 方法形成對比。

在優勢估計方面，“有評論家 (critic-full)”與“無評論家 (critic-less)”方法的選擇反映了在簡潔性/效率與穩定性/指導性之間的權衡。

GRPO 的流行，源於它避免了訓練一個獨立的價值網路，這簡化了實現並減少了計算負擔，特別是對於大型語言模型而言，同時訓練兩個大型模型（行動家和評論家）的成本很高。然而，像 VAPO 和 StarPO-S 這樣的方法則特意重新引入或改進了評論家。

VAPO 強調透過“價值預訓練”和“解耦 GAE”來獲得更好的價值估計。StarPO-S 則利用評論家基線來穩定訓練。一個訓練良好的評論家可以顯著降低優勢估計的方差，從而帶來更穩定和高效的策略更新。

但是，一個訓練不佳或未對齊的評論家可能會阻礙學習。選擇哪種方法取決於具體問題、計算預算以及對任務而言無評論家優勢估計的穩定性感知。這表明在大型語言模型強化學習的優勢估計方面沒有一刀切的解決方案。

該領域正在積極探索這種權衡，從而催生了混合方法或更魯棒的評論家訓練技術。即使在“無評論家”的正規化中，從 GRPO 到 Dr. GRPO 的演進也顯示了基線估計方法的改進。

緩解獎勵駭客 (reward hacking) 是一場持續的“軍備競賽”，需要多方面的解決方案。多項研究都承認並解決了獎勵駭客問題。ReTool 使用簡單的基於結果的獎勵來緩解這一問題。Kevin-32B 對響應施加嚴格的格式檢查，並懲罰不期望的捷徑（例如使用 PyTorch 回退）。DAPO 的過長獎勵調整機制防止了透過生成過長、可能正確但效率低下的響應來“刷分”。大型語言模型非常擅長髮現獎勵函式中的漏洞。如果獎勵函式過於簡單或沒有考慮到所有不期望的行為，智慧體將學會以非預期的方式最大化獎勵訊號，從而無法實現實際的任務目標。

設計魯棒的獎勵函式既是一門藝術也是一門科學。它通常需要根據觀察到的失敗模式進行迭代改進。趨勢是朝著更細緻的獎勵組成部分（例如，2 中結合任務獎勵和格式獎勵）和仔細考慮邊緣情況發展，而不是僅僅依賴單一、簡單的結果度量，特別是當任務變得更加開放式時。

下表 2 總結了不同研究中強化學習演算法的實現及其關鍵特徵。

強化學習訓練過程：精心策劃學習

強化學習的訓練過程是一個精心設計的系統工程，涉及多個階段和最佳化技術，旨在高效、穩定地提升智慧體的策略。

1. 訓練流程中的關鍵階段

典型的強化學習訓練流程通常包含以下關鍵階段：

• 可選的監督微調 (Supervised Fine-tuning, SFT) / 冷啟動: 一些框架選擇在強化學習之前，首先在精心策劃的資料集上進行監督微調。這為後續的強化學習階段提供了一個魯棒的初始化模型。例如，ReTool 在程式碼增強資料集 (DCI) 上進行 SFT，以教會模型何時以及如何呼叫程式碼直譯器。DeepRetrieval 在 SQL 資料庫搜尋任務中採用 SFT 作為冷啟動策略。然而，也有研究採取不同的路徑。TORL 直接從基礎語言模型開始進行強化學習，無需 SFT 階段。VAPO 則明確指出，為了保證與其他方法的公平比較，其在強化學習訓練過程中不引入任何 SFT 資料。
• 迭代式強化學習迴圈: 這是強化學習的核心，通常包含以下子階段的不斷迭代：部署/生成 (Rollout/Generation): 策略模型根據當前的提示或狀態生成行動序列（即軌跡）。
• 評估/獎勵計算 (Evaluation/Reward Calculation): 對生成的軌跡進行評估，並根據其與環境的互動結果或最終產出計算獎勵。
• 學習/策略更新 (Learning/Policy Update): 基於獲得的獎勵和生成的軌跡，使用選定的強化學習演算法（如 PPO、GRPO）更新策略模型（以及價值模型，如果存在）。

2. 最佳化技術與穩定性措施

為了確保訓練過程的穩定性和效率，研究者們採用了多種最佳化技術：

• 損失遮蔽 (Loss Masking): 當外部工具的輸出或檢索到的資訊作為輸入序列的一部分時，這些外部詞元通常在強化學習的損失計算中被遮蔽掉。這可以防止外部詞元干擾策略梯度的最佳化，並確保訓練的穩定性。
• KL 散度正則化 (KL Divergence Regularization): 這是一種常用的技術，透過懲罰當前策略與參考策略（通常是 SFT 模型或前一迭代的策略）之間的 KL 散度，來防止學習策略偏離過遠，從而有助於維持訓練穩定性。然而，在某些情況下，例如 TORL 和 StarPO-S，為了增強探索，會有意省略 KL 懲罰項或將其係數設為 0 。
• 梯度裁剪 (Gradient Clipping): 為了防止梯度爆炸導致訓練不穩定，尤其是在處理大型模型或長序列時，有時會採用積極的梯度範數裁剪策略。
• 動態取樣/軌跡過濾 (Dynamic Sampling / Trajectory Filtering): DAPO 框架中的“動態取樣”技術會過濾掉那些所有生成輸出的準確率均為 0% 或 100% 的提示，以確保訓練批次中包含有效的梯度資訊。StarPO-S 則採用基於方差的軌跡過濾，保留具有高度不確定性的提示進行訓練。
• 預熱階段 (Warm-up Phases): 學習率預熱或價值模型預熱（如 VAPO ）有助於在訓練初期穩定學習過程。

3. 分散式訓練與效率考量

隨著模型規模的增大和任務複雜度的提升，訓練效率成為一個關鍵問題。

• 規模化框架 (Frameworks for Scale): 研究者們開發瞭如 veRL 和 HybridFlow 等專用框架，以支援大型語言模型的高效強化學習訓練，這些框架通常內建了分散式訓練能力。並行化 (Parallelism): HybridFlow 在訓練期間使用張量並行，在推理期間使用混合資料-模型並行。
• KV 快取重用 (KV-Cache Reuse): ReTool 在程式碼執行前快取鍵值 (KV) 快取，並且只計算和附加來自直譯器反饋的 KV 快取，以減少部署過程中的記憶體成本。非同步操作 (Asynchronous Operations): ReTool 使用非同步程式碼沙箱來加速強化學習訓練過程。
• 引數高效訓練 (Parameter-Efficient Training): RAGEN 框架探索了使用 LoRA (Low-Rank Adaptation) 進行引數高效訓練的方法。

關於初始化和技能獲取的理念差異，體現在“先 SFT 後 RL”與“直接 RL”的路線選擇上。ReTool 和 DeepRetrieval（針對 SQL 任務）明確將 SFT 作為“冷啟動”或提供“魯棒初始化”的手段。這種方法透過預先訓練模型掌握期望的行為或工具互動格式，使得初始的 RL 探索階段更具針對性和效率。然而，它也可能將模型偏向 SFT 資料的分佈，從而潛在地限制 RL 階段的探索廣度。

相反，TORL 倡導“直接從基礎模型進行 RL”而無需 SFT，VAPO為了公平比較也避免在 RL 中使用 SFT 資料。在一個能力強大的基礎模型上直接進行 RL 可能會發現更新穎的策略，但也可能面臨更嚴峻的冷啟動問題。這種選擇可能取決於目標行為的複雜性、可用 SFT 資料的質量以及基礎 LLM 的能力。目前，學術界仍在探索如何最好地結合監督學習和強化學習——無論是作為順序過程、交錯過程，還是主要將 SFT 模型用作參考策略。

大型語言模型強化學習的穩定性是一場多方面的戰鬥，需要透過演算法調整、資料策略和過程管理的組合來解決。眾多技術旨在穩定訓練過程：KL 正則化、PPO 的裁剪機制（普遍使用）、解耦裁剪、價值預訓練、動態取樣/過濾、外部詞元損失遮蔽、梯度裁剪以及仔細的超引數調整。大型語言模型的訓練本身就具有敏感性，而強化學習由於探索、稀疏獎勵和潛在有噪聲的價值估計，又增加了一層複雜性。如果沒有這些穩定措施，訓練很容易發散，導致策略崩潰或模型產生無意義的輸出。

因此，實現大型語言模型強化學習的穩定性並非依賴單一的“銀彈”，而是需要在整個訓練流程中系統地解決潛在的故障點。這種整體方法對於使強化學習成為大型語言模型增強的可靠工具至關重要。專用框架（如 veRL、HybridFlow）的出現也表明，需要專門設計基礎設施來處理這些複雜性。

超引數深度探討：微調的旋鈕

超引數是強化學習訓練過程中的關鍵“旋鈕”，它們的設定直接影響學習效率、穩定性和最終效能。

1. 關鍵超引數及其影響

• 學習率 (Actor & Critic Learning Rates): 通常設定得較小，例如行動家 (actor) 學習率為 1×10−6，評論家 (critic) 學習率為 1×10−5 或 2×10−6 。如果使用評論家，行動家和評論家學習率的相對大小可能很重要。
• 批次大小 (Rollout & Mini-batch Sizes): 部署批次大小可以較大，例如 TORL 中為 128 ，ReTool、SEARCH-R1、DAPO 中為 512 ，VAPO 中為 8192 。用於梯度更新的小批次大小則較小，例如 DeepRetrieval 中為 16 ，SEARCH-R1 中為 64 或 256 ，ReTool、DAPO、VAPO 中為 512 。RAGEN 每個批次使用 8 個提示，每個提示生成 16 個部署軌跡。
• KL 係數 (β): 控制策略偏離參考策略的懲罰程度。其值各不相同，例如 ReTool 中為 0.0 1，DeepRetrieval、SEARCH-R1、RAGEN 中為 0.001 ，TORL 中則省略。這一選擇反映了在穩定性和探索之間的權衡。
• PPO 裁剪引數 (ϵ): 標準值通常為 0.2 。DAPO 和 VAPO 使用解耦的 ϵlow=0.2 和 ϵhigh=0.28 。
• GAE 引數 (λ 和 γ): 折扣因子 γ 通常對於非片段式任務或高度重視未來獎勵的任務設定為 1.0 。跡衰減引數 λ 對於 PPO 也通常設定為 1.0 ，但 VAPO 對策略網路使用長度自適應的 λ，對價值網路使用 λ=1.0 。
• 最大序列/響應長度 (Maximum Sequence/Response Lengths): 對於管理計算資源和定義生成範圍非常重要，例如 ReTool 中為 16384 ，DeepRetrieval 中根據任務特定設定，SEARCH-R1 中為 4096 ，DAPO 中為 16384-20480 。
• 部署/生成溫度 (Temperature for Rollout/Generation): 在訓練部署期間使用較高的溫度（例如 DeepRetrieval 中為 0.6 ，TORL、SEARCH-R1、DAPO、VAPO 中為 1.0 ）以鼓勵探索。
• 週期數/訓練步數 (Epochs/Training Steps): ReTool 在冷啟動資料上訓練 2 個週期。SEARCH-R1 訓練 500 步。VAPO 在 AIME 2024 資料集上訓練 5000 步達到領先水平。RAGEN 使用 200 個部署-更新迭代。

2. 調優策略與典型範圍 (隱性)

儘管文獻中並未總是明確詳述超引數的調優策略，但不同研究中超引數設定的差異表明，實際調優通常基於具體的模型、資料集和任務進行經驗性調整。學習率的預熱計劃是常見的做法。在訓練過程中監控關鍵的中間結果，如生成的響應長度、獎勵動態和模型熵，對於識別問題和指導調優至關重要。

超引數的選擇往往反映了對特定任務和模型規模下探索-利用-穩定性三難困境的隱性理解。例如，將 KL 係數設定為 0.0 1 或移除 KL 項，同時配合較高的生成溫度，表明研究者有意推動更大程度的探索，這可能是因為任務複雜且初始策略遠非最優。相反，當穩定性至關重要或策略已經相當不錯時，可能會使用非零的 KL 係數和更保守的裁剪策略。“Clip-Higher”機制則是一種在不過多犧牲穩定性的前提下獲得更多探索的精妙嘗試。超引數直接控制學習動態。

激進的探索設定可能導致更快地發現新穎解決方案，但也存在策略崩潰的風險。保守的設定確保穩定性，但可能導致收斂緩慢或陷入區域性最優。這表明可能不存在一套通用的“最佳”超引數組合，最優值高度依賴於具體情境。這也強調了對魯棒超引數最佳化技術的需求，以及對每個超引數如何影響大型語言模型強化學習過程的深入理解。該領域可能會受益於對超引數敏感性和相互依賴性進行更系統的研究。

下表 3 展示了不同強化學習模型或研究中使用的超引數設定。

結合外部工具與知識庫的強化學習

隨著大型語言模型能力的增強，使其能夠有效利用外部工具（如程式碼直譯器、搜尋引擎、資料庫）和知識庫，已成為強化學習研究的一個重要方向。這種整合旨在彌補大型語言模型在精確計算、即時資訊獲取以及與結構化資料互動等方面的不足。

工具增強型強化學習的資料策略

當強化學習智慧體需要學習與外部工具互動時，資料策略需要進行相應的調整和最佳化。

1. 工具互動場景的資料選擇

資料的選擇首先由任務本身驅動，特別是那些天然需要或受益於工具使用的任務。

• 對於數學推理任務，ReTool 和 TORL 使用了數學競賽題目，這類問題通常涉及複雜的計算，程式碼直譯器可以作為有效的輔助工具。
• 對於查詢生成任務，DeepRetrieval 採用了資訊檢索 (IR) 和 SQL 資料集，這些任務需要模型與搜尋引擎或資料庫進行互動。
• 對於需要廣泛背景知識或最新資訊的網路研究任務，DeepResearcher 使用了需要進行網頁搜尋和瀏覽的問答資料集。
• 與通用強化學習類似，在工具增強型強化學習中，對工具使用結果的可驗證性對於獎勵函式的設定至關重要。

2. 工具輸出背景下的資料清洗與過濾

在工具整合場景下，資料清洗和過濾不僅要關注原始資料的質量，還需要考慮工具互動引入的複雜性。

• 初始資料質量控制: 與通用強化學習類似，初始資料集首先會經過清洗。例如，ReTool 在將文字推理資料增強為程式碼整合資料之前，會先透過人工管理和模型評估來保證其質量。
• 增強資料的驗證: ReTool 對其自動生成的程式碼整合資料 (DCI) 進行進一步驗證，包括格式驗證（確保工具呼叫觸發器的正確性）和答案驗證（確保最終輸出與正確解一致）。這保證了用於訓練模型學習工具使用的“增強資料”本身是高質量的。
• 過濾以確保真實的工具需求: DeepResearcher 的汙染檢測機制在此尤為關鍵。透過過濾掉那些模型無需搜尋工具即可回答的問題，可以確保模型學習在真正需要時才使用搜索工具，而不是將其作為一種“萬能膏藥”。

3. 工具學習的資料增強

為了讓模型學會如何有效地使用工具，通常需要對資料進行特定形式的增強。

• 自動構建工具整合資料: ReTool 將基於文字的推理過程 (Dinit) 轉換為程式碼整合的推理過程 (DCI) 是一個典型的資料增強策略。該過程透過用程式碼片段及其直譯器執行結果替換原始推理過程中的手動計算步驟，從而為模型提供學習工具使用的“冷啟動”資料。

對於工具增強型強化學習而言，資料管理往往涉及到建立期望工具互動模式的“範例”。ReTool 自動構建程式碼整合資料的過程不僅僅是提供那些可以使用工具的問題，更重要的是主動展示了工具如何被整合到推理鏈條中。這些增強後的資料，尤其是在冷啟動的監督微調階段，充當了初始的監督樣本。如果沒有這樣的範例，大型語言模型可能很難發現如何格式化工具呼叫、解析輸出，甚至何時呼叫工具。增強資料透過提供具體的互動樣例，有效地引導了這一學習過程。

這表明，對於複雜的工具使用場景，完全從零開始、僅依賴基於結果的強化學習可能效率極低。一種更為務實的途徑是結合使用工具整合範例的監督學習和後續的強化學習微調。“資料”本身成為了指導工具互動協議的媒介。

外部工具整合的演算法實現

將外部工具整合到強化學習迴圈中，需要在演算法層面進行適應性調整，並設計合適的獎勵機制。

1. 針對工具使用的強化學習演算法調整

儘管 PPO 和 GRPO 等標準演算法仍然是核心，但為了適應工具互動，需要進行一些關鍵調整：

• 用於工具呼叫的結構化輸出: 模型通常被訓練成生成特定的詞元或結構來觸發工具的使用。例如，ReTool 檢測程式碼塊結束標記 </code> 來執行程式碼。SEARCH-R1 使用 <search> 和 </search> 詞元來調用搜索引擎。DeepRetrieval 使用 <think> 和 <answer> 標籤，後者包含增強後的查詢。DeepResearcher 同樣使用 <think> 和 <answer> 標籤，並將工具呼叫嵌入其中。RAGEN 也採用了 <think> 和 <answer> 的結構。
• 解析工具輸出: 系統需要能夠解析來自工具的輸出（例如程式碼直譯器的結果、搜尋片段），並將其反饋到模型的上下文中。這通常透過特殊的標籤來實現，如 ReTool 中的 <interpreter></interpreter> 或 SEARCH-R1 中的 <information></information> 。

2. 工具效能的專門化獎勵機制

獎勵機制的設計對於引導模型有效使用工具至關重要。

• 主要依賴最終結果: 即使引入了工具，大多數系統仍然主要依賴任務的最終結果來提供獎勵訊號。如果工具的使用最終導致了問題的正確解決，那麼這種工具使用行為就會得到正向強化。
• 工具使用的隱性獎勵: 如果任務本身無法在不使用工具的情況下解決，那麼對成功解決任務的獎勵就隱性地包含了對成功使用工具的獎勵。
• 顯式的工具相關獎勵 (較少見或效果不佳):TORL 曾研究過為程式碼的可執行性提供獎勵，但發現這並不能提升模型效能。ReTool 也主要關注最終結果，而沒有引入程式碼可執行性獎勵。這表明，直接獎勵工具使用的中間步驟（如程式碼是否可執行）可能難以設計，或者效果不如獎勵最終結果。
• DeepRetrieval 的獎勵函式中包含了一項格式遵循獎勵 (rformat)，如果工具呼叫的語法包含在特定格式中，那麼這項獎勵可以間接支援正確的工具呼叫。

在工具增強型強化學習中，基於最終結果的獎勵佔據主導地位，這暗示了一種“結果導向”的策略，即依賴大型語言模型自身的推理能力來最佳化工具的使用方式。儘管工具互動過程可能非常複雜，但多數框架（如 ReTool 、TORL 、SEARCH-R1 ）仍選擇根據最終答案的正確性來給予獎勵。嘗試為中間步驟（如程式碼可執行性）新增顯式獎勵，效果並不總是理想。直接獎勵工具使用的具體機制（例如，“程式碼是否成功執行？”）可能會導致智慧體學會生成可執行但無用的程式碼。

透過關注最終結果，強化學習過程會迫使大型語言模型學習有效的工具使用——即那些有助於解決問題的工具使用。模型的內部推理被期望能夠彌合工具呼叫與問題解決之間的鴻溝。這種做法對大型語言模型的推理能力以及強化學習演算法在可能很長的工具互動鏈中恰當分配信用的能力提出了很高的要求。這也凸顯了為複雜認知任務設計良好中間獎勵的挑戰性；通常情況下，稀疏的、基於結果的獎勵雖然可能樣本效率較低，但更為魯棒。

涉及外部工具的訓練過程

當強化學習智慧體需要與外部工具互動時，其訓練過程具有一些獨有的特點和挑戰。

1. 交錯式推理與工具執行

工具增強型強化學習的一個核心特徵是模型生成部分推理，然後暫停以呼叫外部工具，接收工具的反饋，並基於該反饋繼續進行後續的推理和生成。

• ReTool 的流程是：大型語言模型生成文字，當檢測到程式碼塊結束標記 </code> 時，生成的程式碼被髮送到沙箱式程式碼直譯器中執行。直譯器的輸出（成功結果或錯誤資訊）隨後被封裝在 <interpreter></interpreter> 標籤內反饋給模型，模型再繼續生成後續的推理軌跡。這種方式形成了一個文字、程式碼和直譯器反饋交織的混合推理路徑。
• TORL 的模型會輸出包含程式碼塊的推理內容。當檢測到程式碼終止識別符號 '''output 時，文字生成暫停，最新的程式碼塊被提取出來交由程式碼直譯器（如 Sandbox Fusion）執行。結構化的執行結果 (OBSERVATION) 會被插回上下文中，模型隨後繼續生成後續的自然語言推理，並可能產生更多的程式碼塊，直至給出最終答案。
• SEARCH-R1 的模型在生成文字時，如果產生特定的 <search> 詞元，系統會提取查詢內容，調用搜索引擎，並將檢索到的結果透過 <information></information> 標籤注入回模型的上下文中，供模型進行後續的推理和答案生成。
• DeepResearcher 的智慧體首先在 <think> 標籤內進行推理，然後根據需要呼叫網頁搜尋或網頁瀏覽工具。從這些工具獲得的觀察結果會更新智慧體的短期記憶，輔助後續決策。

2. 訓練期間工具反饋與錯誤管理

如何處理來自外部工具的反饋，尤其是錯誤資訊，是訓練過程中的一個重要環節。

• 錯誤資訊作為學習訊號: 來自工具執行的錯誤資訊（例如程式碼編譯錯誤或執行時錯誤）通常會被刻意地返回給大型語言模型。這有助於模型學習生成語法正確且語義合理的工具輸入。例如，TORL 明確指出會將程式碼執行失敗的錯誤資訊返回給模型，以增強其後續生成正確程式碼的能力。ReTool 的描述中也提到沙箱會返回錯誤資訊，暗示了類似機制。
• 遮蔽工具輸出以避免干擾損失計算: 正如在核心強化學習方法論中討論過的（章節 II.C.2），來自工具的實際內容輸出（例如程式碼直譯器的執行結果、搜尋引擎返回的文字片段）通常在強化學習的損失計算中被遮蔽掉。這樣做是為了確保模型學習的是利用這些資訊進行推理，而不是簡單地模仿或複製這些外部資訊。同時，這也有助於維持訓練的穩定性，防止外部引入的、可能與模型自身生成邏輯不一致的詞元干擾策略梯度的計算。

3. 沙盒環境與安全協議

當整合的外部工具具有執行任意程式碼或與外部世界進行不受控互動的能力時，安全問題就變得至關重要。

• 程式碼在沙箱中執行: 對於像程式碼直譯器這樣的工具，其執行過程通常被置於一個沙箱環境中。沙箱提供了一個隔離的環境，用於執行由大型語言模型生成的程式碼，從而確保安全性和可控性，防止潛在的惡意程式碼或意外操作對系統造成損害。TORL 選擇了 Sandbox Fusion 作為其程式碼執行環境，因為它具有較好的穩定性。
• 非同步沙箱提升效率: 為了加速訓練過程，特別是在需要頻繁與程式碼直譯器等工具互動的場景下，ReTool 設計了一個非同步程式碼沙箱環境。該環境中的沙箱例項作為工作池中的工作者，可以獨立地拉取任務並執行，從而形成高效的負載均衡機制，並支援並行的環境互動。

4. 控制工具互動頻率

無限制的工具呼叫可能會導致訓練效率低下或產生冗餘的互動。因此，需要機制來控制工具的使用頻率。

• 最大工具呼叫次數限制: TORL 框架引入了一個超引數 C，用於控制在一次響應生成過程中允許的最大工具呼叫次數。如果超過此閾值，後續的工具執行請求將被忽略，迫使模型切換到純文字推理模式。這有助於在保證一定探索深度的同時維持訓練速度。SEARCH-R1 也使用了一個最大行動預算 B 來限制搜尋次數。DeepResearcher 允許每個部署軌跡最多進行 10 次工具呼叫。

對工具輸出進行“損失遮蔽”是一項關鍵技術，其目的是迫使大型語言模型學習“如何利用工具進行思考”，而不是僅僅學習“工具會輸出什麼”。多項研究 1 都明確提到了在強化學習損失計算過程中，遮蔽掉來自工具輸出的詞元（例如程式碼直譯器的結果、搜尋片段）。如果這些外部詞元被包含在策略更新的損失計算中，大型語言模型可能會學會簡單地預測或複製這些詞元，特別是當它們冗長或包含強訊號時。這將繞過預期的學習目標，即讓模型理解並利用工具提供的資訊來指導其自身的後續推理。

透過遮蔽，梯度只流經模型自身生成的詞元，從而強化其推理和決策能力（例如，在給定工具輸出後決定下一步做什麼）。這突顯了訓練大型語言模型使用工具時一個微妙但至關重要的方面：區分整合資訊與僅僅複述資訊。有效的工具使用要求大型語言模型充當外部資訊的智慧消費者和整合者，而訓練過程必須精心設計以培養這種能力。

工具增強型強化學習中“生成-執行-反饋-再生成”的迭代迴圈，在某種程度上反映了人類解決問題的過程，但它也要求對狀態和上下文進行細緻的管理。ReTool 、TORL 、SEARCH-R1 和 DeepResearcher 的描述都詳細說明了這樣一個過程：大型語言模型生成一些推理或工具查詢，外部工具執行該查詢，然後結果被反饋到模型的上下文中，用於下一步的生成。這種迭代過程使得大型語言模型能夠分解複雜問題，逐步收集資訊或執行計算，並根據中間結果調整其策略。

然而，這也帶來了挑戰：上下文視窗可能會變得非常大，狀態表示需要有效地整合不同型別的反饋（文字、數字、錯誤），並且在長的多步互動中進行信用分配變得更加困難。這種正規化對於解決複雜的多步驟任務非常強大。然而，其成功取決於高效的上下文管理（例如 ReTool 的 KV 快取重用，Kevin-32B 的思維鏈總結）、魯棒的錯誤處理，以及能夠在這些擴充套件互動中從延遲獎勵中學習的強化學習演算法。開發混合自然語言和工具互動的“推理軌跡”或“互動軌跡”是一個關鍵的研究方向。

工具整合型強化學習的超引數考量

在工具整合型強化學習中，除了通用的強化學習超引數外，還需要考慮一些與工具互動特性相關的特定超引數。

1. 工具互動特有的超引數

• 最大工具呼叫次數/行動預算 (Maximum Tool Calls / Action Budget): 正如之前討論的，TORL 使用超引數 C ，SEARCH-R1 使用最大行動預算 B ，DeepResearcher 限制最多 10 次工具呼叫。這些引數用於平衡探索的徹底性與訓練效率。
• 檢索內容/工具輸出的最大長度 (Maximum Length for Retrieved Content / Tool Output): SEARCH-R1 為檢索到的內容設定了 500 個詞元的最大長度。這會影響反饋給模型的資訊量，並進而影響上下文視窗的管理和模型的注意力分配。

2. 通用強化學習超引數的調整

核心的強化學習超引數（如學習率、批次大小等）在工具整合場景下依然至關重要。然而，由於工具互動改變了學習動態（例如，如果成功的工具使用過程複雜，獎勵可能變得更稀疏；或者軌跡長度可能發生變化），這些超引數的最優值可能會發生偏移。

文獻中並未總是明確區分工具整合型強化學習與非工具型強化學習的超引數設定。但總體而言，工具互動的引入可能會增加學習任務的複雜性，因此可能需要更仔細的調優，或傾向於選擇更魯棒、更穩定的設定。例如，ReTool 在其工具整合框架中將 KL 係數設定為 0.0 1，這可能是為了鼓勵模型在學習工具使用模式時進行更廣泛的探索。

控制工具互動“粒度”和“體量”的超引數（如最大呼叫次數、最大輸出長度）對於平衡學習效果與計算約束至關重要。諸如最大工具呼叫次數和檢索內容最大長度等引數，直接影響強化學習智慧體探索和學習的軌跡複雜性。

更多的工具呼叫或更長的輸出可以提供更多資訊，但也增加了序列長度、每步的計算成本，並可能增加學習訊號中的噪聲。如果最大工具呼叫次數設定過低，智慧體可能無法解決複雜的多步驟問題。如果設定過高，訓練可能會變得非常緩慢，或者智慧體可能學會低效、冗長的策略。

類似地，過長的工具輸出可能會超出上下文視窗的限制或稀釋重要的訊號。因此，最佳化這些工具特定的超引數對於實用的工具增強型強化學習至關重要。這是一個在賦予智慧體足夠自由度以學習複雜互動與保持訓練過程易於管理和專注之間的權衡。這可能會推動自適應策略的發展，即這些限制在訓練過程中動態變化。

下表 4 總結了在不同研究中，強化學習訓練所整合的外部工具或知識庫。

綜合、進階洞察與建議

透過對上述強化學習訓練方法論的深入分析，我們可以觀察到一些趨同的主題和差異化的策略，識別新興趨勢與挑戰，並據此提出一些最佳實踐建議和未來研究方向。

對比分析：趨同主題與差異化策略

在眾多強化學習應用於大型語言模型的研究中，出現了一些共同的趨勢和方法選擇：

趨同主題:

• PPO/GRPO 的主導地位: PPO 及其變種 GRPO 已成為強化學習訓練大型語言模型的事實標準演算法，這得益於它們在穩定性與實現相對簡單性之間的平衡。
• 結果導向的獎勵函式: 儘管任務各異，但大多數研究傾向於使用基於最終任務結果（如答案正確性、任務完成度）的獎勵函式，這種方式簡單直接，且在一定程度上可以避免對中間過程的過度擬合。
• 高質量、精細化資料的關鍵性: 各項研究普遍強調高質量、經過精心篩選和過濾的資料對於成功訓練的重要性，包括去除噪聲、確保相關性以及防止資料汙染。
• 外部資訊損失遮蔽的普遍性: 在整合外部工具或知識庫時，普遍採用將外部資訊（如工具輸出、檢索內容）在損失計算中遮蔽的做法，以確保模型學習的是利用資訊進行推理，而非簡單模仿。

差異化策略:

• SFT 與直接 RL 的選擇: 對於模型初始化，一些研究採用先進行監督微調 (SFT) 再進行強化學習的策略，而另一些則選擇直接從基礎模型開始進行強化學習，這反映了對初始化效率與探索自由度之間不同權衡的考量。
• 有無評論家的優勢估計: PPO 通常依賴於學習的價值網路（評論家）來估計優勢函式，而 GRPO 等方法則透過組內獎勵歸一化等方式避免了評論家，這在計算開銷和估計精度之間形成了取捨。
• 探索與穩定性的具體技術: 儘管目標一致，但不同研究在如何平衡探索與穩定性方面採用了不同的具體技術，例如 DAPO 和 VAPO 中引入的 Clip-Higher、長度自適應 GAE 等。
• 獎勵函式的複雜程度: 獎勵函式的設計從簡單的二元獎勵到包含格式遵循、效率考量等多個組成部分的複合獎勵，其複雜程度因任務和研究目標而異。

新興趨勢與總體挑戰

強化學習在大型語言模型領域的應用正呈現出一些積極的趨勢，但也面臨著持續的挑戰：

新興趨勢:

• 演算法日益複雜化與定製化: 針對大型語言模型的特性和特定任務的需求，研究者們正在開發越來越複雜和定製化的強化學習演算法，如 VAPO、DAPO、Dr. GRPO 和 StarPO 等，它們在經典演算法基礎上進行了諸多創新。
• 外部工具整合的多樣化與深度化: 模型整合的外部工具型別日益豐富，從最初的計算器、程式碼直譯器，擴充套件到搜尋引擎、資料庫介面、乃至複雜的網路瀏覽和專業開發環境。
• 關注多輪互動與軌跡級最佳化: 隨著任務複雜性的增加，對模型進行多輪互動和整個互動軌跡層面的最佳化受到更多關注，如 StarPO 和 Kevin-32B 的研究所示。
• 資料中心方法的強化: 對資料在強化學習中作用的認識不斷深化，出現瞭如汙染過濾、策略性資料增強等更為精細的資料處理方法。

總體挑戰:

• 樣本效率: 尤其對於獎勵稀疏或互動成本高的複雜任務，提升強化學習的樣本效率仍然是一個核心挑戰。
• 長程信用分配: 在涉及多步推理和工具使用的長互動軌跡中，如何準確地將最終獎勵分配給序列中的關鍵決策是一個難題。
• 訓練的可擴充套件性: 隨著模型規模的增大和工具互動複雜性的提升，如何高效、可擴充套件地進行強化學習訓練是一個持續的工程挑戰。
• 泛化能力: 如何確保模型學習到的工具使用策略或推理模式能夠泛化到新的工具、任務或未見過的資料分佈上，是衡量其真正能力的關鍵。
• 獎勵駭客與真實理解: 設計能夠有效避免獎勵駭客行為、並能真正反映模型理解能力的獎勵函式，仍然是一個開放性問題。

設計強化學習訓練流程的最佳實踐與建議

基於當前的認知，可以為設計強化學習訓練流程提供以下一般性建議：

• 資料為王: 從與目標技能高度相關的高質量、經過精心管理和過濾的資料開始。考慮資料的多樣性、難度分佈以及潛在的汙染問題。
• SFT 引導: 如果有高質量的監督微調資料可用，可以考慮使用 SFT 來引導模型學習複雜行為或工具互動的基本格式，這有助於加速後續強化學習的收斂。
• 演算法選擇與適配: 選擇一個成熟的強化學習演算法家族（如 PPO/GRPO），並根據計算預算、穩定性需求以及任務特性進行適配。例如，在計算資源受限時可以考慮無評論家方法，而在追求更高效能時可以探索如 VAPO 等更先進的價值估計算法。
• 獎勵設計: 獎勵函式的設計應儘可能簡單明瞭，同時要能有效抵抗獎勵駭客行為。優先考慮基於最終任務結果的獎勵。
• 損失遮蔽: 對於任何整合到模型上下文中的外部資訊（如工具輸出），務必在強化學習的損失計算中進行遮蔽。
• 穩定訓練: 採用多種技術來確保訓練過程的穩定性，包括但不限於 KL 散度正則化、梯度裁剪、以及細緻的超引數調優。
• 工具使用規範: 在整合外部工具時，確保在安全的環境（如沙箱）中執行，並將工具的錯誤反饋作為學習訊號提供給模型。同時，透過設定最大呼叫次數等機制來控制工具的互動頻率。
• 迭代監控與最佳化: 強化學習的訓練是一個迭代的過程。需要持續監控訓練動態（如獎勵曲線、生成內容質量、模型熵等），並根據觀察結果不斷調整資料、獎勵函式和超引數。

未來潛在研究方向

展望未來，強化學習在大型語言模型領域的應用仍有廣闊的探索空間：

• 更高樣本效率的演算法: 探索利用基於模型的強化學習、離線強化學習等技術，以進一步提升樣本效率。
• 分層強化學習: 對於需要處理複雜、多層次任務和工具使用場景，分層強化學習可能提供更有效的解決方案。
• 自動化獎勵設計: 研究如何自動設計或學習有效的獎勵函式，以減輕人工設計獎勵的負擔和偏見。
• 長軌跡信用分配的改進: 開發更先進的信用分配方法，以解決在長互動序列中學習的挑戰。
• 標準化基準與環境: 建立針對工具增強型強化學習的標準化基準測試和模擬環境，以促進不同方法之間的公平比較和可復現研究。
• 引數化知識與外部資訊的深度融合: 更深入地研究大型語言模型如何在其引數化知識與透過工具獲取的外部資訊之間進行有效的權衡、整合與推理。

結論

關鍵發現總結

本文對強化學習的訓練方法進行了系統性的梳理與分析。核心發現包括：資料管理在強化學習中扮演著基礎性且日益重要的角色，精細化的資料選擇、清洗、過濾和增強策略是成功訓練的關鍵；

以 PPO 和 GRPO 為代表的策略最佳化演算法是當前的主流選擇，同時針對大型語言模型的特性和特定任務需求，湧現出如 DAPO、VAPO、Dr. GRPO、StarPO 等一系列創新演算法和技術；訓練過程通常涉及可選的監督微調、迭代式的強化學習迴圈，並廣泛採用損失遮蔽、KL 正則化等穩定性措施；超引數的精細調整對於平衡探索、利用與穩定性至關重要。

特別地，將強化學習與外部工具和知識庫整合已成為提升大型語言模型能力的重要途徑。為此，研究者們發展了針對性的資料增強方法（如自動構建工具互動範例）、在演算法層面支援結構化工具呼叫與反饋解析、在訓練過程中實現推理與工具執行的交錯迴圈、透過沙箱環境確保安全，並透過損失遮蔽和錯誤反饋等機制引導模型學習有效的工具使用策略。