MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 知乎

作者 | 楊氏雙縫干涉

論文：Bridging Offline and Online Reinforcement Learning for LLMs連結：https://arxiv.org/abs/2506.21495

一、線上跟離線的本質區別

從第一性原理出發，二者的根本區別在於更新模型策略所用資料的來源。

On-Policy，顧名思義，指的是“用正在學習的策略產生的資料來學習”。即，智慧體（在LLM中指語言模型本身）嚴格使用其當前策略（Policy）與環境互動所產生的資料來更新和最佳化自身。這意味著，一旦策略發生更新，所有舊的互動資料都將被廢棄，因為它們是由一個“過時”的策略產生的。

Off-Policy 則更為靈活，它指的是“用並非當前學習的策略所產生的資料來學習”。智慧體可以利用由其他策略（甚至是歷史策略或人類示範資料）產生的資料來更新當前策略。這解耦了“資料生成”和“策略學習”兩個過程，從而提高了資料利用效率。

特性	on-policy	off-policy
第一性原理	學習用的資料必須由當前策略生成	學習用的資料可以來自任何策略
資料來源	即時互動，線上生成	離線資料集或歷史資料
資料效率	低，用完即扔高，	可重複利用
核心思想	用當前策略產生的經驗迭代最佳化自身	解耦資料生成、策略學習

1.1 DPO：一種典型的Off-Policy思路

核心思想：利用一個固定的、離線的人類偏好資料集，直接最佳化語言模型。這個資料集通常包含一系列的提示（Prompt），以及對模型生成的兩個回答的偏好標籤（哪個更好，哪個更差）。

DPO 損失函式直接將策略與人類偏好掛鉤，其目標是最大化模型生成“更優”回答的機率，同時最小化生成“更差”回答的機率，並且與一個固定的參考模型（Reference Model）保持一定的距離，防止模型在最佳化過程中“忘掉”其預訓練時學到的知識。

為什麼DPO是Off-Policy ？

1、資料來源的非互動性：DPO所用的偏好資料 {{ }}是一次性收集並固定的。在整個DPO的訓練過程中，模型不會用其正在更新的策略去與環境（或人類）互動產生新的偏好資料。

2、行為策略與目標策略的分離：將生成這個偏好資料集的策略（可能是早期的某個模型版本，甚至是多個不同模型的混合）看作是行為策略（Behavior Policy）。而我們正在最佳化的當前模型，則是目標策略（Target Policy）。DPO的目標是利用行為策略產生的資料，來最佳化目標策略，使其更符合人類偏好。

1.2 GRPO：On-Policy 演算法

核心思想：對於一個給定的提示，讓當前模型生成一組（Group）候選回答（例如，生成8個不同的回答）。然後，一個獎勵函式（可以是一個訓練好的獎勵模型，也可以是基於規則的打分器）會為這組中的每一個回答打分。GRPO利用這一組回答的相對好壞來計算優勢（Advantage），並更新策略。它透過比較組內樣本的得分均值和標準差來歸一化獎勵，從而指導模型向著生成更高分回答的方向最佳化。

作為On-Policy方法，最直接的實現如下：

資料由當前策略生成：在每個訓練步驟中，我們使用當前正在最佳化的策略來生成一組候選回答。

即時更新與拋棄：基於這組新生成的資料計算出的梯度來更新策略。更新完成後，這組資料就會被丟棄，下一個步驟會由新的策略重新生成資料。這個流程保證了資料分佈和策略分佈的一致性。

二、論文基礎介紹

2.1 三種對齊演算法

左圖介紹整個訓練流程；右圖中，s代表同步頻率（Synchronization Frequency）。s=100 意味著“學習模型”每進行100 次引數更新後，才會將自己的最新知識同步給“資料生成模型”。

對於DPO來說，s=1 意味著on-policy， s=k 論文中稱之為Semi-online Optimization，則為off-policy。

GRPO 是on-policy，不再贅述。

2.2 兩類訓練資料

Non-verifiable	Verifiable
data	WildChat-1M dataset	NuminaMath dataset
Reward	Athene-RM-8B scalar score	使用開源工具Math-Verify 計算分值
Eval	AlpacaEval 2.0, Arena-Hard math500，	NuminaMath, AMC23

三、實驗及結論

3.1 Verifiable Task Evaluations

相較於offline DPO， semi-online DPO的效能有較大提升；

semi-online DPO 甚至都略超過了GRPO，揭示了 semi-online DPO 的可能性。

3.2 Non-Verifiable Task Evaluations

結論同上。

3.3 Combined Verifiable + Non-Verifiable Evaluations

• 只訓練單一任務會導致“偏科”，無法自動遷移；
• 跨任務微調是比較有效的，WC-checkpoint 在NM only任務上訓練，數學能力顯著提升，並且ArenaHard的能力也達到最優；
• 從頭開始混合訓練是打造“全能模型”的可靠方法；

四、細節補充

4.1 Entropy collapse and regularization

“Logit Entropy”衡量的是模型在生成每一個詞（token）時的不確定性或隨機性。

• 高熵 (High Entropy) 意味著：模型對於下一個詞應該是什麼感到比較“困惑”或“開放”。它認為有很多個詞都是可能的選項，並且這些選項的機率分佈比較平均。這通常代表著模型會生成更多樣化、更具探索性的回答。
• 低熵 (Low Entropy) 意味著：模型對於下一個詞是什麼非常“自信”和“確定”。它的機率分佈高度集中在少數幾個甚至一個詞上。這會導致模型生成的內容更單一、更確定化。

“Rollout Length”指的是模型回答的平均長度。“Rollout” 可以理解為模型生成的一次完整回答。

• 監控該指標的目的：在強化學習微調中，有時訓練不穩定會導致模型“鑽空子”，比如學會用生成極長或極短的無意義回答來騙取獎勵。因此，監控回答的長度是判斷訓練是否穩定、模型行為是否正常的一個重要指標。

儘管從外部看，模型的回答長度（右圖）一直很正常和穩定，但其內部的生成過程（左圖）卻發生劇烈變化。

具體來說，對於線上和半線上的訓練方法：

• 表面上：模型行為穩定，產出的答案長度適中。
• 實際上：模型的“思想”或“創造力”正在枯竭（Entropy collapse）。它學會了用一種非常固定的模式來生成答案，雖然這種模式在可驗證任務（如數學題）上可能是有效的，但也意味著模型犧牲了生成內容的多樣性。

• 作者透過引入norm的方法，試圖緩解Entropy collapse，該方法雖然能在形式上維持住熵，但這種強制的多樣性並沒有轉化為實際任務效能的提升。
• Trade-off：對於數學題這類“有標準答案”的可驗證任務，最高效的學習路徑可能本身就是收斂到一個單一、最優的解題策略。強行讓模型保持“思維發散”（高熵），反而可能干擾它對最優解的精確學習，導致訓練不穩定且效能沒有實質提升。