LLM中On-Policy與Off-Policy的本質區別是什麼?

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 知乎
作者 | 楊氏雙縫干涉

論文:Bridging Offline and Online Reinforcement Learning for LLMs連結:https://arxiv.org/abs/2506.21495

一、線上跟離線的本質區別

從第一性原理出發,二者的根本區別在於更新模型策略所用資料的來源
On-Policy,顧名思義,指的是“用正在學習的策略產生的資料來學習”。即,智慧體(在LLM中指語言模型本身)嚴格使用其當前策略(Policy)與環境互動所產生的資料來更新和最佳化自身。這意味著,一旦策略發生更新,所有舊的互動資料都將被廢棄,因為它們是由一個“過時”的策略產生的。
Off-Policy 則更為靈活,它指的是“用並非當前學習的策略所產生的資料來學習”。智慧體可以利用由其他策略(甚至是歷史策略或人類示範資料)產生的資料來更新當前策略。這解耦了“資料生成”和“策略學習”兩個過程,從而提高了資料利用效率。
特性
on-policy
off-policy
第一性原理
學習用的資料必須由當前策略生成
學習用的資料可以來自任何策略
資料來源
即時互動,線上生成
離線資料集或歷史資料
資料效率
低,用完即扔 高,
可重複利用
核心思想
用當前策略產生的經驗迭代最佳化自身
解耦資料生成、策略學習

1.1 DPO:一種典型的Off-Policy思路

核心思想:利用一個固定的、離線的人類偏好資料集,直接最佳化語言模型。這個資料集通常包含一系列的提示(Prompt),以及對模型生成的兩個回答的偏好標籤(哪個更好 ,哪個更差  )。
DPO 損失函式直接將策略與人類偏好掛鉤,其目標是最大化模型生成“更優”回答的機率同時最小化生成“更差”回答的機率,並且與一個固定的參考模型(Reference Model)保持一定的距離,防止模型在最佳化過程中“忘掉”其預訓練時學到的知識。

為什麼DPO是Off-Policy ?

1、資料來源的非互動性:DPO所用的偏好資料 {{  }}是一次性收集並固定的。在整個DPO的訓練過程中,模型不會用其正在更新的策略去與環境(或人類)互動產生新的偏好資料。
2、行為策略與目標策略的分離:將生成這個偏好資料集的策略(可能是早期的某個模型版本,甚至是多個不同模型的混合)看作是行為策略(Behavior Policy)。而我們正在最佳化的當前模型,則是目標策略(Target Policy)。DPO的目標是利用行為策略產生的資料,來最佳化目標策略,使其更符合人類偏好。

1.2 GRPO:On-Policy 演算法

核心思想:對於一個給定的提示,讓當前模型生成一組(Group)候選回答(例如,生成8個不同的回答)。然後,一個獎勵函式(可以是一個訓練好的獎勵模型,也可以是基於規則的打分器)會為這組中的每一個回答打分。GRPO利用這一組回答的相對好壞來計算優勢(Advantage),並更新策略。它透過比較組內樣本的得分均值和標準差來歸一化獎勵,從而指導模型向著生成更高分回答的方向最佳化。
作為On-Policy方法,最直接的實現如下:
資料由當前策略生成:在每個訓練步驟中,我們使用當前正在最佳化的策略  來生成一組候選回答。
即時更新與拋棄:基於這組新生成的資料計算出的梯度來更新策略。更新完成後,這組資料就會被丟棄,下一個步驟會由新的策略  重新生成資料。 這個流程保證了資料分佈和策略分佈的一致性。

二、論文基礎介紹

2.1 三種對齊演算法

左圖介紹整個訓練流程; 右圖中,s代表同步頻率(Synchronization Frequency)。s=100 意味著“學習模型”每進行100 次引數更新後,才會將自己的最新知識同步給“資料生成模型”。
對於DPO來說,s=1 意味著on-policy, s=k 論文中稱之為Semi-online Optimization,  則為off-policy。
GRPO 是on-policy,不再贅述。

2.2 兩類訓練資料

Non-verifiable
Verifiable
data
WildChat-1M dataset
NuminaMath dataset
Reward
Athene-RM-8B scalar score
使用開源工具Math-Verify 計算分值
Eval
AlpacaEval 2.0, Arena-Hard math500,
NuminaMath, AMC23

三、實驗及結論

3.1 Verifiable Task Evaluations

相較於offline DPO, semi-online DPO的效能有較大提升;
semi-online DPO 甚至都略超過了GRPO,揭示了 semi-online DPO 的可能性。

3.2 Non-Verifiable Task Evaluations

結論同上。

3.3 Combined Verifiable + Non-Verifiable Evaluations

  • • 只訓練單一任務會導致“偏科”,無法自動遷移;
  • • 跨任務微調是比較有效的,WC-checkpoint 在NM only任務上訓練,數學能力顯著提升,並且ArenaHard的能力也達到最優;
  • • 從頭開始混合訓練是打造“全能模型”的可靠方法;

四、細節補充

4.1 Entropy collapse and regularization

“Logit Entropy”衡量的是模型在生成每一個詞(token)時的不確定性或隨機性。
  • • 高熵 (High Entropy) 意味著:模型對於下一個詞應該是什麼感到比較“困惑”或“開放”。它認為有很多個詞都是可能的選項,並且這些選項的機率分佈比較平均。這通常代表著模型會生成更多樣化、更具探索性的回答。
  • • 低熵 (Low Entropy) 意味著:模型對於下一個詞是什麼非常“自信”和“確定”。它的機率分佈高度集中在少數幾個甚至一個詞上。這會導致模型生成的內容更單一、更確定化。
“Rollout Length”指的是模型回答的平均長度。“Rollout” 可以理解為模型生成的一次完整回答。
  • • 監控該指標的目的:在強化學習微調中,有時訓練不穩定會導致模型“鑽空子”,比如學會用生成極長或極短的無意義回答來騙取獎勵。因此,監控回答的長度是判斷訓練是否穩定、模型行為是否正常的一個重要指標。
儘管從外部看,模型的回答長度(右圖)一直很正常和穩定,但其內部的生成過程(左圖)卻發生劇烈變化。
具體來說,對於線上和半線上的訓練方法:
  • • 表面上:模型行為穩定,產出的答案長度適中。
  • • 實際上:模型的“思想”或“創造力”正在枯竭(Entropy collapse)。它學會了用一種非常固定的模式來生成答案,雖然這種模式在可驗證任務(如數學題)上可能是有效的,但也意味著模型犧牲了生成內容的多樣性。

  • • 作者透過引入norm的方法,試圖緩解Entropy collapse,該方法雖然能在形式上維持住熵,但這種強制的多樣性並沒有轉化為實際任務效能的提升。
  • • Trade-off:對於數學題這類“有標準答案”的可驗證任務,最高效的學習路徑可能本身就是收斂到一個單一、最優的解題策略。強行讓模型保持“思維發散”(高熵),反而可能干擾它對最優解的精確學習,導致訓練不穩定且效能沒有實質提升。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章