
在 LLM 的預訓練及微調階段,Scaling Law 告訴了我們所能達到效果範圍,其中蘊含了深刻的資訊理論原理,感興趣的可以回看筆者之前的文章 [15]。
在此原理的支配下,開發者則可以將精力主要關注於三個方面:清洗資料、增大模型、提高效率。那麼對於主要基於 RL 的推理模型而言,是否也存在這樣一個指導原則呢?
本篇將以推理模型的能力邊界為主題,主要圍繞以下問題展開:
-
基於 RL 的推理模型的表現與基座模型的關係 -
RL 中的“熵坍縮”問題:原因、實質及解決方法 -
推理模型是否存在“能力邊界”,以及如何拓展“能力邊界”

RL效果與基座模型的關係
隨著 RL 熱度的提高,近期眾多工作研究了基座模型與 RL 訓練效果的關係,相當多的工作提出共同的觀點:模型的能力由預訓練決定,RL 僅僅只是其中某些行為的“放大器”。
那麼,如果去認識和理解這一現象呢?如果該觀點成立,其更深層次的原理是什麼呢?
1.1 觀察:基座模型決定論
關於基座模型與 RL 的關係首先來自基於實驗的觀察,為了理解這一過程,我們不妨在此列舉部分工作的實驗結果及其核心觀點。
DeepSeek R1
DeepSeek R1 是比較早討論到基座模型與 RL 的關係的文章,其中認為基座模型與 RL 對模型的邊界能力同等重要,即“要超越智慧的邊界,可能仍需要更強大的基礎模型和更大規模的強化學習”。

當然以上觀點還是基於少量實驗資料提出的,但仍然可看作類似觀點之濫觴。
Echo Chamber
該研究者從頭開始訓練不同規模(150M 和 1B 引數)的解碼器語言模型,並使用完全開放的資料集混合進行預訓練。使用 PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization)和 Expert Iteration 等 RL 演算法對預訓練模型進行微調。
透過大量實驗,觀察到如下表現:
1. RL 微調的收斂性:RL 微調使模型輸出迅速收斂到預訓練資料中的一種特定分佈格式,抑制其他分佈。例如,模型可能迅速偏好 TinyGSM 風格的輸出,即使這種格式在初始化時並非最常見。
2. 效能提升:RL 微調顯著提高了模型在 GSM8K 測試集上的 pass@1 準確率,但降低了 pass@64 準確率,表明生成多樣性減少。
3. 規模依賴性:不同規模的模型在相同資料混合上訓練後,會收斂到不同的輸出分佈。較小的模型傾向於輸出更簡單、類似程式碼的格式,而較大的模型傾向於自然語言輸出。
4. 正向遷移:在 GSM8K 上進行 RL 微調後,模型在未見過的評估資料集(如 MATH-500 和 AIME)上也表現出效能提升,表明某些推理能力可以在任務間泛化。

由此可以得到以下 RL 與基座模型關係的結論:
1. RL 微調的放大效應:RL 微調不僅放大了預訓練資料中的特定模式,還可能抑制其他模式,這取決於預訓練資料的組成、RL 演算法的選擇、超引數設定和模型規模。
2. 模型規模的影響:模型規模對 RL 微調的效果有顯著影響。較大模型在自然語言輸出上表現更好,而較小模型可能更依賴程式碼風格的輸出。
3. 正向遷移的證據:RL 微調不僅改善了模型在特定任務上的表現,還提升了模型在更廣泛數學任務上的推理能力。

Limit of RLVR
為了評估模型的推理能力邊界,作者提出了 pass@k 指標。該指標透過多次取樣(k 次)模型的輸出,判斷問題是否被解決(即至少有一個輸出是正確的)。這種方法可以更準確地評估模型在大量嘗試下的推理能力。
在多個數學、程式設計和視覺推理基準測試上進行了廣泛的實驗,涵蓋了多種 LLM 家族、模型大小和 RL 演算法。實驗使用了 Qwen-2.5、LLaMA-3.1 等模型,並採用了 GRPO、PPO 等多種 RL 演算法。
實驗發現,在數學、程式碼、視覺問題上,RLVR 訓練的模型在小 k 值(如 k=1)時表現優於基礎模型,但在大 k 值時,基礎模型的 pass@k 分數與 RL 模型相當甚至更高。這表明基礎模型在大量取樣下能夠解決RL模型解決的問題,且 RL 訓練並未引入新的推理模式。
由此得到結論:RLVR 在當前形式下不足以激勵 LLMs 超越基礎模型的推理能力。儘管 RLVR 可以提高模型在小 k 值時的效能,但它限制了模型的探索能力,導致在大 k 值時的覆蓋範圍縮小。即 RLVR 可能不足以推動 LLMs 的推理能力邊界。未來可能需要新的訓練正規化來實現這一目標。

此外,該文章中還有更多資訊值得關注,包括:
1. 推理路徑分析:觀察困惑度(perplexity)可以發現與 RL 相關的 PPL 顯著更低,即 RLVR 訓練的模型生成的推理路徑已經包含在基礎模型的輸出分佈中。這表明 RLVR 訓練並沒有引入新的推理能力,而是透過偏向高獎勵的路徑來提高取樣效率。
2. 不同 RL 演算法的效果:儘管不同的 RL 演算法在效能上存在微小差異,但它們在提高取樣效率方面並無本質區別。作者提出了取樣效率差距()來量化 RL 演算法的效率,發現現有方法與最優效率之間仍有較大差距。


當然,還有很多論文也討論了該問題,筆者在此不再一一介紹,僅列舉出來供讀者參考:
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
https://arxiv.org/abs/2503.01307
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
https://arxiv.org/abs/2504.04022
1.2 實質:“熵坍縮”與模型專業化
“熵坍縮”:即在 RL 訓練中策略熵在早期訓練階段急劇下降,導致策略模型過於自信,進而導致探索能力的減弱與策略效能的飽和。
實際上,上一小節的 PPL 已經提現了這一點(PPL 與熵的計算僅僅差一個 exp),其表現如下圖左所示,模型在特定領域的表現提升與其熵縮是同時發生的,甚至二者之間都可以透過公式近似擬合出來。

▲ The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
如果對 Token 熵進行模式分析,可以發現,在 CoT 推理中,大多數 token 的熵很低,而少數 token 的熵很高。這些高熵的 token 通常作為推理路徑中的“分叉點”(forks),引導模型走向不同的推理路徑。
例如,高熵 token 常見於邏輯連線詞(如“Thus”、“perhaps”等),而低熵 token 則多為單詞字尾或數學表示式的組成部分。
在 CoT 推理中,高熵的少數 token 起到了關鍵作用,它們作為“分叉點”引導模型走向不同的推理路徑。
RLVR 訓練主要保留了基礎模型的熵模式,並且主要調整了高熵 token 的熵。透過僅對高熵 token 進行策略梯度更新,可以顯著提高模型的推理效能,且這種方法在更大模型上效果更明顯。

▲ Beyond the 80/20 Rule: High-Entropy Minority TokensDrive Effective Reinforcement Learning for LLM Reasoning
另外也有工作研究了正負樣本對 RL 的訓練結果的影響,實驗發現,僅使用負樣本進行訓練(NSR)在 Pass@k 的整個範圍內都能顯著提升模型效能,甚至在某些情況下超過了 PPO 和 GRPO 等常用強化學習演算法。
與 NSR 相反,僅使用正樣本進行訓練(PSR)雖然能提高 Pass@1,但在較大的 k 值下效能下降,導致輸出多樣性降低。透過跟蹤模型的熵,發現 NSR 在整個訓練過程中保持了較高的熵,而 PSR 則迅速降低了熵。這表明 NSR 在訓練過程中保持了模型的輸出多樣性。
透過分析可知,PSR 透過增加正確響應的 logit 值,同時降低其他所有 token 的 logit 值,導致輸出分佈變得過於集中,減少了多樣性。
NSR 透過降低錯誤響應的 logit 值,並將機率質量重新分配給其他候選 token,這種重新分配是基於模型先驗的,有助於保持多樣性。NSR 透過抑制錯誤響應和根據模型先驗重新分配機率質量,有效地細化了模型的現有知識,而不是引入全新的行為。

▲ The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning
透過以上一系列實驗,至少可以發現以下共同的現象:
1. 隨著訓練的進行,“熵坍縮”現象是普遍存在的,無法避免的;
2. 不同 token 的熵表現不同,對結果的影響也不同;
3. 透過對不同 token 的熵的干預,可以一定程度影響結果。
以上過程是如何發生的?其底層的原理是什麼?其與模型專業化訓練過程的關係是什麼?以下將試圖進行更加深入的探討。

熵縮:從SFT到RL
上文討論的“熵坍縮”現象都是發生在 RL 訓練過程中的,目前尚未看到 SFT 中有類似提法,那麼本節就由表及裡,從 SFT 到 RL,探究“熵坍縮”的發生過程。
2.1 資訊熵、策略熵與交叉熵損失
首先在筆者之前的文章中已經討論過,對於一個確定的語言或者資料集,其資訊熵是確定的,即在自然語言領域,令 ,熵可以表示為:

其中:
當序列長度無限大的情況下,夏農將其定義為該語言的熵,即:
根據這個定義,熵是使用無限數量的符號來計算的。在實踐中,只能從有限的文字樣本中近似經驗熵來近似任何語言的熵。
在 LLM 中,我們可以根據定義來計算引數化模型輸出的 token 熵,即索引 t 處的熵:

其中, 表示由 引數化的LLM, 是輸入查詢, 表示先前生成的token。 是詞表大小, 表示在時間步 的 pre-softmax logits, 是詞彙表上相應的機率分佈, 是解碼溫度。
在此基礎上,我們可以進一步得到策略熵(即模型熵),策略模型在訓練資料 上的平均 token 嫡,即:

其中輸入提示 ,策略熵量化了策略對當前提示的不確定性水平。
細心的讀者看到以上公式也許會聯想到 SFT 中的交叉熵損失,即:

其中的關鍵區別在於移除了期望 ,並替換為真實的樣本序列 。這體現了監督學習的本質:使用真實標籤計算損失。
透過以上分析我們可知,SFT 中也存在“熵坍縮”現象,而且其“熵坍縮”現象的本質就是模型訓練的過程(loss 下降),這也是模型在特定資料集上的專業化過程。
而與 SFT 不同的是,RL 存在探索的過程,其中會產生多個正負樣本,因此其策略熵即是在多條樣本期望上,其“熵坍縮”的過程也即逐步收斂到正樣本上的過程。下面我們將嘗試進一步論證以上推斷。
2.2 RL的熵縮機制
在論文 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models 中比較嚴謹地證明了 RL “熵坍縮”的發生過程,在此僅展示其中核心觀點。
Softmax 策略的熵差。假設策略 是一個表格形式的 softmax 策略,其中每個狀態-動作對 都與一個獨立的 logit 引數 相關聯,在一級近似下,兩個連續步驟中給定狀態 的策略熵之差滿足:

這個引理表明,策略熵的變化約等於動作的對數機率與 logits 變化之間的負協方差。也就是說,當一個動作 a 在更新前從策略中獲得了高機率,並且其對應的 logits 在更新後也在增加,那麼它將降低策略熵。
策略梯度中策略 logits 的差異。上式中 是步驟 k 和步驟 之間輸出 logits 的變化,可以證明,透過梯度回溯以學習率 進行更新,則連續兩步之間的差異滿足:

結合以上公式,直觀上可以看到,一個動作 a 同時獲得高/低機率和高/低優勢會降低熵,反之亦然。
在早期階段,策略在訓練資料上表現出高協方差,暗示策略的置信度得到了良好校準,因此可以安全地利用高置信度的軌跡,增強信念並最小化熵,此階段可理解為 SFT 的增強階段,也即熵縮的主要過程。
2.3 RL與SFT的聯結
在傳統認知中,RL 與 SFT 的區別主要體現在兩個方面:
-
負樣本的利用
-
樣本的多樣性
那麼如果在 SFT 中增加負樣本,同時可以無限增加樣本的情況下,是否 SFT 就可以等價於 RL 呢?答案是肯定的。接下來我們看一下 Bridging Supervised Learning and Reinforcement Learning in Math Reasoning 中的論證過程。
利用負樣本。首先定義負策略:

而最終的策略可以看作正負策略的疊加,即:

其中:

表示 LLM 在問題上的正確率。
根據以上關係,可以構建一個隱式負策略:


考慮用於訓練隱式負策略 的最大似然目標:

假設資料無限且模型容量無限,上式的最優解是:

為了進一步利用正樣本,可以對上式進行進一步修正,即:

接下來論證 GRPO 和 NFT 在 on-policy 訓練中是等價的。假設對於一個給定的問題,有 個正面答案和 個反面答案,僅考慮二元獎勵,則 GRPO 的梯度:

其中:
分別是答案的歸一化優勢。
同樣可以得到 NFT 的梯度,即:


則可以推知 GRPO 和 NFT 損失梯度在策略梯度訓練中是等價的,即:

總結一下以上討論,RL 與 SFT 沒有本質上的區別,其熵縮的過程即是模型訓練的最佳化過程,也是模型專業化的過程,改過程是必須的、不可避免的,對於熵的過分放開可能反而會使模型訓練的崩潰。

“熵坍縮”的處理方法及其本質
3.1 探索-利用困境
事實上,關於熵的討論即是在討論 RL 的核心問題 —— 探索-利用困境(exploitation-exploration dilemma):
-
如果任由熵縮而不加干預,則模型會快速收斂到某種模式,即利用過多,會導致模型能力比較侷限;
-
如果對熵干預過多,即使熵保持在一個高水平,即探索過多,可能會導致無法收斂,甚至訓練崩潰。
下面通過幾個案例來說明以上情況:
控制策略熵的常用方法之一是應用熵損失,下圖展示了新增熵損失的結果,熵損失對係數非常敏感,小系數對熵的影響較小(0.0001,0.001),而大系數會導致熵爆炸(0.01)。儘管將係數設定為0.005成功地穩定了策略熵,但它並不優於其他方法。

也可以透過調整策略模型和參考模型之間的 KL 懲罰來控制熵。儘管 KL 實現了穩定的熵值,但它未能改進策略,反而導致效能下降,因此當前很多工作就不再使用 KL 約束。

3.2 干預方法討論
在前文中,我們討論了“熵坍縮”的發生過程及其影響,那麼在具體訓練過程中,熵與哪些因素相關呢?該如何幹預和影響熵呢?熵的改變對下游任務有多大影響呢?本節將以一些典型工作為例,討論以上相關的內容。
3.2.1 Clip-Higher
DAPO 是較早討論“熵坍縮”現象並進行干預的工作,其干預的方法也非常簡單,即 Clip-Higher。Clip-Higher 透過解耦clip的上下限範圍,增大clip上限,以允許更自由地增加低機率 token 的機率,從而鼓勵探索。此外,上限閾值僅影響具有正優勢的 token。

3.2.2 Clip-Cov與KL-Cov
論文 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models 中根據其提出的協方差理論,相應提出了基於此的 clip 方案。
策略熵動態與動作機率和優勢之間的協方差密切相關。而在大部分模型中,一小部分 token 表現出極高的協方差,遠超平均值(如下表)。也就是說,這些異常 token 在觸發熵崩潰中起主導作用。為了減輕它們的不利影響,需要對其對策略損失的貢獻施加約束。

假設有一批 N 個response, 表示策略模型在給定其對應 prompt 的情況下,對 token 的輸出機率。根據定理 2,我們首先定義 機率和優勢之間的 token 級別中心交叉乘積為協方差,即:

在 Clip-Cov 策略中,從策略梯度更新中剪下一小部分高協方差 token,具體根據協方差值隨機選擇 r⋅N 個高協方差 token,即:

其中 是索引的簡稱, 表示裁剪比例。 是協方差的兩個預定義邊界,分別。它們都設定得遠高於平均協方差()。最後,具有選定索引的 token 將被從策略梯度中分離,策略梯度為:

其中t 是一個 response 中的第t 個 token,每個t 唯一對應N中的索引i 。
KL-Cov 策略更簡單,區別在協方差的 top-k 比例內進行排序和選擇 token,即:

這裡的 表示將受到 KL 懲罰的 token 的比例並且 。最後對選定的 token 施加 KL 懲罰(當前策略與 rollout 策略之間的 KL 散度),策略損失計算如下:

實驗顯示,這兩種方法能夠在整個訓練過程中保持相當高的熵水平。同時,策略模型的響應長度穩步增加,其在測試集上的表現始終優於基線。即模型在訓練過程中能夠更“自由”地探索,透過強化學習學習更好的策略。同時也比 clip-higher 方法更加穩定。

3.2.3 On-policy training
關於 On-policy training 的典型工作是 On-Policy RL with Optimal Reward Baseline,其放棄了 rollout 帶來的樣本效率,而採用完全的 on-policy 方式,同時其採用了最佳化的baseline,我們不妨來看一下其過程。
在基於策略梯度的方法中,baseline 常被用以降低梯度估計的方差,即:

其方差可以表示為:

由於第二項(預期梯度的平方)與 b 無關,最小化 等同於最小化第一項。透過對 b 求導並設其為零,我們可以推匯出最優基線 :

求解可得:

由於該式計算複雜,故假設:不同 token 的梯度近似正交,並且每個 token 的梯度範數遵循相同的分佈。在此條件下,軌跡策略梯度的平方幅度與其長度成正比,即 ,則有:

核心程式碼實現如下:
score_tensor = torch.tensor(id2score[idx]) len_tensor = torch.tensor(id2len[idx]) id2bsl[idx] = (len_tensor * score_tensor).sum() / len_tensor.sum()for i in range(bsz): scores[i] = scores[i] - id2bsl[index[i]]
比較 on-policy 與 off-policy 的結果可以看到,雖然 off-policy 策略訓練在早期階段實現了與精確 on-policy 策略訓練相似甚至略高的訓練獎勵,但在數學推理任務上表現較差。這表明off-policy 學習可能存在潛在的過擬合問題。
此外,on-policy 策略訓練在整個訓練過程中表現出顯著更低的 KL 散度和高得多的熵,即使沒有任何顯式的 KL 或熵正則化,而 off-policy 策略訓練包括一個額外的熵獎勵。更低的 KL 散度意味著更低的對齊成本,更高的熵則表明更強的探索能力。

3.2.4 Token intervention
事實上 Clip-Cov 與 KL-Cov 就已經是 token-level 的干預了,只是由於其底層原理比較獨立,因此單獨討論。本小節以 https://arxiv.org/pdf/2506.01939 為例進行分析。
其同樣發現,透過檢查思維鏈 (CoT) 推理中的 token 熵模式,觀察到只有一小部分 token 表現出高熵,並且這些 token 充當關鍵的 forks,引導模型走向不同的推理路徑。
具有最高 entropy 的 token 通常用於橋接兩個連續推理部分之間的邏輯連線,而具有最低 entropy 的 token 傾向於完成句子的當前部分或完成一個單詞的構建。

RLVR 主要改變高熵 token 的熵,而低熵 token 的熵保持相對穩定,變化極小。即低熵 tokens 對推理效能的貢獻極小,高熵 tokens 的有效性可能在於它們增強探索的能力。

高熵少數 tokens(即 forking tokens)可能在解釋為什麼 RL 泛化而 SFT 記憶方面發揮關鍵作用。
RL,特別是基於結果的獎勵,對未見過的、基於規則的任務表現出很強的泛化能力,而監督微調 (SFT) 容易記憶訓練資料,並且難以在訓練分佈之外進行泛化。
另外如下圖,高熵token的優勢也只有在步數足夠時才能顯現出來,這可能高熵token 佔比較小,由其對結果的正向影響也是吉光片羽,需要大量的訓練才能激發。

3.2.5 塑形優勢值
該方法的典型案例見 Reasoning with Exploration:An Entropy Perspective。其核心點在於構造一個基於熵的優勢項 ,並用其來修正優勢值,即:

其中 a 是縮放係數,k 控制裁剪閾值。關鍵在於,基於熵的項 在反向傳播過程中與計算圖分離,作為原始優勢的一個固定偏移量。這調整了更新的大小,而不會改變梯度流。
這種方法方法僅使用一行程式碼即可無縫整合到現有的 RL 訓練流程中,如下:

這種方法與熵正則化看起來比較接近,但也有所不同,具體如下:

總結一下,本文從 RLVR 訓練過程中的熵縮現象出發,深入討論了其發生原因及干預手段,從此也可以看出 RLVR 當前已進入深水區,需要非常細節的研究和實踐才能有所提升。這個過程,既是理解 RL 和 LLM 的過程,也是拓展其能力邊界的過程。

參考文獻

[1] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? https://arxiv.org/abs/2504.13837
[2] Rethinking Reflection in Pre-Training https://arxiv.org/abs/2504.04022
[3] Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraininghttps://arxiv.org/abs/2504.07912
[4] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2501.12948
[5] https://arxiv.org/abs/2503.0130
[6] Rethinking Reflection in Pre-Training https://arxiv.org/abs/2504.04022
[7] Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning https://arxiv.org/abs/2506.01939
[8] The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning https://arxiv.org/abs/2506.01347
[9] The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models https://arxiv.org/pdf/2505.22617
[10] Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning https://arxiv.org/abs/2505.14403
[11] On-Policy RL with Optimal Reward BaselineOn-Policy RL with Optimal Reward Baseline https://arxiv.org/abs/2505.23585
[12] SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization https://arxiv.org/abs/2505.12346
[13] https://zhuanlan.zhihu.com/p/1913295888731861490
[14] Reasoning with Exploration: An Entropy Perspective https://arxiv.org/abs/2506.14758
[15] https://zhuanlan.zhihu.com/p/687278237
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
