MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 青稞AI

作者 | 蛙哥

RL真的讓大模型變聰明瞭嗎？我最近讀的這幾篇論文還挺有意思，底層的邏輯應該是有共識的，就是模型能力的上限在預訓練階段就確定了，當前的RL只是最佳化選擇路徑，並沒有提升智力上限。

這三篇關於 RL在大模型訓練中作用的論文，分別是3月斯坦福的《Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs》、4月清華和上交大聯合出品的《Does Reinforcement Learning Really Incentivize Reasoning Beyond the Base Model?》以及剛剛出品的Transformer原作Ashish Vaswani參與的《Rethinking Reflection in Pre-training》。

這三篇文章來自不同團隊，用的模型也不一樣，但從我的視角看，都指出了一個核心事實——大模型的推理能力，其實早在預訓練階段就已經形成了，RL 更像是個“取樣放大器”。RL不一定讓模型更聰明，只是讓它更擅長挑選已有的好答案。

斯坦福的《Cognitive Behaviors that Enable Self-Improving Reasoners》分析的是 RL 效果的分歧。

論文連結：https://arxiv.org/abs/2503.01307

研究者發現，同樣的 RL 訓練，一個模型（比如 Qwen-2.5）提升特別明顯，另一個（Llama-3.2）基本沒反應。為啥？他們提出了一個概念：認知行為。也就是說，一個模型本身有沒有“回溯”“驗證”“設子目標”這些能力，決定了它能不能從 RL中學到東西。沒有這些基礎，RL訓再久也沒用。Qwen2.5和Llama3.2的差別就是Qwen2.5裡有大量的所謂認知行為，也就是推理軌跡，而Llama3.2沒有，所以你怎麼RL Llama3.2他一點都啟用不起來推理能力。後來嘗試給Llama3.2基座灌了一批推理軌跡資料，再用RL來啟用就能力就上來了。國內智源當前正在推進的OpenSeek專案，也buy in了這個點，目前正在預訓練階段大量的刷推理軌跡資料，讓模型在基座上就見到足夠多的推理路徑或者叫“模版”，後訓練RL的時候他們相信即使軌跡的內容不對，但是路徑的模版足夠豐富，也能帶來極大的能力提升。

清華《Does Reinforcement Learning Really Incentivize Reasoning Beyond the Base Model?》直接把“RL 會提升推理上限”的說法拿出來批判。

論文連結：https://arxiv.org/abs/2504.13837

他們做了個大規模的 pass@k 分析，結果是：那些被 RL 訓出來的“好答案”，其實底座模型早就能生成，只是裸用基座被挑中的機率低了點。RL只是讓模型更偏向去生成高 reward 的路徑，並沒有真正增加推理能力的多樣性。這篇論文的幾個主要發現

• RLVR 未引入新的推理路徑：透過手動檢查鏈式思維推理路徑，發現 RLVR 訓練的模型生成的推理路徑在基模型的輸出分佈中已存在，表明 RLVR 並未引入全新的推理能力。說明智力上限在預訓練，RL只是啟用。
• RLVR 提高取樣效率但縮小推理邊界：RLVR 訓練使模型傾向於生成高獎勵的路徑，從而提高了在小 k 值（如 pass@1）下的表現。然而，這種偏向性減少了模型的探索能力，導致在大 k 值下（如 pass@256）基模型的表現反而優於 RLVR 模型。就是說用基座是的多了，肯定能找到一個更優的答案比RLVR的模型結果更好。
• 不同 RL 演算法表現相近，均未達到最優：比較了 PPO、GRPO 和 Reinforce++ 等 RL 演算法，發現它們在取樣效率上的差異較小，且都未達到基模型推理邊界所定義的最優取樣效率。說明目前RL不注入新資料的情況應該都差不多。
• 知識蒸餾能引入新知識，區別於 RLVR：與 RLVR 不同，知識蒸餾可以引入新的推理模式，擴充套件模型的推理邊界。這表明蒸餾在提升模型推理能力方面具有更大的潛力。說明在同樣的方法情況下，模型能力提升，還是需要新的資料。

清華這篇論文我的看法是還說明了一個問題，即使推理能力是在基座模型裡決定的，但是當前RLVR技術也很難找到最優的推理路徑給出最優解，也是個區域性最優。所以VR這類方法看起來也是階段性的方法而已，長期來看如何給RL定義真實世界的評估反饋，才是最終解。

Transformer原作參與的《Rethinking Reflection in Pre-training》講的是“反思”能力，也就是模型能不能在推理過程中發現自己犯了錯然後糾正。

論文連結：https://arxiv.org/abs/2504.04022

作者用一堆刻意摻了錯誤的推理鏈去測試模型，發現模型在還沒做RL的時候就已經能自己修正不少錯誤了。訓練token越多、模型越大，這種能力越明顯。作者用基座模型OLMo-2-7B來證明在未進行RL的階段，透過在推理階段適時的塞入一個提示詞“wait”，就能觸發模型的反思能力，達到RL後模型的效果。

這個效果讓我想起來一個叫entropix的開源專案，這個專案透過在推理階段引入基於熵和變熵的動態取樣機制，顯著提升了模型在推理任務中的表現，比如根據模型當前的情況，插入CoT提示引導模型深入思考，或者重新取樣嘗試新的生成路徑，出發點和這篇論文大體相似，可惜這個專案去年底就停更了。

總結

總結下來，這三篇文章其實達成了一個RL模型的共識：

1、能力來源（source）：

語言模型的推理能力 = f(模型架構, token量, 訓練資料多樣性, 泛化能力)

2、RL的作用（作用機制）：

RL ≈ 一個獎勵驅動的路徑偏移器

• 將已存在於模型分佈中的推理路徑偏移為更高 reward 的選項
• 提高成功率，但不生成新“知識”或“能力”

3、提升路徑（有效方向）：

想要獲得新的 reasoning 能力 ≠ 強化訓練

需要更強的知識/經驗（知識注入+架構最佳化+認知行為引導）

RL不是創造能力，而是最佳化選擇。真正決定模型能走多遠的，是底座模型的本體素質，在架構穩定的情況下，最終還是資料。

其實前幾天OpenAI姚順雨的《The Second Half》和 DeepMind 的《The Era of Experience》這兩篇文章裡提到的下半場AI訓練要關注的評估和體驗，我覺得也是和這三篇論文的基調一致。一方面是透過體驗與真實世界更好連結，更多的現實世界的資料來源，提高模型基礎邊界上限；另一方面足夠準確的定義評估模型，透過RL技術讓模型可以學習到最佳的上限路徑，真正把模型能力發揮出來。