來源 | 青稞AI
作者 | 蛙哥
RL真的讓大模型變聰明瞭嗎?我最近讀的這幾篇論文還挺有意思,底層的邏輯應該是有共識的,就是模型能力的上限在預訓練階段就確定了,當前的RL只是最佳化選擇路徑,並沒有提升智力上限。
這三篇關於 RL在大模型訓練中作用的論文,分別是3月斯坦福的《Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs》、4月清華和上交大聯合出品的《Does Reinforcement Learning Really Incentivize Reasoning Beyond the Base Model?》以及剛剛出品的Transformer原作Ashish Vaswani參與的《Rethinking Reflection in Pre-training》。
這三篇文章來自不同團隊,用的模型也不一樣,但從我的視角看,都指出了一個核心事實——大模型的推理能力,其實早在預訓練階段就已經形成了,RL 更像是個“取樣放大器”。RL不一定讓模型更聰明,只是讓它更擅長挑選已有的好答案。
斯坦福的《Cognitive Behaviors that Enable Self-Improving Reasoners》分析的是 RL 效果的分歧。
論文連結:https://arxiv.org/abs/2503.01307
研究者發現,同樣的 RL 訓練,一個模型(比如 Qwen-2.5)提升特別明顯,另一個(Llama-3.2)基本沒反應。為啥?他們提出了一個概念:認知行為。也就是說,一個模型本身有沒有“回溯”“驗證”“設子目標”這些能力,決定了它能不能從 RL中學到東西。沒有這些基礎,RL訓再久也沒用。Qwen2.5和Llama3.2的差別就是Qwen2.5裡有大量的所謂認知行為,也就是推理軌跡,而Llama3.2沒有,所以你怎麼RL Llama3.2他一點都啟用不起來推理能力。後來嘗試給Llama3.2基座灌了一批推理軌跡資料,再用RL來啟用就能力就上來了。國內智源當前正在推進的OpenSeek專案,也buy in了這個點,目前正在預訓練階段大量的刷推理軌跡資料,讓模型在基座上就見到足夠多的推理路徑或者叫“模版”,後訓練RL的時候他們相信即使軌跡的內容不對,但是路徑的模版足夠豐富,也能帶來極大的能力提升。

清華《Does Reinforcement Learning Really Incentivize Reasoning Beyond the Base Model?》直接把“RL 會提升推理上限”的說法拿出來批判。
論文連結:https://arxiv.org/abs/2504.13837
他們做了個大規模的 pass@k 分析,結果是:那些被 RL 訓出來的“好答案”,其實底座模型早就能生成,只是裸用基座被挑中的機率低了點。RL只是讓模型更偏向去生成高 reward 的路徑,並沒有真正增加推理能力的多樣性。這篇論文的幾個主要發現
-
• RLVR 未引入新的推理路徑:透過手動檢查鏈式思維推理路徑,發現 RLVR 訓練的模型生成的推理路徑在基模型的輸出分佈中已存在,表明 RLVR 並未引入全新的推理能力。說明智力上限在預訓練,RL只是啟用。 -
• RLVR 提高取樣效率但縮小推理邊界:RLVR 訓練使模型傾向於生成高獎勵的路徑,從而提高了在小 k 值(如 pass@1)下的表現。然而,這種偏向性減少了模型的探索能力,導致在大 k 值下(如 pass@256)基模型的表現反而優於 RLVR 模型。 就是說用基座是的多了,肯定能找到一個更優的答案比RLVR的模型結果更好。 -
• 不同 RL 演算法表現相近,均未達到最優:比較了 PPO、GRPO 和 Reinforce++ 等 RL 演算法,發現它們在取樣效率上的差異較小,且都未達到基模型推理邊界所定義的最優取樣效率。 說明目前RL不注入新資料的情況應該都差不多。 -
• 知識蒸餾能引入新知識,區別於 RLVR:與 RLVR 不同,知識蒸餾可以引入新的推理模式,擴充套件模型的推理邊界。這表明蒸餾在提升模型推理能力方面具有更大的潛力。說明在同樣的方法情況下,模型能力提升,還是需要新的資料。
清華這篇論文我的看法是還說明了一個問題,即使推理能力是在基座模型裡決定的,但是當前RLVR技術也很難找到最優的推理路徑給出最優解,也是個區域性最優。所以VR這類方法看起來也是階段性的方法而已,長期來看如何給RL定義真實世界的評估反饋,才是最終解。

Transformer原作參與的《Rethinking Reflection in Pre-training》講的是“反思”能力,也就是模型能不能在推理過程中發現自己犯了錯然後糾正。
論文連結:https://arxiv.org/abs/2504.04022
作者用一堆刻意摻了錯誤的推理鏈去測試模型,發現模型在還沒做RL的時候就已經能自己修正不少錯誤了。訓練token越多、模型越大,這種能力越明顯。作者用基座模型OLMo-2-7B來證明在未進行RL的階段,透過在推理階段適時的塞入一個提示詞“wait”,就能觸發模型的反思能力,達到RL後模型的效果。

這個效果讓我想起來一個叫entropix的開源專案,這個專案透過在推理階段引入基於熵和變熵的動態取樣機制,顯著提升了模型在推理任務中的表現,比如根據模型當前的情況,插入CoT提示引導模型深入思考,或者重新取樣嘗試新的生成路徑,出發點和這篇論文大體相似,可惜這個專案去年底就停更了。
總結
總結下來,這三篇文章其實達成了一個RL模型的共識:
1、能力來源(source):
語言模型的推理能力 = f(模型架構, token量, 訓練資料多樣性, 泛化能力)
2、RL的作用(作用機制):
RL ≈ 一個獎勵驅動的路徑偏移器
-
• 將已存在於模型分佈中的推理路徑偏移為更高 reward 的選項 -
• 提高成功率,但不生成新“知識”或“能力”
3、提升路徑(有效方向):
想要獲得新的 reasoning 能力 ≠ 強化訓練
需要更強的知識/經驗(知識注入+架構最佳化+認知行為引導)
RL不是創造能力,而是最佳化選擇。真正決定模型能走多遠的,是底座模型的本體素質,在架構穩定的情況下,最終還是資料。
其實前幾天OpenAI姚順雨的《The Second Half》和 DeepMind 的《The Era of Experience》這兩篇文章裡提到的下半場AI訓練要關注的評估和體驗,我覺得也是和這三篇論文的基調一致。一方面是透過體驗與真實世界更好連結,更多的現實世界的資料來源,提高模型基礎邊界上限;另一方面足夠準確的定義評估模型,透過RL技術讓模型可以學習到最佳的上限路徑,真正把模型能力發揮出來。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
