強化學習被高估！清華上交：RL不能提升推理能力，新知識得靠蒸餾

新智元報道

編輯：編輯部 NXs

【新智元導讀】一項來自清華大學和上海交通大學的研究顛覆了對可驗證獎勵強化學習（RLVR）的認知。RLVR被認為是打造自我進化大模型的關鍵，但實驗表明，它可能只是提高了取樣效率，而非真正賦予模型全新推理能力。

最近，以推理能力為核心的大語言模型已然成為了主流，比如OpenAI o系列模型、DeepSeek-R1等等。

推理模型在處理數學和程式設計等複雜邏輯問題方面取得了顯著突破。

相比於之前依賴人工標註進行指令微調的方法，這一突破的關鍵在於可驗證獎勵強化學習（RLVR）。

RLVR從預訓練模型或經過長思維鏈（CoT）微調的模型出發，利用簡單、自動的獎勵訊號透過強化學習進行最佳化。

在數學問題中，如果模型給出的答案和正確答案一致，或者程式設計任務裡，程式碼能透過單元測試，模型就能得到獎勵。這擺脫了對大量人工標註資料的依賴，具備很好的可擴充套件性。

RLVR被認為能激發模型進行自主推理，比如列舉、反思和最佳化，這些能力恰恰是基礎模型所欠缺的。

因此，RLVR被視為是打造自我進化大模型的路徑，可持續提升模型推理能力，甚至接近AGI。

然而，儘管RLVR在經驗上取得了成功，但在追求不斷自我進化的推理能力過程中，一個關鍵問題仍然存在：RLVR真的帶來了全新的推理能力嗎？如果有，模型到底從RLVR訓練中學到了什麼？

為了嚴謹地回答這個問題，來自清華大學和上海交通大學的團隊對此進行了深入的研究。

論文地址：https://arxiv.org/pdf/2504.13837

他們採用了簡單的pass@k指標，即只要k次取樣中任意一次正確，問題就算解決。

核心思想是：如果我們為基礎模型投入大量取樣（超大k值），它的表現能否匹敵RLVR訓練的模型？

透過給予模型大量嘗試機會，能夠評估基礎模型和RL訓練模型的推理能力邊界。

這為檢驗RLVR訓練是否能帶來根本性的超越能力提供了關鍵且嚴謹的測試，即是否讓模型能解決基礎模型無法解決的問題。

結果，研究團隊發現了一些可能顛覆傳統認知的意外結果：

1. 在超大k值下，RLVR訓練模型的表現不如基礎模型

雖然小k值下RL訓練模型通常優於基礎模型，但當k值變大時，基礎模型在所有測試中都表現更好。令人驚訝的是，在足夠大的k值下，基礎模型的pass@k分數甚至超過RL訓練模型。這表明，未經RL訓練的基礎模型透過多樣化取樣，就能生成原本以為只有RL模型才能解決的正確答案。

2. RLVR提升取樣效率，但縮小推理能力範圍

RLVR訓練模型生成的推理路徑在基礎模型的輸出分佈中已有相當的機率密度，表明這些推理模式和CoT對基礎模型而言並非完全陌生或不可實現。RLVR訓練提升了取樣效率，但同時降低了模型的探索能力，導致在大k值下可解決問題的覆蓋範圍變小（見圖1右）。這挑戰了RLVR 能激發推理能力的普遍看法。相反，RLVR訓練模型的推理能力邊界可能受限於基礎模型的能力。RLVR對LLM推理能力的影響如圖1左所示。

3. 不同RLVR演算法表現相似，且遠未達到最優

儘管不同RL演算法（如PPO、GRPO、Reinforce++）在效能上略有差異，但並無本質區別。這表明，當前主要透過提升取樣效率的RL方法仍遠未達到最優。

4. RLVR與蒸餾有根本區別

RL提升的是取樣效率，而蒸餾能真正為模型引入新知識。因此，蒸餾模型通常透過學習蒸餾資料，展現出超越基礎模型的推理能力範圍，而RLVR訓練模型的能力始終受限於基礎模型。

圖1：（左）灰色表示模型不太可能取樣的路徑，黑色表示大機率取樣的路徑，綠色表示正確的路徑（帶有正向獎勵）。（右）隨著RLVR訓練的進行，模型的平均效能（即pass@1）有所提升，但可解決問題的覆蓋率（即pass@256）下降，表明模型推理能力的上限在降低

大佬紛紛入局討論

大模型的「推理能力」究竟來自於哪裡？機率機器真的能「湧現」推理能力嗎？

強化學習，特別是可驗證獎勵的強化學習（RLVR）是否真正從基礎模型中「引導」或「發掘」出推理能力？

關於模型中「湧現」出推理能力這個話題還得說回DeepSeek-R1開源他們的論文而引發那波熱潮。

雖然OpenAI-o1是第一個釋出的推理模型，但是他們「猶抱琵琶半遮面」的遮掩態度，讓DeepSeek摘了推理模型的桃子。

在DeepSeek-R1的訓練過程中，第一步就是透過基於GRPO的純強化學習，訓練出了DeepSeek-R1-Zero，後續的訓練過程都涉及到強化學習。

低成本的訓練方式得到媲美千萬資金的訓練結果，這讓基於強化學習的訓練正規化與Scaling Law正面相撞。

這個論文釋出後，大佬們紛紛表示對這個話題有話要說。

Nathan Lambert是一名電氣工程與計算機科學博士，畢業於加利福尼亞大學伯克利分校，他率先轉發了這篇論文，並表示

「也許關於強化學習是否激勵了推理能力並不是一個直覺，而是一組有依據的新成果」。

本文作者Yang Yue也表示實驗結果表明，RLVR除此之外並沒有做太多其他的事情。

如果基礎模型無法解決問題，經過強化學習後的模型依然無法解決。

這似乎說明強化學習並不是萬能的，有它的侷限性。

也有網友表示，RL本質是改變了機率分佈，增加了原本不太常見的，很可能是正確答案軌跡的機率。

也就是說，能力依然來自於基礎模型，RL只是讓正確答案更好的「湧現」出來。

當然，從另外一方面Nathan Lambert也表示，這些結果都是來自類似R1-Zero的訓練風格，即僅僅通過了單純的強化學習。

在R1的訓練過程中，還有很多「熱身」的過程，比如對冷啟動資料後的SFT，這些在強化學習訓練開始前的「熱身」過程可以給模型帶來更強大的能力。

這從另一個方面說明，強化學習依然有效，只不過RL和蒸餾有本質的區別。

正如上述論文中所描述，強化學習提升了模型湧現「正確」的機率，而蒸餾則是為模型引入了全新的能力。

論文的作者Yang Yue也表示「熱身」是一個不錯的提升效能的方式。

以蒸餾為例，一些開源的基礎模型，比如Qwen或者Llama，透過蒸餾後，可以從教師模型引入基礎模型之外的新推理模式。

Autodesk首席AI研究科學家Mehdi Ataei同樣表示，以他的經驗來看，如果沒有一個很好的基礎模型，RL根本無法工作。

大佬的討論很精彩，其實也和幾個月前DeepSeek-R1爆火後，經過大佬們討論後的結論一樣，「厲害的不是DeepSeek-R1，而是DeepSeek-V3」。

找到Karpathy在V3釋出時的態度就能看出來，結合這篇論文，決定模型推理能力上限的大機率就是基礎模型本身。

正如這篇論文的結論，RLVR縮小了模型的探索範圍，傾向於選擇已知的高回報路徑，而不是發現新的推理策略。

關鍵的是，所有來自RL訓練模型的正確解其實早就已經存在於基礎模型的分佈中。

RLVR只是提高了取樣效率，而不是「推理能力」，但同時無意中也縮小了解空間。

所以，似乎Scaling Law並沒有失效，一個足夠好的基礎模型，它的解空間包含正確答案的機率依然要高於那些不夠好的模型。

只不過，可能需要多給大模型一些機會。

實驗發現驚人

研究人員在數學、程式設計、視覺推理等領域展開了大量實驗，涵蓋了不同模型（像Qwen-2.5系列、LLaMA-3.1-8B）和多種RL演算法。

研究人員在多個數學基準測試中比較了基礎模型和RLVR訓練後的模型。

結果發現，當k值較小時（比如k=1），經過RL訓練的模型確實表現更優，說明RLVR能讓模型在單次嘗試時更有可能得出正確答案。

但隨著k值不斷增大，情況發生了反轉，基礎模型逐漸趕上並超過了經過RL訓練的模型。

就拿Minerva基準測試來說，用32B大小的模型時，當k=128，基礎模型的表現比RL訓練的模型高出近9%。

在AIME24這種極具挑戰性的測試中，一開始，基於Qwen-2.5-7B-Base訓練的RL模型Oat-Zero-7B表現很不錯，比基礎模型高出近30%，可最後還是被基礎模型超越了。

在此過程中，基礎模型展現出強大的潛力，透過大量取樣，能找到有效的推理路徑。

研究人員手動檢查了最難問題的思維鏈（CoT），發現就算是最難的問題上，無論是原始模型還是RL模型，大多是透過有效的推理路徑得出正確答案的，而不是運氣。

為了避免模型作弊，也就是透過錯誤的推理過程偶然得出正確答案，研究人員還專門過濾掉了容易被猜中的問題，再次驗證後發現，基礎模型依舊能憑藉有效的推理路徑解決難題。

程式碼生成實驗也呈現出類似的趨勢。

研究人員選用了開源的Code-R1模型及其經過RLVR訓練的版本CodeR1-Zero-Qwen2.5-7B，在LiveCodeBench v5、HumanEval+和MBPP+這些基準測試中評估。

當k值較小時，RLVR訓練的模型單樣本效能更好，但隨著k值增大，基礎模型可解決問題的覆蓋範圍更廣。

例如，在LiveCodeBench上，原始模型pass@1得分是23.8%，RLVR訓練的模型為28.1%，可當取樣128次時，原始模型能解決約50%的程式設計問題，而RLVR模型只能解決42.8%。

視覺推理實驗中，研究人員選擇視覺背景下的數學推理任務，用EasyR1框架訓練Qwen-2.5-VL-7B，並在經過濾的MathVista-TestMini和MathVision-TestMini等基準測試中評估。

基礎模型在可解決問題的覆蓋範圍上更具優勢，RLVR並沒有讓模型獲得超越基礎模型的推理能力。

基礎模型已經包含推理模式

實驗表明，基礎模型能解決的問題範圍竟然比經過RLVR訓練的模型更大。

RL訓練模型解決的問題幾乎是基礎模型可解決問題的一個子集。在程式設計任務中也觀察到類似趨勢。

這引出了一個問題：RL訓練模型生成的所有推理路徑，是不是早已存在於基礎模型的輸出分佈中？

困惑度分析

為了回答這個問題，研究人員使用了困惑度（Perplexity）指標。

困惑度反映了模型在給定問題x下預測某個回答Y的難易程度。困惑度越低，說明模型越可能生成這個回答。

他們從AIME24中隨機抽取兩個問題，用Qwen-7B-Base和SimpleRL-Qwen-7B-Base生成16個回答（分別記為Ybase和YRL），並讓OpenAI-o1生成8個回答（記為YGT）。

結果顯示（圖6左），RL訓練模型的回答困惑度分佈與基礎模型生成回答的低困惑度部分高度重合，這說明RL訓練模型的回答很可能是基礎模型本身就能生成的。

由此得出以下結論：

RLVR沒有帶來新的推理能力：透過pass@k（k較大時）和困惑度分佈分析，RL模型的推理能力完全在基礎模型的範圍內，RL模型利用的推理路徑早已存在於基礎模型中。
RLVR提升了取樣效率：儘管RL模型的推理路徑存在於基礎模型中，但RL訓練提升了pass@1的表現。
RLVR縮小了推理邊界：RLVR的效率提升以覆蓋範圍為代價，pass@k在k較大時低於基礎模型。