基座模型天花板，困住強化學習。

作者丨鄭佳美、梁丙鑑

編輯丨馬曉寧

清華和上交的最新論文中，上演了一場 “學術打假” 的戲碼。文中研究者們對當前 “純 RL 有利於提升模型推理能力” 的主流觀點提出了相反的意見。

透過一系列實驗，他們證明引入強化學習的模型在某些任務中的表現，竟然不如未使用強化學習的模型。

論文批判性地探討了 RLVR 在提升 LLM 推理能力方面的作用，尤其是在賦予模型超越自身原有能力方面，效果可能並非像人們普遍認為的那樣“無懈可擊”。

訊息一齣，網友們紛紛下場站隊。

有人認為這篇文章抓住了 RL 自身的漏洞，雖然提高了取樣效率，但它似乎在推理方面存在不足，未來我們需要新的方法來釋放 LLM 的全部潛力。

也有人表示，或許強化學習實際上限制了模型開發新推理行為的能力。真正的推理增強可能需要蒸餾等方法。

質疑聲之外，RL 的追隨者也在為“信仰”發聲：這種說法是錯的，驗證遠比生成簡單的多。

也有網友表示，這更像是獎勵結構的缺陷，而非 RLVR 本身的問題。如果用二元獎勵結構，出現這種情況可以理解。但我們可以調整獎勵結構來緩解這個問題，甚至還能激勵更好的推理。

強化學習：擅長加速，不擅長開路

實驗中，研究人員在三個具有代表性的領域進行了實驗，來評估 RLVR 對基礎模型和 RLVR 模型的推理能力邊界的影響。

在數學任務實驗中，研究團隊在 GSM8K、MATH500 和 AIME24 等基準上評估了多個大語言模型系列（如 Qwen-2.5 和 LLaMA-3.1）及其經過 RL 訓練的變體。他們透過分析 pass@k 曲線，比較了基礎模型與 RL 模型的表現，發現雖然 RL 在低 k 值下提升了模型的準確性，但在高 k 情況下卻顯著降低了問題的覆蓋範圍。

此外，研究者還手動審查了模型生成的 CoT（Chain of Thought）推理過程，以確認正確答案是推理得出而非純屬運氣。最後，他們還研究了採用 Oat-Zero 方法訓練的模型，並對資料集進行了過濾，剔除容易猜測的問題，從而聚焦於更具挑戰性的樣本。

整體結果顯示，儘管 RL 能在初始準確率上帶來提升，基礎模型在推理覆蓋率方面仍表現更為穩健。

在編碼任務實驗中，研究團隊在 LiveCodeBench、HumanEval+ 和 MBPP+ 等基準上評估了源自 Qwen2.5-7B-Instruct-1M 的 RLVR 訓練模型 CodeR1-Zero-Qwen2.5-7B。他們透過 pass@k 指標來衡量效能，並根據預定義的測試用例評估模型的正確性。

結果顯示，RLVR 提升了單樣本 pass@1 的分數，但在較高取樣數（k = 128）時，模型的覆蓋率有所下降。與此相比，原始模型在較大 k 值下表現出了持續改進的潛力，而 RLVR 的效能則趨於平穩。這表明，儘管 RLVR 提高了模型的確定性準確性，但在探索多樣性方面存在一定的限制。

在視覺推理實驗中，研究團隊在過濾後的視覺推理基準（MathVista 和 MathVision）上評估了 Qwen-2.5-VL-7B，刪除了多項選擇題，聚焦於穩健的問題解決能力。RLVR 在視覺推理任務中的表現提升與數學和編碼基準中的改進相一致，表明原始模型已能夠解決廣泛的問題，即便是在多模態任務中也同樣如此。

跨領域的一致性表明，RLVR 提升了模型的推理能力，同時並未從根本上改變模型的問題解決策略。

推理能力的邊界

使用單次透過的成功率或平均核取樣衡量模型推理能力邊界的傳統指標存在重要缺陷。如果模型在少數幾次嘗試後未能解決難題，但卻本可以透過更多次的取樣獲得成功，此時其真實推理潛力可能會被低估。

如果為基礎模型投入大量取樣資源，它的效能能否與經過強化學習訓練的模型相匹配？

為精準評估大語言模型的推理能力邊界，研究團隊將程式碼生成領域常用的pass@k指標拓展至所有可驗證獎勵的任務。針對一個問題，從模型中取樣k個輸出，若至少一個樣本透過驗證，該問題的pass@k 值為1，否則為0。資料集上的平均 pass@k 值反映了模型在 k 次試驗內可解決的資料集問題比例，能嚴格評估 LLM 的推理能力覆蓋範圍。

直接按問題取樣k個輸出計算pass@k可能導致高方差。他們採用無偏估計法，對評估資料集D中的每個問題生成 n 個樣本（n ≥ k），統計正確樣本數。對於使用編譯器和預定義單元測試用例作為驗證器的編碼任務，pass@k 值能準確反映模型是否能解決問題。

然而，隨著 k 增大，數學問題中 “駭客” 行為可能凸顯，即模型可能生成錯誤的推理過程，卻在多次取樣中偶然得出正確答案，這一情況常被以往指標忽視。為此，他們篩選出易被 “駭客” 攻克的問題，並手動檢查部分模型輸出的 CoT 正確性。結合這些措施，他們嚴格評估了 LLM 的推理能力極限。

當強化學習不再“強化”

清華與上交的這篇論文，為當前業界廣泛推崇的強化學習正規化敲響了警鐘。讓我們不得不重新思考強化學習在大模型訓練流程中的真正角色。

我們也不能將模型的“能力”與“效率”混為一談。能力，指的是模型是否擁有解決某類問題的潛質與邏輯鏈條；效率，則是在給定的能力範圍內，模型能以多快、多穩、多省資源的方式得出答案。

強化學習或許確實能夠提升模型在已有能力基礎上的輸出表現（比如在低取樣次數下更快給出正確答案），但這並不代表它為模型帶來了新的推理路徑或更復雜問題的解決能力。相反，在高取樣場景中，RL 帶來的“收斂性”可能犧牲了答案的多樣性，從而錯失瞭解決更多難題的機會。

強化學習更像是一種能力調控器，而非能力創造器。它可以讓模型更擅長做已經能做的事，但難以讓模型做出“原本不會的事”。正因如此，若將 RL 簡單視為提升模型通用智慧的萬能鑰匙，未免過於樂觀。接下來的技術路線，可能需要更多關注基礎模型在表示能力、知識組織與推理路徑構建等方面的設計，而非過度依賴下游的策略微調。

總的來說，這項研究的意義不在於“RL 無用”的結論，而在於它揭示了在過熱預期背後，強化學習真正適用的邊界。這或許會促使研究者和企業在制定大模型最佳化方案時，迴歸問題本質，用更清晰的標準衡量“能力的提升”究竟意味著什麼。

參考連結：

https://arxiv.org/pdf/2504.13837

https://x.com/iScienceLuvr/status/1914171319970848942

https://limit-of-rlvr.github.io/