不蒸餾R1也能超越DeepSeek,上海AILab用RL突破數學推理極限

書理 投稿自 凹非寺

量子位 | 公眾號 QbitAI
僅透過強化學習,就能超越DeepSeek!
上海AI Lab提出了基於結果獎勵的強化學習新正規化——
從Qwen2.5-32B-Base模型出發,僅透過微調和基於結果反饋的強化學習,在不蒸餾超大模型如DeepSeek-R1的情況下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超強數學推理效能。
團隊發現,當前大模型數學推理任務面臨”三重門”困局:
  • 稀疏獎勵困境:最終答案對錯的二元反饋,使複雜推理的最佳化變得困難
  • 區域性正確陷阱:長思維鏈中部分正確步驟反而可能誤導模型學習
  • 規模依賴魔咒:傳統蒸餾方法迫使研究者陷入”引數規模軍備競賽”
因此,研究團隊重新審視了當前基於結果獎勵的強化學習演算法,經過嚴格的理論推導與證明,重新設計了一個新的結果獎勵強化學習演算法,並在這個過程中得出了三點重要結論:
  • 對於正樣本:在二元反饋環境下,透過最佳軌跡取樣(BoN)的行為克隆即可學習最優策略
  • 對於負樣本:需要使用獎勵重塑來維護策略最佳化目標的一致性
  • 對於長序列:不同的序列部分對結果的貢獻不同,因此需要更細粒度的獎勵分配函式,這個函式可以透過結果獎勵習得
通俗來說,就是透過對正確樣本模仿學習,錯誤樣本偏好學習,關鍵步驟重點學習,無需依賴超大規模的模型(例如DeepSeek-R1)進行蒸餾,僅透過強化學習即可達到驚人的效果。
除此之外,團隊也對不同起點模型進行了強化學習訓練對比和分析,發現強化學習的起點模型訓練資料分佈對最終的模型效果也很重要。因此,研究團隊將RL訓練的資料、起點和最終模型一起完整開源,來推動社群的公平比較和進一步研究。專案連結已放文末。

從頭設計結果獎勵強化學習

針對數學推理任務中強化學習面臨的稀疏獎勵區域性正確難題,團隊提出新的策略最佳化框架OREAL
透過理論創新實現針對性的演算法改進,在用實驗說明“怎麼做更好”之前,首先論證“為什麼這麼做更好”
正負樣本獎勵重塑,解決稀疏獎勵困境
在數學推理任務的取樣流程中,團隊經過理論分析推導,提出核心見解:在二元反饋機制下,取樣任意數量包含正確答案的BoN(Best-of-N)設定,其正確軌跡的分佈具有一致性特徵。這一發現表明,透過直接行為克隆(behaviorcloning)取樣得到的正確軌跡,已經構成了正樣本訓練中的最優設定。
在對正樣本做模仿學習的基礎上,團隊提出直接懲罰負樣本會導致梯度偏差問題,對負樣本的訓練原則應當是維護最佳化梯度形式與學習BoN分佈一致。透過深入分析正負樣本的訓練梯度,研究者們提出了基於平均準確率p的獎勵重塑因子來維護上述一致性,為GRPO等演算法的改進提供了理論依據。這種設定使模型既能有效吸收成功經驗,又能精確識別關鍵錯誤邊界,對訓練效能有明顯幫助。
結果獎勵「因果溯源」,跳出區域性正確陷阱
針對複雜的長推理鏈問題,OREAL創新性地設計了token重要性估計器。透過構建序列累計形式的獎勵函式,我們將結果獎勵逆向分解到每個推理步驟(見下面的token-level RM熱力圖)。這種方法能夠精確定位核心錯誤步驟,在訓練時實現更精細的梯度更新,顯著提升了模型在長序列任務中的表現。
OREAL框架
將幾項認知組合起來,團隊提出的最優強化學習策略可以概括為:

在正確樣本上模仿學習,在錯誤樣本上偏好學習,對關鍵步驟做重點學習。

透過合理的分析和實踐,一步步將強化學習效能推到最佳水平。

強化學習超越蒸餾,擺脫規模依賴魔咒

團隊在7B和32B兩個規模的模型上僅使用4千條高質量訓練樣本進行了訓練和測試,
在7B量級上,Oreal-7B在MATH-500上取得了91.0的pass@1準確率。這是首次透過強化學習而非蒸餾方法達到了如此高的精度。這一成績不僅為基於RL的方法樹立了新的里程碑,還超越了更大引數量的模型,包括QWQ-32B-Preview和OpenAI-O1-Mini。
此外,將Oreal應用於此前最佳的7B模型(DeepSeek-r1-Distill-Qwen-7B)後,得到的新模型OREAL-DSR1-Distill-Qwen-7B在MATH-500上取得了94.0的pass@1精度,創下了7B模型的記錄。千問的基座,經過DeepSeek的蒸餾訓練,再經過上海AI Lab的強化學習訓練,達到了中國原創新高度。
對於32B模型,Oreal-32B在MATH-500上也達到了95.0的分數,超越了同級別的DeepSeek-r1-Distill-Qwen-32B,實現32B模型的新SOTA。

One More Thing

最後,研究團隊還對比了不同基座模型下的效能表現,發現不同效能起點的策略模型RL後效能上限是不同的,起點模型越強,RL後的效能越好。
並且,儘管在多個基座模型上,大部分benchmark效能都會在RL後有所提升,偶爾也會出現持平(OREAL-32B在AIME2025-I)或者效能下降(相比於DSR1-Distill-Qwen-7B在AIME2024)。
研究認為,這些情況的出現可能與訓練語料的質量、難度和數量等方面準備的不夠充分有關,這也給未來的研究留下了空間。
因此,除了強大的RL演算法,團隊還提出兩個關鍵因素對於RL在數學推理任務中的成功至關重要:
強大的起點模型是RL可以有效激發模型潛在能力的前提。
在RL階段使用的資料也必須在質量、難度、數量和多樣性方面都得到充分保證。高質量的資料集能夠讓模型透過面對廣泛的挑戰和學習機會,充分發揮其潛力。
模型資料全面開源,助力強化學習研究
研究團隊同時也注意到,儘管DeepSeek-R1的出現引發了社群對於大語言模型強化學習的學習和研究熱情,大家使用的訓練起點模型、訓練資料、訓練演算法和超參細節都不盡相同,影響了演算法和模型效能的清晰比較。
因此,研究團隊將整個RL訓練過程中用到的訓練資料、起點模型和RL後模型都進行了全面開源,訓練程式碼也將開源到XTuner。
歡迎下載體驗:
專案連結:
https://github.com/InternLM/OREAL
論文地址:
https://arxiv.org/abs/2502.06781
RL 訓練資料鏈接:
https://huggingface.co/datasets/internlm/OREAL-RL-Prompts
系列模型地址:
https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018
—  —
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章