1/30訓練步驟復刻DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型RL訓練方法

2025-08-24 03:40 量子位

夢晨西風發自凹非寺

量子位 | 公眾號 QbitAI

DeepSeek啥都開源了，就是沒有開源訓練程式碼和資料。

現在，開源RL訓練方法只需要用1/30的訓練步驟就能趕上相同尺寸的DeepSeek-R1-Zero蒸餾Qwen。

國內大模型六小強之一的階躍星辰聯與清華聯合釋出Open Reasoner Zero（ORZ），由AI大拿沈向洋、階躍星辰創始人/CEO姜大昕、ResNet作者張祥雨等一眾大佬親自署名。

在響應長度上，用約17%的訓練步驟就能趕上DeepSeek-R1-Zero 671B。

值得關注的是，團隊還發現了一個重要的轉折點——

在訓練步驟約680步時，模型的訓練獎勵值、反思能力和回答長度同時出現顯著提升，疑似出現了DeepSeek-R1-Zero論文中類似的“頓悟時刻”（aha moment）。

目前，研究訓練資料、訓練程式碼、論文、模型全都100％開源，開源許可證用的也是寬鬆的MIT Lisence。

開源48小時，就已速攬700+星星。

以下是更多細節。

複雜的獎勵函式不必要？！

透過廣泛的實驗，團隊證明了一種極簡主義的方法，帶有GAE的原版PPO就可以有效地擴充套件RL訓練（關鍵的引數設定是GAE λ= 1，折扣因子γ=1）。

再加上基於規則的獎勵函式，足以在推理任務上同時擴大響應長度和基準效能，類似於DeepSeek-R1-Zero中觀察到的現象。

這一結果表明複雜的獎勵函式是不必要的。

另外，團隊在不依賴任何基於KL的正則化技術的情況下實現了穩定的訓練，這與RLHF和推理模型領域目前的認知不同，這也為進一步擴大強化學習規模提供了希望。

同時擴大資料數量和多樣性對於Open Reasoner Zero的訓練至關重要。雖然在像MATH這樣有限的學術資料集上訓練會導致效能快速達到平臺期，但精心策劃的大規模多樣化資料集能夠實現持續擴充套件，在訓練集和測試集上都沒有飽和的跡象。

在以Qwen2.5-Base-7B為基礎模型的實驗中，所有基準測試在某個時間點都會經歷獎勵和響應長度的突然增加，這種現象類似於湧現行為。

在整個訓練過程中，Average Correct Reflection Length始終高於 Average Response Length。一個特別值得注意的現象出現在第 680步附近，可以觀察到三個指標同時加速。

最終，Open-Reasoner-Zero模型在MMLU和MMLU_PRO基準測試中，無需任何額外的指令調整即可超越 Qwen2.5 Instruct。

One More Thing

昨天，在階躍星辰生態開放日上，階躍星辰創始人兼CEO姜大昕就有簡單提及這項研究。

只提了一嘴，是因為研究還未完全完成（Working in Progress)，隨時可能有新進展，感興趣的盆友可以關注一哈。

專案地址：

https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/

— 完 —

評選報名｜2025年值得關注的AIGC企業&產品

下一個AI“國產之光”將會是誰？

本次評選結果將於4月中國AIGC產業峰會上公佈，歡迎參與！

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

相關文章

擼鐵每次需要多少次，中間休息多久？今天說說真相！

擼鐵每次需要多少次，中間休息多久？今天說說真相！

模型訓練越多反而越差？多團隊聯合揭示“災難性過度訓練”現象，模型擴充套件需被重新審視

模型訓練越多反而越差？多團隊聯合揭示“災難性過度訓練”現象，模型擴充套件需被重新審視

DeepSeek同款GRPO訓練大提速！魔搭開源全流程方案，支援多模態訓練、訓練加速和評測全鏈路

DeepSeek同款GRPO訓練大提速！魔搭開源全流程方案，支援多模態訓練、訓練加速和評測全鏈路

Rho-1：基於選擇token建模的預訓練方法

Rho-1：基於選擇token建模的預訓練方法

影片生成新突破！Open-Sora2.0重磅開源！訓練成本降低10倍，引熱議！

影片生成新突破！Open-Sora2.0重磅開源！訓練成本降低10倍，引熱議！

20萬美元商業級影片生成大模型Open-Sora2.0來了，權重、推理程式碼及訓練流程全開源！

20萬美元商業級影片生成大模型Open-Sora2.0來了，權重、推理程式碼及訓練流程全開源！

開源11B影片生成模型，表現媲美主流閉源模型！權重+程式碼全流程公開

開源11B影片生成模型，表現媲美主流閉源模型！權重+程式碼全流程公開

11B模型拿下開源影片生成新SOTA！僅用224張GPU訓練，訓練成本省10倍

11B模型拿下開源影片生成新SOTA！僅用224張GPU訓練，訓練成本省10倍

體重不重，但還想變瘦變好看？你需要的一切，都在這篇

體重不重，但還想變瘦變好看？你需要的一切，都在這篇

谷歌團隊再次證明ScalingLaw的準確性，即使總通訊量減少99％，仍能超越資料並行訓練

谷歌團隊再次證明ScalingLaw的準確性，即使總通訊量減少99％，仍能超越資料並行訓練

Copyright © 2025 | WordPress Theme by MH Themes