
©來源
| 新智元
只用 4500 美元成本,就能成功復現 DeepSeek?就在剛剛,UC 伯克利團隊只用簡單的 RL 微調,就訓出了 DeepScaleR-1.5B-Preview,15 億引數模型直接吊打 o1-preview,震撼業內。
強化學習迎來重大突破!
近日,來自 UC 伯克利的研究團隊基於 Deepseek-R1-Distilled-Qwen-1.5B,透過簡單的強化學習(RL)微調,得到了全新的 DeepScaleR-1.5B-Preview。
在 AIME2024 基準中,模型的 Pass@1 準確率達高達 43.1% ——不僅比基礎模型提高了 14.3%,而且在只有 1.5B 引數的情況下超越了 OpenAI o1-preview!
目前,研究團隊已開源資料集、程式碼和訓練日誌。

只用不到 5000 美元的預算,團隊就復現了 DeepSeek 的成功。至此,開源又贏下一局。
網友們稱讚:當機器學習和數學相遇,就是超強組合的誕生!


訓練秘籍簡版:先短後長

1.5B 模型,透過 RL 訓練,就能超越 o1-preview,進行數學推理?
簡而言之,團隊這次的訓練策略就是四個字——先短後長。

第一步,研究人員會訓練模來型進行短思考。他們使用 DeepSeek 的 GRPO 方法,設定了 8k 的上下文長度來訓練模型,以鼓勵高效思考。
經過 1000 步訓練後,模型的 token 使用量減少了 3 倍,並比基礎模型提升了 5%。
接下來,模型被訓練進行長思考。強化學習訓練擴充套件到 16K 和 24K token,以解決更具挑戰性、以前未解決的問題。
隨著響應長度增加,平均獎勵也隨之提高,24K 的魔力,就讓模型最終超越了 o1-preview!
DeepScaleR-1.5B-Preview

最近,Deepseek-R1 開源釋出,對推理模型技術普及來說,是個重要突破。不過,它具體的訓練方法、超引數還有底層系統,都還沒公開。
在擴充套件強化學習的時候,最大的難題之一就是計算成本太高。
就拿 DeepSeek-R1 的實驗來說,要想完全復現,上下文長度得達到 32K 以上,訓練大概 8000 步,就算是隻有 1.5B 引數的模型,起碼都得花 70,000 GPU 小時。
如何利用強化學習,把小型模型變成超厲害的推理模型呢?
為了解決這個問題,研究人員用了知識蒸餾模型,還創新性地引入了強化學習迭代延長方法。
團隊推出了 DeepScaleR-1.5B-Preview 模型,它經過 4 萬個高質量數學問題的訓練,訓練一共用了 3800 個 A100 GPU 小時。
最終,成本只需約 4500 美元,省了 18.42 倍!同時模型的效能還在幾個競賽級數學基準中,超過了 o1-preview。
研究表明,用強化學習開發定製化的推理模型,既能大規模進行,還能控制成本,價效比超高!

▲ AIME 2024測試集Pass@1準確率隨訓練進度而變:訓練至第1040步,上下文長度擴至16K token;到第1520步,上下文長度增至24K token
技術方案

資料集構建
在訓練資料集方面,研究人員收集了 1984 至 2023 年的美國國際數學邀請賽(AIME)、2023 年之前的美國數學競賽(AMC),以及來自 Omni-MATH 和 Still 資料集的各國及國際數學競賽題目。
資料處理流程包含三個核心步驟:
1. 答案提取:對於 AMC 和 AIME 等資料集,使用 gemini-1.5-pro-002 模型從 AoPS 官方解答中提取答案。
2. 重複問題清理:基於 RAG,並結合 sentence-transformers/all-MiniLM-L6-v2 的詞向量嵌入來消除重複問題。同時,對訓練集和測試集進行重疊檢測,以防止資料汙染。
3. 不可評分題目過濾:資料集(如 Omni-MATH)中的部分問題,無法透過 sympy 數學符號計算庫評估(得靠 LLM 判斷)。這不僅會降低訓練速度,還會引入不穩定的獎勵訊號,因此需要增加額外的過濾步驟,來剔除無法自動評分的問題。
在經過去重和過濾之後,就得到了約 4 萬個獨特的問題-答案對作為訓練資料集。
獎勵函式設計
按 Deepseek-R1 的經驗,用結果獎勵模型(ORM)而不是過程獎勵模型(PRM),來避免模型透過投機取巧得到獎勵。
獎勵函式返回值如下:
-
返回「1」:如果 LLM 的答案,既能透過 LaTeX 語法檢查,又能透過 Sympy 數學驗證,就給它獎勵。
-
返回「0」:要是 LLM 的答案是錯的,或者格式不對,比如少了<think>和</think>標記,那就不給獎勵。
迭代增加上下文長度:從短到長的思維擴充套件
推理任務由於會生成比標準任務更長的輸出,計算開銷較大,這會同時降低軌跡取樣(Trajectory Sampling)和策略梯度(Policy Gradient)更新的速度。
與此同時,上下文視窗大小翻倍,則會導致訓練計算量至少增加 2 倍。
這種情況產生了一個根本性的權衡取捨:較長的上下文能為模型提供更充足的思維空間,但會顯著降低訓練速度;而較短的上下文雖然可以加快訓練進度,但可能會限制模型解決那些需要長上下文的複雜問題的能力。
因此,在計算效率和準確性之間找到最佳平衡點至關重要。
基於 Deepseek 的廣義近端策略最佳化(GRPO)演算法的訓練方案包含兩個主要步驟:
-
首先,使用 8K token 的最大上下文長度進行強化學習訓練,從而實現更有效的推理能力和訓練效率。 -
隨後,將上下文長度擴充套件到 16K 和 24K token,使模型能夠解決更具挑戰性的、此前未能攻克的問題。
用8K上下文構建高效思維鏈推理
正式訓練之前,先用 AIME2024 測試集對 Deepseek-R1-Distilled-Qwen-1.5B 模型進行評估,並分析它的推理軌跡資料。結果發現,錯誤答案裡平均包含的 token 數量,是正確答案的三倍。這說明回答越長,越容易出錯。
因此,直接採用長上下文視窗進行訓練效率可能不高,因為大部分 token 都沒有被有效利用。此外,冗長的回答還會表現出重複性模式,這表明它們並未對對思維鏈推理(CoT)產生實質性的貢獻。
基於這些發現,團隊決定先從 8K token 的上下文長度開始訓練。在 AIME2024 測試裡,獲得了 22.9% 的初始準確率,只比原始模型低 6%。
事實證明這個策略很有效:訓練的時候,平均訓練獎勵從 46% 提高到了 58%,平均響應長度從 5500 token 減少到了 3500 token。

把輸出限制在 8K token 以內,模型能更高效地利用上下文空間。如下表所示,不管是生成正確答案還是錯誤答案,token 數量都大幅減少了。
在 AIME 準確率上,比原始基準模型還高了 5%,用的 token 數量卻只有原來的 1/3 左右。

擴充套件至16K token上下文,關鍵轉折點出現
在大約 1000 步後,8K token 執行中發生了一個有趣的變化:響應長度再次開始增加。然而,這卻沒有增加收益——輸出準確率達到了平臺期,並最終開始下降。

與此同時,響應截斷比例從 4.2% 上升到 6.5%,這表明更多的響應在上下文長度的限制下被截斷。

這些結果表明,模型試圖透過「延長思考時間」來提高訓練獎勵。然而,隨著更長的輸出,模型越來越頻繁地觸及到 8K token 上下文視窗的上限,從而限制了效能的進一步提升。
研究人員意識到這是一個自然的過渡點,於是決定「放開籠子,讓鳥兒飛翔」。
他們選擇了在第 1040 步的檢查點——即響應長度開始上升的地方——重新啟動訓練,並使用了 16K 上下文視窗。
這種兩階段的做法比從一開始就用 16K token 訓練效率高得多:8K 的預熱階段讓平均響應長度保持在 3K token 而不是 9K,這使得此階段的訓練速度至少提高了2倍。
在擴充套件上了下文視窗後,研究人員觀察到訓練獎勵、輸出長度和 AIME 準確率都呈現穩定提升趨勢。經過額外的 500 步訓練,平均輸出長度從 3.5K 增加至 5.5K token,AIME2024 的 Pass@1 準確率達到了 38%。
24K魔法,超越o1-preview
在 16K token 上下文環境下額外訓練 500 步後,研究人員發現模型效能開始趨於平穩——平均訓練獎勵收斂在 62.5%,AIME 單次透過準確率徘徊在 38% 左右,輸出長度再次呈現下降趨勢。同時,最大輸出截斷比率逐漸升至 2%。
為了最終推動模型效能達到 o1 級別,研究人員決定決定推出「24K 魔法」——將上下文視窗擴大到 24K token。
首先,將 16K 訓練時的檢查點設定在第 480 步,並重新啟動了一個 24K 上下文視窗的訓練。
隨著上下文視窗的擴充套件,模型終於突破了瓶頸。在大約 50 步後,模型的 AIME 準確率首次超過了 40%,並在第 200 步時達到了 43%。24K 的魔力發揮得淋漓盡致!
總體來看,訓練歷時約 1750 步。最初的 8K 階段使用了 8 塊 A100 GPU 進行訓練,而 16K 和 24K 階段則擴充套件到 32 塊 A100 GPU 進行訓練。
整個訓練過程共耗時約 3800 個 A100 小時,相當於 32 塊 A100 GPU 上運行了大約 5 天,計算成本約為 4500 美元。
研究人員用多個競賽級別的數學評測基準來測試模型,像 AIME 2024、AMC 2023、MATH-500、Minerva Math 還有 OlympiadBench。
這裡報告的是 Pass@1 準確率,簡單說,就是模型第一次就答對的機率。每個問題的結果,都是 16 次測試取平均值得到的。

將 DeepScaleR 和 DeepSeek 模型,以及近期專注推理任務強化學習的成果對比。DeepScaleR 在所有評測裡,都比基礎模型強很多。
在 AIME 2024 測試中,成績更是大幅提升了 14.4%,整體效能也提高了 8.1%。
DeepScaleR 比最新模型的表現還好,像從 7B 引數模型微調來的 rSTAR、Prime 和 SimpleRL。DeepScaleR 只用 1.5B 引數,就達到了 o1-preview 的效能水平——這是模型效率的重大突破!

AIME 準確率與模型規模對比,DeepScaleR 實現效能與規模最佳平衡(帕累托最優)。
關鍵發現

很多人認為強化學習只對大型模型有用,其實強化學習在小型模型上也能發揮顯著作用。
Deepseek-R1發現,直接在小型模型上用強化學習,效果不如知識蒸餾。在 Qwen-32B 模型上做對比實驗,強化學習只能讓 AIME 測試的準確率達到 47%,但只用知識蒸餾就能達到 72.6%。
不過,要是從更大的模型中,透過蒸餾得到高質量的 SFT 資料,再用強化學習,小模型的推理能力也能大幅提升。
研究證明了這一點:透過強化學習,小型模型在 AIME 測試中的準確率從 28.9% 提高到了 43.1%。
不管是隻用監督微調,還是隻用強化學習,都沒辦法讓模型達到最佳效果。只有把高質量的監督微調蒸餾和強化學習結合起來,才能真正發揮 LLM 的推理潛力。
之前的研究發現,強化學習直接在 16K token 的上下文環境裡訓練,和 8K token 比起來,效果並沒有明顯提升。這很可能是因為計算資源不夠,模型沒辦法充分利用擴大後的上下文。
最近的研究也指出,模型回覆太長,裡面就會有很多冗餘的推理內容,這些內容容易導致錯誤結果。本文的實驗證實了這些發現。
團隊先在較短的 8K token 上下文裡,最佳化模型的推理能力,這樣一來,後續在 16K 和 24K token 的環境裡訓練時,就能取得更快、更明顯的進步。
這種一步一步增加長度的方法,能讓模型在擴充套件到更長的上下文之前,先建立起穩定的推理模式,從而提高強化學習擴充套件上下文長度的效率。

參考文獻

[1] https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
