4500美元復刻DeepSeek神話，1.5B戰勝o1-preview只用RL！訓練細節全公開

©來源

| 新智元

只用 4500 美元成本，就能成功復現 DeepSeek？就在剛剛，UC 伯克利團隊只用簡單的 RL 微調，就訓出了 DeepScaleR-1.5B-Preview，15 億引數模型直接吊打 o1-preview，震撼業內。

強化學習迎來重大突破！

近日，來自 UC 伯克利的研究團隊基於 Deepseek-R1-Distilled-Qwen-1.5B，透過簡單的強化學習（RL）微調，得到了全新的 DeepScaleR-1.5B-Preview。

在 AIME2024 基準中，模型的 Pass@1 準確率達高達 43.1% ——不僅比基礎模型提高了 14.3%，而且在只有 1.5B 引數的情況下超越了 OpenAI o1-preview！

目前，研究團隊已開源資料集、程式碼和訓練日誌。

只用不到 5000 美元的預算，團隊就復現了 DeepSeek 的成功。至此，開源又贏下一局。

網友們稱讚：當機器學習和數學相遇，就是超強組合的誕生！

訓練秘籍簡版：先短後長

1.5B 模型，透過 RL 訓練，就能超越 o1-preview，進行數學推理？

簡而言之，團隊這次的訓練策略就是四個字——先短後長。

第一步，研究人員會訓練模來型進行短思考。他們使用 DeepSeek 的 GRPO 方法，設定了 8k 的上下文長度來訓練模型，以鼓勵高效思考。

經過 1000 步訓練後，模型的 token 使用量減少了 3 倍，並比基礎模型提升了 5%。

接下來，模型被訓練進行長思考。強化學習訓練擴充套件到 16K 和 24K token，以解決更具挑戰性、以前未解決的問題。

隨著響應長度增加，平均獎勵也隨之提高，24K 的魔力，就讓模型最終超越了 o1-preview！

DeepScaleR-1.5B-Preview

最近，Deepseek-R1 開源釋出，對推理模型技術普及來說，是個重要突破。不過，它具體的訓練方法、超引數還有底層系統，都還沒公開。

在擴充套件強化學習的時候，最大的難題之一就是計算成本太高。

就拿 DeepSeek-R1 的實驗來說，要想完全復現，上下文長度得達到 32K 以上，訓練大概 8000 步，就算是隻有 1.5B 引數的模型，起碼都得花 70,000 GPU 小時。

如何利用強化學習，把小型模型變成超厲害的推理模型呢？

為了解決這個問題，研究人員用了知識蒸餾模型，還創新性地引入了強化學習迭代延長方法。

團隊推出了 DeepScaleR-1.5B-Preview 模型，它經過 4 萬個高質量數學問題的訓練，訓練一共用了 3800 個 A100 GPU 小時。

最終，成本只需約 4500 美元，省了 18.42 倍！同時模型的效能還在幾個競賽級數學基準中，超過了 o1-preview。

研究表明，用強化學習開發定製化的推理模型，既能大規模進行，還能控制成本，價效比超高！

▲ AIME 2024測試集Pass@1準確率隨訓練進度而變：訓練至第1040步，上下文長度擴至16K token；到第1520步，上下文長度增至24K token

技術方案

資料集構建

在訓練資料集方面，研究人員收集了 1984 至 2023 年的美國國際數學邀請賽（AIME）、2023 年之前的美國數學競賽（AMC），以及來自 Omni-MATH 和 Still 資料集的各國及國際數學競賽題目。

資料處理流程包含三個核心步驟：

1. 答案提取：對於 AMC 和 AIME 等資料集，使用 gemini-1.5-pro-002 模型從 AoPS 官方解答中提取答案。

2. 重複問題清理：基於 RAG，並結合 sentence-transformers/all-MiniLM-L6-v2 的詞向量嵌入來消除重複問題。同時，對訓練集和測試集進行重疊檢測，以防止資料汙染。

3. 不可評分題目過濾：資料集（如 Omni-MATH）中的部分問題，無法透過 sympy 數學符號計算庫評估（得靠 LLM 判斷）。這不僅會降低訓練速度，還會引入不穩定的獎勵訊號，因此需要增加額外的過濾步驟，來剔除無法自動評分的問題。

在經過去重和過濾之後，就得到了約 4 萬個獨特的問題-答案對作為訓練資料集。

獎勵函式設計

按 Deepseek-R1 的經驗，用結果獎勵模型（ORM）而不是過程獎勵模型（PRM），來避免模型透過投機取巧得到獎勵。

獎勵函式返回值如下：

返回「1」：如果 LLM 的答案，既能透過 LaTeX 語法檢查，又能透過 Sympy 數學驗證，就給它獎勵。
返回「0」：要是 LLM 的答案是錯的，或者格式不對，比如少了<think>和</think>標記，那就不給獎勵。

迭代增加上下文長度：從短到長的思維擴充套件

推理任務由於會生成比標準任務更長的輸出，計算開銷較大，這會同時降低軌跡取樣（Trajectory Sampling）和策略梯度（Policy Gradient）更新的速度。

與此同時，上下文視窗大小翻倍，則會導致訓練計算量至少增加 2 倍。

這種情況產生了一個根本性的權衡取捨：較長的上下文能為模型提供更充足的思維空間，但會顯著降低訓練速度；而較短的上下文雖然可以加快訓練進度，但可能會限制模型解決那些需要長上下文的複雜問題的能力。

因此，在計算效率和準確性之間找到最佳平衡點至關重要。

基於 Deepseek 的廣義近端策略最佳化（GRPO）演算法的訓練方案包含兩個主要步驟：

首先，使用 8K token 的最大上下文長度進行強化學習訓練，從而實現更有效的推理能力和訓練效率。
隨後，將上下文長度擴充套件到 16K 和 24K token，使模型能夠解決更具挑戰性的、此前未能攻克的問題。

用8K上下文構建高效思維鏈推理

正式訓練之前，先用 AIME2024 測試集對 Deepseek-R1-Distilled-Qwen-1.5B 模型進行評估，並分析它的推理軌跡資料。結果發現，錯誤答案裡平均包含的 token 數量，是正確答案的三倍。這說明回答越長，越容易出錯。

因此，直接採用長上下文視窗進行訓練效率可能不高，因為大部分 token 都沒有被有效利用。此外，冗長的回答還會表現出重複性模式，這表明它們並未對對思維鏈推理（CoT）產生實質性的貢獻。

基於這些發現，團隊決定先從 8K token 的上下文長度開始訓練。在 AIME2024 測試裡，獲得了 22.9％的初始準確率，只比原始模型低 6%。

事實證明這個策略很有效：訓練的時候，平均訓練獎勵從 46％提高到了 58％，平均響應長度從 5500 token 減少到了 3500 token。

把輸出限制在 8K token 以內，模型能更高效地利用上下文空間。如下表所示，不管是生成正確答案還是錯誤答案，token 數量都大幅減少了。

在 AIME 準確率上，比原始基準模型還高了 5%，用的 token 數量卻只有原來的 1/3 左右。

擴充套件至16K token上下文，關鍵轉折點出現

在大約 1000 步後，8K token 執行中發生了一個有趣的變化：響應長度再次開始增加。然而，這卻沒有增加收益——輸出準確率達到了平臺期，並最終開始下降。

與此同時，響應截斷比例從 4.2% 上升到 6.5%，這表明更多的響應在上下文長度的限制下被截斷。

這些結果表明，模型試圖透過「延長思考時間」來提高訓練獎勵。然而，隨著更長的輸出，模型越來越頻繁地觸及到 8K token 上下文視窗的上限，從而限制了效能的進一步提升。

研究人員意識到這是一個自然的過渡點，於是決定「放開籠子，讓鳥兒飛翔」。

他們選擇了在第 1040 步的檢查點——即響應長度開始上升的地方——重新啟動訓練，並使用了 16K 上下文視窗。

這種兩階段的做法比從一開始就用 16K token 訓練效率高得多：8K 的預熱階段讓平均響應長度保持在 3K token 而不是 9K，這使得此階段的訓練速度至少提高了2倍。

在擴充套件上了下文視窗後，研究人員觀察到訓練獎勵、輸出長度和 AIME 準確率都呈現穩定提升趨勢。經過額外的 500 步訓練，平均輸出長度從 3.5K 增加至 5.5K token，AIME2024 的 Pass@1 準確率達到了 38％。

24K魔法，超越o1-preview

在 16K token 上下文環境下額外訓練 500 步後，研究人員發現模型效能開始趨於平穩——平均訓練獎勵收斂在 62.5％，AIME 單次透過準確率徘徊在 38％左右，輸出長度再次呈現下降趨勢。同時，最大輸出截斷比率逐漸升至 2％。

為了最終推動模型效能達到 o1 級別，研究人員決定決定推出「24K 魔法」——將上下文視窗擴大到 24K token。

首先，將 16K 訓練時的檢查點設定在第 480 步，並重新啟動了一個 24K 上下文視窗的訓練。

隨著上下文視窗的擴充套件，模型終於突破了瓶頸。在大約 50 步後，模型的 AIME 準確率首次超過了 40%，並在第 200 步時達到了 43%。24K 的魔力發揮得淋漓盡致！

總體來看，訓練歷時約 1750 步。最初的 8K 階段使用了 8 塊 A100 GPU 進行訓練，而 16K 和 24K 階段則擴充套件到 32 塊 A100 GPU 進行訓練。

整個訓練過程共耗時約 3800 個 A100 小時，相當於 32 塊 A100 GPU 上運行了大約 5 天，計算成本約為 4500 美元。

研究人員用多個競賽級別的數學評測基準來測試模型，像 AIME 2024、AMC 2023、MATH-500、Minerva Math 還有 OlympiadBench。

這裡報告的是 Pass@1 準確率，簡單說，就是模型第一次就答對的機率。每個問題的結果，都是 16 次測試取平均值得到的。

將 DeepScaleR 和 DeepSeek 模型，以及近期專注推理任務強化學習的成果對比。DeepScaleR 在所有評測裡，都比基礎模型強很多。

在 AIME 2024 測試中，成績更是大幅提升了 14.4％，整體效能也提高了 8.1％。

DeepScaleR 比最新模型的表現還好，像從 7B 引數模型微調來的 rSTAR、Prime 和 SimpleRL。DeepScaleR 只用 1.5B 引數，就達到了 o1-preview 的效能水平——這是模型效率的重大突破！

AIME 準確率與模型規模對比，DeepScaleR 實現效能與規模最佳平衡（帕累托最優）。

關鍵發現

很多人認為強化學習只對大型模型有用，其實強化學習在小型模型上也能發揮顯著作用。

Deepseek-R1發現，直接在小型模型上用強化學習，效果不如知識蒸餾。在 Qwen-32B 模型上做對比實驗，強化學習只能讓 AIME 測試的準確率達到 47％，但只用知識蒸餾就能達到 72.6％。

不過，要是從更大的模型中，透過蒸餾得到高質量的 SFT 資料，再用強化學習，小模型的推理能力也能大幅提升。

研究證明了這一點：透過強化學習，小型模型在 AIME 測試中的準確率從 28.9％提高到了 43.1％。

不管是隻用監督微調，還是隻用強化學習，都沒辦法讓模型達到最佳效果。只有把高質量的監督微調蒸餾和強化學習結合起來，才能真正發揮 LLM 的推理潛力。

之前的研究發現，強化學習直接在 16K token 的上下文環境裡訓練，和 8K token 比起來，效果並沒有明顯提升。這很可能是因為計算資源不夠，模型沒辦法充分利用擴大後的上下文。

最近的研究也指出，模型回覆太長，裡面就會有很多冗餘的推理內容，這些內容容易導致錯誤結果。本文的實驗證實了這些發現。

團隊先在較短的 8K token 上下文裡，最佳化模型的推理能力，這樣一來，後續在 16K 和 24K token 的環境裡訓練時，就能取得更快、更明顯的進步。

這種一步一步增加長度的方法，能讓模型在擴充套件到更長的上下文之前，先建立起穩定的推理模式，從而提高強化學習擴充套件上下文長度的效率。

參考文獻

[1] https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

4500美元復刻DeepSeek神話，1.5B戰勝o1-preview只用RL！訓練細節全公開

只用 4500 美元成本，就能成功復現 DeepSeek？就在剛剛，UC 伯克利團隊只用簡單的 RL 微調，就訓出了 DeepScaleR-1.5B-Preview，15 億引數模型直接吊打 o1-preview，震撼業內。

訓練秘籍簡版：先短後長

DeepScaleR-1.5B-Preview

技術方案

資料集構建

獎勵函式設計

迭代增加上下文長度：從短到長的思維擴充套件

用8K上下文構建高效思維鏈推理

擴充套件至16K token上下文，關鍵轉折點出現

24K魔法，超越o1-preview

關鍵發現

相關文章

【由淺到深】從神經網路原理、Transformer模型演進、到程式碼工程實現

追平多模態滿血o1，kimi的新模型k1.5破解了OpenAI的秘密？

僅縮小視覺Token位置編碼間隔，輕鬆讓多模態大模型理解百萬Token！清華大學，香港大學，上海AILab新突破

大模型推理無損加速6.5倍！EAGLE-3碾壓一切、延續ScalingLaw能力

梁文鋒署名！DeepSeek釋出NSA：新注意力機制，引發熱議！

梁文鋒參與發表的DeepSeek新論文，會帶來哪些影響？

成本不到150元！李飛飛等26分鐘訓出個推理模型，媲美o1和R1，秘訣：用蒸餾

楊植麟跟梁文鋒，論文撞車！

白話文講解大模型｜Attentionisallyouneed

剛剛，Llama4深夜開源擊敗DeepSeekV3！2萬億多模態巨獸搶回王座