DeepSeek-R1-Zero被“輕鬆復現”？10％訓練步數實現數學程式碼雙領域對齊

透過強化學習（RL）來提升大語言模型（LLM）的推理能力，已經成為行業的共識。然而，在跨領域任務（如數學推理和程式碼生成）中，如何讓模型“魚與熊掌兼得”，仍然是一個巨大的挑戰。

近期，快手 Kwaipilot 團隊針對現有 GRPO 系列技術方案在處理數學與程式碼混合資料時表現出的效能瓶頸和效率低下問題，提出了一種全新的方法——兩階段歷史重取樣策略最佳化（SRPO）。

實驗結果表明，SRPO 僅用 10% 的訓練步數，就在 AIME24和 LiveCodeBench 基準測試中超越了 DeepSeek-R1-Zero-Qwen-32B！

這背後究竟隱藏了哪些“黑科技”？讓我們一起來揭開 SRPO 的神秘面紗！

論文標題：

SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM

論文地址：

https://arxiv.org/abs/2504.14286

模型開源地址：

https://huggingface.co/Kwaipilot/SRPO-Qwen-32B

兩階段訓練正規化：優雅化解數學與程式碼的“衝突”

在研究初期，快手 Kwaipilot 團隊發現了一個有趣的現象：數學問題和程式碼問題對模型輸出長度的偏好存在顯著差異。具體來說，數學任務需要鏈式推理（Chain-of-Thought），鼓勵模型一步步推導；而程式碼任務則更注重簡潔高效，追求精煉的表達。

為了驗證這一點，他們嘗試了幾種不同的資料策略：

數學與程式碼資料混合訓練；
僅使用數學資料訓練；
僅使用程式碼資料訓練。

如上圖所示，可以明顯看出數學與程式碼資料在輸出長度上的偏好是不同的！具體來說，只使用程式碼訓練時，模型的輸出並沒有明顯變長，甚至輕微下降。

而僅僅使用數學資料時，模型的輸出整體是變得越來越長，從初始的 500 左右變成最後的 2500，變長了 5 倍。混合訓練時，長度介於單獨訓練的兩種策略長度之間。

從生成質量上來看，幾種策略也是各有優劣。只使用程式碼資料來訓練，模型的輸出總是偏短，生成內容裡缺乏逐步推理過程以及細節上的分析。

僅僅使用數學資料訓練時，模型的深度思考能力被有效激發，不過輸出過長，存在一定冗餘。簡單的資料混合策略，未能充分發揮兩種資料型別的優勢，反而導致生成長度不足、推理過程不夠細緻等問題。

由此可見，數學與程式碼兩種資料具有不同的特性，簡單的融合並不能整合優點。針對這個問題，Kwaipilot 團隊的 SRPO 方案設計了兩階段的訓練策略。

基於數學與程式碼能力的特性，第一階段使用數學資料來訓練模型，激發模型的深度思考能力，包括反思、回溯和分步推理。而後在第二階段引入程式碼資料，在已有的推理基礎上發展程式化思維。

實驗結果顯示，相比簡單地混合資料，該兩階段策略在 AIME24 和 LiveCodeBench 兩個主流資料集上分別取得了 3.8 和 2.4 的提升，充分證明了其優勢！

歷史重取樣：破解GRPO的零方差難題

除了資料策略的最佳化，快手 Kwaipilot 團隊還針對 GRPO 訓練中的一個關鍵問題提出了創新解決方案——歷史重取樣（History Resampling, HR）。

在 GRPO 訓練過程中，模型的優勢函式是透過對多次取樣的獎勵分數進行歸一化計算得到的。透過鼓勵正優勢的樣本與抑制負優勢樣本來實現模型的最佳化。因此，同一個輸入的多次取樣輸出結果，需要維持一定的差異性，才是 GRPO 最佳化的最佳配置。

然而，當模型在簡單任務上的表現過於穩定時，獎勵訊號的方差會趨近於零，導致梯度更新失效，這就是所謂的“零方差問題”。

統計結果顯示，約有 50% 的輸入在多次取樣中，輸出結果差異性很小。這種取樣結果之間的過小差異，缺乏有效的對比資訊，約束了 GRPO 的效能。

為了解決這一問題，SRPO 引入了歷史重取樣機制：

過濾“過於簡單”的樣本：對於那些所有 rollout 都正確的樣本，直接排除，因為它們無法提供有效的對比資訊；
保留“有資訊量”的樣本：保留那些產生混合結果（既有正確也有不正確）或所有輸出都錯誤的樣本，這些樣本具有正的獎勵方差，能夠確保非零優勢和有效的梯度訊號；
保留困難樣本：對於當前 epoch 內所有 rollout 均不正確的樣本，繼續保留在資料集中。隨著模型的迭代，這些原本困難的問題可能會變得更容易，從而在後續 rollout 中產生正的優勢。

透過這一機制，SRPO 不僅顯著提高了樣本利用率，還有效提升了模型的推理能力。實驗結果顯示，歷史重取樣在後期提升了輸入訓練的難度，促使模型持續增強推理能力，而非單純增加輸出長度，從而有效避免了 reward hacking。

SRPO的卓越表現：效率與效果雙贏！

在訓練資料層面，快手 Kwaipilot 團隊構建了高質量的數學與程式碼資料集。基於現有的公開資料集，團隊透過資料篩選、質量檢驗、難度分類等流程，構造了一個涵蓋數學和程式碼任務的訓練資料集。結合兩階段訓練正規化和歷史重取樣技術，SRPO 以 Qwen-2.5-Base-32B 為基座進行了增量訓練。

實驗結果令人驚豔：

在 AIME24 和 LiveCodeBench 基準測試中，SRPO 分別取得了 50.0 和 41.6 的 pass@1 分數，超越了 DeepSeek-R1-Zero-Qwen-32B 的表現（分別為 47.0 和 40.2）。
更重要的是，SRPO 僅用了後者 10% 的訓練步數，展現了極高的效率！

有趣的是，得益於 SRPO 的兩階段訓練策略，模型還展現出了靈活結合數學與程式碼能力的特點。例如，在解決複雜數學問題時，模型甚至會自發地用程式碼驗證結果。這種能力的結合也為未來的研究提供了新的方向。