
來源 | 機器之心
本文第一作者王宜平是華盛頓大學的博士生,其導師、通訊作者杜少雷為華盛頓大學Assistant Professor;另外兩位通訊作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。
最近, 大型語言模型(LLM)在推理能力方面取得了顯著進展,特別是在複雜數學任務上。推動上述進步的關鍵方法之一就是帶可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Reward,RLVR),其根據數學題最終答案的正確性提供 0-1 的結果獎勵(outcome reward)。然而, 大量研究工作集中於改進原有的強化學習演算法(如 PPO,GRPO),對於 RLVR 中所利用資料的研究仍相對不足。
近日,來自華盛頓大學西雅圖分校、微軟等機構的研究人員探索了一個重要的問題:RLVR 中究竟需要多少資料才能有較好的表現?
他們發現了一個神奇的現象:用一個數學資料就能夠大幅提升模型在各種數學推理任務上的表現!

-
論文標題:Reinforcement Learning for Reasoning in Large Language Models with One Training Example
-
論文地址:https://arxiv.org/abs/2504.20571
-
程式碼地址:https://github.com/ypwang61/One-Shot-RLVR
-
W&B 實驗記錄:https://wandb.ai/yipingwanguw/verl_few_shot?nw=nwuseryipingwang22
-
X(Twitter):https://x.com/ypwang61/status/1917596101953348000
論文發現,只在 RLVR 訓練中使用一個訓練資料(稱作 1-shot RLVR),就可以在 MATH500 上,將 Qwen2.5-Math-1.5B 的表現從 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表現從 51.0% 提升到 79.2% 。
這個表現和使用 1.2k 資料集(包括這一個資料)的 RLVR 效果差不多。使用兩個訓練樣本的 RLVR 甚至略微超過了使用 1.2k 資料集(稱作 DSR-sub)的表現,和使用 7.5k MATH 訓練集的 RLVR 表現相當。這種表現可以在 6 個常用的數學推理任務上都可以觀察到。

這種利用一個數學訓練資料的 1-shot RLVR 激發的推理能力甚至可以拓展到非數學的推理任務上,如 ARC-Easy/Challenge。

背景介紹
在這項工作中,論文使用了包含 policy gradient loss ,KL divergence loss 以及 entropy loss 三項損失函式。這裡 policy loss 使用 GRPO 格式的損失函式,對應是否解決數學題的 0-1 結果獎勵;KL loss 用於保持模型在一般任務上的語言質量;而 entropy loss(係數為負)用於鼓勵模型產生更加多樣化的推理模式。
對於資料選擇,研究者使用一個叫 historical variance score 的指標來將資料池(前面提到的 1.2k DSR-sub 資料集)中的資料來排序,為了優先選擇在模型訓練過程中準確度方差較大的那些資料。不過論文強調這種資料選擇並不一定是最優的,只是為了更好的說明現象。而且 1-shot RLVR 對很多 historical variance score 不那麼高的資料也能生效,可能是更通用的現象。
此外,研究者還發現讓 1-shot RLVR 表現的很好的資料其實都不是特別困難。初始模型就已經有一定的機率可以解決。

實驗觀察
透過 1-shot RLVR,論文還發現了很多有趣的現象:
(1) 飽和後泛化:論文發現, 1-shot RLVR 中,單個訓練樣本的訓練準確率快速達到接近 100%,但是下游任務的表現隨著訓練的進行還在不斷地提升。(後文說明因為 entropy loss 鼓勵多樣性的探索,使得準確率略小於 100%,因此在訓練過程中始終保持有 policy gradient)。

與此同時,在飽和後泛化的過程中,過擬合發生的比較晚,在單個樣本 rollout 超過 1 百萬次之後才出現明顯亂碼混合正確解答。而且此時下游任務的 reasoning 輸出仍然正常而且表現良好。

(2) 1-shot RLVR 對很多數學樣例都有效,而且可泛化性好。論文嘗試了十多個樣本,基本都可以在 MATH500 上取得接近或超過 30% 的提升。同時,來自一個數學主題(如幾何)的單個訓練資料可以同時提升其他數學主題(如代數,數論等)的表現。

(3) 更多的自我反思:1-shot RLVR 的訓練過程也會出現之前 R1 之類的工作提到的回答長度(response length)的增加。而且更重要的是,論文觀察到了模型在下游任務上的自我反思(self-reflection)相關詞彙的頻率的增加。

(4) 1-shot RLVR 可用在不同的模型和演算法上。研究人員嘗試了不同的模型 (Qwen2.5-Math-1.5B/7B, Llama-3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B),不同的 RL 演算法 (GRPO, PPO),都可以觀察到很大的提升。而且這裡使用的資料是用 Qwen2.5-Math-1.5B 模型的 historical variance score 計算得到的,說明有些資料對不同的模型都適用。

消融實驗和分析
論文進一步分析 1-shot RLVR 取得的改進的主要原因。透過移除其他的損失函式,論文發現 1-shot RLVR 對模型的改進主要來自於 policy gradient loss,而且和 KL divergence loss 以及 weight decay 關係不大。因此,即使飽和後泛化現象與 “grokking” 現象有相似之處(都出現了在過擬和之後仍能在下游任務泛化良好),因為 “grokking” 受到 regularization 方法(如 weight decay)的影響較大,兩者仍有較大區別。

此外,論文也發現鼓勵探索的重要性,如額外在 policy gradient loss 的基礎上加合適大小的 entropy loss 能夠進一步提升 1-shot RLVR 的表現,尤其是對飽和後泛化較為重要。作為一個額外的觀察,論文發現只加 entropy loss 進行少量 step 的訓練也能神奇的提升模型表現,並且這導致了在 1-shot RLVR 中如果資料的 lable 出現錯誤,也仍能部分提高模型的表現。論文作者們也仍在探究這一現象的原因。


總結和討論
1-shot RLVR 在數學任務上的表現支援了之前很多論文的結論,即用於 RLVR 的基礎模型本身往往就有較好的推理能力,而這篇論文進一步展示了這種能力可能可以用非常少的資料就激發出來。
論文相信這些現象可以促進人們進一步反思最近 RLVR 的進展,並思考 RLVR 的內部機制。並且它們對一些問題留下了一些啟發,例如如何設計更好的 RLVR 資料選擇演算法,如何理解 1-shot RLVR 以及飽和後泛化現象,如何更好的鼓勵探索,以及如何探索其他任務的少樣本 RLVR 及其應用等等。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
