強化學習ScalingLaw錯了?無需蒸餾,資料量只要1/6,效果還更好


新智元報道  

編輯:KingHZ 英智
【新智元導讀】強化學習訓練資料越多,模型推理能力就越強?新研究提出LIM方法,揭示提升推理能力的關鍵在於最佳化資料質量,而不是資料規模。該方法在小模型上優勢盡顯。從此,強化學習Scaling Law可能要被改寫了!
DeepSeek-R1帶火了使用強化學習訓練LLM。在訓練中,AI靈機一動,讓作者耳目一新,甚至因此驚歎到:這就是強化學習的力與美!
DeepSeek-R1-Zero驚豔了研究人員
然而,對RL訓練的理解存在空白:這些工作的訓練資料的透明度有限,誰知道是方法好還是資料集質量好?
剛剛出爐的新論文揭示了RL訓練的另一面,探討了一個核心問題:
在提升語言模型推理能力方面,什麼真正決定了強化學習(RL)訓練資料的有效性?
研究團隊對「擴大RL訓練資料規模,就能提升模型效能」這一觀念提出了挑戰。
核心發現是,訓練樣本的質量和相關性遠比數量重要。
透過廣泛的實證分析,新研究得出了一些令人驚訝的觀察結果,這些結果從根本上改變了對RL訓練動態的理解:
  1. 經過精心挑選的1389個RL訓練樣本子集,可以實現和8523個樣本的完整資料集相當甚至更優的效能。
  2. 新方法「學習影響測量」(LIM),可以有效地預測哪些樣本對模型改進的貢獻最大,消除了手動樣本管理的需要,而且易於擴充套件。
  3. 通往更好推理能力的道路,可能不在於簡單地擴大RL訓練資料規模,而在於更具選擇性地使用哪些樣本。
專案地址:https://github.com/GAIR-NLP/LIMR
Scaling Law適用於強化學習訓練嗎
在這項工作中,在一個基本場景,探索RL訓練資料的Scaling Law:直接從沒有經過知識蒸餾的基礎模型開始(類似於Deepseek R1-zero的設定)。
對RL訓練資料需求的理解不足,面臨下列難題:
  1. 由於缺乏明確的資料規模基準,必須依賴反覆試驗,導致資源利用效率低下,而結果也可能不是最優的。
  2. 樣本數量如何影響模型效能,該領域缺乏對該問題的系統分析,很難做出資源分配的明智決策。
更重要的是,這種不確定性提出了關鍵問題:
擴大RL訓練資料規模真的是提高模型效能的關鍵嗎?
或者是否忽略了更基本的因素,例如樣本質量和選擇標準?
學習影響測量
學習影響測量(Learning Impact Measurement,LIM),是一種系統的方法,用於量化和最佳化強化學習中訓練資料的價值。
新方法透過分析學習動態,識別最有效的訓練樣本,從而應對強化學習訓練中資料效率的關鍵挑戰。

RL訓練中的學習動態

為了理解訓練資料和模型改進之間的關係,使用MATH-FULL資料集進行了廣泛的分析,資料集包含8,523個難度級別不同的數學問題。
初步研究表明,不同的訓練樣本對模型學習的貢獻是不平等的,這與將所有樣本統一對待的傳統方法相反。
如圖2a所示,觀察到不同的學習軌跡:一些樣本表現出穩定的效能模式,而另一些樣本則顯示出複雜的學習動態,這些動態似乎驅動了顯著的模型改進。
圖a解題獎勵軌跡揭示了不同的模式:保持接近零獎勵的樣本、快速獲得高獎勵的樣本,以及顯示出具有不同改進率的動態學習進展的樣本。
圖b表明較高的LIM分數反映了與模型學習軌跡更好的對齊,其中顯示出相似增長模式的軌跡獲得更高的分數。
圖2:(a)MATH-FULL資料集中訓練樣本在不同epoch的學習動態分析。(b)樣本學習軌跡與平均獎勵曲線(紅色)的比較。
這些觀察結果引出了核心見解:檢查單個樣本與模型的整體學習程序的對齊程度,可以系統地衡量強化學習訓練中資料的價值
這種理解構成了新方法LIM的基礎。

學習影響測量(LIM)

LIM的核心是模型對齊的軌跡分析。
它根據訓練樣本對模型學習的貢獻,來評估它們的價值。
新研究的主要發現是,學習模式與模型整體效能軌跡互補的樣本往往對最佳化更有價值。
學習影響測量(LIM)主要分為兩步:(1)分析模型對齊的軌跡;(2)計算一個歸一化對齊分數。
考慮到神經網路學習通常遵循對數增長模式,使用模型的平均獎勵曲線,作為衡量樣本有效性的參考(圖2b):
其中:r_k^i表示樣本i在epoch k的獎勵;N是樣本總數;K是總的epoch數。
對於每個樣本,LIM計算一個歸一化對齊分數:
本質上,這個公式是在平均獎勵變化趨勢上,比較單個樣本與整體的相似程度。
如果一個樣本的獎勵變化趨勢與整體趨勢高度一致(即,當整體獎勵上升時,該樣本的獎勵也上升,反之亦然),那麼它的對齊分數就會較高。
反之,如果一個樣本的獎勵變化趨勢與整體趨勢差異較大,那麼它的對齊分數就會較低。
該分數量化了樣本的學習模式與模型整體學習軌跡的對齊程度,分數越高表示對齊程度越好。
尋找「黃金」樣本
基於對齊分數,LIM採用了選擇性抽樣策略:s_i>θ,其中θ作為質量閾值,可以根據具體要求進行調整。在實驗中,研究人員設定θ=0.6產生了最佳化的資料集 (LIMR),其中包含來自原始資料集的1,389個高價值樣本。

基線資料選擇方法

在開發核心方法時,研究人員探索了幾種替代方法,有助於最終方法的形成和驗證。
這些方法為強化學習中的資料選擇提供了寶貴的見解。
  • 隨機抽樣基線(RAND):從MATH-FULL中隨機選擇1389個樣本,以匹配主要方法的大小,為評估選擇性抽樣的有效性提供了一個基本的參考點。
  • 線性進展分析方法(LINEAR):根據在訓練週期中持續顯示穩步改進的一致性,來評估樣本。雖然這種方法捕獲了逐漸進展的樣本,但它經常錯過有快速早期收益然後趨於穩定的有價值的樣本。使用閾值θ=0.7,此方法產生1189個樣本。

獎勵設計

與Deepseek R1類似,使用基於規則的獎勵函式。
具體來說,對於正確答案,獎勵為1;對於不正確但格式正確的答案,獎勵為-0.5;對於格式錯誤的答案,獎勵為-1。形式上,這可以表示為:
實驗結果
為了驗證LIMR方法的有效性,研究團隊開展了一系列實驗。
在實驗設定上,訓練環節採用OpenRLHF框架中實現的近端策略最佳化(PPO)演算法,以Qwen2.5-Math-7B為初始策略模型。
評估環節選擇了多個具有挑戰性的基準測試,包括MATH500、AIME2024和AMC2023。為提高評估效率,藉助vLLM框架進行評估。
從不同資料選擇策略的對比來看,直接在Qwen-Math-7B上使用MATH-FULL資料集進行強化學習訓練,模型效能有顯著提升。
使用MATH-RAND資料集訓練,與完整資料集相比,平均準確率下降8.1%;MATH-LINEAR的準確率損失為2%。
而LIMR儘管資料集規模減少了80%,但效能與MATH-FULL幾乎相當。這充分證明在強化學習中,真正起關鍵作用的往往只是一小部分問題。
進一步分析訓練過程中的各項指標演變,發現LIMR和MATH-FULL的準確率曲線近乎一致,且均明顯優於MATH-RAND。
在序列長度方面,MATH-FULL的訓練曲線不穩定,而LIMR的曲線先下降後逐漸上升。訓練獎勵方面,LIMR的獎勵曲線上升更快,最終接近1.0,這表明模型在訓練過程中能夠更有效地利用LIMR資料集進行學習。
圖4展示了在三個具有挑戰性的基準測試上模型效能的對比分析。結果表明,LIMR在所有三個基準測試上的效能都與MATH-FULL相當,同時顯著優於MATH-RAND。
值得注意的是,LIMR在AIME24和AMC23資料集上表現出色,有力證明了其效能提升並非歸因於對單個數據集的過擬合,而是反映了模型數學推理能力的真正提高。

RL的資料效率優於SFT

研究者發現,對於資料稀疏且模型較小的情況,強化學習>監督微調
研究者用來自s1的1000條資料和來自LIMO的817條資料,透過監督微調對Qwen-2.5-Math-7B進行訓練,並與LIMR進行比較。
實驗結果表明,在相同的約1000個問題下,與LIMO和s1相比,LIMR在AIME上的相對提升超過100%,在AMC23和MATH500上的準確率提高了10%以上。
這進一步強調了選擇適合模型的資料,而不是盲目選擇更具挑戰性的資料的重要性。在資料稀疏的場景以及小模型應用中,強化學習結合有效的資料選擇策略,能有效地提升模型的推理能力。
本文的方法不僅為研究人員提供了一種高效、可擴充套件的RL訓練解決方案,還揭示了提升推理能力的關鍵可能在於最佳化資料質量,而非單純增加資料量。
與監督微調(SFT)的對比實驗表明,當RL結合高效的資料選擇策略時,在資料有限的小模型上表現尤為突出。
參考資料:
https://github.com/GAIR-NLP/LIMR

相關文章