如何去掉GRPO的長度bias?SeaAILab提出全新最佳化方法,有效提升令牌效率和推理效能

在大規模語言模型(LLM)的訓練過程中,強化學習(RL)已被證明能夠在沒有監督微調的情況下直接增強模型的推理能力。DeepSeek-R1-Zero 的提出,突破了傳統的訓練方式,透過引入 R1-Zero-like 訓練正規化,展示了強化學習在提升 LLM 推理能力中的巨大潛力。
然而,這種新興的訓練方法在實踐中仍面臨著一些挑戰,包括如何選擇合適的基礎模型和最佳化策略。本文旨在對 R1-Zero-like 訓練進行深入分析,透過研究基礎模型和強化學習這兩個核心組成部分,探索如何最佳化訓練過程,消除潛在的最佳化偏差,並進一步提升推理效能。
文章的主要貢獻包括:
  • 基礎模型分析研究了不同基礎模型的表現,特別是 Qwen2.5 系列模型和 DeepSeek-V3-Base 模型,分析了預訓練特徵如何影響強化學習效能。發現 Qwen2.5 模型無需提示模板也能展示出強大的推理能力。
  • 最佳化方法改進發現了 GRPO(Group Relative Policy Optimization)最佳化方法中存在的偏差,該偏差會導致模型生成過長的錯誤回答。為此,提出了 Dr. GRPO 最佳化方法,消除了該偏差,並提升了令牌效率。
  • 提出簡化版 R1-Zero 訓練方案透過最佳化後的 Dr. GRPO 演算法,成功地提升了 Qwen2.5-Math-7B 模型在數學問題上的表現,達到了最新的最優效能,並展示了訓練高效性。
透過這些貢獻,研究人員展示瞭如何透過改進模型最佳化和基礎模型的選擇,實現更高效、更強大的推理能力提升。

文章標題:
Understanding R1-Zero-Like Training: A Critical Perspective
論文地址:
https://arxiv.org/abs/2503.20783
程式碼地址:
https://github.com/sail-sg/understand-r1-zero
對現有 base model 的分析
1.1 R1-Zero 可訓練性:模板構建探索性基礎策略
在 R1-Zero-like 訓練框架中,基礎模型是一個重要的組成部分。研究首先探討了是否廣泛使用的開源基礎模型(通常用於句子補全任務)能夠透過適當的模板有效地引出其問答能力,從而充當問答基礎策略。實驗使用了三種模板:
  • R1 模板:使用者提出問題,助手首先思考推理過程,並給出答案,推理過程和答案分別用 <think> 和 <answer> 標籤標記。
  • Qwen-Math 模板:系統指示逐步推理,並將最終答案放在 \\boxed{} 中。
  • 無模板:直接使用問題進行模型輸入。
研究涵蓋了 Qwen2.5-Math 系列、Llama-3.1、DeepSeek-Math、DeepSeek-V3-Base 等多個基礎模型,並測試了它們在 500 道 MATH 訓練集問題上的回答能力。
實驗首先採用無模板的方式進行測試,然後使用 R1 模板和 Qwen-Math 模板,並透過 GPT-4o-mini 判斷模型的回答是否為問答格式,最後評估模型在不同模板下的 Pass@8 準確率。
結果表明,Llama 和 DeepSeek 模型在使用正確模板(R1 模板)後能顯著提升問答能力,而 Qwen2.5 系列模型展現出無模板情況下顯著提升的問答能力。
研究假設,Qwen2.5 模型在預訓練過程中可能已經透過問題-答案對的資料進行訓練,使得它們能夠在不使用任何模板的情況下表現得像聊天模型一樣,直接提供答案。
1.2 DeepSeek-V3-Base 已經展現出 “Aha 時刻”
“Aha 時刻”是指模型在強化學習過程中學會自我反思等能力。在 DeepSeek-R1-Zero 實驗中,模型在 RL 訓練後展現了自我反思行為。
研究進一步驗證了 DeepSeek-V3-Base 模型,發現其在回答 MATH 問題時也表現出了類似的自我反思行為,如生成 “Aha” 或 “wait” 等關鍵詞。
雖然這些行為在強化學習之前就已顯現,但它們在後續的 RL 訓練中得到了進一步增強。值得注意的是,儘管出現了自我反思行為,但並沒有明確證據表明這些行為直接提升了準確性。
1.3 有趣的實驗發現
模板對模型表現的影響:DeepSeek 和 Llama 模型使用 R1 模板後,問答能力顯著提升,而 Qwen2.5 模型在沒有模板的情況下表現出最好的效能。尤其是 Qwen2.5 模型,去掉模板後在多個基準任務上的表現提升了約 60%。
Qwen2.5 模型的預訓練影響:Qwen2.5 模型的表現提示它們可能已經在預訓練過程中使用了問題-答案對的文字,這使得它們在去除模板的情況下仍然能夠很自然地進行問答。
自我反思行為的出現:DeepSeek-V3-Base 模型在回答問題時已經表現出了 “Aha 時刻”,即在思考過程中透過自我反思不斷調整答案。儘管這些行為出現在 RL 訓練之前,但它們對最終的推理能力仍有一定的提升作用。
這些發現提供了對基礎模型在 R1-Zero-like 訓練中的作用以及強化學習如何提升模型推理能力的新見解。
解決 GRPO 的長度偏差問題
2.1 GRPO 引入了偏見最佳化
在 DeepSeek-R1-Zero 實驗中,模型的輸出長度隨著訓練的進行不斷增加,這通常被解釋為推理能力(如自我反思)的發展。許多研究複製了這一現象,但本研究認為,響應長度的增加可能也與 GRPO(Group Relative Policy Optimization)目標函式中的偏差有關。
GRPO 的目標函式中引入了兩個主要的偏見:
響應級別的長度偏見:GRPO 透過除以響應長度 |oi| 來計算優勢。對於正優勢(即正確響應),這一偏見導致較短的響應獲得較大的梯度更新,從而使策略更傾向於簡短的正確回答;相反,對於負優勢(即錯誤響應),較長的響應因其較大的 |oi| 而受到較小的懲罰,使得策略傾向於選擇較長的錯誤響應。
問題級別的難度偏見:GRPO 透過標準差歸一化來調整不同問題的獎勵,從而對標準差較低的問題賦予更高的權重。這種歸一化方式可能導致不同問題的策略更新權重不均,從而影響最佳化效果。
2.2 Dr. GRPO:最佳化方法的改進
為了避免 GRPO 中的最佳化偏差,提出了 Dr. GRPO(Group Relative Policy Optimization Done Right),該方法透過簡單的修改去除了 |oi| 和標準差歸一化項。在 Dr. GRPO 中,使用常量值(如生成預算)替代原來基於 mask.sum(axis=dim) 的歸一化方式,從而使最佳化目標更加公平並符合無偏最佳化。
Dr. GRPO 的最佳化過程恢復了傳統 PPO(Proximal Policy Optimization)目標函式,並採用蒙特卡洛回報估計無偏基準。實驗驗證了 Dr. GRPO 相較於傳統 GRPO 的有效性,證明其能夠有效避免響應長度偏差,並顯著提高令牌效率。
2.3 實驗部分有趣的發現
2.3.1 發現1:GRPO 在訓練過程中導致響應長度增加
實驗顯示,儘管 GRPO 和 Dr. GRPO 在訓練初期有相似的訓練趨勢,但 GRPO 模型在獎勵提升放緩時,響應長度仍然不斷增加。這種現象通常被認為是透過 RL 訓練生成長鏈推理(Long-CoT)的結果。然而,作者指出,這種現象也可能受到響應長度偏差的影響。
2.3.2 發現2:Dr. GRPO 有效遏制了響應長度的過度增長
相比之下,Dr. GRPO 透過計算無偏的策略梯度,成功避免了訓練過程中響應長度的無節制增長。這表明,去除最佳化偏差後,模型能夠更高效地生成答案,避免了過度推理的現象。
模板與問題集覆蓋度對RL動態的影響
模板對初始策略的影響:模板的選擇影響初始策略的表現,但 RL 訓練後,各種模板的策略最終會收斂到類似的效能水平(約 40% 的準確率),前提是問題集合適。
問題集對 RL 動態的影響:使用 R1 模板時,問題集的覆蓋度顯著影響RL動態,覆蓋範圍較窄的問題集導致較低的最終表現。相比之下,Qwen-Math 模板則顯示出在 GSM-8K 問題集上取得了最佳效能,這表明訓練較簡單的問題集可以顯著提高在更難問題上的測試準確性,幾乎將其提升了一倍。
Qwen2.5 模型的初始能力:Qwen2.5-Math-1.5B 基礎模型本身已經具備較強的數學解決能力,應用模板反而會在 RL 前破壞其能力,表明我們在談論純 RL 訓練所帶來的巨大提升時應更為謹慎。
模板與基礎模型不匹配:當模板與基礎模型不匹配時(例如 R1 模板與 Qwen2.5-Math-1.5B 不匹配),策略的改進主要來源於 RL 微調,這要求問題集必須有足夠的覆蓋度才能有效提高推理能力。
域特定預訓練提升 RL 效能上限
針對原本在數學推理方面較弱的基礎模型,研究探討了域特定預訓練是否能夠提升 RL 訓練的效果。透過使用 Llama-3.2-3B 基礎模型並進行數學領域特定的預訓練,研究發現,域特定預訓練能夠顯著提升 RL 訓練的表現。
RL 訓練確實能夠提升原始 Llama 模型的效能,但提升幅度較小。然而,在進行數學領域預訓練(無論是 FineMath 預訓練還是拼接式預訓練)後,Llama 模型的 RL 效能顯著提高,驗證了預訓練對 RL 上限的提升作用。
此外,研究還重訪了 GRPO 最佳化偏差的問題,右側圖展示了使用 GRPO 和 Dr. GRPO 的比較。結果表明,GRPO 可能導致“響應長度的雙重增長”現象,容易誤認為是長鏈推理的出現,而這種長度增加可能源自最佳化偏差,Dr. GRPO 有效地解決了這一問題。
結論
本文對 R1-Zero-like 訓練的核心元件進行了深入分析,重點探討了基礎模型與強化學習(RL)動態的相互關係。透過對模板選擇、問題集覆蓋度和最佳化方法的詳細研究,作者發現多個因素顯著影響 RL 的表現。特別是提出的 Dr. GRPO 最佳化方法,成功地消除了響應長度偏差,提高了令牌效率和推理效能。
此外,研究還強調了預訓練偏差和領域特定預訓練對 RL 結果的影響。研究表明,在大規模語言模型的 RL 訓練中,規模的擴大既可以有效提升效能,也能提高效率——有時,簡單的最佳化方法反而更為高效。
本研究不僅為 RL 訓練提供了重要的見解,也為未來模型最佳化技術的改進與精細化提供了新的思路。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章