突破多模態獎勵瓶頸!中科院清華快手聯合提出R1-Reward:用強化學習賦予模型長期推理能力

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

R1-Reward團隊 投稿轉載自:量子位(QbitAI)
多模態獎勵模型(MRMs)在提升多模態大語言模型(MLLMs)的表現中起著至關重要的作用:
  • 在訓練階段,它可以提供穩定的reward;
  • 在評估階段,它可以選擇更好的sample結果;
  • 單獨使用時,它可以直接作為evaluator;……
而強化學習(RL)在理論上能夠對MRM引入長期推理能力,使MRM更加高效。
但如果直接把現有的RL演算法(比如Reinforce++)用到訓練MRM上,就會出現很多狀況,比如,訓練過程會很不穩定、甚至可能直接崩掉
現在,來自中科院自動化所、清華大學、快手和南京大學的研究團隊,在探索如何利用強化學習來穩定、有效地提升多模態獎勵模型的長時推理能力方面,取得了新進展:
基於多模態強化學習的工作MM-RLHF(ICML 2025),進一步推出了R1-Reward模型。
在現有的多模態獎勵模型benchmark的基礎上,相比於當前最先進的SOTA模型,實現5%-15%的提升。
且隨著inference sampleing的數目增多還能進一步增長!

主要貢獻

1. 重新定義問題
作者把訓練獎勵模型這個問題,看成是一個基於規則的強化學習任務。簡單說,就是給獎勵模型一個問題和兩個答案,讓它透過學習來判斷哪個答案更好,並且能給出合理的分析。
2. 提出新演算法StableReinforce
針對現有RL演算法的不足,他們提出了一個改進版的演算法叫StableReinforce。這個演算法主要在幾個方面做了最佳化:
  • 改進了損失函數里的裁剪操作,提出了Pre-Clip,防止數值計算不穩定。
  • 提出了一種更穩健的優勢值(advantage)處理方法(叫做優勢過濾器Advantage Filter),不容易被極端值帶偏。
  • 設計了一個新穎的“一致性獎勵”(Consistency Reward):它引入了另一個大模型作為“裁判”,專門檢查獎勵模型自己的分析過程和它最終給出的答案是不是一致的。如果一致,就給獎勵,這樣能促使模型做出更符合邏輯的判斷。
3. 漸進式的訓練策略
  • 他們從各種公開資料集中收集了20萬條偏好資料,構建了一個名為R1-Reward-200k的資料集用於訓練。
  • 採用了一種“漸進式難度”的訓練策略。因為直接用RL訓練模型效果不好(冷啟動問題),他們先用GPT-4o對這些資料生成了詳細的思考過程,作為監督微調(SFT)的資料,讓模型先“入門”。同時,他們記錄了GPT-4o判斷每個樣本的難度(需要嘗試幾次才能判斷對)。
  • 在後續的強化學習階段,專門挑選那些GPT-4o都覺得比較難(需要嘗試多次或者乾脆判斷錯誤)的樣本進行訓練,讓模型在難題上得到鍛鍊。
4. 效果顯著
  • 實驗結果表明,這個R1-Reward模型在幾個主流的多模態獎勵模型測評基準(如VL Reward-Bench,Multimodal Reward Bench)上表現非常出色,顯著超過了之前的最佳模型(SOTA)。比如在一個榜單上提升了8.4%,在另一個榜單上提升了14.3%。
  • 更有趣的是,他們發現透過在推理時多做幾次計算(比如取樣5次或15次,然後投票選最多的答案),R1-Reward的效能還能進一步大幅提升,這說明RL方法在最佳化獎勵模型方面潛力巨大。
  • 他們還觀察到,經過StableReinforce的RL訓練後,模型輸出的平均長度減少了大約15%,這意味著模型可能變得更有效率了。

現有強化學習方法的侷限性

什麼是獎勵模型

首先得知道,獎勵模型(Reward Model)是幹嘛的。簡單說,它就是用來判斷兩個模型的回答,哪一個更符合人類喜好。
具體的最佳化公式大概長這樣:
這裡的r(y|x)就是模型打的分數,σ是個sigmoid函式,E表示求期望(平均)。意思就是,模型要儘量讓好答案的分比壞答案的分高,差距越大越好,然後透過log和sigmoid函式來計算損失。

PPO和Reinforce++演算法簡介

PPO(Proximal Policy Optimization)

PPO是一種很常用的強化學習演算法,屬於策略梯度方法,目標是直接最佳化模型(策略)來獲得最大的累積獎勵。它的厲害之處在於——它不像傳統的策略梯度方法那樣,容易因為步子邁太大而導致訓練不穩定。
PPO透過一種特殊的方式來限制每次策略更新的幅度。它的目標函式是這樣的:
這個公式的核心思想在於那個min和clip操作。它確保了就算ratio*A_t(標準的策略梯度目標)很大,也會被clip後的項限制住,防止策略更新過猛導致訓練不穩定。
PPO因為實現簡單、效果好,所以在很多地方(比如機器人控制、玩遊戲)都用得很廣。

Reinforce++

Reinforce++是在PPO基礎上做了一些最佳化的版本,目的是讓訓練更穩定、更高效。主要改進有:
  1. 加了KL散度懲罰:在獎勵函數里加入了一項,用來懲罰強化學習模型(RL model)和監督微調模型(SFT model)在每個詞(token)上的輸出機率分佈差異過大。獎勵函式變成了類似這樣:

    。這裡

    表示只有在生成結束符時才加上原始的任務獎勵

    是那個KL懲罰項。

  2. 獎勵和優勢的歸一化:它會對整個批次(batch)的獎勵進行歸一化、裁剪和縮放,還對優勢值A進行歸一化:

    (減去均值

    ,再除以標準差

    )。

在很多研究中,Reinforce++都比GRPO更穩定、比PPO收斂更快。

PPO/Reinforce++的問題在哪?

雖然PPO和Reinforce++不錯,但在實際訓練中,尤其是在訓練獎勵模型的時候,研究者們發現它們有兩個核心問題,很容易讓模型訓練不穩定甚至失敗:
  1. 訓練損失導致的不穩定
    • 計算PPO損失時,需要算那個機率比值ratio。如果新舊策略差別很大,這個ratio可能會變得非常大或非常小。
    • 在程式碼實現裡(比如用PyTorch),通常是算ratio = torch.exp(log_probs – old_log_probs)。如果log_probs – old_log_probs這個差值很大,exp()運算可能會導致數值溢位,直接讓程式崩潰。
    • 就算沒崩潰,如果算出來的ratio很大,並且優勢A_t是負的(表示這個動作不好),那麼根據PPO的損失公式

      ,這個損失值可能會變得異常大。這麼大的損失會讓模型的引數更新變得極其不穩定。

  2. 優勢歸一化導致的不穩定
    • 獎勵模型的訓練資料標籤通常很簡單,比如就兩個標籤:1和2(1好還是2更好)。模型比較容易學會區分。
    • 這就導致在訓練後期,一個批次(batch)裡的資料,模型可能大部分都能預測對。比如一個batch裡有255個樣本的真實獎勵是1,只有1個是0。
    • 在這種情況下,獎勵的方差會非常小。如果這時候還用標準的優勢歸一化方法(減均值除以標準差

      ),那個獎勵為0的樣本對應的優勢值,在歸一化之後可能會變成一個絕對值非常大的數(例子中是-15.96)。

    • 這麼大的優勢值同樣會干擾模型的更新,導致訓練不穩定。
總的來說,就是直接把PPO或者Reinforce++用在獎勵模型訓練上,會因為損失計算和優勢歸一化這兩個環節內在的問題,在高效率訓練或者訓練後期特定資料分佈下,引發數值不穩定,最終影響模型效果。

StableReinforce提升訓練穩定性

1.Pre-CLIP策略
為了減小大比例差異的影響,Pre-CLIP策略會在計算對數機率的指數值之前對比例進行裁剪。透過在應用指數函式前裁剪log-πθ/πθold的比例,可以避免由於比例差異過大而導致的溢位問題,並緩解負優勢情況下的大對數差異。裁剪後的公式為:
其中,

分別為允許的最小和最大比例限制(上面的虛擬碼會更清晰一些(algorithm 1))。

2. Advantage Filter策略
為了避免由於優勢分佈的極端不平衡對訓練帶來的影響,文章採用了3-sigma規則(即保留標準化優勢在[-3, 3]範圍內的樣本)。公式為:
標準化後的優勢

透過公式

計算,其中

分別為優勢分佈的均值和標準差。

結合了Pre-CLIP和優勢過濾器,最終用來最佳化的目標函式長得有點像常用的PPO演算法的目標函式,但有所修改:

R1-Reward

將MRM轉化為強化學習問題

首先使用下面的prompt,將獎勵建模問題轉化為rule-based的強化學習問題:
近期follow deepseek-r1工作的方法基本上都是格式獎勵+結果獎勵,但是在獎勵模型訓練過程中,這存在著一致性問題:即只用上面兩個獎勵時,模型有時會“精神分裂”:
分析部分(<analysis>)明明說回答2更好,但最後卻輸出<answer>1</answer>。因此本文引入了一個額外的“裁判”模型(文中用了Qwen2.5-VL-7B-Instruct)。這個裁判專門負責檢查獎勵模型自己輸出的分析內容,看它是不是真的支援最終給出的那個答案。
  1. 獎勵函式設計:文章提出了三種獎勵函式
    • 格式獎勵要求模型的輸出符合指定的格式,即‘ ’,鼓勵模型在給出最終答案之前先進行推理,以提高內容的質量和可解釋性。
    • 結果獎勵模型最終生成的答案必須與人類專家的偏好一致。
    • 一致性獎勵:確保推理過程與最終答案一致,即模型的最終結果應當直接源自其推理過程,而不是與推理步驟無關的生成內容。
  2. 最終獎勵計算:為了解決可能出現的一致性獎勵過度偏重的問題,最終的獎勵計算公式為:
這樣的設計好在Consistency Reward的加成效果(乘以0.5再加1)只有在Result Reward大於0(也就是答案選對)的時候才能真正起作用。如果答案選錯了,Result Reward通常是0或者負數,那麼一致性獎勵就不會帶來正向激勵(或者激勵很小),從而確保模型首要目標還是把答案選對。格式獎勵作為一個基礎分被加上去。

“長思考鏈”的冷啟動問題(Long-CoT Cold Start)

多模態大模型(MLLMs)本身並不是為做獎勵模型這種“評價比較”任務而設計的,所以直接用強化學習去訓練它們,效果通常很差而且不穩定,因此本文先進行了一輪監督微調。
做法:讓GPT-4o對R1-Reward-200k資料集裡的每一條資料,都按照Table 1裡的提示模板,生成標準的“分析過程”和“最終答案”。生成時設定temperature=1(讓輸出更發散),並且最多嘗試3次,直到生成的答案和真實標籤一致。
記錄難度:同時,他們還記錄了GPT-4o需要嘗試幾次才能生成正確答案,把這個次數作為樣本“難度”的指標。
目的:這個SFT階段就像是給模型“預習”。透過模仿GPT-4o的輸出,先讓模型學會任務的基本格式和流程,熟悉這個獎勵建模任務應該怎麼做。

強化學習(RL)訓練資料的篩選

  1. 篩選標準:在進行真正的強化學習訓練時,並不是用SFT階段的所有資料。研究人員專門挑選了那些被認為是“更難”的樣本。
  2. 具體來源
    • 在SFT階段,那些GPT-4o需要嘗試2次或3次才能給出正確答案的樣本。
    • 以及那些GPT-4o嘗試了3次仍然沒能給出正確答案的樣本。
研究人員認為,這些樣本通常意味著兩個回答之間的差別更小,更難判斷優劣。用這些“硬骨頭”來訓練模型進行強化學習,可以更有效地提升模型辨別細微差異的能力。

有趣的實驗發現

研究人員透過一系列實驗來驗證他們提出的R1-Reward模型和StableReinforce演算法的效果,得到了一些挺有意思的結果:

R1-Reward效果拔群

在好幾個主流的多模態獎勵模型排行榜(比如VLReward Bench, Multimodal Reward Bench, MM-RLHF-Reward Bench)上,R1-Reward的表現都非常亮眼,平均準確率顯著超過了之前最好的開源模型(比如IXC-2.5-Reward)。

Test-Time Scaling

他們嘗試在評價的時候,讓R1-Reward模型對同一個問題輸出好幾個判斷結果(比如輸出5次或15次),然後採取少數服從多數(投票)的方式來決定最終哪個答案更好。
結果發現,這種簡單的“投票”策略能大幅提升R1-Reward的準確率。比如在MM-RLHF這個比較難的榜單上,投票5次就能把準確率從大約71%提升到85.3%,投票15次更是達到86.47%,遠超其他模型。
更有意思的是,他們還試了另一種策略叫“Any Correct”,就是隻要模型輸出的K次結果裡有一次是正確的,就算對。結果發現,當K=15時,這種策略的準確率幾乎接近100%!這暗示R1-Reward其實有潛力完美區分所有樣本,只是需要更多的資料或更好的訓練策略來完全激發出來。

aha Moment

透過SFT和RL訓練,R1-Reward不僅學會了如何評價兩個回答,還自主地學習到了一套分析流程:先明確目標、分析影像、嘗試解決問題、給出答案,然後基於這個過程去評價兩個外部給定的回答。
更有趣的是,模型展示出了類似人類的反思和糾錯能力。比如在上圖中,模型自己計算時出錯了,但在檢查圖表後,意識到了錯誤並重新計算得到了正確結果。這說明模型不僅僅是在模仿,還在學習某種程度的自我檢查和修正機制。
經過強化學習訓練後,模型輸出的分析內容的平均長度還減少了約15%,說明模型可能變得更“言簡意賅”,推理效率提高了。

結論

本文介紹了R1-Reward,這是一種使用StableReinforce演算法訓練的多模態獎勵模型(MRM)。透過實驗,本文證明了強化學習(RL)在獎勵建模中的有效應用,顯著提升了模型的表現。R1-Reward解決了多個關鍵問題,包括訓練不穩定、優勢歸一化限制以及推理和結果之間的不一致性。透過引入Pre-Clipping、優勢過濾、一致性獎勵以及漸進式訓練策略,StableReinforce演算法有效穩定了訓練過程並提升了模型效能。
實驗結果表明,R1-Reward在多個多模態獎勵模型基準上超越了現有最先進的模型(SOTA),在準確率和資料效率方面取得了顯著進展。此外,R1-Reward還展示了優秀的推理時擴充套件能力,為未來將強化學習融入多模態獎勵模型(MRM)的研究奠定了基礎。
展望未來,RL在獎勵建模中的應用仍有許多值得探索的方向。例如,本文僅測試了簡單的多數投票策略用於推理時擴充套件,未來可能透過更先進的方法進一步提升效能。此外,改進訓練策略以進一步增強獎勵模型的基礎能力,也是一個有意義的開放性問題。
論文連結:https://arxiv.org/abs/2505.02835https://github.com/yfzhang114/r1_rewardhttps://huggingface.co/yifanzhang114/R1-Reward

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章