新SoTA方法RM-R1:讓rewardmodel對評分說出原因!超越GPT4o

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
模型評分為什麼需要“會思考”?
過去,模型的“評分”就像老師只給分數不寫評語——比如你問“哪個回答更好”,它只會輸出一個數字或簡單結論,但說不出理由。
這種“黑箱打分”有兩個問題:
  • 不透明:使用者不知道評分依據,難以信任;
  • 不靈活:遇到複雜問題(如倫理判斷、多步驟推理)容易翻車。

論文:RM-R1: Reward Modeling as Reasoning連結:https://arxiv.org/pdf/2505.02387
而人類評分時會先列標準(比如“邏輯性”“安全性”),再逐條分析。論文團隊從中獲得靈感:像人類一樣先思考再打分

傳統模型只看表面,推理模型深入分析

創新:讓獎勵模型學會“寫評語”

論文提出ReasRM(推理獎勵模型),核心是兩階段訓練:
  1. 用高階模型(如Claude、GPT-4)生成的“標準答案評語”教小模型寫分析;
  2. 透過強化學習,讓模型根據實際表現最佳化評分邏輯。
舉個栗子:
  • 傳統模型:“選B,因為B得分更高。”
  • ReasRM
<評分標準>  1. 準確性(40%):回答是否符合醫學事實;  2. 全面性(30%):是否覆蓋關鍵症狀;  ...  <分析>  A回答提到“視力喪失”,但這是罕見症狀,可能誤導使用者;  B回答解釋了“疼痛原因”,更準確...  <最終結論>[[B]]  

訓練流程圖:蒸餾+強化學習兩階段

從“打分”到“推理”的跨越

任務分類

模型會先判斷問題是閒聊型(如客服對話)還是推理型(如數學題),再針對性生成評分標準。

動態獎勵

  • 對數學題,模型會自己先解題,再對比答案;
  • 對倫理問題,模型會生成“安全準則”,按規則打分。
公式簡化版:獎勵函式 = 判斷正確 + 保持輸出穩定性

實驗:碾壓GPT-4,小模型逆襲大模型

ReasRM vs GPT-4
論文在三大測試集上驗證效果:
  • RewardBench:綜合評分超越GPT-4o 13.8%;
  • RM-Bench:數學題準確率91.8%,程式碼題74.1%;
  • RMB:接近GPT-4,但模型小得多。
反常識發現
  • 14B小模型吊打70B大模型;
  • 推理鏈越長,效果越好。

細分領域效能表
團隊已開源6個模型,歡迎大家使用 🎉

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章