新SoTA方法RM-R1：讓rewardmodel對評分說出原因！超越GPT4o

2025-08-03 14:49 機器學習演算法與自然語言處理

MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 深度學習自然語言處理

模型評分為什麼需要“會思考”？

過去，模型的“評分”就像老師只給分數不寫評語——比如你問“哪個回答更好”，它只會輸出一個數字或簡單結論，但說不出理由。

這種“黑箱打分”有兩個問題：

不透明：使用者不知道評分依據，難以信任；
不靈活：遇到複雜問題（如倫理判斷、多步驟推理）容易翻車。

論文：RM-R1: Reward Modeling as Reasoning連結：https://arxiv.org/pdf/2505.02387

而人類評分時會先列標準（比如“邏輯性”“安全性”），再逐條分析。論文團隊從中獲得靈感：像人類一樣先思考再打分。

傳統模型只看表面，推理模型深入分析

創新：讓獎勵模型學會“寫評語”

論文提出ReasRM（推理獎勵模型），核心是兩階段訓練：

用高階模型（如Claude、GPT-4）生成的“標準答案評語”教小模型寫分析；
透過強化學習，讓模型根據實際表現最佳化評分邏輯。

舉個栗子：

傳統模型：“選B，因為B得分更高。”
ReasRM：

<評分標準>  1. 準確性（40%）：回答是否符合醫學事實；  2. 全面性（30%）：是否覆蓋關鍵症狀；  ...  <分析>  A回答提到“視力喪失”，但這是罕見症狀，可能誤導使用者；  B回答解釋了“疼痛原因”，更準確...  <最終結論>[[B]]

訓練流程圖：蒸餾+強化學習兩階段

從“打分”到“推理”的跨越

任務分類

模型會先判斷問題是閒聊型（如客服對話）還是推理型（如數學題），再針對性生成評分標準。

動態獎勵

對數學題，模型會自己先解題，再對比答案；
對倫理問題，模型會生成“安全準則”，按規則打分。

公式簡化版：獎勵函式 = 判斷正確 + 保持輸出穩定性

判斷正確判斷錯誤

實驗：碾壓GPT-4，小模型逆襲大模型

ReasRM vs GPT-4

論文在三大測試集上驗證效果：

RewardBench：綜合評分超越GPT-4o 13.8%；
RM-Bench：數學題準確率91.8%，程式碼題74.1%；
RMB：接近GPT-4，但模型小得多。

反常識發現：

14B小模型吊打70B大模型；
推理鏈越長，效果越好。

細分領域效能表

團隊已開源6個模型，歡迎大家使用 🎉

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章

250+篇文獻！最新綜述全面解析科學領域大模型及其在科學發現中的應用

250+篇文獻！最新綜述全面解析科學領域大模型及其在科學發現中的應用

英語才是AI的母語？科學家發現模型的多模態推理全靠它

英語才是AI的母語？科學家發現模型的多模態推理全靠它

誰是最會做題大模型？“高考評測”來了

誰是最會做題大模型？“高考評測”來了

整合大語言模型與產業資料智慧，邁向“產業基礎模型”

整合大語言模型與產業資料智慧，邁向“產業基礎模型”

HKUNLP知名學者重磅來襲！

HKUNLP知名學者重磅來襲！

跨越模態邊界，探索原生多模態大語言模型

跨越模態邊界，探索原生多模態大語言模型

7B級形式化推理與驗證小模型，媲美滿血版DeepSeek-R1，全面開源！

7B級形式化推理與驗證小模型，媲美滿血版DeepSeek-R1，全面開源！

最強全模態模型Ola-7B橫掃影像、影片、音訊主流榜單，騰訊混元Research&清華&NTU聯手打造

最強全模態模型Ola-7B橫掃影像、影片、音訊主流榜單，騰訊混元Research&清華&NTU聯手打造

Rho-1：基於選擇token建模的預訓練方法

Rho-1：基於選擇token建模的預訓練方法

如何理解和探索大模型的多語言能力？

如何理解和探索大模型的多語言能力？

Copyright © 2025 | WordPress Theme by MH Themes