ICML2025|細粒度獎勵建模:判別式策略最佳化下的Q-RM方法

近日,中山大學計算機學院與騰訊微信搜尋團隊聯合提出 Q-RM(Q-function Reward Model),在 ICML 2025 正式發表。
這一方法專注於構建更精確的 token-level 獎勵訊號,是對齊訓練中一個關鍵突破,顯著提升了大語言模型的訓練效率和效果。該研究由中山大學計算機學院與騰訊微信搜尋團隊共同完成。
論文標題:
Discriminative Policy Optimization for Token-Level Reward Models
論文地址:
https://arxiv.org/abs/2505.23363
開源地址:
https://github.com/homzer/Q-RM
背景和挑戰:過程監督太粗,DPO-RM獎勵不準
結果級獎勵模型(Outcome Reward Model, ORM):僅對完整回答打分,反饋過於稀疏,難以指導多步推理;
過程級獎勵模型(Process Reward Model, PRM):逐步評分但粒度仍粗,通常以句子為單位,並依賴人工標註;
DPO-RM 模型:結合 DPO(Direct Preference Optimization)與偏好資料,提供 token-level 獎勵,但存在兩大缺陷:① 獎勵與語言模型的生成機率強耦合,可能導致“高置信錯答”;② 獎勵計算依賴參考模型 ,引入額外計算與偏差。
判別式策略模型(Discriminative Policy)
為了解決 DPO-RM 的上述問題,論文提出了基於判別式策略(Discriminative Policy)的獎勵模型 Q-RM,把獎勵建模和語言生成徹底“拆開”。判別式模型的表示式為:
其中  為 logits。判別式策略模型  和以往的策略模型  不同, 只需要輸入當前狀態 ,再給出動作  的機率; 需要同時輸入當前狀態  和動作 ,再去衡量動作  的機率。
Q-RM 不像 DPO-RM 那樣保留語言生成的能力,而是專注於對每個 token 及其上下文進行評分,以提供更準確的 token-level 獎勵訊號。
在 DPO 中獎勵訊號的表示式為:
而在 Q-RM 中獎勵訊號的表示式為:
其中  為 logits,由 LLM 主幹網路最後一層隱藏層輸出的(sequence-length,hidden-size)張量,經一個(hidden-size,1)的線性層對映後,得到(sequence-length,1)的結果。其訓練方法為:
其中  來自偏好資料集,N 和 M 分別是序列的長度, 和  分別是超引數。論文中發現  和  有著等價的關係(只差一個常數項的差異),完整證明過程請參考原文。
這中獎勵建模方式做徹底解耦獎勵建模和語言生成,獎勵模型不再直接依賴  的生成機率,避免了高置信度但錯誤的 token 被高獎勵“誤導”,消除了對參考模型的依賴,從而顯著提高獎勵分配的準確性和訓練穩定性。
例如下面的例子中:DPO-RM 高分集中在 “\n” 換行等無關 token,正確答案中真正關鍵數字 “0.05”“133” 得分並不突出,同時錯位答案中的 “$135” 只給出中性甚至偏高分。
與之相反,Q-RM 明確把高分給 “0.05”“133”等關鍵的正確推導步驟 token,對換行等符號給分接近 0,對錯誤 token “$135” 等顯著扣分,對中性 token 不做過多懲罰。
Q-RM 中 Q 的由來
論文提出了 Q-function as Reward Model(Q-RM),其中 Q-function 就是強化學習中的 Q 函式。論文在 Proposition 3.4 中說明了 Q-RM 的獎勵訊號  和  具有如下線性關係:
即最優 Q 函式和最優 logits 之間僅存在一個常數量級的誤差。此外,在該等式的左邊即為優勢函式 A 的定義。該公式說明了使用  計算優勢函式與 Q 函式計算優勢函式完全等價。以下給出這條公式的簡要推導過程(詳細過程請參照論文附錄 C)。根據論文公式 6:
其中  為最大熵理論下的價值函式,其表示式為:
 為最優判別式策略模型,其表示式為:
將上述兩個式子代入到公式 6 並進行簡單移項就得到(公式 36):
熵。對公式 36 兩邊取期望就得到(公式 38):
將公式 38 代回到公式 36 就得到:
Q-RM 演算法流程
Q-RM 的輸出結果  與  存在等價的關係,可以容易地得到優勢函式,無縫銜接到目前已有的強化學習演算法中;(例如 PPO 和 Reinforce)。
值得注意的是:Q-RM 給出的  已經是一種 token-level Q 值,無需再滾動累積後續獎勵(如);直接計算  就足夠精準。去除了  兩個手動超參,提升訓練穩定性。
實驗驗證
主實驗
論文在數學任務(GSM8K、MATH)和通用問答任務(QA-Feedback、AlpacaEval2.0)上進行測試,結果如下:
Q-RM 引導的 RL 訓練在多項基準任務上都取得了最好的效果。
與傳統的 step-Level PRM 和 ORM 相比,Q-RM 取得了更高的訓練效率(1/12~1/11 的訓練樣本就取得了相同的 pass@1),以及訓練後更好的 pass@1。
總結
論文基於最大熵框架,從理論上證明了最優 logits 和最優 Q 函式之間存在常數量級的線性關係,簡化了 token-level 優勢函式的計算。並基於該理論提出了 Q-RM 細粒度獎勵模型。Q-RM 無需細粒度標註標籤,僅需要常見的偏好資料集就能夠訓練出 token-level 的 Q 函式。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章