點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心
將大語言模型(LLMs)與複雜的人類價值觀對齊,仍然是 AI 面臨的一個核心挑戰。當前主要的方法是基於人類反饋的強化學習(RLHF)。該流程依賴於一個透過人類偏好訓練的獎勵模型來對模型輸出進行評分,最終對齊後的 LLM 的質量在根本上取決於該獎勵模型的質量。
因此,建立一個先進的獎勵模型需要建立龐大且高質量的人類偏好資料集,而這一過程通常既緩慢、昂貴,又難以擴充套件。
這種對人類標註資料的依賴促使研究者探索其他對齊方法。一個重要的研究方向是基於 AI 反饋的強化學習(RLAIF)。該方法利用強大的專有大語言模型生成獎勵訊號或偏好標籤,從而規避人類標註需求。雖然成本效益顯著,但這些方法缺乏嚴謹的理論基礎,且容易繼承評判模型本身的風格偏差與固有偏見。這引發了一個關鍵問題:高質量獎勵訊號是否必須依賴外部來源?
來自南京大學的研究者發現,一個強大的通用獎勵模型並非需要構建,而是可以挖掘出來的, 因為它已經潛在地存在於透過標準的下一個 Token 預測訓練的任何語言模型中,稱之為「內源性獎勵(endogenous reward)」。
本文的核心貢獻是為這一觀點提供嚴格的理論基礎。本文證明了可以從標準的下一個 Token 預測目標中恢復出一種特定形式的離線逆強化學習(IRL)獎勵函式,該目標用於預訓練和監督微調(SFT)。這一見解能夠超越啟發式方法,並建立一種原則性的方法,來引出語言模型在訓練過程中隱式學習到的獎勵函式。
具體來說,本文展示了語言模型的 logits 可以直接解釋為 soft Q 函式,透過逆 soft 貝爾曼運算元可以從中恢復出獎勵函式。
至關重要的是,這一理論聯絡不僅僅提供了一種獎勵提取的方法。本文還證明了,使用模型自身的內源性獎勵進行微調可以使策略在誤差界限上優於基線模型。強化學習過程有效地修正了標準模仿學習(即下一個 Token 預測)中的累積誤差,將效能差距從任務視野的二次依賴關係 O (H²) 降低到優越的線性關係 O (H)。
據瞭解,這是首次理論證明強化學習在 LLM 中的有效性。廣泛實驗驗證了這一理論,表明這種內源性獎勵不僅優於現有的 LLM-as-a-judge 方法,而且可以超越那些透過昂貴的人類標註資料顯式訓練的獎勵模型的表現。

-
論文標題: GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
-
論文連結:https://arxiv.org/pdf/2506.23235
這篇論文提出瞭解決 LLM 的對齊問題,透過利用模型內部的獎勵機制,而不是依賴外部的人類反饋,這可能會改變未來 LLMs 的開發和應用方式。
本文在實驗中旨在評估以下核心問題:
Q1:在與啟發式基線方法和顯式訓練的最新獎勵模型對比時,免訓練內源性獎勵模型(EndoRM)在常見獎勵模型基準測試中的表現如何?
Q2:內源性獎勵是否具備強大的指令遵循能力,能否作為可透過提示詞呼叫的通用獎勵模型?
Q3:基於內源性獎勵的強化學習能否產生更優策略,實現理論預測的自我改進效果?
多樣偏好對上的獎勵準確率(Q1)
為回答 Q1,本研究透過預測 RM-Bench 中被選中的回覆來評估獎勵模型效能。更高的準確率意味著獎勵質量更優。
由於本評估的方法無需訓練,因此本評估將其與其他無需訓練的方法進行對比:生成式驗證器(Generative Verifier)、GenRM-Pairwise 和 GenRM-Pointwise。
所有基線方法及本評估的 EndoRM 均採用 Qwen2.5-7B-Instruct 作為基礎模型以確保公平比較。此外,本評估還列出了四個顯式訓練的高效能獎勵模型的結果作為參考。

表 1 中的結果顯示,EndoRM 不僅顯著優於所有使用相同基礎模型的無需訓練基線方法,還以更高的平均得分超越了最先進的顯式訓練獎勵模型。
這一發現表明,EndoRM 相比依賴高成本偏好資料篩選和訓練的獎勵模型更具有效性。
圖 1 中進一步展示了 Multifaceted-Bench 的實驗結果,從中可以觀察到 EndoRM 在五個領域上始終優於所有基線方法。考慮到 Multifaceted-Bench 中可能包含數以千計的偏好對,這一結果證明了即使在任務複雜度和偏好多樣性增加的情況下,EndoRM 仍能實現可擴充套件的魯棒性。
這一發現進一步驗證了本評估的核心假設:強大的獎勵訊號已潛在存在於基礎模型之中。

驗證指令遵循能力(Q2)
一個關鍵論點是內源性獎勵並非靜態的,而是可以透過提示來引導。
為驗證這一點,本文使用了 DSP 資料集,該資料集包含四個不同的領域。本評估透過將 DSP 論文中相應的系統提示作為輸入,建立了四個特定領域的版本的內源性獎勵。
然後,本評估測試每個特定領域的內源性獎勵在所有四個測試集上的響應分類準確率。
表 2 中的結果顯示出強烈的對角模式:每個 EndoRM 在其自身領域上表現最佳。例如,EndoRM-Academy 在學術資料上達到了其最高準確率(76.89%)。
這證實了內源性獎勵不是一個固定的評估器,而是一個動態的、可提示的評判器,繼承了基礎大型語言模型強大的指令遵循能力。

透過強化學習實現自我提升(Q3)
最後,本評估測試了定理 2 中的核心理論主張:帶有內源性獎勵的強化學習可以透過減輕複合誤差來改進基礎策略。
本評估在 MATH-lighteval 資料集上透過強化學習對基礎模型 Qwen2.5-Math-7B 進行訓練。內源性獎勵模型同樣是 Qwen2.5-Math-7B,在策略學習期間其引數保持固定。提示和響應的最大長度均設為 1024,KL 係數設為 0.01。
表 3 中的結果表明,帶有內源性獎勵的強化學習微調有助於模型在所有五個基準測試中一致地優於基礎模型。
本評估還在附錄 E 中給出了模型在強化學習前後的響應示例,從中可以看出,對於同一個問題,在基於內源性獎勵進行最佳化之前,模型無法解決問題,並且隨著響應的進行開始胡言亂語,甚至輸出 Python 程式碼。
相比之下,本評估的方法提供了一個清晰簡潔的解決方案。

瞭解更多內容,請參考原論文。
ICCV 2025 論文和程式碼下載
ICCV 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
