從最佳化角度看:怎樣的獎勵模型才能成為好的“老師”?

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 知乎
作者 | 大家好我是愛因
論文:What Makes a Reward Model a Good Teacher? An Optimization Perspective
機構:Princeton University
該論文基於對“人類反饋強化學習”(RLHF)中獎勵模型的角色進行深入探討,指出單純依賴準確率(Accuracy)並不足以衡量一個獎勵模型的質量。作者從最佳化角度出發,提出“獎勵方差(Reward Variance)”在RLHF流程中的重要性。若獎勵模型對某一初始策略產生的獎勵方差過低,最佳化就會陷入“平坦”地帶(Flat Landscape),導致梯度變小、訓練效率明顯降低,甚至可能使準確度很高的獎勵模型在實際訓練中表現不佳。
論文透過理論分析與實驗證明:除了準確率,還需關注獎勵模型與具體策略之間的相互作用及其所誘導的獎勵分佈差異,否則即便“完美”擬合人類偏好的模型也可能在實際RLHF訓練中成為“糟糕的老師”。

一、研究背景與動機

在對大型語言模型進行對齊(Alignment)時,業界常採用RLHF管線:先透過人工偏好資料訓練一個獎勵模型(Reward Model),再利用該模型在策略梯度方法(如PPO、RLOO、GRPO等)中進行最佳化。
現有評測體系通常只關注“準確率”,即獎勵模型能否正確區分“好/壞”輸出。然而,研究者早已觀察到:有時更加準確的獎勵模型並未帶來更好的對齊效果。這說明“準確率”可能無法窮盡衡量標準,獎勵模型如何真正引導RL過程提升策略質量,值得更細緻的探究。
論文將關注點置於獎勵模型對“初始語言模型(初始策略)”的最佳化梯度能否保持足夠大,以及在訓練過程中能否持續提供有效的方向指引。若獎勵模型給所有較高機率的輸出打出的分數差別(方差)過小,則梯度會趨於平坦,模型在梯度上行時難以獲得充分的改進方向,從而減緩甚至阻礙對齊效果的提升。

二、核心思路或方法

1. 理論框架與關鍵觀點
作者將問題形式化為一個帶KL正則的RL目標:
.
這裡,是一組訓練提示(prompts),表示從集合中均勻地抽樣得到是KL正則化係數,用於控制策略與初始策略(即SFT階段產生的策略)之間的偏離程度。期望透過提升代理獎勵(proxy reward)的期望,也能增加真實獎勵(ground truth reward)的期望,同時KL正則項有助於保持預訓練和SFT階段所獲得的能力。
研究重點在“獎勵方差(Reward Variance)”對於策略梯度最佳化效率的影響:若過低,相當於對初始策略機率質量集中的區域打分幾乎無差別,會導致梯度過小並且難以被後續訓練有效放大。這正是“準確模型未必是好老師”的核心原因。
2. 與傳統“準確率”度量的對比
準確率僅要求獎勵模型能正確排序輸出對,卻不關心每個輸出之間的數值差距。有時一個對所有輸出對都排序正確的獎勵模型,其評分分佈依然可能非常平坦,從而無法提供足夠的梯度;反之,一個“整體上不太準確”但在極少數關鍵輸出上提供顯著高獎勵的模型,往往能在早期就驅動策略快速地增益真實獎勵。
作者因此強調:“高準確度並不保證在RLHF最佳化中提供強有力的訓練訊號,獎勵分值之間的拉開幅度才是能否‘教會’策略的重要因素之一。”
3. 不同策略與同一獎勵模型間的差異
同一個獎勵模型在對不同的初始策略時,其對高機率輸出的區分度也會不一樣,因而產生的方差水平也可能截然不同。這意味著某個在“資料集評測”上表現優秀的獎勵模型,對另一個分佈截然不同的策略未必奏效。論文提出:如果獎勵方差在當前策略分佈下過低,最佳化勢必效率很差;因此應該將獎勵模型的評價與其所服務的策略模型緊密結合。

圖 1:展示了準確率(定義 1)和獎勵方差(定義 2)如何影響 RLHF 目標函式(公式 (1))的形狀。準確率和獎勵方差分別刻畫了獎勵模型的兩個不同方面:前者決定其與 ground truth 獎勵的一致性,而後者則影響目標函式地形的平坦程度。準確率越低,獎勵模型越容易出現 reward hacking 現象 [5, 71, 58, 27] —— 即獎勵模型認為有效的方向可能並不能提高 ground truth 獎勵。另一方面,即使獎勵模型的準確率非常高,若其獎勵方差較小,則目標函式的地形會變得平坦,進而削弱策略梯度方法的最佳化效率(我們在第 3 節中進行了理論證明,並在第 4 節中透過實驗證實了這一點)。

三、實驗設計與主要結論

作者在多種規模(最大8B)的語言模型與多套RLHF資料集上做了實驗,比較不同獎勵模型的方差和準確率。
實驗結果印證了“方差”強烈影響最佳化效率:對初始策略分佈拉開得分較大的獎勵模型往往能帶來更快的代理獎勵乃至真實偏好評分的提升。
一些準確率雖高但對初始分佈內的輸出打分過度平滑的模型,其梯度極小,導致學習過程最初進展緩慢,甚至無法超越那些看似“準確度較低”但差異化激勵更強的模型。
論文還發現:若把“真實獎勵函式”直接用於訓練(假設我們能獲取它),在某些初期階段的收益增速反而不如特意設計過的“方差更大”的獎勵模型;這進一步證明了準確率之外的指標對最佳化過程起到決定性作用。

表 1:對於第 4.1.1 節中描述的每個獎勵模型以及 ground truth 獎勵,我們報告了:(i) Pythia-2.8B 初始策略所引起的獎勵方差;以及 (ii) 準確率,在 on-policy(即,從初始策略取樣得到的輸出)和 off-policy(即,來自 UltraFeedback 的輸出)下分別進行測量。所有數值均在策略梯度訓練集的 prompts 上取平均(在測試集上的數值幾乎相同)。如第 4.1.1 節所述,為了公平比較獎勵方差,所有獎勵模型及 ground truth 獎勵都經過歸一化,使得它們產生的獎勵位於相同的尺度範圍內。

圖 2:更高準確率的獎勵模型未必是更好的“教師”。我們使用第 4.1.1 節中描述的每個獎勵模型,透過策略梯度(具體地說是 RLOO [2])在 UltraFeedback 的 prompts 上訓練了一個 Pythia-2.8B 語言模型;這些獎勵模型的特性列在表 1 中。作為對比,我們還直接使用 ground truth 獎勵進行策略梯度訓練。圖中展示的是 proxy 獎勵(左側,即訓練中使用的獎勵)和 ground truth 獎勵(右側)在不同訓練輪次下的增長情況。圖中的點表示三次實驗的平均值,誤差條表示標準差。與定理 2 的結論一致,一個雖然準確率極高但引起的獎勵方差較小的獎勵模型(紅色標記)在表現上不如一些準確率較低的模型。此外,在前幾個訓練輪次中,使用 proxy 獎勵模型的訓練效果甚至優於直接最佳化 ground truth 獎勵。有關這個差距更大的實驗結果可參見圖 7。

表 2:獎勵方差與獎勵提升高度相關,而單獨的準確率可能並不具備這種相關性。
針對圖 2 中的實驗,我們報告了不同獎勵模型屬性(見表 1)在策略梯度訓練一個 epoch 後與獎勵提升之間的 Pearson 和 Spearman 相關係數。“On- & Off-Policy Acc.” 表示在初始策略生成的輸出對以及 UltraFeedback 提供的輸出對上分別測得的準確率。“Reward Variance & Acc.” 則是該準確率與(初始策略所引起的)獎勵方差的平均值。值得注意的是,這種組合指標在預測 ground truth 獎勵提升方面比任何單一指標更具指示性。

圖 3:對於不同的語言模型,最優的獎勵模型也不同。我們使用公開可用的獎勵模型,透過策略梯度(具體為 RLOO [2])在 UltraFeedback 的 prompts 上訓練了多個語言模型;獎勵模型的具體特性見表 9。圖中展示的是 proxy 獎勵(左側,即訓練中使用的獎勵)和 ground truth 獎勵(右側)的提升情況,針對每組初始策略與獎勵模型組合進行繪製,結果取三次執行的平均值(誤差條表示標準差)。與定理 3 一致,實現最高 ground truth 獎勵的獎勵模型會隨著初始策略的不同而發生變化。

四、論文意義與可能應用

學術研究層面:該工作打破了“獎勵模型好壞取決於能否高度擬合人類偏好排序”的單維度思維,強調了最佳化訊號的重要性,尤其是方差在RL訓練中與梯度的緊密關聯。
工業界應用角度:面對大型語言模型的對齊任務,如果企業只看“準確率”可能會出現訓練停滯或效率低下的情況;而若根據初始策略調整獎勵模型的數值分佈,使“高價值輸出”與“其他輸出”的差距更明顯,往往能夠快速提高實用效能。
評測與模型調優:作者呼籲在獎勵模型的訓練和選擇時,除了看傳統的準確率,也要關注“獎勵值分佈”或“方差”指標,必要時可採用“收益分層”“數值縮放”等方式提高區分度,改善後續策略最佳化效率。

五、總結和未來展望

該論文在理論與實驗層面都展現了“高準確度獎勵模型有時徒有虛名”的重要啟示:除了排序是否正確,還要看輸出分值是否足以為梯度提供動力。
準確率依舊不可或缺,因為過低準確率下可能出現“獎勵作弊”(reward hacking),導致訓練後期真實收益下滑。但它與“方差”並非互斥,而需共同平衡。
未來可進一步研究:
1)更靈活的“獎勵成形”(Reward Shaping)——在確保正確排序的前提下,透過對關鍵輸出加大數值差距來增強訓練訊號;
2)獎勵模型多路整合,兼顧不同側重點(如降低作弊風險、提升訓練效率);
3)向其他對齊方法(Best-of-N取樣、對比式學習等)延伸,比較在不同正規化下“方差”與“準確率”各自的重要程度。
綜上,論文對“怎樣的獎勵模型才是真正好的老師”給出了全新且富有洞察力的解讀:從最佳化目標入手,揭示了“準確率”與“獎勵方差”同等關鍵,並呼籲獎勵模型評測必須將策略分佈與數值區分度納入考量。這些觀點在不斷完善RLHF及相關對齊方法的趨勢下,將對學術和工業界都產生持續影響。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章