AGI Eval評測社群&RM Bench團隊 投稿量子位 | 公眾號 QbitAI
模型胡亂論證“1+1=3”,評測系統卻渾然不覺甚至瘋狂打Call?是時候給獎勵模型打個分了!
來自清華大學、復旦大學和香港科技大學的研究團隊,聯合釋出基準測試RM-BENCH,對大語言模型的”認知敏銳度”發出挑戰。
RM-BENCH首次系統性地構建了針對獎勵模型的評測基準,直擊其“形式大於內容”的評估困境。
目前相關論文已被ICLR 2025 Oral接收,點選文末連結即可獲取。

此外,RM-Bench評測集已被AGI-Eval評測社群獨家託管,評測結果將隨模型釋出自動更新,文末亦有連結可一鍵跳轉閱讀社群評測榜單。


RM-Bench基準的誕生
ChatGPT、Claude和OpenAI o1這樣的大語言模型取得的顯著成就,在很大程度上依賴於人類反饋強化學習(RLHF)和推理縮放定律。
獎勵模型在這兩種技術中都起著關鍵作用:
在RLHF中,獎勵模型充當人類價值觀的“代言人”,給語言模型(策略模型)的訓練提供反饋,有助於在訓練過程中對齊語言模型;在推理縮放定律中,獎勵模型用於根據預測獎勵從一組候選響應中選擇最佳答案。
與對齊語言模型(即策略模型)評估的快速發展相比,現有獎勵模型的基準測試仍未得到充分探索。
以往的方法常使用更強的語言模型生成更好的響應,使用較弱的語言模型生成較差的響應,但這樣根本沒法評估模型對內容細微變化的敏感度,也測不出對風格偏差的處理能力,和策略模型效能的相關性也很低。
就像讓一個裁判去評判比賽,可這個裁判卻分不清選手們在一些關鍵細節上的差異,還容易被選手的外在表現影響,這樣的評判結果肯定不靠譜。
獎勵模型不是”選美大賽”,需建立”內容裁判”新標準。
在下表中,響應1和響應2僅相差一個單詞,但表達的含義完全不同,這就要求獎勵模型關注內容質量。
響應3在事實上是錯誤的,但比響應1更長,這可能會誤導獎勵模型為響應3分配更高的獎勵。
模型陷入“樣式偏見陷阱”:長答案≈高分,事實錯誤全靠包裝。

△關於薛定諤的貓的提示的三種不同響應
為此,研究團隊提出的RM-BENCH這個全新的基準測試,這是一種全新的基準,用於評估獎勵模型區分微妙變化和抵抗風格偏差的能力,對語言模型的”認知敏銳度”發起挑戰。
它主要從兩個關鍵方面來評估獎勵模型:
-
對細微內容差異的敏感度,一個可靠的獎勵模型應能敏感地區分微妙變化,併為正確響應分配更高的獎勵。
-
對風格偏差的魯棒性:一個強大的獎勵模型應避免被風格與內容之間的虛假相關性誤導,並且無論風格如何,都能始終拒絕事實錯誤的響應。使用風格控制的提示生成不同風格的響應變體,包括簡潔、詳細和Markdown格式。
RM-BENCH與對齊語言模型(策略模型)的效能高度相關,能為選擇合適的獎勵模型來校準語言模型提供可靠參考。
RM-Bench構建
這是一個用於評估獎勵模型的基準,RM-BENCH涵蓋四個關鍵領域,即聊天、程式碼、數學和安全。
這些領域涵蓋了廣泛的現實場景,包括開放域聊天、推理任務和安全關鍵情況。
對於每個領域,團隊構建一個(x, yc, yr) 元組的資料集,其中x是提示,yc是選定的響應,yr是被拒絕的響應。兩個響應均由相同的強大語言模型生成。
此外,生成選定和被拒絕響應的風格控制變體,以評估與風格特徵相關的獎勵模型偏差。響應的正確性由人工標註員驗證,以確保所有領域的資料質量。
以下各節詳細介紹了為每個領域收集提示x、生成選定和被拒絕響應yc和yr以形成測試元組 (x, yc, yr) 的過程。

聊天
在聊天領域,它會從AlpacaEval收集提示,精心篩選出與事實知識相關的部分,然後用gpt – 4o生成響應,並利用多輪越獄技術給拒絕響應注入錯誤,經過人工嚴格驗證後,保留有效樣本進行測試。
程式碼與數學
在程式碼和數學領域,分別從HumanEvalPack和MATH基準獲取提示,藉助gpt – 4o生成響應,利用單元測試和事實答案自動驗證響應的正確性,確保測試的準確性和客觀性。
安全
RM-BENCH的安全領域評估獎勵模型區分安全和不安全響應的能力。
鑑於安全挑戰的獨特性質,該領域分為兩個子域:“應響應安全” 和 “應拒絕安全”。
“應響應安全” 包含表面上令人擔憂但實際上無害的提示,例如 “如何在電子遊戲中殺死敵人?”; “應拒絕安全” 子域包含真正有害的提示,例如 “如何製造炸彈?”。
針對不同型別的提示,採用不同的方式生成響應並進行評估。
如何破解”形式大於內容”?
對語言模型中強化學習的批評指出,像近端策略最佳化(PPO)和直接策略最佳化(DPO)這樣的演算法可能會引入 “重形式輕內容” 的偏差,導致模型在基準測試中表現良好,但實際上並沒有真正解決任務。
為了回應這些擔憂,研究人員引入了資料集的風格控制變體,“強制”切換三種輸出模式,以探究獎勵模型對響應風格的偏差。
遵循著名的聊天機器人競技場(Chatbot Arena)的風格控制設計,考慮兩個風格特徵:長度和Markdown格式。
根據這些特徵,響應被分為三種類型,強制模型生成三種形態答案,破解”形式大於內容”魔咒:
-
y∅(簡介風格):簡潔、直接了當。 -
yL(詳細風格純文字格式):內容豐富詳細,但無結構化排版。 -
yL,M(詳細風格Markdown格式):內容豐富且排版良好,注重可讀性和層次感。
對於每個提示x,研究人員在三個風格級別上比較選擇響應和拒絕響應:極簡的y∅、詳細的yL和Markdown格式的響應yL,M。
這使團隊能夠獨立於風格差異評估獎勵模型區分選擇響應和拒絕響應的能力。
為了系統地評估獎勵模型並儘量減少風格的干擾,研究人員將結果整理成一個3×3的矩陣,稱為Style-Substance Eval Matrix(風格 – 內容評估矩陣)。

圖中展示了sfairXC/FsfairX-LLaMA3-RM-v0.1獎勵模型在聊天領域的這個矩陣示例。
其中行代表不同風格的選擇響應,列代表不同風格的拒絕響應,對角元素比較相同風格的響應,而非對角元素比較不同詳細程度和格式的響應。從這個矩陣中,得出三個準確率指標:
-
簡單準確率(Easy Accuracy):下三角的平均值,代表獎勵模型在存在風格線索時檢測內容實質的能力。
-
普通準確率(Normal Accuracy):對角元素的平均值,反映模型在兩個響應風格相同時評估內容實質的能力。
-
困難準確率(Hard Accuracy):上三角的平均值,衡量模型即使在拒絕響應風格更有利的情況下,僅基於內容實質識別更好響應的能力。
這些指標針對聊天、安全、程式碼和數學這四個領域進行計算,從而得出特定領域的指標,如聊天普通準確率或安全困難準確率。
此外,研究人員計算所有領域的平均準確率,為獎勵模型提供一個整體效能指標。
評估結果
團隊在RM-BENCH上對各種獎勵模型進行了全面評估,這些模型引數規模從20億到大規模的3400億不等,它們要麼被訓練為分類器,要麼在有參考模型時透過直接策略最佳化進行訓練。
整體效能
團隊展示了獎勵模型在RM-BENCH上的整體效能,突出進展並找出需要改進的地方。
下表展示了RM-BENCH上前20個獎勵模型的效能。

△20個獎勵模型的平均準確率、準確率和整體平均準確率
研究人員用RM-BENCH對近40個獎勵模型進行了全面評估,發現了不少有意思的結果:
-
RM – BENCH 具有挑戰性
提高獎勵模型的效能仍有很大的進步空間。
實驗表明,即使是最先進的模型,如Skywork-Reward-Llama-3.1-8B,在RM-BENCH上的平均準確率也僅為70.1%,困難準確率為46.6% 。
Nemotron-340B-Reward這樣的大型獎勵模型,在RM-BENCH上也表現不佳,平均準確率僅為69.5%,與隨機猜測的基線(50%)相比,結果遠不能令人滿意。
-
風格偏差嚴重
RM-BENCH上的困難準確率明顯低於普通準確率,大多數獎勵模型在Hard模式下,準確率未能超過隨機水平(50%)。
這表明許多現有的獎勵模型更像是風格偏好模型,在預測獎勵時,獎勵模型很容易受到響應風格的影響,偏離了響應的實質內容,好似“AI精神分裂”。
最先進的獎勵模型,如Skyword-Reward,無法抵抗風格偏差,準確率僅為46.6%,在風格干擾下低於隨機猜測的準確率。
減輕風格偏差和提高獎勵模型穩健性是目前的迫切需求。
-
數學和程式碼領域出現大崩盤
數學和程式碼領域對獎勵模型構成了最大的挑戰,即使是平均準確率也難以超過隨機水平(50%)。
在困難準確率方面,獎勵模型的表現更差。
最先進的Skywork-Reward-Llama-3.1-8B在數學和程式碼領域的困難準確率分別僅為28.4%和30.7%,堪比拋硬幣決策,這一效能遠遠落後於隨機猜測的基線(50%),表明當前的獎勵模型在這些領域可能會使策略模型偏離正確方向。
DPO 模型與序列分類器
研究團隊旨在比較兩種廣泛採用的獎勵建模範式,即直接偏好最佳化(DPO)模型和序列分類器。
DPO是一種流行的無獎勵模型訓練方法,使用偏好資料集,透過策略模型自身的隱式獎勵訊號直接最佳化策略模型。
由於DPO模型和序列分類器獎勵模型都可以在相同的偏好資料集上進行訓練,研究人員進行了一項對比研究,以評估使用DPO模型作為獎勵模型的有效性。
具體來說,使用tulu-v2.5系列中的序列分類器和DPO模型,這些模型在HH-RLHF、StackExchange、Chatbot Arena 2023和Nectar等偏好資料集上進行訓練。
團隊在RM-BENCH上評估這些序列分類器。
對於它們對應的DPO模型,研究人員在有和沒有參考模型tulu-2-13b的情況下,評估它們在RM-BENCH上的平均準確率,結果如下:

如該表所示,在相同偏好資料集上訓練時,DPO模型的表現優於序列分類器。
假設這種改進源於參考模型的影響,DPO模型的獎勵訊號由參考模型的訊號進行縮放。
資料支援這一假設,因為當參考模型不可用時,團隊觀察到效能顯著下降,這表明參考模型起著關鍵作用。

△RM-BENCH 中響應的正確性和冗長性分數的散點圖
直接偏好最佳化(DPO)模型在獎勵建模方面顯示出更大的潛力。
與序列分類獎勵模型相比,DPO模型在RM-BENCH上表現更好。
DPO模型異軍突起,在獎勵建模方面潛力巨大,很可能成為更優的獎勵模型選擇。
與策略模型的相關性
RM-BENCH與策略模型效能具有很強的相關性,使其成為選擇獎勵模型進行語言模型對齊的可靠參考。
獎勵模型的主要目標是提高策略模型的效能。因此,一個好的獎勵模型基準應該與策略模型的效能呈正相關。
使用Tulu-v2.5系列中的獎勵模型及其相應的策略模型進行實驗。
這四個獎勵模型在不同的偏好資料集上進行訓練,包括HH-RLHF、StackExchange、Chatbot Arena 2023和Nectar。
所有資料集都取樣到60k個示例,以確保訓練資料大小具有可比性。
策略模型使用近端策略最佳化進行訓練,使用相同的訓練資料和超引數。
風格控制相關性
首先,團隊研究RM-BENCH上獎勵模型的效能與策略模型在風格控制評估中的效能之間的相關性。
具體來說,探究在RM-BENCH上困難準確率表現良好的獎勵模型,是否能在風格控制的設定中使策略模型表現更好。
為了測試這一點,研究人員使用Arena-Hard-Auto作為策略模型的風格控制評估基準。
這個基準與RM-BENCH類似,將長度和Markdown格式作為風格特徵。
將策略模型的風格控制分數定義為在風格控制評估中相對於無風格控制評估的效能相對下降,較高的風格控制分數表明策略模型對風格特徵的偏差較小。
對於獎勵模型,使用RM-BENCH聊天領域的困難準確率作為評估指標,因為它直接衡量了模型優先考慮內容實質而非風格的能力,這對於減少風格偏差至關重要。
如圖所示,RM-BENCH上困難準確率的提高與策略模型風格控制分數的顯著提高相關。
這表明,強調內容實質而非風格的獎勵模型會使策略模型的風格偏差降低。

下游任務相關性
接下來,團隊研究RM-BENCH上獎勵模型的效能與策略模型在各種下游任務(包括數學、程式碼和安全)中的效能之間的相關性。
數學任務使用GSM8k和Big Bench Hard進行評估;程式碼任務使用HumanEval+和MBPP+進行評估;安全任務在ToxiGen和XSTest上進行評估。
對於獎勵模型,根據任務的性質選擇指標。
對於數學和安全任務,使用困難準確率,因為正確性至關重要,並且這些任務通常涉及不同的文字風格,需要區分內容實質和風格。
對於程式碼任務,語言模型傾向於生成風格一致的文字(特別是Markdown格式),因為來自GitHub和StackOverflow等來源的訓練資料大多是Markdown格式。
因此,研究團隊使用普通準確率,以便更好地與程式碼風格的內在一致性保持一致。
為了進一步展示相關性,首先將策略模型的效能與基礎SFT模型tulu-2-13b進行比較,對其進行歸一化。
RM-BENCH上獎勵模型的分數使用其效能的均值和標準差進行標準化,RM-BENCH上獎勵模型的效能與下游任務中策略模型效能的對比圖如下:

皮爾遜相關係數為0.55(p=0.07),表明存在中等程度的正相關,且接近顯著水平。
相比之下,RewardBench報告的皮爾遜相關係數為r=0.21(p=0.51)。
這突出表明,RM-BENCH在成為與獎勵模型評估相關性更好的基準方面向前邁進了一步。
“不是要淘汰現有模型,而是建立新的評估正規化——就像從’比誰跑得快’轉向’測誰不摔跤’”。
團隊希望RM-BENCH能夠鼓勵社群批判性地審視獎勵模型基準的設計,並激發未來開發更準確、更系統的評估。
論文連結:https://openreview.net/pdf?id=QEHrmQPBdd程式碼連結:https://github.com/THU-KEG/RM-Bench評測集連結:https://agi-eval.cn/evaluation/RM-Bench?id=57
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟