過程獎勵模型也可以測試時擴充套件?清華、上海AILab23K資料讓1.5B小模型逆襲GPT-4o

趙儉,北京郵電大學本科三年級,研究方向為大語言模型。劉潤澤,清華大學碩士二年級,師從李秀教授,研究方向為大語言模型與強化學習,特別關注大模型推理能力增強與測試時間擴充套件,在 NeurIPS、ICML、ICLR、AAAI 等頂級學術會議發表多篇論文,個人主頁:ryanliu112.github.io。
隨著 OpenAI o1 和 DeepSeek R1 的爆火,大語言模型(LLM)的推理能力增強和測試時擴充套件(TTS)受到廣泛關注。然而,在複雜推理問題中,如何精準評估模型每一步回答的質量,仍然是一個亟待解決的難題。傳統的過程獎勵模型(PRM)雖能驗證推理步驟,但受限於標量評分機制,難以捕捉深層邏輯錯誤,且其判別式建模方式限制了測試時的拓展能力。
那麼,是否有辦法透過測試時拓展提升過程獎勵模型的過程監督推理能力呢?
為此,清華大學聯合上海 AI Lab 提出生成式過程獎勵模型 ——GenPRM,將生成式思維鏈推理(CoT)與程式碼驗證相結合,並引入測試時拓展機制,為過程監督推理提供了新思路。與 DeepSeek 近期釋出的逐點生成獎勵模型(GRM)類似,GenPRM 也透過生成式建模和測試時擴充套件增強獎勵模型的推理能力,但 GenPRM 更專注於過程獎勵模型,彌補了 GRM 在過程監督方面的不足。
  • 論文標題:GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
  • 論文連結:http://arxiv.org/abs/2504.00891
  • 專案連結:https://ryanliu112.github.io/GenPRM
  • GitHub:https://github.com/RyanLiu112/GenPRM
  • HuggingFace:https://huggingface.co/GenPRM
在 ProcessBench 等數學推理基準的測試中,GenPRM 展現出驚人實力:僅 1.5B 引數的模型透過測試時擴充套件超越 GPT-4o,而 7B 引數版本更是擊敗 72B 引數的 Qwen2.5-Math-PRM-72B,同時表現出強大的步驟級批評能力。
GenPRM:從評分到推理,再到測試時擴充套件
現有過程獎勵模型依賴分類器式的標量評分,這種 “黑箱” 機制導致兩個核心問題:一是無法解釋錯誤根源,僅能判斷步驟 “對錯”,卻無法解釋 “為何錯”,二是無法透過增加模型測試時間計算資源提升判斷精度。
生成式過程獎勵模型
為了突破這些瓶頸,GenPRM 引入生成式設計,徹底革新過程監督正規化:
  • 思維鏈推理:GenPRM 模擬人類解題時的邏輯推導,對每一步推理進行自然語言分析,提供透明、可解釋的步驟評估。
  • 程式碼驗證:為確保推理的可靠性,GenPRM 還會生成並執行對應數學運算的 Python 程式碼,將文字推導與實際計算結果交叉驗證。例如,在求解三角函式表示式時,模型先分析角度轉換的合理性,再透過程式碼計算具體數值,避免 “符號推導正確但計算失誤” 的情況。
其獎勵推理過程可以表示為:
其中 s_t 為當前狀態,a_t 為當前步驟,v_1:t−1 和 f_1:t-1 分別為之前步驟的推理過程和程式碼執行反饋,v_t 和 f_t 為當前步驟的推理與反饋。這種 “先解釋、再驗證” 的機制不僅能判斷對錯,還能提供步驟級別的批評改進建議和嚴謹準確的反饋,大幅提升了過程監督的深度和實用性。
測試時擴充套件
在推理階段,GenPRM 透過並行取樣 N 條推理路徑,綜合多條路徑的獎勵值並取平均,得到最終獎勵:
這種策略充分利用額外計算資源,進一步提升評估精度,使小模型也能在複雜任務中表現出色。
資料高效:23K 樣本背後的合成秘密
GenPRM 的另一個亮點是僅使用 23K 訓練樣本就取得了優異的效能,遠少於許多模型動輒數十萬級的資料量(如 PRM800K 需 80 萬人工標註),其高效性源於獨特的資料合成方法,結合相對進步估計(RPE)和程式碼驗證,生成高質量的過程監督資料。
透過相對進步估計改進硬估計
傳統過程獎勵模型通過蒙特卡羅(MC)分數進行硬估計,研究者觀察到儘管許多步驟的 MC 分數大於 0,但這些步驟是卻存在錯誤。RPE 透過比較當前狀態和上一狀態的 MC 分數,用 “進步幅度” 評估每步質量,比傳統硬標籤更準確。其形式化如下:
其中,MC (s_t, a_t) 表示當前步驟的蒙特卡羅分數,MC (s_t) 表示上一步驟的蒙特卡羅分數。若進步幅度低於閾值(ϵ=0.8),則判定步驟無效;若首步錯誤(MC 為 0),後續步驟分數歸零。這種方法顯著提升標籤準確性,避免了硬估計的誤判。
程式碼驗證驅動的資料合成
研究者利用 QwQ-32B 模型合成 CoT 和程式碼驗證推理資料,透過在 Python 環境中真實執行程式碼重複檢驗 CoT 推理過程。使用共識過濾(過濾率 51%),保留高質量過程監督資料,最終得到 23K 訓練資料集。
測試時擴充套件:小模型的逆襲
在 ProcessBench 過程監督基準測試中,GenPRM 展現出顯著優勢:
  • 僅用 23K 訓練資料的 1.5B GenPRM,透過多數投票(Maj@8)的測試時計算擴充套件策略,其 F1 分數超越 GPT-4o;
  • 7B 版本的 GenPRM 以 80.5% 的 F1 分數一舉超過 72B 引數的 Qwen2.5-Math-PRM-72B。
這一結果證明,測試時擴充套件能有效放大過程獎勵模型的能力,使小模型實現效能飛躍。
此外,GenPRM 同樣適用於策略模型測試時擴充套件。透過 Best-of-N 實驗,GenPRM-7B 展現出相比於基線方法更加優異的篩選能力,並可透過測試時擴充套件進一步增強過程監督能力。
從驗證器到批評者:過程獎勵模型新正規化
GenPRM 不僅能當 “裁判”,作為驗證器(Verifier)篩選答案,還能當 “教練”,作為步驟級別的批評模型(Critic)指導策略模型迭代最佳化原始回答。實驗表明,GenPRM 透過 3 輪反饋將策略模型的回答準確率從 45.7% 提升至 51.5%,效能提升達到基線方法的 3.4 倍。
這種 “生成 – 批評 – 反思” 的閉環,驗證了 GenPRM 不僅可以作為驗證器驗證答案的準確性,還可以作為批評者,為模型完善自身輸出提供逐步關鍵指導,為大語言模型的自我改進提供了可解釋的技術路徑。
研究者已開原始碼、模型及 23K 訓練資料集。該工作為大語言模型的可解釋過程監督提供了新思路,未來可擴充套件至程式碼生成、多模態推理等領域。

© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章