過程獎勵模型也可以測試時擴充套件？清華、上海AILab23K資料讓1.5B小模型逆襲GPT-4o

趙儉，北京郵電大學本科三年級，研究方向為大語言模型。劉潤澤，清華大學碩士二年級，師從李秀教授，研究方向為大語言模型與強化學習，特別關注大模型推理能力增強與測試時間擴充套件，在 NeurIPS、ICML、ICLR、AAAI 等頂級學術會議發表多篇論文，個人主頁：ryanliu112.github.io。

隨著 OpenAI o1 和 DeepSeek R1 的爆火，大語言模型（LLM）的推理能力增強和測試時擴充套件（TTS）受到廣泛關注。然而，在複雜推理問題中，如何精準評估模型每一步回答的質量，仍然是一個亟待解決的難題。傳統的過程獎勵模型（PRM）雖能驗證推理步驟，但受限於標量評分機制，難以捕捉深層邏輯錯誤，且其判別式建模方式限制了測試時的拓展能力。

那麼，是否有辦法透過測試時拓展提升過程獎勵模型的過程監督推理能力呢？

為此，清華大學聯合上海 AI Lab 提出生成式過程獎勵模型 ——GenPRM，將生成式思維鏈推理（CoT）與程式碼驗證相結合，並引入測試時拓展機制，為過程監督推理提供了新思路。與 DeepSeek 近期釋出的逐點生成獎勵模型（GRM）類似，GenPRM 也透過生成式建模和測試時擴充套件增強獎勵模型的推理能力，但 GenPRM 更專注於過程獎勵模型，彌補了 GRM 在過程監督方面的不足。

論文標題：GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
論文連結：http://arxiv.org/abs/2504.00891
專案連結：https://ryanliu112.github.io/GenPRM
GitHub：https://github.com/RyanLiu112/GenPRM
HuggingFace：https://huggingface.co/GenPRM

在 ProcessBench 等數學推理基準的測試中，GenPRM 展現出驚人實力：僅 1.5B 引數的模型透過測試時擴充套件超越 GPT-4o，而 7B 引數版本更是擊敗 72B 引數的 Qwen2.5-Math-PRM-72B，同時表現出強大的步驟級批評能力。

GenPRM：從評分到推理，再到測試時擴充套件

現有過程獎勵模型依賴分類器式的標量評分，這種 “黑箱” 機制導致兩個核心問題：一是無法解釋錯誤根源，僅能判斷步驟 “對錯”，卻無法解釋 “為何錯”，二是無法透過增加模型測試時間計算資源提升判斷精度。

生成式過程獎勵模型

為了突破這些瓶頸，GenPRM 引入生成式設計，徹底革新過程監督正規化：

思維鏈推理：GenPRM 模擬人類解題時的邏輯推導，對每一步推理進行自然語言分析，提供透明、可解釋的步驟評估。
程式碼驗證：為確保推理的可靠性，GenPRM 還會生成並執行對應數學運算的 Python 程式碼，將文字推導與實際計算結果交叉驗證。例如，在求解三角函式表示式時，模型先分析角度轉換的合理性，再透過程式碼計算具體數值，避免 “符號推導正確但計算失誤” 的情況。