金磊 發自 凹非寺量子位 | 公眾號 QbitAI
有點意思。
這不DeepSeek前腳剛剛上新了一篇關於推理時Scaling Law的論文嘛,引得大家紛紛聯想是不是R2馬上要來了。
然鵝……奧特曼這邊卻發了一條“變卦”的訊息:
計劃改變:我們可能在幾周之後先發布o3和o4-mini。

至於大家翹首以盼的GPT-5,奧特曼表示:
將在幾個月之後,而且效果會比我們最初設想的還要好。
至於原因,奧特曼也做出瞭解釋。
大概意思就是,順利整合所有內容比他們想象的要困難得多,希望確保有足夠的能力來支援預期的需求。

咱就是說啊,現在真的是DeepSeek這邊一有點聲響,OpenAI那邊就得有點動作來緊跟一下了。
DeepSeek新論文
在這個小插曲之後呢,我們還是把目光聚焦在DeepSeek這篇新論文身上。
這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清華大學共同提出。

這篇研究核心的亮點,就是提出了一個叫做SPCT方法(Self-Principled Critique Tuning)的方法——
首次提出透過線上強化學習(RL)最佳化原則和批判生成,實現推理時擴充套件。
之所以要做這麼一項研究,是因為之前大家用獎勵模型(Reward Model, RM)在RL中為大語言模型生成獎勵訊號。
但現有的RM在通用領域卻表現出受限的情況,尤其是在面對複雜、多樣化任務的時候。
因此,就出現了兩個關鍵挑戰點。
一個是通用RM需要靈活性(支援單響應、多響應評分)和準確性(跨領域高質量獎勵)。
另一個則是現有RM(如標量RM、半標量RM)在推理時擴充套件性差,無法透過增加計算資源顯著提升效能。

為了解決這個問題,DeepSeek和清華大學團隊便提出了SPCT。

整體來看,這項研究主要包含三大核心技術點。
首先就是生成式獎勵模型(GRM)。
它採用點式生成獎勵模型(Pointwise GRM),透過生成文字形式的獎勵(如critiques)而非單一標量值,支援靈活輸入(單響應、多響應)和推理時擴充套件。

其中,C是生成的critique,fextract從中提取分數。
接下來,是關鍵的SPCT了。
主要是透過線上強化學習(RL)訓練GRM,使其能動態生成高質量的原則(principles)和批判(critiques),從而提升獎勵質量。
整體來看,SPCT是一個兩階段的過程,它們分別是:
- 拒絕式微調(Rejective Fine-Tuning)
:冷啟動階段,透過取樣和拒絕策略生成初始資料。 - 基於規則的線上RL
:使用規則化獎勵函式最佳化原則和批判的生成,鼓勵模型區分最佳響應。
在此基礎上,便是第三個技術點,即推理時擴充套件技術。
先是透過多次取樣生成多樣化的原則和批判,投票聚合最終獎勵,擴充套件獎勵空間。
再訓練一個輔助模型過濾低質量取樣,進一步提升擴充套件效果。
基於上述的方法,團隊也對結果做了一波測試。
在Reward Bench、PPE、RMB等基準上,DeepSeek-GRM-27B顯著優於基線方法(如LLM-as-a-Judge、標量RM),且透過推理時擴充套件(32次取樣)效能進一步提升(如Reward Bench準確率從86.0%提升至90.4%)。

總而言之,這篇研究證明了推理時擴充套件在通用RM中的有效性,效能超越訓練時擴充套件。
One More Thing
奧特曼釋出“變卦”訊息之外,還不忘給自己帶一波貨,稱有兩本他親自參與的書即將釋出:
-
一本是Keach Hagey寫的關於奧特曼本人的書 -
一本是Ashlee Vance寫的關於OpenAI的書

論文地址:https://arxiv.org/abs/2504.02495
參考連結:[1]https://x.com/sama/status/1908167621624856998[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/[3]https://x.com/sama/status/1908163013192069460
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
速搶席位!中國AIGC產業峰會觀眾報名通道已開啟 🙋♀️
最新嘉賓曝光啦 🔥 百度、華為、AWS、無問芯穹、數勢科技、面壁智慧、生數科技等十數位AI領域創變者將齊聚峰會,讓更多人用上AI、用好AI,與AI一同加速成長~

🌟 一鍵星標 🌟
科技前沿進展每日見