DeepSeek前腳發新論文，奧特曼立馬跟上：GPT-5就在幾個月後啊

2025-08-23 22:24 量子位

金磊發自凹非寺量子位 | 公眾號 QbitAI

有點意思。

這不DeepSeek前腳剛剛上新了一篇關於推理時Scaling Law的論文嘛，引得大家紛紛聯想是不是R2馬上要來了。

然鵝……奧特曼這邊卻發了一條“變卦”的訊息：

計劃改變：我們可能在幾周之後先發布o3和o4-mini。

至於大家翹首以盼的GPT-5，奧特曼表示：

將在幾個月之後，而且效果會比我們最初設想的還要好。

至於原因，奧特曼也做出瞭解釋。

大概意思就是，順利整合所有內容比他們想象的要困難得多，希望確保有足夠的能力來支援預期的需求。

咱就是說啊，現在真的是DeepSeek這邊一有點聲響，OpenAI那邊就得有點動作來緊跟一下了。

DeepSeek新論文

在這個小插曲之後呢，我們還是把目光聚焦在DeepSeek這篇新論文身上。

這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling，由DeepSeek和清華大學共同提出。

這篇研究核心的亮點，就是提出了一個叫做SPCT方法（Self-Principled Critique Tuning）的方法——

首次提出透過線上強化學習（RL）最佳化原則和批判生成，實現推理時擴充套件。

之所以要做這麼一項研究，是因為之前大家用獎勵模型（Reward Model, RM）在RL中為大語言模型生成獎勵訊號。

但現有的RM在通用領域卻表現出受限的情況，尤其是在面對複雜、多樣化任務的時候。

因此，就出現了兩個關鍵挑戰點。

一個是通用RM需要靈活性（支援單響應、多響應評分）和準確性（跨領域高質量獎勵）。

另一個則是現有RM（如標量RM、半標量RM）在推理時擴充套件性差，無法透過增加計算資源顯著提升效能。

為了解決這個問題，DeepSeek和清華大學團隊便提出了SPCT。

整體來看，這項研究主要包含三大核心技術點。

首先就是生成式獎勵模型（GRM）。

它採用點式生成獎勵模型（Pointwise GRM），透過生成文字形式的獎勵（如critiques）而非單一標量值，支援靈活輸入（單響應、多響應）和推理時擴充套件。

其中，C是生成的critique，f_extract從中提取分數。

接下來，是關鍵的SPCT了。

主要是透過線上強化學習（RL）訓練GRM，使其能動態生成高質量的原則（principles）和批判（critiques），從而提升獎勵質量。

整體來看，SPCT是一個兩階段的過程，它們分別是：

拒絕式微調（Rejective Fine-Tuning）

：冷啟動階段，透過取樣和拒絕策略生成初始資料。
基於規則的線上RL

：使用規則化獎勵函式最佳化原則和批判的生成，鼓勵模型區分最佳響應。

在此基礎上，便是第三個技術點，即推理時擴充套件技術。

先是透過多次取樣生成多樣化的原則和批判，投票聚合最終獎勵，擴充套件獎勵空間。

再訓練一個輔助模型過濾低質量取樣，進一步提升擴充套件效果。

基於上述的方法，團隊也對結果做了一波測試。

在Reward Bench、PPE、RMB等基準上，DeepSeek-GRM-27B顯著優於基線方法（如LLM-as-a-Judge、標量RM），且透過推理時擴充套件（32次取樣）效能進一步提升（如Reward Bench準確率從86.0%提升至90.4%）。

總而言之，這篇研究證明了推理時擴充套件在通用RM中的有效性，效能超越訓練時擴充套件。

One More Thing

奧特曼釋出“變卦”訊息之外，還不忘給自己帶一波貨，稱有兩本他親自參與的書即將釋出：

一本是Keach Hagey寫的關於奧特曼本人的書
一本是Ashlee Vance寫的關於OpenAI的書

論文地址：https://arxiv.org/abs/2504.02495

參考連結：[1]https://x.com/sama/status/1908167621624856998[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/[3]https://x.com/sama/status/1908163013192069460

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

速搶席位！中國AIGC產業峰會觀眾報名通道已開啟 🙋‍♀️

最新嘉賓曝光啦 🔥 百度、華為、AWS、無問芯穹、數勢科技、面壁智慧、生數科技等十數位AI領域創變者將齊聚峰會，讓更多人用上AI、用好AI，與AI一同加速成長～

4月16日，就在北京，一起來深度求索AI怎麼用 🙌 點選報名參會

🌟 一鍵星標 🌟

科技前沿進展每日見

相關文章

最新銀行賬戶開戶獎勵彙總【2024.12更新】

最新銀行賬戶開戶獎勵彙總【2024.12更新】

不騙你！會哄自己開心的人，都掌握了1個小技巧

不騙你！會哄自己開心的人，都掌握了1個小技巧

從PolicyGradient到REINFORCE++，萬字長文梳理強化學習最新進展

從PolicyGradient到REINFORCE++，萬字長文梳理強化學習最新進展

最新信用卡開卡獎勵排行榜【2025.2更新】

最新信用卡開卡獎勵排行榜【2025.2更新】

使用DeepSeek的GRPO，7B模型只需強化學習就能拿下數獨

使用DeepSeek的GRPO，7B模型只需強化學習就能拿下數獨

DeepSeek打擊面太廣！新論文疑是R2釋出前兆，奧特曼火速“應戰”：o3即將上線，GPT-5免費放送！

DeepSeek打擊面太廣！新論文疑是R2釋出前兆，奧特曼火速“應戰”：o3即將上線，GPT-5免費放送！

最新信用卡開卡獎勵排行榜【2025.1更新】

最新信用卡開卡獎勵排行榜【2025.1更新】

剛剛，DeepSeek釋出推理時Scaling新論文！R2要來了？

剛剛，DeepSeek釋出推理時Scaling新論文！R2要來了？

【70k+1FN開卡獎勵】AmExHilton信用卡

【70k+1FN開卡獎勵】AmExHilton信用卡

大模型RL不止數學程式碼！7B獎勵模型搞定醫學法律經濟全學科，不用思維鏈也能做題

大模型RL不止數學程式碼！7B獎勵模型搞定醫學法律經濟全學科，不用思維鏈也能做題

Copyright © 2025 | WordPress Theme by MH Themes