DeepSeek打擊面太廣!新論文疑是R2釋出前兆,奧特曼火速“應戰”:o3即將上線,GPT-5免費放送!

整理 | 華衛、核子可樂
剛剛,OpenAI 的 CEO Sam Altman 對外發布重大變更計劃:整合多項尖端技術的 GPT-5 將免費開放,o3 和 o4-mini 即將在幾周內亮相,o3 Pro 也即將上線。Altman 還表示,他們在很多方面對 o3 之前所展示的內容進行了改進。
網友們在震驚之餘紛紛表示,“OpenAI 也打算像 DeepSeek 那樣把模型開源了嗎?”並且,這次 OpenAI 和 DeepSeek 又是“前後腳”釋出更新。
就在前日(4 月 3 日),DeepSeek 和清華大學研究人員最新發表了一篇關於獎勵模型和 Scaling Law 的論文,正在 AI 社群中被廣泛討論。有許多人稱:這表示“R2 馬上要來了”。還有網友這樣肯定其成果:“從我在 o3 推理鏈中讀到的內容來看,這很可能是 o3 方法論。”
總的來說,DeepSeek 找到了一個能夠有效實現推理時擴充套件、進而提升模型整體效能的新方法。主要成果如下:
  1. 提出一種名為自原則批判微調(SPCT)的方法,用於促進通用獎勵建模在推理階段的可擴充套件性,並由此訓練出 DeepSeek-GRM 模型,又引入了元 RM 來指導投票過程,進一步有效提升 DeepSeek-GRM 的推理效能。據悉,DeepSeek-GRM 模型還將被開源。
  2. 透過實證表明,SPCT 顯著提高了 DeepSeek-GRM 的質量和推理階段可擴充套件性,在各種獎勵建模基準測試中優於現有方法和多個強大開源模型。
  3. 將 SPCT 訓練方案應用於更大規模的大語言模型,並發現相比於在訓練階段擴大模型規模,在推理時擴充套件的效能收益更高。
獎勵建模到底是什麼?
當前,強化學習(RL)作為大語言模型(LLM)的一種訓練後方法,已大規模地被廣泛應用,並在大語言模型與人類價值觀的對齊、長期推理以及環境適應能力方面取得了顯著的提升。
獎勵建模(Reward Modeling)是強化學習中的一個關鍵組成部分,對於為大語言模型的回覆生成準確的獎勵訊號至關重要。有研究表明,在訓練或推理階段,只要有高質量且可靠的獎勵機制,大語言模型就能在特定領域中取得出色的表現。
這些特定領域中的高質量獎勵主要來自於具有明確條件的人為設計環境或者來自於針對可驗證問題的手工制定規則,例如部分數學問題和編碼任務。在一般領域中,獎勵生成更具挑戰性,因為獎勵的標準更加多樣和複雜,並且通常沒有明確的參考標準或事實依據。
通俗地講,現在大模型在生成回覆時需要對內容進行“打分”,比如判斷眾多答案中哪個更為準確、哪個更符合安全規範,目前它們仍然依賴於人類預先設定的規則來進行評判。但在面對實際的複雜情況時,這種方式就不太夠用了,需要大模型能夠實現自我學習,學會自主地應對各種情況下的“打分” 。
因此,無論是從訓練後階段(如大規模的強化學習)還是推理階段的角度(如獎勵建模引導的搜尋)來看,通用獎勵建模對於提升大語言模型在更廣泛應用中的效能都至關重要。在實踐中,要使獎勵建模既具有通用性,又能在推理階段實現有效擴充套件,存在著諸多挑戰。
據瞭解,獎勵建模方法主要由獎勵生成正規化和評分模式決定,這從本質上影響著獎勵建模在推理階段的可擴充套件性以及輸入的靈活性,而獎勵建模的效能可透過增加訓練計算量和推理計算量來加以提升。現有的獎勵生成正規化包括標量式、半標量式和生成式方法,評分模式有逐逐點和成對式。
然而,成對式獎勵建模僅考慮成對回覆的相對偏好,缺乏接受單個或多個回覆作為輸入的靈活性;標量式獎勵建模很難為同一個回覆生成多樣化的獎勵訊號,阻礙了透過基於取樣的推理時擴充套件方法來獲得更好的獎勵。雖然當前已有不同的學習方法來提高獎勵質量,但其中很少有方法關注推理階段的可擴充套件性,也很少研究到學習到的獎勵生成行為與獎勵建模在推理時擴充套件的有效性之間的聯絡,導致效能提升依然有限。
DeepSeek 的主要技術突破
DeepSeek 團隊在此前的研究中發現,恰當的學習方法可以實現有效的推理階段可擴充套件性,這就提出了一個問題:能否設計一種學習方法,旨在為通用獎勵建模實現有效的推理時擴充套件呢?
為此,這次他們分析了不同的獎勵建模方法,並發現:逐點生成式獎勵建模(GRM)可以在純語言表示中統一對單個、成對和多個回覆的評分;某些原則可以在合適的標準下指導生成式獎勵建模的獎勵生成,從而提高獎勵質量。那麼,獎勵建模的推理階段可擴充套件性或許可以透過擴充套件高質量原則的生成和準確的批判來實現。
SPCT
基於這一初步發現,該團隊提出了一種新穎的學習方法——自原則批判微調(Self-Principled Critique Tuning,簡稱為 SPCT),以在生成式獎勵建模中培養有效的推理階段可擴充套件行為。透過利用基於規則的線上強化學習,自原則批判微調使生成式獎勵建模能夠學習根據輸入查詢和回覆自適應地提出原則和批判,從而在一般領域中獲得更好的結果獎勵。
簡單來說就是,SPCT 可以“教”大模型自主制定評分標準。
SPCT 的架構
據介紹,SPCT 包含兩個階段:作為冷啟動的拒絕式微調,以及基於規則的線上強化學習,透過推進生成原則和點評以增強生成式獎勵生成,同時支援推理時擴充套件。
其中,拒絕式微調的核心是讓 GRM 生成格式正確且適用於多種輸入型別的原則和批判。與以多種格式混合單 / 雙 / 多響應資料的先前方案不同,逐點 GRM 靈活生成任意數量響應的獎勵。資料構建時,除通用指令資料外,還使用預訓練 GRM 從含多響應的 RM 資料中取樣查詢及對應響應。
超越以往研究的一大關鍵是,DeepSeek 團隊觀察到,提示取樣軌跡可能會簡化生成的批判(尤其在推理任務中),凸顯了線上 RL 對 GRM 的必要性和潛在優勢。
而該團隊也透過基於規則的線上 RL 來進一步微調了 GRM,其採用 GRPO 的原始設定,使用基於規則的產出獎勵。在滾動過程中,GRM 基於查詢和響應生成原則和點評,然後提取預測獎勵並與真值透過準確率規則進行比較。與 DeepSeek R1 不同,他們這次不使用格式獎勵,而是應用更大的 KL 懲罰係數以確保格式並避免嚴重偏差。
基於 SPCT 的推理時擴充套件
為利用更多推理計算提升 DeepSeek-GRM 的生成式獎勵生成效能,該團隊探索了基於取樣的策略,以實現有效的推理時擴充套件。
首先是透過生成式獎勵進行投票。透過用 SPCT 進行後訓練,DeepSeek 基於 Gemma-2-27B 提出了 DeepSeek-GRM-27B,其透過多次取樣來擴大計算量的使用。透過並行取樣,DeepSeek-GRM 可以生成不同的原則集以及相應的批判,然後對最終獎勵進行投票。透過更大規模的取樣,DeepSeek-GRM 可以根據更多樣化的原則做出更準確的判斷,並輸出更精細的獎勵。
直觀解釋是:若每個原則可視為判斷視角的代理,更多原則可能更準確地反映真實分佈,提高擴充套件有效性。值得注意的是,為避免位置偏差並增加多樣性,會在取樣前打亂響應順序。
除此之外,DeepSeek 團隊還訓練了一個元獎勵模型(meta RM)來引導投票過程。DeepSeek-GRM 的投票過程需要多次取樣,部分生成的原則和點評可能因隨機性或模型限制存在偏差或低質量問題。元獎勵模型為逐點標量 RM,訓練目標為識別 DeepSeek-GRM 所生成原則和點評的正確性。
準確率超越 GPT-4o,領域偏差更小
從實驗結果看,SPCT 顯著提高了 GRM 的質量和可擴充套件性,在多個綜合獎勵建模基準測試中優於現有方法和模型,且不存在嚴重的領域偏差。
不同方法和模型在 RM 基準測試上的總體結果
該團隊將 DeepSeek-GRM-27B 的效能與公開模型的已報告結果以及各基準方法的復現結果進行了比較,並發現,DeepSeek-GRM-27B 在總體效能上優於基準方法,並且與強大的公開獎勵模型相比,如 Nemotron-4-340B-Reward 和 GPT-4o,取得了具有競爭力的效能;透過推理時擴充套件,DeepSeek-GRM-27B 能夠進一步提升並取得最佳的總體結果。
詳細比較中,標量 RM(DeepSeek-BTRM-27B、DeepSeek-PairRM-27B)和半標量 RM(CLoud-Gemma-2-27B)在不同基準上表現出顯著領域偏差,在可驗證任務(PPE 正確性)上優於 GRM,但在其他基準上不及。多數公共標量 RM 也存在嚴重領域偏差。LLM-as-a-Judge 與 DeepSeek-GRM-27B 趨勢相似但效能較低,可能是因為缺乏原則引導。總之,SPCT 提高了 GRM 的獎勵生成能力,與標量和半標量獎勵模型相比,偏差明顯更小。
不同方法在 RM 基準測試上的推理時擴充套件結果
在最多 8 次取樣下,DeepSeek-GRM-27B 相比貪心解碼和單次取樣效能提升最大,且隨計算量增加(最多 32 次取樣)展現出強擴充套件潛力。在每個基準測試中,元獎勵模型也顯示出其在為 DeepSeek-GRM 過濾低質量軌跡方面的有效性。LLM-as-a-Judge 透過 token 機率加權投票也顯著提升效能,表明定量權重可提高多數投票的可靠性。Cloud-Gemma-2-27B 效能提升有限,主要因標量獎勵生成缺乏方差。
總之,SPCT 提高了 GRM 的推理時可擴充套件性,並且元獎勵模型進一步提升了擴充套件效能。
擬議 SPCT 不同組成部分的消融研究,粗體數字表示最佳效能
令人驚訝的是,即使沒有使用拒絕取樣的評估資料進行冷啟動,經過線上 RL 後,通用指令微調的 GRM 仍然有顯著提升,從 66.1 到 68.7。此外,非提示取樣似乎比提示取樣更重要,可能源自提示取樣軌跡中的捷徑問題。這些結果表明線上訓練對 GRM 的重要性。與以往的研究發現一致,DeepSeek 團隊確認通用指令資料對 GRM 效能至關重要。原則生成對 DeepSeek-GRM-27B 的貪心解碼和推理時間擴充套件均至關重要。
該團隊還透過在不同規模的大語言模型上進行訓練後處理,進一步研究了 DeepSeek-GRM-27B 在推理時間和訓練時間方面的擴充套件效能。其發現,DeepSeek-GRM-27B 使用 32 個樣本進行直接投票可以達到與 671B 混合專家模型(MoE)相當的效能,而元獎勵模型引導的投票在 8 次取樣時可以取得最佳結果,這表明與擴大模型規模相比,DeepSeek-GRM-27B 的推理時擴充套件是有效的。
最後,他們使用包含 300 個樣本的下采樣測試集對 DeepSeek-R1 進行了測試,發現其效能甚至不及 236B MoE RFT 模型,這表明為推理任務擴充套件思維鏈長度並不能顯著提升 GRM 的效能。
儘管當前的方法在效率和特定任務方面面臨挑戰,但 DeepSeek 相信,透過 SPCT 之外的努力,具有更高可擴充套件性和效率的 GRM 可以作為通用獎勵系統的通用介面,推動大語言模型訓練後階段和推理的前沿發展。
參考連結:
https://arxiv.org/abs/2504.02495
宣告:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
 會議推薦
在 AI 大模型重塑軟體開發的時代,我們如何把握變革?如何突破技術邊界?4 月 10-12 日,QCon 全球軟體開發大會· 北京站 邀你共赴 3 天沉浸式學習之約,跳出「技術繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術專家、創新實踐者,共同探討多行業 AI 落地應用,分享一手實踐經驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。

相關文章