從PPO到GRPO,DeepSeek-R1做對了什麼?

機器之心PRO · 會員通訊 Week 07
— 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —
1. 從 PPO 到 GRPO,DeepSeek-R1 做對了什麼?
Kimi 1.5 的 Mirror Descent 是否與R1的GRPO殊途同歸?Ruled-based Reward 比 PRM更好用?CoT 過程出錯根本不影響推理效果提升?…
2. 什麼樣的硬體產品才配得上 「AI Native」? 
AI 硬體產品的邊界在哪?為什麼說 AI 硬體賽道仍處在非常早期的階段?為什麼 AI Native 硬體產品還未出現?AI 大模型的「肉身」並不重要,互動能力才是核心瓶頸?…
3. ARK 2025 年度展望:AI 技術將革新全球經濟格局
ARK 的新報告關注了哪些 AI 趨勢?Agent 將滲透哪些行業?自動駕駛今年要大火?RoboTaxi 和智慧物流的市場哪個更大?AI+機器人會影響哪些產業?…
…本期完整版通訊含 3 項專題解讀 + 27 項本週 AI & Robotics 賽道要事速遞,其中技術方面 12 項,國內方面 9 項,國外方面 5 項。
本期通訊總計 22596 字,可免費試讀至 6% 
 消耗 99 微信豆即可兌換完整本期解讀(約合人民幣 9.9 元) 

要事解讀① 從 PPO 到 GRPO,DeepSeek-R1 做對了什麼?

引言:DeepSeek-R1 追平 o1 的推理能力和在推理中展現 Aha Moment 引發了大量對 DeepSeek-R1 技術方案的解讀。其中,用 GRPO 替代 PPO 的強化學習方案為模型帶來的 Aha Moment 尤其受到關注。
不要 Critic,Deepseek 為何用 GRPO 取代 PPO?
1、在 DeepSeek-R1 的技術報告所展示的強化學習方案是該工作最受關注的亮點,其也在後續的解讀中被反覆剖析。
① 清華大學劉知遠教授近期在一場研討會中評價 DeepSeek-R1 ,稱其突破性貢獻之一在於,該模型(R1-Zero)是全球首個透過純強化學習技術,成功復現了 o1 的能力,並且開源了相關的技術細節,釋出了相對詳細的技術報告的工作。[1-1]
2、DeepSeek-R1 的強化學習方案中,其亮點之一在於透過 GRPO 演算法取代了 RLHF 常用的 PPO,透過儘可能減少人類標註資料,設計純 RL 的環境,用精心設計的獎勵機制來訓練模型自己學會推理。
3、在大模型訓練中,強化學習常用於提升模型效能和對齊人類偏好,並且在後訓練環節的應用愈發受到關注,流行的 RLHF 結合了機器學習和人類反饋訓練獎勵模型,然後用來微調模型,PPO 則是主流的 RLHF 方法之一。
4、DeepSeek-R1 採用的 GRPO 可以理解為 PPO 的一種替代,其核心在於去除了 PPO 中的 Critic(Value)模型,以此來減少訓練的計算資源。[1-2]
① PPO 採用 Actor-Critic 架構,涵蓋 Actor(policy)、Critic(Value)、Reward 和 Reference 四種模型。傳統的 PPO 使用 Critic 模型來評估模型恢復的總收益,類似比賽中教練指導學員(Actor)的同時也在嘗試學習裁判(Reward)的偏好。
② PPO 的缺陷在於 actor 與 critic 的互動會帶來過高的成本,GRPO 的亮點在於去除 Critic 模型,用精心設計的 Rule-based Reward 取代難以除錯的 Reward 模型進行判別,最終僅需要 Actor 和 Reference 兩個模型,成本更低。
5、與 DeepSeek-R1 同一天釋出技術報告的 Kimi 1.5 同樣具備媲美 o1 的推理能力。有分析發現兩者的技術方案雖有差異,但也有驚人的相似。[1-3]
① 兩者均設計的簡潔的 RL 框架,都沒有采用類似 MCTS 那樣複雜的樹搜尋,都沒有采用昂貴的 PRM,沒有密集的獎勵建模,且都精心設計了參考事實的獎勵機制來進行判別。
② 相比 DeepSeek-R1 採用 GRPO,Kimi 1.5 則採用了 online Mirror Decent 來進行 Policy Optimization。
R1 和 Kimi 1.5 都在用的 Rule-based Reward 有何神奇之處?


相關文章