MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 機器之心

本文是復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員科研團隊的最新研究成果，他們用簡潔的程式碼高效復現了 R1-zero 的自發反思能力。

在關於 DeepSeek 的文章中，我們會多次聽到「Aha Moment」這個詞。它指的是模型在訓練過程中經歷的一種頓悟時刻，表現為模型突然展現出類似人類的自我反思和策略調整能力。

DeepSeek 論文中提到的 Aha Moment。

DeepSeek-R1-zero 經過強化學習實現了大模型頓悟時刻的自發湧現，引發了大量對其方案的解讀與復現工作。

其中，基於 GRPO（ Group Relative Policy Optimization）強化學習方案尤其受到關注。業界先後開源了多個基於 GRPO 演算法的 R1-zero 復現專案。然而，這些復現專案嚴重依賴一些複雜程式碼框架，有著較高的程式碼實現複雜度，對部署環境存在較高依賴，資源利用率不高，程式碼可讀性與可維護性仍存在改進空間。

對此，復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員科研團隊基於 GRPO 演算法思想高效復現了 R1-zero 自發反思能力。目前，該專案（Simple-GRPO）的第一版程式碼實現已經開源並提交 Github。

程式碼地址：https://github.com/lsdefine/simple_GRPO。

該專案相對於現有開源的 R1-zero 復現具有以下優勢：

程式碼簡潔，依賴簡單，只需要 200 多行；

資源消耗低，透過模型解耦與分離進一步降低算力需求，該專案支援在一張 A800 (80G) 加一張 3090 (24G) 完成 7B 模型的訓練。根據 AutoDL 平臺計費標準，一張 A800 (80G) 5.98 元 / 時，一張 3090 (24G) 1.32 元 / 時。以專案作者經驗，模型在這樣的算力平臺下，訓練 1h 模型就能出現 aha moment，摺合人民幣 7.3 元，單次實驗成本壓縮至奶茶價格區間。

專案介紹

本專案程式碼簡單，GRPO 演算法實現僅有 200 多行程式碼，且僅依賴基礎的深度學習程式碼庫，如 deepspeed 和 torch，而無需 ray 等複雜框架。具體實現細節如下：

① 參考模型分離：

在實現過程中，參考模型（reference model）被解耦，允許其在不同的 GPU 上執行（甚至可以執行在 3090 顯示卡上）。這避免了將參考模型和訓練模型放在同一個 GPU 上，防止 torch 的多程序機制建立多個副本，避免視訊記憶體浪費，並使得在 A800（80G）上訓練 7B 模型成為可能。

② 核心損失計算：

損失計算公式基於 Hugging Face 的 trl 實現。

③ 訓練環境與過程

專案在 1 張 A800（80G）顯示卡上用 Zero-Stage 2 做最佳化，使用另一張 A800（80G）顯示卡進行參考模型的推理，參考模型分離使得 GRPO 的訓練更加高效。

在以上訓練環境中，Qwen2.5-3B 訓練 60 步需要 12 分 34 秒，Qwen2.5-7B 訓練 60 步需要 16 分 40 秒。其中在前 30 步最佳化中，Qwen2.5-7B 和 Qwen2.5-3B 的輸出內容中，均出現了「頓悟時刻」現象。示例如下：

Qwen2.5-3B（步驟 20）

其中文翻譯如下：

「<think> … 要找出卡姆登畫的雞蛋比阿諾德多多少，我們從卡姆登畫的雞蛋數量中減去阿諾德畫的雞蛋數量。所以，21-28 = -7。然而，這個結果在問題的背景下沒有意義，因為卡姆登畫的雞蛋不可能比阿諾德少。讓我們重新考慮最初的解決方案步驟：我們應該驗證關於卡姆登和莎拉的雞蛋之間關係的初始假設是否正確。… </think> <answer>-7</answer>」