DeepSeek-R1釋出後的100天覆現之旅方法總結

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
100天前,DeepSeek團隊釋出了「推理大模型」DeepSeek-R1。這個模型不僅能回答問題,還能像人類一樣一步步「寫草稿」「驗算」「糾錯」,比如解數學題時先列公式再計算,寫程式碼時邊寫邊檢查。這種「顯式推理」能力讓它迅速成為AI圈的焦點。

論文:100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models連結:https://arxiv.org/pdf/2505.00551
但DeepSeek-R1的技術細節並未完全開源,於是全球研究團隊開啟了「復現競賽」——用公開資料和演算法,嘗試復刻它的能力。這篇論文就像一份「復現攻略」,總結了100天來的經驗,還畫出了未來的技術地圖。
推理大模型的本質是「讓AI學會思考」,而不僅是「背誦答案」。

概念:推理大模型 VS 普通大模型

普通大模型(比如ChatGPT)像「速記員」:你問它問題,它直接輸出答案,但中間過程是「黑箱」。而推理大模型更像「學霸」:解題時會展示完整的思考步驟,比如:
  • 自我驗證:算完結果後反向檢查
  • 多步推導:拆解複雜問題為小步驟
  • 反思糾錯:發現錯誤後重新嘗試
這種能力對數學、程式設計、邏輯題尤其重要。比如解方程時,模型可能會先寫「設未知數為x」,再列出方程,最後驗算答案是否正確。

復現研究的兩大方法

一:監督微調(SFT)

監督微調的核心是讓模型學習高質量「解題範例」。比如:
  • 資料從哪來:從數學競賽題、程式碼題中篩選,再用DeepSeek-R1生成「標準答案」
  • 關鍵操作:去重、過濾錯誤、難度分級(參考下表的資料集統計)

  • 效果對比:某些團隊用僅1千條精選資料,就能達到不錯效果

冷知識:資料質量比數量更重要!某些團隊發現,加入「非推理類資料」(比如寫作、角色扮演)能提升模型通用性。

二:強化學習(RLVR)

如果說SFT是「背答案」,RLVR就是「模擬考試」:模型生成多個答案,根據得分(獎勵)調整策略。關鍵設計包括:
  • 獎勵規則:答案正確性、格式規範性(比如程式碼是否可執行)
  • 演算法最佳化:PPO、GRPO等演算法改進(公式見下文)
  • 動態取樣:自動篩選「錯題」重點訓練
公式亮點:GRPO演算法的核心是「組內獎勵標準化」,避免模型被極端分數帶偏:
(即把同一問題的多個答案獎勵,減去平均值再除以標準差,讓模型關注相對優劣)

不同資料集的文字長度分佈,長尾部分代表複雜問題。

關鍵發現:小模型也能逆襲?

  • 資料質量:過濾「太簡單」和「超綱題」,保留中等難度最有效
  • 模型大小:7B小模型+RL訓練可接近32B模型效能

  • 訓練技巧:逐步增加生成長度(比如從8k到32k token),讓模型適應複雜推理
反直覺結論:加入KL散度約束(防止模型偏離初始狀態)反而可能限制性能!

未來方向

  • 安全風險:過度推理可能導致「廢話文學」或繞過安全限制(比如生成惡意程式碼)
  • 多模態推理:讓模型結合影像、語音等多模態資訊(比如解幾何題時「看圖紙」)
  • 低成本訓練:用偏好最佳化(DPO)替代複雜強化學習,降低算力需求
最後論文甚至提到用RL訓練模型「寫詩」和「設計排序演算法」,AI的創造力邊界正在拓寬!

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章