從DeepSeek->Kimi->豆包->Qwen3,看Reasoningmodel之路

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 知乎
作者|假如給我一隻AI

前言

自DeepSeek-R1釋出以來,Reasoning model(推理模型)可謂是大火。同時,LLM領域近期也發生了三件事:
  • • 位元組團隊釋出Seed-Thinking-v1.5技術報告;
  • • 清華&上交團隊在paper中提出:RL並不能真正提升LLM的推理能力;
  • • 具備Reasoning能力的Qwen3問世,號稱思考更深、行動更快。
既然推理模型如此重要,筆者本次就針對幾款主流的模型做一個總結,主要回答兩個問題:
  • • RL能否提升LLM的推理能力?
  • • 如何讓LLM具備Reasoning能力?

一、RL能否提升LLM的推理能力?

1.1 DeepSeek-Math的回答

論文指出:評估了Instruct和RL模型在兩個基準測試上的Pass@K和Maj@K準確率。如圖7所示,RL提升了Maj@K的效能,但沒有提升Pass@K。這一發現表明,RL透過使模型的輸出分佈更加穩健來提升整體效能,換句話說,改進似乎是透過將正確答案從TopK中提升而實現的,而不是透過提升模型的基礎推理能力。類似地,在推理任務中發現了SFT模型中的誤對齊問題,並表明透過一系列偏好對齊策略可以提升SFT模型的推理效能。
在DeepSeek-Math的實驗結果如下圖1-1(包括Maj@K和Pass@K的定義):

圖1-1:DeepSeek-Math的5.5.2小節內容

1.2 清華paper的回答

這裡的paper是指近期清華&上交團隊合作發表的論文《Does Reinforcement Learning Really Incentivize ReasoningCapacity in LLMs Beyond the Base Model?》。
論文指出:RL訓練模型生成的推理路徑已包含在基礎模型的取樣分佈中,這表明RL訓練模型中表現出的大多數推理能力已由基礎模型獲得。RL訓練透過偏向更可能產生獎勵的路徑來提高效能,從而更高效地取樣正確的響應。但這也限制了其探索能力,導致推理能力邊界比基礎模型更窄。
對比可知,該paper的回答和DeepSeek的回答是相似的,即RL訓練模型中表現出的大多數推理能力已由基礎模型獲得。但該paper給出了更多的實驗(細節可參考原文),主要包括:
  • • 驗證基礎模型中存在推理模式
  • • 驗證蒸餾(如DeepSeek-R1-Distill-Qwen-7B模型)可以擴充套件推理邊界
  • • 對比不同RL演算法(如PPO、GRPO、DAPO等)的效果

二、如何讓LLM具備Reasoning能力?

2.1 Seed-Thinking-v1.5

Seed-Thinking-v1.5是一種MoE(混合專家)模型,規模相對較小:總引數200B&啟用引數20B。該團隊為了開發一個高質量的推理模型,在三個關鍵點投入了大量精力:訓練資料、RL演算法、RL infrastructure(本文不展開)。

1)RL階段的訓練資料準備

圖2-1:Seed-Thinking-v1.5的RL資料準備

2)Reward模型

圖2-2:Seed-Thinking-v1.5的獎勵模型

3)SFT階段的資料和訓練

圖2-3:Seed-Thinking-v1.5的SFT階段

4)RL階段的訓練

圖2-4:Seed-Thinking-v1.5的RL演算法

2.2 DeepSeek-R1

DeepSeek-R1的訓練流程,如下:

圖2-5:DeepSeek-R1全流程
整體分為兩大步:
1)獲取DeepSeek-R1-Zero:透過"純"強化學習(無任何監督資料,Prompt模板見下圖1-1)去生成一個新模型,即R1-Zero,然後用它生產幾千+帶CoT的冷啟動資料,作為後續R1模型的燃料之一。

圖2-6:DeepSeek-R1-Zero的Prompt模板
2)獲取DeepSeek-R1:主要包括四個核心訓練階段(階段1、2、3、4)和2個數據準備階段(階段0、2.5):
  • • 階段0:即獲取DeepSeek-R1-Zero。
  • • 階段1:基於R1-Zero的幾千+資料,在V3-Base上執行第一次SFT,獲得基本的格式遵循和反思驗證的能力。
  • • 階段2:執行第一次強化學習,加強模型在數學、程式碼、邏輯推理等領域的推理能力。
  • • 階段2.5:基於階段2的模型,獲取領域更廣泛的600K資料;基於V3-Base,獲取包括CoT的非推理資料200K。
  • • 階段3:基於獲取的800K資料,在V3-Base上執行第二次SFT,增強模型的通用性。
  • • 階段4:執行第二次強化學習,進一步對齊人類偏好,提升模型的可用性和無害性,並精煉推理能力。
因此,模型在四個階段都在努力注入Reasoning能力。

2.3 Kimi-K1.5

這是一個多模態模型,觀感上,其資料整理、獎勵模型、SFT訓練、RL訓練和Seed-Thinking-v1.5相似,但仍然有特殊之處,需要額外瞭解的如下:

1)RL的資料往哪個方向收集?

作者明確指出,高質量的 RL 提示集具有以下三個關鍵特性:
  • • 多樣覆蓋(Diverse Coverage):prompt涵蓋全面,如STEM、編碼和一般推理,以增強模型在不同領域的廣泛適用性。
  • • 平衡難度(Balanced Difficulty):prompt集合應包括易、中、難問題的均衡分佈,以促進逐步學習,防止過擬合到特定複雜度水平。
  • • 準確可評估性(Accurate Evaluability):允許verifier進行客觀和可靠的評估,確保模型效能基於正確推理而非表面模式或隨機猜測。

2)取樣策略

圖2-7:Kimi-K1.5的取樣策略

3)RL演算法(online policy mirror decent)

圖2-8:Kimi-K1.5的RL演算法
關於為什麼要刪除value模型,作者考慮了2個原因:
  • • 1)設想模型生成了一個部分鏈式思維(z1,z2,…,zt),有兩個潛在的下一個推理步驟:zt+1和zt+1′。假設zt+1直接導致正確答案,而zt+1′包含一些錯誤。如果有一個value函式,它會指示zt+1比zt+1′具有更高的價值。根據標準的信用分配原則,選擇zt+1′將被懲罰,因為它相對於當前策略具有負優勢。然而,探索zt+1′對於訓練模型生成長鏈式思維非常有價值。
  • • 2)降低RL的複雜度。

2.4 Qwen3

1)預訓練階段

圖2-9:Qwen3預訓練階段

2)後訓練階段

為了開發既能進行逐步Reasoning又能快速響應的混合模型,實現了一個四階段訓練流程(見圖2-10):
  • • 第1階段——Long CoT冷啟動:使用各種Long CoT 資料對模型進行微調,涵蓋數學、程式設計、邏輯推理和 STEM 問題等各種任務和領域。此過程旨在使模型具備基本的推理能力。
  • • 第2階段——基於推理的RL:這一階段專注擴充套件強化學習的計算資源,利用基於規則的獎勵來增強模型的探索和利用能力。
  • • 第3階段——Thinking模式融合:透過結合Long CoT資料和常用的指令fine-tuning資料對Thinking模型進行微調,將非思考能力融入到Thinking模型中。這些資料由第2階段的增強型Thinking模型生成,確保推理能力與快速響應能力的無縫融合。
  • • 第4階段——通用RL:將強化學習應用於20多個通用領域任務,以進一步增強模型的通用能力並糾正不良行為。這些任務包括指令遵循、格式遵循和Agent能力等。

圖2-10:Qwen3後訓練階段

2.5 總結

一個優秀的Reasoning model誕生,需要關注以下幾點:
  • • Base模型夠強(如DeepSeek-V3)
  • • 資料需要覆蓋完整&高質量(如Seed-Thinking-v1.5和Kimi-K1.5)
  • • 預訓練中,可以在最後一個階段就加入推理資料
  • • 獎勵模型非常重要,如果能夠針對性對CoT打分則更佳
  • • 後訓練中,在SFT和RL過程均加入推理資料

三、參考文獻

清華&上交paper:https://arxiv.org/pdf/2504.13837Kimi-K1.5:https://arxiv.org/pdf/2501.12599DeepSeek-Math:https://arxiv.org/pdf/2402.03300Seed-Thinking-v1.5:https://arxiv.org/pdf/2504.13914v1qwen3:Qwen3: Think Deeper, Act Faster、https://huggingface.co/docs/transformers/model_doc/qwen3

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章