MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 知乎

作者 | 舉個栗子

Qwen2.5的RL訓練過程主要分為兩階段，第一階段為離線階段做DPO，第二階段為線上階段使用偏好RM做GRPO，兩階段RL主要是針對通用場景來做的。

不同於Qwen2.5，過去一段時間基於RL推理的大火為後訓練帶來了新的方向，Qwen3也著重在後訓練階段提升模型的推理能力，並且一個關鍵創新為將思考模式和非思考模型整合到一個統一的框架中，這使得模型既擁有擁有複雜多步驟推理的能力（例如QwQ-32B），也能夠基於上下文進行快速響應（例如GPT-4o）。

Qwen3是如何實現以上功能的呢？一圖以蔽之

Qwen3-235B-A22B和Qwen3-32B使用四階段的訓練過程，前兩個階段側重於提升模型的“思考”能力。接下來的兩個階段旨在將 “非思考” 功能整合到模型中。而Qwen3-30B及以下尺寸的模型採用蒸餾的方式，提升模型的Pass@1分數。接下來詳細解讀一下其四階段的訓練過程。

階段一：冷啟動訓練

冷啟動資料集主要覆蓋數學、程式碼、邏輯推理、和STEM問題，這部分資料需要經過嚴格的篩選，否則冷啟動訓練後模型的通用能力可能會劣化，因此報告中說明他們對query和response分別都進行了篩選。

1.Query篩選：目的是篩選出過於簡單和難於驗證的問題。前者使用Qwen2.5-72B-Instruct進行推理，如果不使用CoT即可回答正確，那麼對這種query進行篩除；後者同樣使用Qwen2.5-72B-Instruct，識別包含多個子問題和要求生成一般文字內容的問題，對這種query也進行篩除。

2.Response篩選：使用QwQ-32B為每個query生成N個候選回覆。對於QwQ-32B無法回答正確的問題，會人工再評估一遍回覆的準確性；對於多個回答均正確的問題，會使用以下6個準則進一步篩選：

• （1）最終答案錯誤
• （2）包含大量重複
• （3）在沒有充分推理的情況下明確猜測答案
• （4）think和summary內容不一致
• （5）包含多語種或風格跳變
• （6）和驗證集過於相似，有以上問題的回答也會被篩除。

Response篩除的目的是在模型中注入基礎推理模式，但並不強調推理效能，這樣保證模型的推理潛力不受限制且不過擬合，為第二階段RL打下基礎。

報告中未提及冷啟動階段的資料量。

階段二：RL推理能力訓練

RL訓練Query遵循以下4個原則進行篩選：

• （1）未在冷啟動階段使用
• （2）對於冷啟動模型來說是可學習的
• （3）需要有一定的難度
• （4）包含多個領域。

滿足以上四點後選擇了3995個query-verifier對（和冷啟動的資料覆蓋範圍應該是一樣的，但是這個資料量真的好少啊），在GRPO訓練過程中，透過控制模型的熵，對exploration和exploitation進行了平衡，從而實現平穩的訓練。

階段三：思考模式融合

這一階段是透過SFT的方式對階段二得到的模型進行微調，融合“思考”和“非思考”模式的推理。為了保證階段二效能不受影響，這裡“思考”訓練資料採用階段二模型在階段一query資料上做拒絕取樣得到；“非思考”資料涵蓋各種任務，包括編碼、數學、指令遵循、多語言任務、創意寫作、問答和角色扮演。

兩種模式使用/think和/no_think標誌進行區分，注意“非思考模式”也有開始<think>和結束</think>的標誌符，只是其思考過程置為空。並且在訓練過程中，會針對多輪對話進行“思考”和“非思考”模式的混合訓練。

階段四：通用RL

這一階段旨在提升模型在不同場景下的通用能力和穩定性，涵蓋了 20 多個不同的任務，針對不同任務有針對性的評分標準及獎勵模型。目的在於提升以下多種任務下的能力：

• （1）指令跟隨任務
• （2）融合思考模式的格式跟隨任務
• （3）開放任務下與人類偏好對齊
• （4）多輪對話下的長期決策任務
• （5）定製化任務如搜尋等

具體地，他們採用三種不同的獎勵：

• Rule-based reward：主要用在推理任務、指令跟隨、格式跟隨任務上
• Model-based Reward with Reference Answer：提供每個query的參考答案並提示 Qwen2.5-72B-Instruct 根據參考答案對response進行評分。這種方法無需嚴格的格式設定，進一步避免因為rule-based reward漏檢造成的hacking問題
• Model-based Reward without Reference Answer：即基於人類偏好訓練的BT model，用在通用任務上，提高模型的參與度和有用性

Strong-to-Weak Distillation

主要是針對小尺寸模型的蒸餾訓練，也分成兩階段：

1.Off-policy Distillation：使用 /think 和 /no_think 模式生成的教師模型(Qwen3-32B or Qwen3-235B-A22B)的輸出結合起來進行蒸餾。這有助於提升小模型基本的推理能力和在不同思維模式之間切換的能力

2.On-policy Distillation：學生模型對query進行取樣，在 /think 或 /no think 模式下生成回覆。然後，透過將回復的logits 與教師模型的 logits對齊來微調學生模型，以最小化 KL 散度。

後訓練效果評估

具體的測試分數就不一一展示了，參考原文，主要包括通用任務、對齊任務、數學、文字推理、Agent、程式碼、多語種測試任務。報告中展示了幾個結論：

• 旗艦MoE模型Qwen3-235B-A22B 在開源模型中，無論是思考模式還是非思考模式，都展示了最先進的整體效能，超越了 DeepSeek-R1 和 DeepSeek-V3 等開源模型。Qwen3-235B-A22B 還與 OpenAI-o1、Gemini2.5-Pro 和 GPT-4o 等閉源模型展示出了很強的競爭力。
• 旗艦Dense模型 Qwen3-32B 在大多數基準測試中都優於之前的最強推理模型 QwQ-32B，並且與閉源 OpenAI-o3mini 的效能相當，。Qwen3-32B 在非思考模式下的效能也非常出色，超越了Qwen2.5-72B-Instruct。
• 輕量級模型，包括 Qwen3-30B-A3B、Qwen3-14B 和其他較小的Dense模型，始終優於引數數量接近或較大的開源模型，證明了 Strong-to-Weak Distillation 方法的成功。

報告裡還討論了幾個有趣的發現，首先是之前在推理長度上的scaling law，從下圖中可以看到，Qwen3-235B-A22B 隨著輸出長度的增加（1K->32K）在AIME、LiveCodeBench、GPQA Diamond測試集上效能都有所提升。

其次，小模型直接從教師模型進行蒸餾比直接做強化學習的效能要好，同時所需的時間也更少。

另外，他們還做了階段三和階段四的消融實驗，這裡還引入了一些驗證幻覺的任務、控制長度的寫作任務、混合思考模式下的多輪對話任務、工具呼叫任務，結果如下圖。可以看出，階段三提升了模型在“思考”模式下的指令跟隨、格式跟隨能力；第四階段則進一步提升了這種能力；然而對於知識、STEM、數學和編碼任務，階段三、四的訓練並沒有帶來顯著的改進。

相比之下，對於像 AIME'24 和 LiveCodeBench 這樣難度較高的任務，“思考”模式下的效能實際上會下降。推測這種退化是由於模型在更廣泛的通用任務上進行了訓練，這可能會損害模型處理複雜問題的專業能力，他們認為這種退化在效能的權衡下是可接受的範圍。