大模型推理上限再突破：「自適應難易度蒸餾」超越R1蒸餾，長CoT語料質量飛昇

本文作者均來自中興通訊無線研究院「大模型深潛」團隊。團隊重點攻關方向包括「推理模型構建：蒸餾與強化學習方法」、「無線通訊故障定位與根因分析推理模型」、「多模態推理模型」和「推理加速技術」。核心成員畢業於中國科學技術大學、中國科學院軟體研究所等知名高校與科研院所。

近年來，「思維鏈（Chain of Thought，CoT）」成為大模型推理的顯學，但要讓小模型也擁有長鏈推理能力卻非易事。

中興通訊無線研究院「大模型深潛團隊」從「資料靜態經驗流」的角度切入，首創「LLM 自適應題目難度蒸餾」方法，一舉將高質量 CoT 語料的生產效率與效果同步拉滿。

論文標題：Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
論文連結：https://arxiv.org/pdf/2504.11919

開源連結如下：

程式碼資料：https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveCode_data
數學資料：https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveMath_data
程式碼模型：https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZCode-model-32B
數學模型：https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZMath-model-32B

研究動機：小模型也想有「長鏈思考」

大模型優勢鮮明，部署困難

隨著 DeepSeek-R1（671B 引數）模型的釋出，長思維鏈（CoT）推理技術在基礎大模型和工業應用中快速普及。DeepSeek-R1 雖然推理能力強大，但 600+B 引數量的模型難以在邊緣裝置、即時系統中使用。

小模型亟待「加持」

這促使業界對引數量低於 70 億的小型模型開展持續研究，尤其聚焦在複雜數學解題和程式碼生成等長鏈推理場景。值得注意的是，藉助 DeepSeek-R1 的推理過程，可構建高質量的思維鏈（CoT）資料，從而顯著增強小模型的推理能力。但目前幾十億到百億引數級別的小模型，在多步驟推理任務（如複雜數學問題和程式設計題）上仍存在明顯瓶頸，難以充分滿足此類應用需求。

現有 CoT 資料的困局

基於 DeepSeek-R1 生成 CoT 資料的研究大體分為兩條技術路線：

1. 海量資料驅動（Labs 2025；Team 2025c）：透過堆疊超大規模 CoT 語料來提升推理能力，但計算與標註成本高、效率低。

2. 精品資料驅動（Ye et al. 2025；Muennighoff et al. 2025）：依靠少量高質量樣本啟用模型潛能，然而受規模限制，效能增益難以持續。

儘管已有工作（Wen et al. 2025a）引入課程學習和拒絕取樣以最佳化訓練流程，上述方法普遍忽視了「模型能力 — 資料難度」之間的動態匹配。

這直接引出了兩個核心問題：

1、高質量 CoT 語料應如何定義？

2、如何從既有資料中提煉可遷移的「靜態經驗流」？

全新方法：模型自適應難度分級蒸餾

近期，強化學習之父 Richard Sutton 提出「經驗」是下一代超級資料來源的思想，將大模型強化學習的本質定義為是一種資料的動態經驗流挖掘。基於此，我們團隊從資料靜態經驗流建設的角度出發，提出基於模型自適應問題難易度蒸餾 CoT 語料的方法，顯著提升了長 CoT 語料的質量。

該方法圍繞「模型 – 資料動態匹配」提出了一條完整的 CoT 構建流程，具有四大創新點：

1. 基於模型的固有推理能力，建立題目難度分級體系，形成可複用的「靜態經驗」。

2. 依照難度標籤，構建覆蓋全梯度的自適應題庫。

3. 設計符合課程學習思想的難度分佈取樣策略，確保訓練資料與模型能力即時對齊。

4. 藉助 DeepSeek-R1，在數學推理與程式碼生成兩大場景批次生成高質量 CoT 語料。

在相同計算預算下，該自適應方案可持續提升不同規模模型的推理效能 —— 以 AIME24 數學競賽資料集為例，各引數檔模型的準確率相比傳統「非適配」策略提高 6.66 %–26.7 %（見圖 1）。

圖 1：基於 LLM 自適應題目難度分級的 CoT 資料構建效果對比

對於不同引數規模的 LLM，採用問題自適應難度分級方法構造的 COT 資料訓練的推理模型（左）在數學競賽資料集 AIME24 上的推理效能始終優於非自適應方法（右）。說明了前者構建的 CoT 資料質量更高，並且找到了適配於模型的靜態資料經驗流。

這一方法有效地挖掘了 CoT 資料中的靜態經驗流，並且該靜態經驗流與模型本身是密切相關的。

方法框架，一圖看懂

圖 2：基於 LLM 自適應題目難度分級的 CoT 資料生成框架

框架包含三個核心元件：分佈構建、LLM 自適應題目難度分級與分佈取樣，以及 LLM 自適應思維鏈（CoT）生成。

1. 分佈構建（Distribution Construction）

構建兩種難度分佈策略，作為後續取樣的依據：

Option1：基於模型實際表現的分佈（Pₑᵥₐₗ）

透過基礎 LLM（Sₗₗₘ）在評估資料集（DBₑᵥₐₗ）上的表現動態生成難度分佈：

正確回答的題目：標記為「簡單」（Easy）。
錯誤回答的題目：透過 PRM-Grader（過程獎勵模型）進一步分級，根據模型生成答案的推理軌跡質量（0-1 分）對映到 5 個難度等級（分數越低，難度越高）。

Option2：基於課程學習的先驗分佈（P₆）

人工定義五級難度，遵循「易題多、難題少」的分佈原則，權重隨難度遞增遞減：

例如，難度級別 1 的樣本數最多，級別 5 最少。

2. LLM 自適應題目難度分級與分佈取樣

步驟 1：構建自適應題庫（DBₐdₐₚₜᵢᵥₑ）

從開源資料集收集原始題目（DBᵣₐw），利用 Sₗₗₘ生成回答並記錄推理軌跡。

驗證答案正確性：

數學推理任務：直接對比模型答案與標準答案。
程式碼生成任務：透過測試用例執行驗證程式碼正確性。

難度分級：

正確題目標記為「簡單」，加入題庫。

錯誤題目透過 PRM-Grader 細分為 5 級難度（1-5 級，1 級最難），加入題庫。

步驟 2：分佈取樣（DBₛₐₘₚₗₑ）

根據構建的分佈（Pₑᵥₐₗ或 P₆），從自適應題庫中按難度比例取樣題目

3. LLM 自適應 CoT 生成

生成階段：將取樣題目（DBₛₐₘₚₗₑ）輸入教師模型（Tₗₗₘ，即 DeepSeek-R1）生成詳細推理鏈（CoT）。
驗證階段：透過 Result-Verifier 嚴格篩選正確 CoT 資料（與步驟 2 的驗證方法一致），最終形成高質量資料集 COTₐdₐₚₜᵢᵥₑ。
模型訓練：利用 COTₐdₐₚₜᵢᵥₑ對基礎模型（Sₗₗₘ）進行監督微調（SFT），得到最佳化後的推理模型（Rₗₗₘ）。

方法的關鍵創新點：

模型自適應難度適配：基於模型實際能力調整題目難度分佈，避免「一刀切」的主觀分級，構建真正與模型密切繫結的靜態資料經驗流；
輕量化流程：無需複雜課程學習或拒絕取樣，僅透過分級與取樣即可提升資料質量；
多工相容性：支援數學推理與程式碼生成任務，驗證方法靈活（答案對比 / 測試用例）。

實驗效果：驚喜不斷

為了研究我們提出的 CoT 資料的質量效果，我們在不同尺寸和性質的模型上均進行了詳細的驗證，涵蓋的任務包括數學推理任務和程式碼生成任務。

以下是重要實驗結果的詳細介紹：

數學推理（MATH500、AIME24/25、GPQA）

在 MATH500、AIME24/25、GPQA 等數學基準測試中，採用 2k 自適應 CoT 資料訓練的 ZMath 系列模型顯著優於基線模型。
ZMath-32B 在 MATH500 上達到 94.6% 準確率，超過 DeepSeek-Distill-32B（89.8%）和 Sky-32B-Preview（90%）；在 AIME24 上提升至 73.33%（基線為 66.67%）。
ZMath-14B 在 AIME24 上準確率為 50%，遠超 phi4-14B（30%），並在 GPQA 上達到 63.13%（phi4-14B 為 54.55%）。

圖 3：數學推理實驗結果

程式碼生成（LiveCodeBench）

ZCode-32B 在 Easy、Medium、Hard 三個難度級別上分別達到 96.06%、75.53%、31.85%，全面優於 DeepSeek-Distill-32B（92.11%、74.92%、30%）。
ZCode-14B 在 Easy 難度上以 89.96% 顯著領先 phi4-14B（72.4%），表明小引數模型透過自適應資料訓練也能取得競爭力表現。

圖 4：程式碼生成實驗結果

消融實驗＆分佈遷移

當把 32B 模型的難度分佈直接套用到 7 B 模型時，後者在 MATH500 資料集上的準確率僅為 92%，低於採用自身難度分佈訓練得到的 93.2%。結果說明：難度分佈必須與目標模型能力動態匹配，自適應分佈才是效能提升的關鍵；同時也表明，靜態經驗流中真正有價值的經驗應當與具體模型緊密對應，而非「一刀切」地跨模型遷移。