
本文作者均來自中興通訊無線研究院「大模型深潛」團隊。團隊重點攻關方向包括「推理模型構建:蒸餾與強化學習方法」、「無線通訊故障定位與根因分析推理模型」、「多模態推理模型」和「推理加速技術」。核心成員畢業於中國科學技術大學、中國科學院軟體研究所等知名高校與科研院所。
近年來,「思維鏈(Chain of Thought,CoT)」成為大模型推理的顯學,但要讓小模型也擁有長鏈推理能力卻非易事。
中興通訊無線研究院「大模型深潛團隊」從 「資料靜態經驗流」 的角度切入,首創 「LLM 自適應題目難度蒸餾」 方法,一舉將高質量 CoT 語料的生產效率與效果同步拉滿。

-
論文標題:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
-
論文連結:https://arxiv.org/pdf/2504.11919
開源連結如下:
-
程式碼資料:https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveCode_data
-
數學資料:https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveMath_data
-
程式碼模型:https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZCode-model-32B
-
數學模型:https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZMath-model-32B
研究動機:小模型也想有「長鏈思考」
大模型優勢鮮明,部署困難
隨著 DeepSeek-R1(671B 引數)模型的釋出,長思維鏈(CoT)推理技術在基礎大模型和工業應用中快速普及。DeepSeek-R1 雖然推理能力強大,但 600+B 引數量的模型難以在邊緣裝置、即時系統中使用。
小模型亟待「加持」
這促使業界對引數量低於 70 億的小型模型開展持續研究,尤其聚焦在複雜數學解題和程式碼生成等長鏈推理場景。值得注意的是,藉助 DeepSeek-R1 的推理過程,可構建高質量的思維鏈(CoT)資料,從而顯著增強小模型的推理能力。但目前幾十億到百億引數級別的小模型,在多步驟推理任務(如複雜數學問題和程式設計題)上仍存在明顯瓶頸,難以充分滿足此類應用需求。
現有 CoT 資料的困局
基於 DeepSeek-R1 生成 CoT 資料的研究大體分為兩條技術路線:
1. 海量資料驅動(Labs 2025;Team 2025c):透過堆疊超大規模 CoT 語料來提升推理能力,但計算與標註成本高、效率低。
2. 精品資料驅動(Ye et al. 2025;Muennighoff et al. 2025):依靠少量高質量樣本啟用模型潛能,然而受規模限制,效能增益難以持續。
儘管已有工作(Wen et al. 2025a)引入課程學習和拒絕取樣以最佳化訓練流程,上述方法普遍忽視了「模型能力 — 資料難度」之間的動態匹配。
這直接引出了兩個核心問題:
1、高質量 CoT 語料應如何定義?
2、如何從既有資料中提煉可遷移的「靜態經驗流」?
全新方法:模型自適應難度分級蒸餾
近期,強化學習之父 Richard Sutton 提出「經驗」是下一代超級資料來源的思想,將大模型強化學習的本質定義為是一種資料的動態經驗流挖掘。基於此,我們團隊從資料靜態經驗流建設的角度出發,提出基於模型自適應問題難易度蒸餾 CoT 語料的方法,顯著提升了長 CoT 語料的質量。
該方法圍繞「模型 – 資料動態匹配」提出了一條完整的 CoT 構建流程,具有四大創新點:
1. 基於模型的固有推理能力,建立題目難度分級體系,形成可複用的「靜態經驗」。
2. 依照難度標籤,構建覆蓋全梯度的自適應題庫。
3. 設計符合課程學習思想的難度分佈取樣策略,確保訓練資料與模型能力即時對齊。
4. 藉助 DeepSeek-R1,在數學推理與程式碼生成兩大場景批次生成高質量 CoT 語料。
在相同計算預算下,該自適應方案可持續提升不同規模模型的推理效能 —— 以 AIME24 數學競賽資料集為例,各引數檔模型的準確率相比傳統「非適配」策略提高 6.66 %–26.7 %(見圖 1)。

圖 1:基於 LLM 自適應題目難度分級的 CoT 資料構建效果對比
對於不同引數規模的 LLM,採用問題自適應難度分級方法構造的 COT 資料訓練的推理模型(左)在數學競賽資料集 AIME24 上的推理效能始終優於非自適應方法(右)。說明了前者構建的 CoT 資料質量更高,並且找到了適配於模型的靜態資料經驗流。
這一方法有效地挖掘了 CoT 資料中的靜態經驗流,並且該靜態經驗流與模型本身是密切相關的。
方法框架,一圖看懂

圖 2:基於 LLM 自適應題目難度分級的 CoT 資料生成框架
框架包含三個核心元件:分佈構建、LLM 自適應題目難度分級與分佈取樣,以及 LLM 自適應思維鏈(CoT)生成。
1. 分佈構建(Distribution Construction)
構建兩種難度分佈策略,作為後續取樣的依據:
Option1:基於模型實際表現的分佈(Pₑᵥₐₗ)
透過基礎 LLM(Sₗₗₘ)在評估資料集(DBₑᵥₐₗ)上的表現動態生成難度分佈:
-
正確回答的題目:標記為「簡單」(Easy)。
-
錯誤回答的題目:透過 PRM-Grader(過程獎勵模型)進一步分級,根據模型生成答案的推理軌跡質量(0-1 分)對映到 5 個難度等級(分數越低,難度越高)。
Option2:基於課程學習的先驗分佈(P₆)
人工定義五級難度,遵循「易題多、難題少」的分佈原則,權重隨難度遞增遞減:
例如,難度級別 1 的樣本數最多,級別 5 最少。
2. LLM 自適應題目難度分級與分佈取樣
步驟 1:構建自適應題庫(DBₐdₐₚₜᵢᵥₑ)
從開源資料集收集原始題目(DBᵣₐw),利用 Sₗₗₘ生成回答並記錄推理軌跡。
驗證答案正確性:
-
數學推理任務:直接對比模型答案與標準答案。
-
程式碼生成任務:透過測試用例執行驗證程式碼正確性。
難度分級:
正確題目標記為「簡單」,加入題庫。
錯誤題目透過 PRM-Grader 細分為 5 級難度(1-5 級,1 級最難),加入題庫。
步驟 2:分佈取樣(DBₛₐₘₚₗₑ)
根據構建的分佈(Pₑᵥₐₗ或 P₆),從自適應題庫中按難度比例取樣題目
3. LLM 自適應 CoT 生成
-
生成階段:將取樣題目(DBₛₐₘₚₗₑ)輸入教師模型(Tₗₗₘ,即 DeepSeek-R1)生成詳細推理鏈(CoT)。
-
驗證階段:透過 Result-Verifier 嚴格篩選正確 CoT 資料(與步驟 2 的驗證方法一致),最終形成高質量資料集 COTₐdₐₚₜᵢᵥₑ。
-
模型訓練:利用 COTₐdₐₚₜᵢᵥₑ對基礎模型(Sₗₗₘ)進行監督微調(SFT),得到最佳化後的推理模型(Rₗₗₘ)。
方法的關鍵創新點:
-
模型自適應難度適配:基於模型實際能力調整題目難度分佈,避免「一刀切」的主觀分級,構建真正與模型密切繫結的靜態資料經驗流;
-
輕量化流程:無需複雜課程學習或拒絕取樣,僅透過分級與取樣即可提升資料質量;
-
多工相容性:支援數學推理與程式碼生成任務,驗證方法靈活(答案對比 / 測試用例)。
實驗效果:驚喜不斷
為了研究我們提出的 CoT 資料的質量效果,我們在不同尺寸和性質的模型上均進行了詳細的驗證,涵蓋的任務包括數學推理任務和程式碼生成任務。
以下是重要實驗結果的詳細介紹:
數學推理(MATH500、AIME24/25、GPQA)
-
在 MATH500、AIME24/25、GPQA 等數學基準測試中,採用 2k 自適應 CoT 資料訓練的 ZMath 系列模型顯著優於基線模型。
-
ZMath-32B 在 MATH500 上達到 94.6% 準確率,超過 DeepSeek-Distill-32B(89.8%)和 Sky-32B-Preview(90%);在 AIME24 上提升至 73.33%(基線為 66.67%)。
-
ZMath-14B 在 AIME24 上準確率為 50%,遠超 phi4-14B(30%),並在 GPQA 上達到 63.13%(phi4-14B 為 54.55%)。

圖 3:數學推理實驗結果
程式碼生成(LiveCodeBench)
-
ZCode-32B 在 Easy、Medium、Hard 三個難度級別上分別達到 96.06%、75.53%、31.85%,全面優於 DeepSeek-Distill-32B(92.11%、74.92%、30%)。
-
ZCode-14B 在 Easy 難度上以 89.96% 顯著領先 phi4-14B(72.4%),表明小引數模型透過自適應資料訓練也能取得競爭力表現。

圖 4:程式碼生成實驗結果
消融實驗&分佈遷移
當把 32B 模型的難度分佈直接套用到 7 B 模型時,後者在 MATH500 資料集上的準確率僅為 92%,低於採用自身難度分佈訓練得到的 93.2%。結果說明:難度分佈必須與目標模型能力動態匹配,自適應分佈才是效能提升的關鍵;同時也表明,靜態經驗流中真正有價值的經驗應當與具體模型緊密對應,而非「一刀切」地跨模型遷移。

圖 5:程式碼生成實驗結果
總結與展望
論文提出了一套基於 LLM 自適應難度分級的高質量 CoT 資料生成框架,並透過系統實驗驗證了其效率、有效性與泛化能力。核心結論如下:
-
高效資料生成
先動態評估模型當前推理能力,再構建匹配的自適應題庫,僅憑約 2 k 條高質量 CoT 樣本即可顯著提升效能,顯著降低資料與算力成本。
-
跨任務與引數泛化
在數學推理(AIME 系列)與程式碼生成(LiveCodeBench)兩大場景中均取得領先表現;對 7 B–32 B 不同規模模型均能帶來穩定增益。
-
方法論貢獻
構建了一套系統化的 CoT 資料生成與評估流程,為資源受限環境下的小引數 LLM 提升鏈式推理能力提供了新路徑,也為「靜態經驗流」挖掘給出了可複用正規化。
未來工作:進一步結合強化學習挖掘深層推理能力,並擴充套件至通訊故障診斷等更復雜的跨領域任務。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]