從“盲選”到“精挑”:NaturalThoughts如何用資料選擇提升LLMs推理能力

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
論文標題:
NaturalThoughts: Selecting and DistillingReasoning Traces for General Reasoning Tasks
論文地址:
https://arxiv.org/pdf/2507.01921
一句話理解:
本文研究如何從大型教師模型(teacher model)中提取和篩選高質量的推理軌跡(reasoning traces),並將其蒸餾(distill)到較小的學生模型(student model)中,以提升學生模型在通用推理任務中的表現。

研究背景

推理能力的重要性近年來,透過強化學習(RL)和鏈式思考(chain-of-thoughts, CoTs)提升大型語言模型(LLMs)的推理能力取得了顯著進展。然而,對於較小的模型,直接進行大規模的RL訓練效果不佳,而從教師模型中蒸餾推理能力則是一種有效的方法。

蒸餾方法的現狀以往的研究表明,透過監督微調(SFT)從教師模型中蒸餾推理軌跡可以顯著提升學生模型的推理能力。然而,目前對於什麼樣的教師模型推理演示(reasoning demonstrations)最有效,以及如何選擇和篩選這些演示以提升學生模型的推理能力,還沒有系統的研究。
研究目標
文章的目標是系統地研究影響從教師模型到學生模型推理能力蒸餾的因素,特別是資料的樣本效率(sample efficiency)和可擴充套件性(scalability),並提出一種高效的資料選擇和蒸餾方法。
創新點
提出了NaturalThoughts資料集,用於研究如何從教師模型中選擇和蒸餾高質量的推理軌跡。
系統地分析了影響推理能力蒸餾的資料因素,包括樣本效率和可擴充套件性。
提出了一種混合System-1System-2的蒸餾方法,能夠提升學生模型的推理效率,同時保持高準確性。
方法
NaturalThoughts資料集作者從NaturalReasoning資料集(包含280萬多樣化的問題)中選擇問題,使用DeepSeek-R1教師模型生成推理軌跡,構建了NaturalThoughts資料集。
推理軌跡標註對推理軌跡進行標註,包括問題的主題、推理策略(如自我驗證、回溯等)和推理的冗長程度。
資料選擇策略研究了基於多樣性(diversity)和難度(difficulty)的資料選擇方法。多樣性包括問題主題、語義嵌入和推理策略的多樣性;難度包括推理長度、推理冗長程度和模型間的一致性。
混合推理蒸餾提出了一種混合System-1(僅包含最終答案)和System-2(包含完整推理軌跡和最終答案)的蒸餾方法,以提高學生模型的推理效率。
實驗
模型和基準使用Llama-3.1-8B-InstructQwen-2.5-7B-Instruct作為學生模型,評估了在多個STEM推理基準(如GPQA-DiamondMMLU-ProSuperGPQA)上的表現。
資料規模和選擇的影響實驗發現,簡單地擴大資料規模(即使隨機選擇)也能帶來效能提升,這與“Less is More”假設相反。基於推理策略多樣性和問題難度的選擇方法比隨機選擇更有效。
混合蒸餾的效果混合System-1System-2的蒸餾方法使學生模型能夠在推理時動態調整推理策略,從而在效率和準確性之間取得更好的平衡。
結論
資料規模的重要性與以往研究不同,作者發現擴大高質量推理資料的規模可以持續提升學生模型的效能,即使隨機選擇資料。
多樣性與難度的選擇選擇包含更多樣化推理策略和更難問題的資料子集,能夠更有效地將教師模型的推理能力傳遞給學生模型。
推理效率的提升透過混合System-1System-2的蒸餾方法,學生模型能夠在推理時根據問題難度動態調整推理策略,從而在保持高準確性的同時提高推理效率。
這篇文章為如何從大型教師模型中提取和傳遞推理能力提供了新的見解,並提出了一種高效的資料選擇和蒸餾方法,對於構建更小、更高效的推理模型具有重要意義。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章