LongCoT前沿研究速覽

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | RUC AI Box
作者|成曉雪、湯昕宇、湯奕如
機構|中國人民大學
研究方|大語言模型‍

Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering

原文:https://arxiv.org/pdf/2503.11314
這篇文章探索如何解鎖大語言模型中潛在的通用長鏈思考推理能力。現有研究表明,透過少量樣本的微調,大語言模型可以展現出長鏈思考(long CoT)推理的能力,並且這種能力可以遷移到其他任務上。這引起了新的猜測:長鏈思考推理是否是大語言模型內在的一種通用能力,而不僅僅是在特定任務上透過訓練獲得的。
研究者首先從大模型中提取表徵,具體來說,他們透過將問題及其對應的vanilla CoT和long CoT輸入模型,提取隱藏狀態作為表徵。
  • LLMs確實將long CoT推理編碼為一種通用能力:透過視覺化和量化分析,研究者發現long CoT的表徵在模型的引數空間中集中在特定區域,並且與vanilla CoT的表徵有明顯區分。
  • Long CoT推理的可遷移性:此外,不同領域(如數學、物理、化學、生物)的long CoT和vanilla CoT之間存在相似的對比表徵。
基於上述發現,研究者提出了GLoRE,一種基於表徵工程的新方法,用於解鎖LLMs的通用long CoT推理能力。
  • 對比推理模式表徵:研究者首先利用高資源領域的long CoT和vanilla CoT資料,計算對比推理模式表徵。在推理過程中,將這個推理模式表徵注入到LLMs的特定層中,引導模型從vanilla CoT模式向long CoT模式轉變,從而激發模型進行深入推理。
  • 問題感知的領域特定表徵:由於不同領域的問題需要特定的領域知識來支援long CoT推理,研究者提出構建一個領域特定的表徵記憶。在推理時,根據具體問題檢索與之相關的領域特定表徵,為模型提供領域特定的資訊,實現對推理過程的精細控制。
實驗證明了該方法在領域內(數學領域)和跨領域(物理、化學和生物領域)兩種場景下的有效性、高效性與可擴充套件性。

Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining

原文:https://arxiv.org/pdf/2504.07912
這篇論文探索強化學習在大語言模型後訓練(post-training)階段對數學推理能力提升的機制和效果如何受到預訓練資料組成、模型規模和RL演算法選擇等因素的影響。該文章利用兩種規模的解碼器大語言模型(OLMo-150M和OLMo-1B),使用數學相關文件和合成指令資料集,使用多種RL演算法進行後訓練。
實驗發現:
  • RL後訓練使模型的輸出分佈迅速收斂到預訓練資料中的單一分佈,同時抑制其他分佈的輸出。雖然模型傾向於選擇預訓練中表現最佳的分佈,但並非總是如此。在某些情況下,模型可能會選擇一個在預訓練時表現較差的分佈,導致效能下降。
  • RL後訓練不僅提高了模型在訓練資料上的表現,還在未見過的評估資料集上表現出正向遷移。

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

原文:https://arxiv.org/pdf/2504.13837
這篇文章旨在探索強化學習是否真的能夠激勵大語言模型在推理能力上超越基礎模型的限制
  • 使用Pass@k指標評估使用RL推理能力邊界的變化情況,發現隨著RL訓練步驟的增加,Pass@k在所有資料集上均有所下降,表明RL訓練減少了模型的輸出熵和探索能力,從而限制了推理能力的邊界。
  • 透過計算困惑度發現RL訓練模型生成的推理路徑已經存在於基礎模型的輸出分佈中,這表明RL訓練並沒有引入全新的推理能力,而是優化了模型的輸出分佈,使其更傾向於生成能夠獲得獎勵的路徑。
  • 對比RL訓練和知識蒸餾對模型推理能力的影響,發現知識蒸餾與RL不同,能夠真正引入新的知識,從而擴充套件模型的推理能力邊界。

Understanding R1-Zero-Like Training: A Critical Perspective

原文:https://arxiv.org/pdf/2503.20783
該論文研究了多種基礎模型,探討這些模型在經過預訓練後是否已經具備某些推理能力,以及這些能力如何影響後續的強化學習的效果
研究發現基礎模型在RL訓練之前已經表現出自我反思行為,而RL在訓練後自我反思行為更加頻繁,表明這些模型在預訓練階段可能已經具備了一定的推理能力。
同時這篇文章指出 GRPO 演算法中存在的最佳化偏差,如響應長度偏差和問題難度偏差,這些偏差可能導致模型生成越來越長的錯誤響應。並透過去除 GRPO 中的長度和標準差歸一化項,解決了最佳化偏差問題,提高了模型的 token 效率。

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

原文:https://arxiv.org/pdf/2503.18892
這篇論文試圖解決的問題是如何在不同的基礎模型上有效地應用zero-RL訓練,以提升這些模型在複雜推理任務中的表現。
實驗觀察到不同基礎模型在訓練過程中表現出不同的推理行為變化模式。例如,較小的模型在訓練後顯著增加了“驗證”和“列舉”行為的頻率,而較大的模型則表現出更穩定的推理行為。
同時,該論文發現過於嚴格的格式獎勵會限制模型的探索能力,而訓練資料的難度必須與模型的能力相匹配,否則會導致訓練失敗。此外,還探討了在RL訓練之前使用傳統監督微調作為冷啟動的影響。結果表明,雖然SFT可以快速提升模型的初始效能,但它會限制模型在RL訓練中的探索能力,最終導致推理能力的提升受限。

FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

原文:https://arxiv.org/pdf/2503.17287
論文透過提出FASTCURL(Curriculum Reinforcement Learning with Progressive Context Extension) 方法來解決高效訓練推理模型的問題。
  • 長度感知的訓練資料分割:根據輸入提示的長度將原始訓練資料分割成不同層級的資料集。
  • 帶有逐步擴充套件上下文視窗的課程強化學習:採用課程強化學習方法,逐步擴充套件上下文視窗長度來訓練模型。首先使用短資料集和短上下文視窗開始訓練,最佳化模型生成更簡潔的推理理由。當模型的響應長度開始增加時,將上下文視窗不斷擴充套件,並使用長資料集繼續訓練。最後,使用“長短混合”資料集進行訓練,以鞏固模型對整個資料集的掌握。

Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT?

原文:https://arxiv.org/pdf/2504.11741
這篇論文試圖解決的問題是:透過監督微調方法,大語言模型在數學推理任務上的能力得到了怎樣的提升,以及這些提升背後的具體機制是什麼。
  • 論文發現模型在AIME24資料集上的表現呈現出階梯狀的難度結構,即模型能夠解決的問題難度存在明顯的分層。
  • 從Easy到Medium的提升:發現模型在Medium級別問題上的表現提升主要依賴於採用R1推理風格和長推理上下文,透過在不同數學類別上進行小規模SFT即可實現。
  • 從Medium到Hard的提升:發現模型在Hard級別問題上的表現提升遵循對數規律,隨著資料集規模的增加,準確率逐漸趨於平穩,最終達到約65%的準確率。這表明Hard級別問題需要更穩定的深度探索和計算能力。
  • 從Hard到Exh的提升:發現模型在Exh級別問題上普遍表現不佳,主要原因是這些問題需要非常規的解決方案,如獨特的幾何直覺或創新的推理策略。當前模型在這類問題上存在根本性的侷限性。

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

原文:https://arxiv.org/abs/2412.21187
這篇論文關注o1類語言模型在處理簡單任務時出現的“過度思考”問題,即模型在無需複雜推理的任務中仍生成冗長的推理路徑,造成計算資源浪費和推理效率低下。作者提出一個系統分析框架,用於評估模型在不同任務難度下的推理資源使用情況,並探索多種減緩冗餘推理的最佳化方法。 
主要貢獻包括:
  • 提出從“推理結果準確性”與“過程token效率”兩個角度出發的評估指標,衡量模型是否存在過度思考;
  • 設計多種最佳化策略,包括SFT、DPO、RPO、SimPO等微調方法,以及FCS、GDS等解碼約束策略;
  • 在多個任務難度跨度大的資料集(如ASDIV、GSM8K、MATH500、GPQA和AIME)上進行實驗,顯著減少推理長度和生成樣本數,同時保持準確率不降。
該研究揭示了當前主流CoT模型在處理簡單問題時的效率瓶頸,並提供了一套系統的方法用於緩解這一問題。

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

原文:https://arxiv.org/abs/2501.12570
本文指出長鏈式推理模型中存在“推理長度與任務難度不匹配”的普遍現象,即在簡單任務中模型仍傾向輸出複雜路徑,帶來推理效率下降。為此,作者提出了O1-Pruner,一種結合強化學習思想的長度協調微調策略,用於動態壓縮不必要的推理過程。
主要貢獻包括:
  • 明確提出並量化“長度不協調”現象,即推理路徑長度與任務難度不一致;
  • 提出Length-Harmonizing Fine-Tuning方法,透過預取樣模型輸出和RL風格獎勵,引導模型輸出更短路徑;
  • 在GSM8K、MATH、Gaokao等多個數據集上實驗,證明該方法在減少推理長度的同時提升準確率,優於SFT和DPO等基線。
O1-Pruner為實現推理深度與任務複雜度相適應提供了有效手段,在不損效能的前提下顯著提升了推理效率。

CoT-Valve: Length-Compressible Chain-of-Thought Tuning

原文:https://arxiv.org/abs/2502.09601
該論文關注思維鏈(CoT)推理路徑冗長問題,指出傳統模型缺乏根據任務難度調整推理鏈長度的能力。為提升模型推理效率,作者提出了CoT-Valve方法,透過引入引數方向控制策略,引導模型輸出壓縮後的推理路徑。 主要貢獻包括:
  • 提出在LoRA引數空間中尋找“壓縮方向”,實現推理路徑的可控縮短;
  • 構建MixChain資料集,為每個問題提供多尺度推理路徑以訓練壓縮能力;
  • 引入兩種增強版本:CoT-Valve++(精細壓縮)與CoT-Valve+P(漸進壓縮),提升控制效果;
  • 在GSM8K和AIME上實驗顯示推理長度平均減少近70%,準確率下降不超過0.15%。
CoT-Valve為CoT路徑壓縮提供了通用性強、訓練開銷低的解決方案,能顯著降低token成本而保持準確性。

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

原文:https://arxiv.org/abs/2503.04697
L1致力於解決語言模型在推理過程中“無法控制思考時間”的問題。作者透過引入強化學習機制,使得模型能夠針對不同任務自動調節推理鏈的長度,實現計算效率與準確性的靈活權衡。
主要貢獻包括:
  • 提出長度控制策略最佳化(LCPO)方法,在訓練過程中引入長度偏差懲罰與準確性獎勵;
  • 設計LCPO-Exact與LCPO-Max兩種推理長度約束模式,分別對應硬性與彈性控制;
  • 在多個高難度資料集(如AIME、MATH、AMC)中驗證L1模型,相同長度下優於S1模型,有時甚至超過GPT-4o; 實驗中發現,L1模型在短推理鏈場景也表現出良好適應能力,具備推理泛化性。
L1提供了一種靈活調節推理時間的新正規化,能夠更精細地平衡計算開銷與推理效能。

s1: Simple Test-Time Scaling

https://arxiv.org/abs/2501.19393
這篇論文提出一種無需重訓練即可提升模型推理質量的測試階段增強方法。透過引入“思維延時”機制,模型被鼓勵在生成答案前進行更充分的內部驗證,從而提高推理準確性。 
主要貢獻包括:
  • 提出“預算強制”技術,透過新增“Wait”指令延長模型推理時間,引導其自我修正;
  • 構建小規模高質量資料集s1K,涵蓋多種數學題型和高難任務;
  • 在Qwen2.5-32B模型上高效微調,僅用1000樣本、26分鐘訓練時間實現顯著效能提升;
  • 實驗中s1-32B在AIME24任務中準確率由50%提升至57%,超過OpenAI o1-preview。
s1展示了在測試階段透過簡單幹預提升推理表現的潛力,適合低成本推理增強場景。

ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning

原文:https://arxiv.org/abs/2504.01296
ThinkPrune旨在透過強化學習訓練模型生成更簡潔的推理路徑,解決當前CoT推理中普遍存在的“路徑過長”問題,尤其適用於token預算敏感的應用場景。
 主要貢獻包括:
  • 提出引入長度限制的強化學習框架,以懲罰長路徑並鼓勵有效壓縮;
  • 設計迭代剪枝機制,逐步收緊推理長度約束,確保模型穩定適應;
  • 在AIME24等資料集上,推理長度減少一半僅帶來2%準確率下降,遠優於early-stopping策略。
該方法在效能幾乎無損的前提下實現了大幅度壓縮,適用於需要動態調整計算預算的推理任務。

DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models

原文:https://arxiv.org/abs/2503.04472
DAST針對“慢思考”模型在簡單任務中過度推理的問題,提出引入任務難度感知機制,讓模型根據問題複雜度靈活調整推理深度,從而最佳化資源使用。 
主要貢獻包括:
  • 提出Token Length Budget指標,作為問題難度的計算資源分配依據;
  • 基於強化學習的獎勵機制,在簡單任務中懲罰冗餘推理,複雜任務中鼓勵深度思考;
  • 在多個模型和資料集上實驗證明,平均推理長度減少超30%,準確率保持穩定。
DAST提供了一種任務難度驅動的推理控制路徑,是適應型推理機制的重要探索方向。

Fast-Slow Thinking for Large Vision-Language Model Reasoning

原文:https://arxiv.org/abs/2504.18458
這篇論文將快慢思維策略首次擴充套件到視覺語言模型(LVLMs),解決其在不同任務複雜度下推理路徑“過一不及”的問題。
主要貢獻包括:
  • 提出FAST-GRPO方法,根據視覺問題難度動態切換快思維與慢思維;
  • 引入複合獎勵機制,結合準確性、結構清晰性和推理長度控制;
  • 使用難度感知KL正則機制,增強推理穩定性與泛化能力;
  • 在7個視覺推理資料集上實驗證明,在推理鏈減少32.7%至67.3%的同時,準確率普遍提升10%以上。
FAST將“思維切換”理念從語言推理遷移至多模態任務,為視覺大模型推理最佳化提供了新方向。

Deconstructing Long CoT: A structured Reasoning Optimization Fframework for Long CoT

原文:https://arxiv.org/abs/2503.16385
隨著大語言模型的發展,模型透過長鏈推理進行推理的能力顯著提升。然而,長鏈推理的訓練成本高昂,且現有蒸餾方法的普遍性存在爭議。為了提高推理效率和成本效益,本文提出了DLCoT(Deconstructing Long Chain-of.Thought)框架,旨在最佳化長鏈推理資料,透過智慧分割、冗餘消除和錯誤糾正來提升模型效能。DLCoT框架包括五個核心步驟:宏觀結構解析、方法與驗證解析、冗餘分析、最佳化整合和連貫性重構。該方法透過系統地解構長鏈推理結構,消除冗餘和錯誤,保留關鍵邏輯,顯著提高了模型效能和 token 效率。本文在三個公開資料集NuminaMath、Bespoke-Stratos和MATH500上驗證了 DLCoT的有效性。實驗結果表明,DLCoT在多個基準測試上顯著提升了模型效能,同時減少了token 使用量。

Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

原文:https://arxiv.org/abs/2502.18080
近期研究表明,透過延長思維鏈能夠促使模型進行更長時間的思考,進而顯著提升其在複雜推理任務中的表現。當前研究持續探索透過擴充套件大語言模型的思維鏈長度來增加測試時計算量的效益,但本文發現這種測試時擴充套件的追求背後潛藏著個關鍵問題:過度延長思維鏈長度反而會損害模型的推理效能。本文透過實驗證明:在某些領域,過長的思維鏈確實會弱LLMs的推理能力,且不同領域存在各自最優的擴充套件長度分佈。基於這些觀察,本文提出了"最優思維擴充套件"策略,首先利用包含不同響應長度分佈的少量種子資料,指導模型針對深度思考調整推理強度,隨後讓模型在額外問題上根據不同推理強度選擇其最短的正確響應以實現自我改進。基於Qwen2.5-32B-Instruct構建的自我改進模型,在多項數學基準測試中超越了其他基於蒸餾的32B o1類模型,並與QwQ-32B-Preview達到同等效能水平。

ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for efficient Reasoning

原文:https://arxiv.org/abs/2504.21370
大語言模型透過延長思維鏈的長度,在需要深入推理的任務上表現優異。雖然更長的推理鏈有助於對複雜問題的解法路徑進行更全面的探索,但實驗發現,這些模型常常“過度思考”,導致推理效率低下。為此,本文提出了 ShorterBetter——一種簡單而有效的強化學習方法,使推理語言模型能夠在無需人工干預的情況下,自主發現最優的 CoT 長度。具體地,本文對每個問題取樣多個輸出,並將“樣本最優長度”定義為所有正確響應中最短的那個。該方法透過動態引導模型向該最優長度收斂,從而實現高效推理。在 DeepSeek-Distill-Qwen-1.5B 模型上的實驗證明,ShorterBetter 能在內外部域的推理任務中,將輸出長度最多壓縮 80%,同時保持準確率不變。本文的分析表明,過長的推理鏈往往會喪失推理方向性,進一步說明推理模型產生的冗長 CoT 具有很高的可壓縮性。

How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach

原文:https://arxiv.org/abs/2503.01141
思維鏈提示已成為提升大型語言模型推理能力的有力工具,但這些推理鏈往往過於冗長,從而降低了推理效率。已有研究嘗試透過諸如“保持回答簡潔”等簡單提示策略來縮短響應長度。本文首次系統地研究了在不同壓縮指令下,推理鏈長度與模型效能之間的關係。實驗表明,在各類推理任務中,推理長度與準確率之間普遍存在權衡:無論推理鍊形式如何變化,過度壓縮或過度冗長都會影響最終表現。本文進一步提出並驗證了“token 複雜度”概念——即成功完成給定任務所需的最小 token 數量。基於這一概念,本文推匯出資訊理論意義下的準確率–壓縮極限,並發現現有的基於提示的壓縮策略與該理論極限相距甚遠,表明仍有巨大改進空間。本文的框架不僅為評估推理效率的進展提供了基準,還強調了自適應壓縮的重要性:對於簡單問題應輸出更簡短的回答。最後,本文展示了 token 複雜度如何作為衡量和指導這種自適應能力的有效工具。

Demystifying Long Chain-of-Thought Reasoning in LLMs

原文:https://arxiv.org/abs/2502.03373
隨著推理計算規模的擴大,大語言模型在長鏈推理方面表現出色。然而,Long-CoT的生成機制及其在強化學習中的穩定訓練仍面臨挑戰。為了提升長鏈推理的穩定性和效率,本文系統地研究了長思維鏈生成的關鍵因素,特別是監督微調和強化學習在訓練中的作用。本文提出的方法主要包括: (1)使用長思維鏈資料進行監督微調,以簡化訓練過程並提高效率;(2)引入餘弦長度縮放獎勵和重複懲罰,以穩定長思維鏈的生成;(3)利用噪聲但多樣化的Web資料,透過適當的過濾機制,生成高質量的獎勵訊號。本文在多個公開資料集上進行了實驗,包括MATH、AIME 2024、TheoremQA和MMLU-Pro-1k,以評估不同訓練策略的效果。實驗結果表明,長思維鏈有監督微調可以顯著提升模型效能,並且在強化學習訓練中表現出更好的穩定性和效率。

TokenSkip: Controllable Chain-of-Thought Compression in LLMs

原文:https://arxiv.org/abs/2502.12067
思維鏈方法已被證明可以增強大型語言模型的推理能力。然而,隨著CoT長度的增加,自迴歸解碼導致推理延遲線性增加,嚴重影響使用者體驗。為了提高推理效率,本文分析了CoT輸出中各個token的語義重要性,發現它們對推理的貢獻不同。並基於這一發現,提出了 TokenSkip方法,透過選擇性跳過不重要的token來實現可控的CoT壓縮。該方法首先計算每個CoT token的語義重要性,然後根據重要性值對token進行排序並修剪。經過修剪的CoT序列用於訓練目標LLM,使其在推理過程中能夠自動跳過不重要的token,從而實現高效推理。本文在GSM8K和MATH-500兩個數學推理基準資料集上進行了實驗,評估了 TokenSkip在不同壓縮比下的效能。結果表明,TokenSkip能夠在減少token使用量的同時保持較強的推理效能,特別是在Qwen2.5-14B-Instruct模型上,實現了40%的token減少,效能下降不到0.4%。

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill

原文:https://arxiv.org/abs/2504.06514
本文發現推理模型(如DeepSeek-R1)遇到條件缺失的問題時,平均響應長度和正常的問題導致的過度思考相比平常會增長2-4倍,但卻仍然無法有效識別問題的合理性。這一現象和大家廣泛討論的test-time scaling law相悖,更長的長度反而帶來了更糟糕的結果。相比之下,非推理模型反而更為清醒,用更短回答果斷質疑問題合理性,體現出在缺失條件的情況下更強的魯棒性。透過對輸出的詳細分析,本文發現,與正常情況下的思維鏈相比,模型在面對條件缺失的問題常常陷入自我懷疑的泥潭,不斷地回顧問題、回顧定義、猜測使用者意圖,最後導致了回答長度的爆炸性增長。實驗證明,其實模型常常能在非常早的階段就能對條件缺失的問題產生質疑,但沒有足夠的自信和勇氣直接承認這樣的結果,而是不斷的進行無效的思考。

Small Models Struggle to Learn from Strong Reasoners

原文:https://arxiv.org/abs/2502.12143
大型語言模型在複雜推理任務中表現出色,將它們的推理能力提煉到較小的模型中也顯示出潛力。然而,本文發現小型模型(引數量≤3B)並不能始終從長鏈思考推理或從較大模型中提煉受益。相反,當它們在更短、更簡單的推理鏈上進行微調時,表現得更好,這些推理鏈更符合其內在的學習能力。為了解決這一問題,本文提出了混合蒸餾,這是一種簡單而有效的策略,透過結合長鏈和短鏈思考示例或來自較大和較小模型的推理,平衡推理複雜性。實驗表明,與僅使用單一資料集訓練相比,混合蒸餾顯著提高了小型模型的推理效能。這些發現突顯了直接強模型蒸餾的侷限性,並強調了適應推理複雜性以有效轉移推理能力的重要性。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章