從十篇論文中探討:如何解決推理模型的“過度思考”問題?

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 知乎
作者 | 樂清
大模型在複雜推理任務上取得了顯著進展,CoT推理過程往往能提升模型回答複雜問題的準確性。然而,過長的鏈式推理會導致“過度思考”問題:生成冗長而重複的推理步驟,極大增加計算開銷和延遲,對簡單任務而言更是得不償失。
最近一系列研究工作探討了如何在保證推理效能的同時提高推理效率,包括縮短不必要的推理鏈長度以及自適應地決定何時需要顯式推理等策略。
這篇筆記聚焦在最近比較熱門的研究方向:如何讓模型只在“必要的時候”思考? 我總結了 10 篇代表性論文,從精簡思維鏈到自適應判斷是否需要思考,下面按編號依次分析十篇論文的動機、方法、實驗、創新與侷限。

摘要

  • • 系統梳理了 10 篇最近關於「減少鏈式推理冗餘」與「自適應觸發 CoT」的論文。
  • • 結論高度一致:在保證甚至提升準確率的同時,可顯著削減 token 開銷與推理延遲。
  • • 主要技術路線分三類:
  1. 1. 直接縮短:透過獎勵設計或長度硬約束,讓模型精簡思考過程;
  2. 2. 動態早停:在推理時即時判斷並提前結束;
  3. 3. 按需思考:模型自動決定是否展開思考推理。
大部分方法以強化學習為核心,控制 token、分離損失或階段式獎勵塑形,也有無需再訓練的推理時策略。
太長只看表格版:

1. Concise Reasoning via Reinforcement Learning

https://arxiv.org/abs/2504.05185

方法與思路:

提出Concise Reasoning,透過強化學習(RL)鼓勵大型推理模型生成更簡潔的推理過程。作者首先透過數學分析指出,常規的強化學習訓練(如人類反饋強化學習RLHF)會內在地激勵模型生成更長的回答,以降低訓練損失,這可能導致人們誤以為“更長的推理鏈=更高的準確率”。
相反,他們觀察到準確率與簡潔性存在自然相關:在數學等領域的中等規模資料集上進行RL微調時,模型的推理長度往往最初會變短且準確率不降。據此,作者引入二階段強化學習微調:在已有的推理模型上,用少量額外的題目進行第二階段RL訓練,引入獎勵促使模型在保持準確的同時儘可能縮短思維鏈。

訓練策略與推理機制:

第二階段的RL訓練以一個“小資料集上的最佳化”進行,獎勵函式鼓勵產生日誌式推理步驟更精煉但答案正確的輸出。作者還比較了不同RL演算法, 實驗發現,GRPO雖共享PPO的一些特性,但易出現訓練塌陷模式,使其在追求簡潔推理時穩定性不足。因此,過度依賴標準RL最佳化可能會出現不可靠情況,表明需要設計專門的訓練策略防止模型完全崩潰式地縮短推理而犧牲正確性。

實驗設定與結果:

作者在一系列數學和邏輯推理基準上驗證了Concise Reasoning框架。結果表明,經過二次RL微調後,模型推理鏈長度顯著減少,而準確率不降反升或至少保持不變。這說明適度的簡潔化並未損害模型推理能力,反而可能消除了冗餘步驟讓模型更專注於核心推理。論文還強調了冗長回答未必帶來更高準確率這一結論的普適性,呼籲社群重新審視一味追求長鏈式思考的假設。

創新與侷限:

創新之處在於從強化學習最佳化角度揭示了長推理鏈的成因,並提出了簡單實用的二階段RL微調來縮短推理過程。與傳統RLHF不同,作者專門關注推理過程的長度維度,提出準確率與簡潔性可以兼得。然而,該方法需要在額外的小資料集上進行二次RL訓練,這可能對模型訓練資源有額外要求。
此外,GRPO演算法本身出現的訓練不穩定(collapse)提示需要更穩健的最佳化方法,後續工作或可改進RL演算法來避免此問題。適用場景方面,Concise Reasoning適用於已經過大量推理任務訓練的大型推理模型(如GPT類模型)的後期精調,在推理密集型任務(如數學、邏輯)中減少無關冗長步驟,以降低計算開銷。

2. Dynamic Early Exit in Reasoning Models

https://arxiv.org/abs/2504.15895

方法與思路:

Chenxu Yang等人提出Dynamic Early Exit in Reasoning (DEER)方法,旨在在推理生成過程中動態截斷鏈式思維,從而避免模型“想太多”。與固定長度或靜態策略不同,DEER在模型推理過程中即時監控特定標誌(例如在提示中注入的特殊標記如“Wait”表示階段間停頓)。當檢測到模型對當前階段的候選答案信心較高時,動態觸發提前終止後續推理鏈的生成,並直接產出最終答案。這一機制允許模型自適性地截斷推理過程,避免無效的額外思考步驟。

訓練策略與推理機制:

值得注意的是,DEER不需要額外訓練,純屬推理時策略。它可以無縫嵌入現有的大型推理模型中,透過觀察推理過渡點(如模型生成某些詞、“Wait”標記等)來判斷是否進入早停
具體實現中,模型在推理鏈的分段(如一道題的不同解題階段)評估自己給出的部分答案的置信度,如果某一步就已經高置信度地得到正確答案,則終止進一步的鏈式思考。這樣,簡單問題將很快結束推理,複雜問題則繼續深思,從而達到按需思考

實驗設定與結果:

作者在10個推理基準上評估了DEER,包括數學題(如GSM8K、MATH-500)、競賽題(AMC 2023、AIME 2024)、程式設計題(LiveCodeBench)等。他們在11種不同系列和規模的最先進推理模型上測試,結果DEER在不損失準確率的情況下將推理鏈長度平均縮短19.1%到80.1%,同時準確率略有提升0.3%~5.0%
例如,在一些模型上平均減少約三至四成的推理步驟,並提高準確率約1.7%~5.7%。這說明過度冗長的推理並非必要,適時提前得出結論反而有助於提升準確率,可能因為減少了“想多了反而出錯”的情況。

創新與侷限:

DEER方法的最大亮點在於無需額外訓練即可提升推理效率,易於部署於現有大模型。透過動態檢測模型置信度實現早停,避免人為設定固定閾值或長度,上述做法通用且有效。不過,其效果依賴於模型能夠產生反映信心的中間跡象(如特殊標記和機率),因此對模型本身行為模式有一定要求。
侷限在於,對於某些沒有明顯階段性標誌的任務,或模型置信度不可靠的情形,DEER可能較難判斷何時退出。此外,提前終止可能錯過一些後續糾錯步驟,在模型偶爾前期自信但實際錯誤的情況下可能產出不正確答案。適用場景方面,DEER非常適合於推理步驟較長的模型推理階段進行外掛式最佳化,例如部署在即時互動系統中以降低延遲,同時能在多數實際查詢上保持或提升準確率。

3. Reasoning Models Can Be Effective Without Thinking

https://arxiv.org/abs/2504.09858

方法與思路:

作者質疑“顯式思考是否總是必要”的假設,提出透過直接跳過思維鏈來提高效率的方法。他們研究了一種稱為**“NoThinking”的簡單提示策略,讓模型不經chain-of-thought逐步推理,直接輸出最終答案。具體而言,對於一個經過深度推理微調的強大模型(DeepSeek-R1-Distill-Qwen),作者透過巧妙的prompt設計引導它不展開詳細推理**。令人驚訝的是,在控制總token數量相同時,這種無思考直接作答的模式在許多情況下效能優於顯式思考

訓練與推理策略:

NoThinking並非透過再次訓練模型獲得,而是一種推理階段的提示技巧。作者發現,只要引導模型省略解釋步驟,其內部知識和直覺仍可解決不少問題。為進一步提升效能,他們提出並行擴充套件 (parallel scaling) 的思路:獨立地讓模型直接回答同一道題N次(相當於並行產生N個不帶推理的候選答案),然後採用結果聚合策略選出最佳答案。
聚合可利用任務相關的驗證器(如對程式碼執行測試,數學題比對標準答案)或簡單的信心打分選擇最佳。透過並行取樣多個直接答案,擴大覆蓋面,再篩選出正確答案,彌補了單次直覺作答可能出錯的不足。

實驗設定與結果:

作者在7個具有挑戰性的推理資料集上測試,包括數學問題求解、形式定理證明、程式碼生成等場景。實驗在限定token預算的前提下比較“NoThinking”與常規“Thinking”模式。結果表明,在低開銷設定下(例如限制總推理長度為700個token),NoThinking模式在多個數據集上顯著勝出:例如在數學競賽AMC 2023題目上,NoThinking取得51.3分而Thinking僅有28.9分。當允許增加並行輸出的數量(提升pass@k),NoThinking的表現進一步逼近甚至趕超Thinking。
綜合來看,作者的並行無思考方案在相近的延遲下超越了多種Thinking基線,而在達到相當於Thinking需要9倍延遲的效能水平時,NoThinking方案的效率優勢極為明顯。換言之,只需付出較小計算成本,直接作答多次並選優就能達到原本需要深度推理才能實現的效果。

創新與侷限:

本研究顛覆了傳統觀念,證明“大模型有時不經推理也能解題”,並提出了並行取樣+驗證的新正規化來替代單執行緒的鏈式推理,在低延遲場景下效果突出。它的創新點在於將問題轉化為可並行處理的探索:模型基於直覺給出多個答案,再透過外部手段選對。這種方法尤其適用於有明確驗證機制的任務(如數學有標準答案、程式設計題可以測試執行)以及對時延敏感的場景(透過並行降低總時延)。
然而侷限也在於:對於無法輕易驗證正確性的開放問答或創意性任務,NoThinking策略難以保障輸出質量。此外,簡單題目模型不經推理即可正確,但極其複雜的問題仍可能需要鏈式推理來分解步驟。因此一個折中方案是根據任務難度選擇模式——這正是接下來許多自適應思考方法要解決的問題。作者的研究為後續工作提供了參考基線,即在低計算預算下追求高推理效能可以不走傳統深度思考路線。

4. ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning

https://arxiv.org/abs/2504.21370

方法與思路:

提出ShorterBetter框架,這是一種強化學習方法,讓模型自主學習最優推理長度。作者定義了“樣本最優長度”(Sample Optimal Length, SOL)概念:對於每個問題,讓模型取樣生成多個解答,選出其中最短的正確解答**長度作為該問題的SOL。
在RL訓練中,將生成符合SOL的長度作為獎勵訊號,指導模型傾向於用最精簡但正確的推理過程來解題。這一思路不需要人工為每道題指定理想長度,而是由模型自身探索發現**不犧牲準確率的最短推理。

訓練策略與模型架構:

ShorterBetter採用無監督訊號來引導模型。具體做法是:在訓練過程中,對每個訓練樣本問題讓模型解多次題,從這些嘗試中確定SOL,然後獎勵那些接近SOL長度的輸出
作者將ShorterBetter應用於DeepSeek-Distill-Qwen系列模型,包括1.5B和7B引數規模的版本,作為基座模型進行微調。模型架構本身不變,但透過RL使其內部學會控制鏈式思考的冗餘。這種訓練完全不依賴人工標註(如不需要人為標註每題應是多少步推理),屬於自適應最佳化推理長度的新思路。

實驗設定與結果:

在數學推理等任務上測試顯示,ShorterBetter使模型的輸出長度減少了50%~80%,而準確率基本保持不變。無論在訓練用的域內任務,還是跨域的陌生任務上,該方法都能讓模型顯著縮短解題步驟且不損失效能。進一步的鏈路分析表明,經過ShorterBetter訓練後,模型的推理軌跡更為精煉:減少了不必要的重複、自我驗證步驟,以及對無關分支的過度探索。這驗證了SOL獎勵引導下模型的推理過程確實在向高效方向最佳化。

創新與侷限:

ShorterBetter的創新點在於提出了樣本最優長度這一自動度量指標,用於RL訓練中作為訊號,從而無需人工介入地讓模型學會“自己裁剪廢話”。相對於直接強行截斷或加入懲罰,SOL獎勵更為平滑且任務自適應,因為不同問題複雜度不同,模型針對每題找到合適的推理深度。
侷限性方面,ShorterBetter需要模型能夠在訓練中多次解題並評估正確性,因而適用任務多為有標準答案或可判定正誤的場景(如數學、邏輯題)。對於答案開放的任務,其“正確/錯誤”判別和SOL定義會更困難。此外,多次取樣輸出增加了訓練開銷。儘管如此,此方法非常適合訓練階段為模型植入壓縮推理的能力,適用在希望模型推理高效化的應用中,尤其是那些注重即時性成本敏感的推理服務。

5. Think Only When You Need with Large Hybrid-Reasoning Models

https://arxiv.org/abs/2505.14631

方法與思路:

引入Large Hybrid-Reasoning Model (LHRM)的概念,提出模型應能根據查詢動態決定是否需要鏈式思考。他們的方法簡單概括為標題所示:“僅在需要時才思考”。具體而言,LHRM包含兩種模式:直接回答模式鏈式深度思考模式。對於簡單查詢,模型應當跳過冗長思考直接給出答案;而遇到困難問題,則啟用CoT進行多步推理。這要求模型具備自適應選擇思考模式的能力。
為實現這一點,作者設計了兩階段訓練流程:首先進行混合微調(Hybrid Fine-Tuning, HFT)作為冷啟動,讓模型初步具有兩種模式輸出的能力;然後施以線上強化學習,提出 Hybrid Group Policy Optimization (HGPO)演算法,進一步隱式學習何時採用哪種模式。透過RL獎勵引導,模型逐步學會根據輸入複雜度自主選擇直答或深思。

訓練策略與推理機制:

第一階段HFT可能使用有標註的簡單/複雜問題分別對應直答/長答的資料,對模型進行有監督微調,從而建立基本的“模式切換”能力。第二階段HGPO則在互動式環境下訓練一個策略:該策略可以被看作是模型自身,根據輸入特點輸出一個“選擇”訊號或直接決定採用哪種思維流程。HGPO作為一種群組式策略最佳化方法,可能將思考與回答兩個子策略作為一個整體來最佳化(類似多工RL)。
作者還提出了“混合準確率”(Hybrid Accuracy)這一評估指標,用於量化模型在混合推理設定下的能力。該指標可能綜合考察模型正確選擇模式並正確回答的情況。推理時,LHRM會首先判斷問題難度,如果處於簡單閾值則直接輸出答案,否則進入詳細推理步驟再答覆。

實驗設定與結果:

實驗涵蓋不同難度和型別的查詢,結果顯示LHRM能夠對各類問題難度自適應地執行混合推理。與始終深度推理的LRM模型和不推理的普通LLM相比,LHRM在推理能力和通用任務上均有更優表現,同時大幅提升了效率
作者指出,LHRM在保持複雜任務高準確率的同時,對簡單任務避免了不必要開銷,實現了更好的效能–效率折中。可見,透過讓模型學會“不用每次都想那麼多”,既節省計算又不降低整體效果。該工作表明,引入混合思考正規化的模型能夠全面勝過傳統始終單一模式的模型,為構建真正智慧高效的推理系統提供了範例。

創新與侷限:

本文首次明確提出了“大規模混合推理模型”的概念,將人類那樣可跳過步驟的思維習性融入AI模型中,是一大創新亮點。透過兩階段訓練+新型RL演算法(HGPO)實現模式選擇,相比之前簡單規則或單階段訓練更加系統和有效。同時定義了混合準確率指標為社群研究提供了評估工具。不過,LHRM的訓練需要專門設計的資料和過程:如何準確劃分簡單/複雜問題,如何設定獎勵權衡效率與準確,這可能需要精調。
其侷限在於,模式判別錯誤的代價:若模型將一個複雜問題當簡單處理,可能給出錯誤直答;反之亦然。因此在安全關鍵場景需要確保模型寧可多想不錯過。在應用場景上,LHRM適合部署在開放域問答系統助手系統中,能夠根據使用者提問即時決定是否需要詳細解釋,從而提升響應速度保證必要時的推理深度。微軟研究團隊的這一成果表明,未來的通用AI或將同時具備“快思”和“慢思”兩種能力,並能自主切換

6. Thinkless: LLM Learns When to Think

https://arxiv.org/abs/2505.13379

方法與思路:

提出 Thinkless 框架,使大型語言模型 學會何時需要進行鏈式思考。它讓模型能夠在“簡潔回答”和“詳細推理”兩種輸出模式之間進行選擇。具體實現上,作者在模型中引入了兩個控制token:<short>表示要求模型給出簡短直接的回答,<think>表示觸發詳細的鏈式推理。
透過在訓練資料中加入這兩個特殊標記並利用強化學習進行最佳化,模型可以學習根據任務需要輸出相應模式的答案。核心演算法是作者設計的“解偶聯組相對策略最佳化” (Decoupled Group Relative Policy Optimization, DeGRPO)。該演算法將 混合推理 的學習目標分成兩部分:
  • • 控制token損失:鼓勵模型正確選擇使用<short>還是<think>
  • • 回答損失:提高生成答案本身的準確率。
透過這種目標解偶聯,訓練可以分別調節“模式選擇”和“回答正確性”這兩個子目標的權重,防止單一最佳化造成的不平衡。這尤其有助於避免直接應用傳統RL演算法(如GRPO)時出現的 坍塌現象,確保訓練穩定。

訓練策略與推理機制:

Thinkless首先需要一個具備鏈式推理能力的預訓練或微調模型作為起點。然後進行兩階段訓練:預熱階段,用一定的資料讓模型適應使用<short><think>標記(可能是有監督微調);接著是強化學習階段,採用上述DeGRPO演算法。訓練過程中模型會嘗試兩種模式解題,根據任務複雜度和模型自身能力獲得獎勵:簡單題使用<short>回答且正確會得到高獎勵,複雜題如果用<short>導致錯誤則獎勵低,鼓勵其使用<think>展開推理。
這種策略逐步讓模型學會對不同題自動選標記。“Decoupled”策略保證了模型既在模式判別上學到策略,又在具體解題上不退化。推理時,對每個輸入,模型自主地先輸出<short><think>標記,然後據此生成簡潔答案或思維鏈,從而實現動態思考。

實驗設定與結果:

作者在多個基準(如Minerva Algebra、MATH-500、GSM8K等數學推理任務)上驗證了Thinkless。結果顯示,與始終使用長鏈推理相比,Thinkless模型大幅減少了長鏈推理的使用頻率50%~90%,也就是大約一半甚至更多情況下模型選擇了簡潔回答模式。
由於避免了許多不必要的長推理步驟,推理效率顯著提升。同時,透過合理選擇何時深入思考,模型依然保持甚至略有準確率提升(因為消除了過度思考帶來的一些錯誤)。具體例如,在一些數學資料集上,Thinkless能將長鏈思考的使用減少約一半到九成,且整體效能不減。

創新與侷限:

Thinkless的創新在於引入了顯式控制訊號(特殊token)讓模型內部學會模式切換,並透過改進的RL演算法確保訓練效果。相較於隱式地學,顯式token使得模式選擇更直觀可控。DeGRPO演算法的解偶聯最佳化思想也具有啟發性:它把“何時思考”這一元問題和“如何解題”**問題分開,使得模型不會為了追求簡潔而忽略正確性,反之亦然。這種穩定訓練的方法可供後續其他多目標最佳化任務借鑑。
侷限性方面,Thinkless需要在訓練資料或環境中同時涵蓋簡單和複雜任務,以便模型學習差異。這可能需要精心構造或挑選訓練集。同時,引入特殊token對模型結構有輕度侵入**(需要模型識別新標記),在實際部署時需要支援這種介面。適用場景上,Thinkless非常適合離線訓練出一個通用模型,再在推理時廣泛用於各類任務,其優勢在於無需額外外部判斷模組,模型內部自帶決策,可用於例如通用問答系統、自動求解器等希望兼顧速度和複雜度的應用中。

7. ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning

https://arxiv.org/abs/2504.01296

方法與思路:

提出 ThinkPrune方法,從訓練角度剪枝過長的思維鏈。他們關注那些經過推理強化訓練後“思維冗長”的模型(long-thinking LLMs),常常生成大量冗餘步驟。已有減少推理長度的探索多是強制提前終止(如給定token上限後強行收尾),而非讓模型主動最佳化推理過程。ThinkPrune旨在讓模型本身學會在有限預算內整合思維:做法是在強化學習訓練中設定一個token上限,如果模型產生的思維鏈和答案長度超過此上限,那麼超出部分直接被截斷且給予零獎勵
簡而言之,模型若想獲得正向獎勵,就必須在限制長度內完成推理並得出正確答案,否則就相當於白回答。這樣的機制逼迫模型壓縮冗長的推理。為了避免一次性剪太多影響效能,作者採用迭代剪枝:多輪RL訓練,逐步收緊長度閾值,每一輪在比上輪更小的上限下繼續訓練模型。這使模型逐步適應愈加嚴格的長度要求,最大限度保持效能。

訓練策略與模型架構:

ThinkPrune在RL訓練環節對模型施加長度約束。模型架構上無改動,但在強化學習的環境中,當輸出超過設定長度時,環境截斷輸出並返回零分,否則依據回答正確性給分。這相當於將“簡潔”作為硬性要求融入模型最佳化目標中。訓練演算法上,作者未明確說明可能使用PPO或策略梯度等,但關鍵是多階段漸進約束
在第一次RL微調時,也許允許一個較大的token上限並把之前長思維的模型初步拉短;接著逐輪降低上限,模型需要進一步精簡自己的推理。效能保持透過逐步調整來實現,每一步都讓模型有機會微調以適應新的長度限制,而不會一下子“剪廢”。作者以DeepSeek-R1-Distill-Qwen-1.5B作為實驗物件之一,證明即使是小模型也能透過ThinkPrune獲益。

實驗設定與結果:

在數學競賽問題AIME 2024的資料集上,應用ThinkPrune後模型的推理長度減少了一半,而效能僅下降約2%。這是一項極佳的長度-效能權衡:推理步驟砍掉50%,準確率幾乎不變,僅略有下降。另外觀察到剪枝後的模型學會繞過不必要步驟,但核心的推理流程仍完整。這說明模型並未變得草率,而是更高效地求解問題。
除了AIME,作者亦在其他推理基準上測試,結果均表明ThinkPrune能有效縮短推理保持結果可靠。這些成果充分驗證了逐步RL剪枝思路的可行性。該論文的程式碼也已開放,方便研究者進一步使用。

創新與侷限:

ThinkPrune的創新在於將長度約束融入RL訓練,讓模型自適應地壓縮推理過程。相比簡單截斷或外部干預,它讓模型自身學到在有限預算內做最優推理,是內生的最佳化。迭代收緊限制的策略也體現出工程上的巧妙,確保模型逐步過渡,平穩剪枝。這種方法非常適合已經透過RLHF獲得長推理能力的模型做後處理微調,使其變得精幹。侷限性方面,此方法需要任務有明確的完成判定(能判斷回答正確與否),並且需要多輪訓練,訓練開銷較大。
另外,給定長度限制可能需要一些試驗調整,以平衡各任務下的長度需求。應用場景上,ThinkPrune適用於那些已經表現很好但推理冗長的模型進行精細打磨,特別是在算力有限但希望利用強推理模型的情況下,透過剪枝降低部署成本。例如,在學術測驗、競賽題解等領域,一個經ThinkPrune調優的模型可以用更少的解題步驟達到幾乎相同的成績,從而顯著提升單位推理成本的價效比

8. AdaCoT: Adaptive Chain-of-Thought Triggering via Reinforcement Learning

https://arxiv.org/abs/2505.11896

方法與思路:

提出AdaCoT框架,讓模型能自適應決定何時觸發鏈式思維 (CoT)。與其說AdaCoT是一種具體模型,不如說是為已有LLM增加一層決策機制。它將是否使用CoT這個問題形式化為一個帕累託最佳化問題:在保證模型效能的同時,儘量減少不必要的長推理,以降低計算成本。對於簡單輸入,希望模型直接回答;對複雜輸入,則呼叫鏈式推理以獲得更好的答案。AdaCoT採用強化學習(PPO演算法)來動態調整觸發CoT的決策邊界
具體來說,透過在訓練中對模型加入懲罰項(penalty)來表示使用CoT的“花費”,並不斷調整該懲罰係數,模型會學到在何種隱含複雜度下才值得投入CoT。換言之,模型內部將隱式地為查詢打分,超過某複雜度就觸發CoT,否則直接輸出。選擇性損失遮蔽(Selective Loss Masking, SLM)是AdaCoT引入的一項技術細節,用於在多階段RL訓練中防止決策邊界坍塌。SLM透過只在合適的樣本上計算/傳播某些損失,保持“什麼時候用CoT”這一決策的穩定性,避免模型學到極端策略(比如始終不用或始終用CoT)。

訓練策略與推理機制:

在AdaCoT訓練過程中,設計了多階段的方案。開始階段可能給模型較寬鬆的CoT觸發策略,然後逐步透過調整懲罰讓模型更“吝嗇”地使用CoT。同時SLM確保在訓練的不同階段,模型既能探索新策略又不會遺忘之前學到的平衡。訓練時的獎勵由任務效能開銷代價兩個部分構成,使模型學會在準確率與效率間找到最佳折中。
推理時,AdaCoT增強的模型會為每個輸入計算一個隱含複雜度指標,內部與學到的閾值比較。如果複雜度高,則自動在回答前生成一段CoT思維過程;如果低,則直接輸出簡短答案。這種機制和前述Thinkless等類似,但AdaCoT更加強調透過不斷調整懲罰係數來達到Pareto最優,而非人為設定固定閾值。

實驗設定與結果:

在作者的實際產品流量測試集上,AdaCoT取得了顯著效果。它將CoT的觸發率降低到了僅3.18%(也就是隻有約3%的使用者查詢被認為需要詳細推理),同時平均響應字數減少了69.06%。更重要的是,對於真正複雜困難的問題,AdaCoT仍能保持高效能,與總是使用CoT的模型精度相當。這說明AdaCoT成功地在節省計算與保證效果之間找到了平衡。在簡單問題上幾乎總是直接答覆又快又好,而對那少部分複雜問題也不偷懶,該用CoT時還是會用。
除了產品資料,作者可能還在公開基準上測試以驗證通用性(雖然摘要中未詳述,但論文正文或附錄提到了所用評測資料集及結果)。總體而言,AdaCoT的模型在大幅減少推理開銷的同時,複雜任務表現接近原始模型,實現了令人滿意的效率提升。

創新與侷限:

AdaCoT的主要貢獻在於將自適應推理清晰地建模為多目標最佳化問題,並利用PPO強化學習給出了一個求解方案。尤其是引入選擇性損失遮蔽來解決訓練中策略坍塌問題,使多階段訓練順利進行。相比基於規則或啟發式的觸發策略,AdaCoT提供了理論指導的最佳化過程,可謂更“optimal”。
然而,該方法似乎未公佈開原始碼(文中未提及公開程式碼),加之涉及產品流量測試,可能屬於企業內部實現,這在復現性上是個限制。另外,AdaCoT訓練需要大量互動資料來摸索Pareto前沿,如果缺乏這種評估環境,小規模訓練效果未必理想。它的適用場景主要是工業部署的大模型,希望在實際流量中自動決策推理深度,平衡使用者體驗(速度)和效果。例如客服問答系統,可藉助AdaCoT減少簡單FAQ的延遲,同時確保疑難問題上不降低迴答質量。

9. Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL

https://arxiv.org/abs/2505.10832

方法與思路:

Songjun Tu等人提出AutoThink框架,旨在透過多階段強化學習來培養模型的自適應推理能力。他們的切入點是從一個特殊現象入手:在一種R1風格的深度推理模型(指經過類似OpenAI GPT-4 “推理加強版”微調的模型)上,作者發現只需在提示裡插入一個簡單的省略號“…”,就能隨機地觸發模型有時進行思考、有時直接回答的兩種行為。這個實驗暗示這些經過深度思考微調的模型潛在具有可控的推理開關,只是尚未被系統利用。
基於此,作者提出AutoThink,透過分階段的RL訓練逐步最佳化模型的推理策略:僅當必要時才顯式推理,否則儘量直接簡潔回答。多階段訓練中使用逐步獎勵塑形(stage-wise reward shaping),一開始給予較寬鬆標準,逐步收緊,讓模型慢慢學會準確判斷何時需要顯式chain-of-thought

訓練策略與推理機制:

AutoThink框架以R1風格蒸餾模型為基底(如DeepSeek-R1-Distill-Qwen等),這些模型原本傾向長鏈推理。第一步,利用前述發現的“省略號觸發”技巧,構造一個訓練環境:模型在帶有或不帶“…”的提示下表現出不同推理傾向,這提供了一個機率控制手段
接著,透過多階段RL,使用分層獎勵:例如,在初始階段,只要模型在簡單題上略微傾向少想就獎勵,逐步地,到最後只有在真正需要時才推理才給高分。這樣逐層逼近理想策略。為了防止訓練中策略不穩定,可能也採用類似AdaCoT的損失遮蔽或分離手段(文中未提SLM,但用了階段性reward shaping達到類似目的)。
最終,模型學會根據問題複雜度動態決策:難題觸發顯式思考,簡單題直接省略過程給答案。AutoThink的優勢在於可無縫整合到任意R1風格模型中,無需改變模型架構,僅透過最佳化策略即可。

實驗設定與結果:

在五個主流數學基準上測試表明,AutoThink在準確率-效率權衡上優於近期的一些提示策略和RL剪枝方法。具體地,針對DeepSeek-R1-Distill-Qwen-1.5B模型,AutoThink使其在保持甚至提升6.4%準確率的同時,將推理token使用減少52%。這意味著原本模型100步的推理現在用不到50步就解決了,而且正確率還更高了。
可見,AutoThink成功地又快又好:大幅度削減推理冗餘,反而因減少了出錯環節使準確率提高。這一結果非常突出,也再次證明了過度思考並不總是好事。AutoThink作為通用方法已被驗證可拓展到不同模型上,並且專案程式碼已開放,便於社群進一步使用和改進。

創新與侷限:

AutoThink的一個巧妙創新在於發現並利用了“…觸發模式”這種大模型意外的潛在功能,為實現自適應推理提供了簡潔方案。同時,多階段RL與獎勵塑形的結合,使模型策略最佳化循序漸進,避免一步到位的困難和不穩定。相比同時期其他工作,AutoThink直接報告了準確率提升,說明合理減少冗餘還能帶來正效應。
可能的侷限包括:主要聚焦數學領域,AutoThink在其他型別推理任務(如常識問答)上是否同樣有效需驗證;此外,它假定了已有一個“R1風格”強推理模型作為起點,對基礎模型的依賴可能限制其普適性。AutoThink的適用場景顯然是在需要大幅最佳化推理效率的場合,特別是當我們已經有一個效果強大的推理模型,希望在不損失太多精度下把它提速。如科研推理服務、數學助理等,都可透過AutoThink將模型調教得遇難則詳解,遇易不囉嗦

10. AdaptThink: Reasoning Models Can Learn When to Think

https://arxiv.org/abs/2505.13417

方法與思路:

Jiajie Zhang等人提出AdaptThink演算法,從RL訓練角度實現讓模型學會何時思考。他們首先證明了一個動機現象:對於相對簡單的任務,讓推理模型跳過思考直接給答案(NoThinking)在效能和效率上都是更優選擇。也就是說,面對簡單問題時,要求模型不展開chain-of-thought反而正確率更高、速度更快。由此出發,AdaptThink透過RL來教會模型根據問題難度自適應選擇最優思考模式。它具有兩個核心元件:
  • • 帶約束的最佳化目標:鼓勵模型儘可能選擇NoThinking直答,同時保持總體效能不下降。這類似在獎勵中加了約束條件,迫使模型傾向於無需思考即可解答,但又不給它隨便亂答的空間。
  • • 重要性取樣策略:在on-policy訓練時平衡有思考無思考樣本的比例。因為一開始模型可能偏好一直想或者一直不想,重要性取樣確保訓練時兩種模式都有足夠探索,讓模型冷啟動並持續地在兩種模式間探索與利用
綜合這兩個設計,AdaptThink讓模型在訓練過程中逐步掌握根據問題難易選擇模式的能力。

訓練策略與推理機制:

AdaptThink在RL訓練中採用了約束最佳化方法,可能使用拉格朗日乘子或者在獎勵函式中新增懲罰項來實現“鼓勵NoThinking但必須保證準確率”這一目標。重要性取樣則在每一訓練batch或episode中,調整取樣機率,使模型既看到自己使用Thinking模式的結果,也看到使用NoThinking的結果,從而不會陷入某一種模式不可自拔。
訓練後期,當模型掌握了模式選擇,可以想見其行為會類似於前述方法:簡單問題直接回答,困難問題詳加推理。與Thinkless不同,AdaptThink並未使用額外control token,而是透過純RL策略學出隱含的決策邊界。
推理階段,這個策略已融入模型引數,模型接到輸入後會內隱地判定難度並相應地產生簡短回答或詳細CoT。同一輸入下,AdaptThink模型相當於同時具備兩種行為的可能性,但會根據所學策略輸出最優模式的解答。

實驗設定與結果:

作者在三個數學資料集上測試了AdaptThink,物件同樣是DeepSeek-R1-Distill-Qwen-1.5B模型。結果非常令人鼓舞:AdaptThink使模型的平均響應長度減少了53%,同時準確率提高了2.4%。也就是推理字數砍半但效能不降反升。這充分說明,透過智慧地省略不必要的推理步驟,模型的整體質量不但未受損,反而有所提升——可能是因為減少了模型“自我糾結”反而更快速地到達正確答案。
這一實驗也再次驗證了NoThinking對簡單題更好這一假設,併成功將其融入模型策略。AdaptThink的程式碼和模型已開源,意味著社群可以直接使用訓練好的模型或進一步在自有資料上微調該策略。總的來看,AdaptThink顯著降低了推理成本,並額外帶來效能增益,證明了自適應思考模式選擇在實踐中切實可行且有優勢。

創新與侷限:

AdaptThink的創新體現在將直答模式與深度模式的權衡顯式融入RL最佳化目標,並透過重要性取樣解決了訓練過程中的模式稀疏問題。相較其他方法,AdaptThink更強調鼓勵無思考,其結果也表明大量查詢確實可以不用想就答而且答得更好。它和Concise Reasoning的理念有相通之處,即簡潔與準確並不矛盾
侷限方面,AdaptThink目前也是主要驗證在數學推理領域,適用性向其他任務拓展需要進一步研究。另外,它需要預先評估任務難度與模型能力的關係來設定合理的約束,比純粹的獎勵設計稍複雜。但這些不足並不影響其價值:在算術、邏輯等可判定對錯的任務上,AdaptThink提供了現成可用的高效解決方案。可適用於線上服務需要降低平均延遲的情況——模型可以對大量簡單提問快速響應,僅把少部分棘手問題花時間推理,從而整體提升吞吐量和使用者體驗。
同時,由於其訓練出的模型準確率還有提升,這對於需要高精度又要求速度的應用(如教育練習題解答、科學計算問答等)尤為具有吸引力。

結論

這10項研究從不同角度探討了提升大模型推理效率的方法,包括縮短推理鏈長度(如Concise Reasoning、ShorterBetter、ThinkPrune等)和自適應決策何時需要顯式推理(如Think Only When Needed、Thinkless、AdaCoT、AutoThink、AdaptThink等),以及利用並行直答替代推理(Reasoning Without Thinking)和動態提前終止推理(DEER)等特殊策略。
它們共同傳達出一個重要資訊:更長的思維鏈並不總是更好的,模型可以透過學習在保證準確的同時大幅減少冗餘思考。這些方法大多借助強化學習手段,結合精巧的策略設計(如特殊token、分離損失、懲罰係數調整等),賦予模型以“何時該慢想,何時該快答”的能力。
對比來看,不需額外訓練的方法(如DEER、NoThinking並行)實施簡單,直接在推理階段提升效率,但可能在極複雜任務上受限;而需要RL訓練的方法雖然成本較高,但效率收益顯著且往往還能保持甚至提高準確率。
在實際應用中,可以根據需求選擇不同策略:例如資源受限場景下,可用短鏈或不思考模式提高吞吐;對互動系統,可用自適應模式平衡響應速度和準確性。總之,讓AI模型學會像人一樣按需思考將是邁向更高階智慧的重要一步。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章