
最近,像 OpenAI o1/o3、DeepSeek-R1 這樣的大型推理模型(Large Reasoning Models,LRMs)透過加長「思考鏈」(Chain-of-Thought,CoT)在推理任務上表現驚豔。
但隨之而來的是一個日益嚴重的問題:它們太能「說」了!生成的推理過程往往充斥著冗餘資訊(比如反覆定義)、對簡單問題過度分析,以及對難題的探索淺嘗輒止。
正如 Qwen2.5-32B-Instruct 回答「3 的平方是多少」只需要 30 個 token,而它的 LRM 版本 QwQ-32B 卻能滔滔不絕地輸出 1248 個 token 來反覆驗證。
這種低效不僅拖慢了模型訓練和推理速度,也給實際應用(如智慧體系統)帶來了巨大挑戰。莎士比亞說:「簡潔是智慧的靈魂(Brevity is the soul of wit)」。在 LRM 時代,我們提出「效率是智慧的精髓(Efficiency is the essence of intelligence)」。
一個真正智慧的模型,應該懂得何時停止不必要的思考,明智地分配計算資源(token),最佳化求解路徑,用優雅的精確性平衡成本與效能。
上海AI Lab聯合 9 家單位,總結超過 250 篇相關論文,深入探討了當前提升 LRMs 思考效率的研究,聚焦於這個新正規化下的獨特挑戰。

-
論文標題:A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
-
論文連結:https://arxiv.org/pdf/2503.21614
-
程式碼倉庫:https://github.com/XiaoYee/Awesome_Efficient_LRM_Reasoning

圖表 1:綜述的主要結構,分類章節,以及未來重要的研究方向
思考效率:定義、常見模式與挑戰
在深入探討方法之前,我們先明確什麼是思考效率,看看 LRMs 通常在哪些方面表現「低效」,以及提升思考效率面臨哪些獨特挑戰。
思考效率的定義
我們從任務分佈的角度定義推理效率。對於一個 LRM 模型,其在任務分佈上的思考效率定義為:

其中,每個任務

被形式化定義為

,其中

代表一個數據集,而

是對應的質量。

是模型在任務

上的質量(如準確率、創造力等),

是計算成本(如 FLOPs、生成 token 數等)。簡單來說,提高效率要麼提升表現 Q,要麼降低成本 C。這個公式強調了效能與成本的權衡。
推理低效的常見模式
儘管長 CoT 有效,但 LRMs 常常表現出以下低效模式:
-
冗餘內容:模型輸出中充斥大量重複、冗餘的文字(如反覆複述問題),這些內容對最終答案幫助不大,卻增加了計算成本。
-
過度思考簡單問題:LRM 難以根據任務複雜度有效分配「思考預算」。即使是簡單問題(如 2+3=?),也可能生成多輪冗餘的驗證步驟。
-
不連貫與次優推理:這類現象稱為「欠思考」。模型頻繁地切換思考方向,導致推理過程淺顯、碎片化,增大了推理鏈的長度。
LRM 思考效率提升的獨特挑戰
提升 LRM 的推理效率面臨一些新的、獨特的挑戰:
-
量化推理效用:難以評估推理鏈中每一步的實際貢獻。這使得精確判斷哪些部分可以壓縮或刪減變得困難,在不犧牲效能的前提下追求簡潔成為一個微妙的平衡問題。
-
控制思考長度:長度控制一直是 LLM 的難題,在 LRM 中更顯關鍵。簡單的 token 級限制過於死板,無法適應推理的語義結構。如何讓模型「思考得恰到好處」,既不太淺以致遺漏邏輯,也不太深以致浪費計算,仍是一個懸而未決的問題。
-
超越 Transformer 架構瓶頸:現有 LRM 大多基於 Transformer,其二次複雜度在處理數千甚至更多 token 的長推理鏈時成為嚴重瓶頸。開發能夠處理長序列的新架構或高效近似方法至關重要。
-
跨任務泛化:不同任務需要不同的推理深度。單一的推理策略或長度策略難以適應所有任務。如何在保證跨領域魯棒性的同時實現效率,是一個複雜挑戰。
推理時如何更高效?

這一部分聚焦於在模型推理(生成答案)階段提升效率的方法,主要有四類策略:
長度預算(Length Budgeting)
最直接的方法是明確限制計算資源。
-
整體預算:透過特定提示詞或解碼策略來控制總 token 數或思考步數。
-
分步預算:引入規劃 token 來控制每步長度,或鼓勵生成簡潔的中間步驟。
-
動態預算:根據問題難度或模型置信度動態分配資源,或透過懲罰機制阻止不成熟的思考切換。
系統切換(System Switch)
借鑑人類思維的雙系統理論(System1 快直覺,System2 慢審慎)。
-
核心思想:讓模型根據任務情況在快速(類 System1)和慢速(類 System2)推理模式間切換,最佳化資源分配。
模型切換(Model Switch)
在不同複雜度的模型間分配計算任務。
-
核心思想:用小模型處理簡單部分/草稿,大模型處理困難部分/驗證,或根據任務動態選擇最合適的模型。
並行搜尋(Parallel Search)
提升 Best-of-N、Self-Consistency 等並行生成方法的效率。
-
核心思想:同時生成多個候選答案,但透過更智慧的策略減少總體計算量。
透過微調學習高效推理

監督微調(SFT)是讓模型學習遵循特定指令的常用方法。這一部分探討如何透過 SFT 讓 LRM 學會更高效地推理,主要分為兩類:
推理鏈壓縮(Reasoning Chain Compression)
-
核心思想:讓模型學習生成更簡潔、無冗餘的推理鏈。
潛空間微調(Latent-Space SFT)
-
核心思想:用連續的隱藏狀態(latent space)表示推理步驟,替代顯式的 token 生成。
如何用強化學習塑造高效推理?

強化學習(Reinforcement Learning,RL)已被證明能有效引導 LLM 發展深度推理能力(如 DeepSeek-R1)。這自然引出了一個想法:能否用 RL 更直接、更直觀地提升推理效率?目前的研究主要圍繞如何透過 RL 策略減少或控制推理軌跡的 token 使用,同時保持效能。
帶長度獎勵的強化學習(Efficient RL with Length Reward)
-
核心思想:在 RL 的獎勵函式中直接加入對長度的考量,通常是懲罰過長輸出。
-
實現方式如下:
1. 設定預算:
基於任務難度(透過成功率等指標量化)設定 token 長度預算,並據此設計獎勵。
在 prompt 中明確給出目標長度指令,並懲罰偏離目標的行為。
2. 歸一化獎勵:
將長度獎勵與基線模型(透過預取樣得到)的長度進行比較和歸一化。
在每個 prompt 內部進行長度懲罰歸一化。
使用相對於同問題下生成的最長/最短答案的歸一化長度因子作為獎勵。
3. 設計特定函式:
使用如餘弦函式形式的獎勵,在鼓勵有效推理步驟的同時,對過度增長的長度施加懲罰。
無長度獎勵的強化學習(Efficient RL without Length Reward)
-
核心思想:不直接在獎勵中加入長度項,而是透過改變 RL 框架或最佳化目標來間接實現效率。
從源頭提升效率:預訓練階段的探索

這一部分著眼於在模型預訓練階段就融入高效設計的思路,旨在從根本上提升計算效率和效能。主要有三條路線:
潛空間預訓練(Pretraining with Latent Space)
-
核心思想:使用連續表示(而非離散 token)作為預訓練的基本單元。
子二次注意力(Subquadratic Attention)
-
核心思想:用計算複雜度低於 O(N²) 的注意力機制替代標準自注意力,以應對長 CoT 帶來的長序列處理挑戰。
線性化(Linearization)
-
核心思想:將預訓練好的標準 Transformer 模型轉換為線性迴圈結構(如 RNN 或 SSM),以提升部署效率。
未來方向:路在何方?
針對 LRM 高效思考的研究尚處早期,未來有許多激動人心的方向值得探索:

高效多模態與影片推理(Efficient Multimodal and Video Reasoning)
-
現狀:CoT 推理在多模態領域(影像、影片)也顯示出重要作用,但是其過度思考的問題非常嚴重,效率研究不足。
高效測試時擴充套件與無限思考(Efficient Test-time Scaling and Infinity Thinking)
-
現狀:測試時擴充套件(增加思考時間/計算)是提升效能的直接方法,主要分並行取樣(增寬)和順序修正(加深)。
-
當前面臨如下挑戰:
-
並行:固定取樣數對簡單問題浪費計算,對複雜問題可能探索不足。 -
順序:推理鏈可能無限延長(「無限思考」),帶來巨大計算開銷和管理難題。 -
平衡:如何高效地平衡搜尋寬度和深度以最佳化延遲和資源?
高效且可信賴的推理(Efficient and Trustworthy Reasoning)
-
現狀:長 CoT 給 LRMs 的可信賴性帶來新挑戰,包括安全性和可靠性。
-
當前面臨如下挑戰:
-
安全:推理過程中可能暴露敏感資訊,即使最終答案安全。 -
可靠:長鏈更容易積累錯誤(幻覺),且 CoT 過程本身可能與模型內部實際「思考」不符(CoT 不忠實問題)。
構建高效推理應用(Building Efficient Reasoning Applications)
-
RAG:高效推理對動態、步進式檢索與推理,以及根據需要調整檢索鏈長度和數量至關重要。
-
Agent:LRM Agent 推理能力強,但計算開銷大,限制了即時性。需要高效推理來降低延遲、成本,並緩解過度思考。
-
Tool learning:需要結合分層推理、早停、並行執行、動態查詢路由等策略來提升呼叫外部工具的效率。
-
其他領域:編碼、自動駕駛、醫療、具身智慧等領域同樣需要高效推理。
評估與基準(Evaluation and Benchmark)
-
現狀:當前評估多集中於數學任務,比較準確率-token 權衡。
-
當前面臨如下挑戰:
-
需要更細粒度的指標來評估「過度思考」現象,區分有效推理和冗餘步驟。 -
需要評估推理效率是否犧牲了通用智慧(如創造力)。 -
缺乏專門用於衡量 LRM 過度推理傾向的基準。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]