250多篇論文，上海AILab綜述推理大模型高效思考

2025-09-17 12:31 機器之心

最近，像 OpenAI o1/o3、DeepSeek-R1 這樣的大型推理模型（Large Reasoning Models，LRMs）透過加長「思考鏈」（Chain-of-Thought，CoT）在推理任務上表現驚豔。

但隨之而來的是一個日益嚴重的問題：它們太能「說」了！生成的推理過程往往充斥著冗餘資訊（比如反覆定義）、對簡單問題過度分析，以及對難題的探索淺嘗輒止。

正如 Qwen2.5-32B-Instruct 回答「3 的平方是多少」只需要 30 個 token，而它的 LRM 版本 QwQ-32B 卻能滔滔不絕地輸出 1248 個 token 來反覆驗證。

這種低效不僅拖慢了模型訓練和推理速度，也給實際應用（如智慧體系統）帶來了巨大挑戰。莎士比亞說：「簡潔是智慧的靈魂（Brevity is the soul of wit）」。在 LRM 時代，我們提出「效率是智慧的精髓（Efficiency is the essence of intelligence）」。

一個真正智慧的模型，應該懂得何時停止不必要的思考，明智地分配計算資源（token），最佳化求解路徑，用優雅的精確性平衡成本與效能。

上海AI Lab聯合 9 家單位，總結超過 250 篇相關論文，深入探討了當前提升 LRMs 思考效率的研究，聚焦於這個新正規化下的獨特挑戰。

論文標題：A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
論文連結：https://arxiv.org/pdf/2503.21614
程式碼倉庫：https://github.com/XiaoYee/Awesome_Efficient_LRM_Reasoning

圖表 1：綜述的主要結構，分類章節，以及未來重要的研究方向

思考效率：定義、常見模式與挑戰

在深入探討方法之前，我們先明確什麼是思考效率，看看 LRMs 通常在哪些方面表現「低效」，以及提升思考效率面臨哪些獨特挑戰。

思考效率的定義

我們從任務分佈的角度定義推理效率。對於一個 LRM 模型，其在任務分佈上的思考效率定義為：

其中，每個任務

被形式化定義為

，其中

代表一個數據集，而

是對應的質量。

是模型在任務

上的質量（如準確率、創造力等），

是計算成本（如 FLOPs、生成 token 數等）。簡單來說，提高效率要麼提升表現 Q，要麼降低成本 C。這個公式強調了效能與成本的權衡。

推理低效的常見模式

儘管長 CoT 有效，但 LRMs 常常表現出以下低效模式：

冗餘內容：模型輸出中充斥大量重複、冗餘的文字（如反覆複述問題），這些內容對最終答案幫助不大，卻增加了計算成本。

過度思考簡單問題：LRM 難以根據任務複雜度有效分配「思考預算」。即使是簡單問題（如 2+3=?），也可能生成多輪冗餘的驗證步驟。

不連貫與次優推理：這類現象稱為「欠思考」。模型頻繁地切換思考方向，導致推理過程淺顯、碎片化，增大了推理鏈的長度。

LRM 思考效率提升的獨特挑戰

提升 LRM 的推理效率面臨一些新的、獨特的挑戰：

量化推理效用：難以評估推理鏈中每一步的實際貢獻。這使得精確判斷哪些部分可以壓縮或刪減變得困難，在不犧牲效能的前提下追求簡潔成為一個微妙的平衡問題。

控制思考長度：長度控制一直是 LLM 的難題，在 LRM 中更顯關鍵。簡單的 token 級限制過於死板，無法適應推理的語義結構。如何讓模型「思考得恰到好處」，既不太淺以致遺漏邏輯，也不太深以致浪費計算，仍是一個懸而未決的問題。

超越 Transformer 架構瓶頸：現有 LRM 大多基於 Transformer，其二次複雜度在處理數千甚至更多 token 的長推理鏈時成為嚴重瓶頸。開發能夠處理長序列的新架構或高效近似方法至關重要。

跨任務泛化：不同任務需要不同的推理深度。單一的推理策略或長度策略難以適應所有任務。如何在保證跨領域魯棒性的同時實現效率，是一個複雜挑戰。

推理時如何更高效？

這一部分聚焦於在模型推理（生成答案）階段提升效率的方法，主要有四類策略：

長度預算（Length Budgeting）

最直接的方法是明確限制計算資源。

整體預算：透過特定提示詞或解碼策略來控制總 token 數或思考步數。

分步預算：引入規劃 token 來控制每步長度，或鼓勵生成簡潔的中間步驟。

動態預算：根據問題難度或模型置信度動態分配資源，或透過懲罰機制阻止不成熟的思考切換。

系統切換（System Switch）

借鑑人類思維的雙系統理論（System1 快直覺，System2 慢審慎）。

核心思想：讓模型根據任務情況在快速（類 System1）和慢速（類 System2）推理模式間切換，最佳化資源分配。

模型切換（Model Switch）

在不同複雜度的模型間分配計算任務。

核心思想：用小模型處理簡單部分/草稿，大模型處理困難部分/驗證，或根據任務動態選擇最合適的模型。

並行搜尋（Parallel Search）

提升 Best-of-N、Self-Consistency 等並行生成方法的效率。

核心思想：同時生成多個候選答案，但透過更智慧的策略減少總體計算量。

透過微調學習高效推理

監督微調（SFT）是讓模型學習遵循特定指令的常用方法。這一部分探討如何透過 SFT 讓 LRM 學會更高效地推理，主要分為兩類：

推理鏈壓縮（Reasoning Chain Compression）

核心思想：讓模型學習生成更簡潔、無冗餘的推理鏈。

潛空間微調（Latent-Space SFT）

核心思想：用連續的隱藏狀態（latent space）表示推理步驟，替代顯式的 token 生成。

如何用強化學習塑造高效推理？

強化學習（Reinforcement Learning，RL）已被證明能有效引導 LLM 發展深度推理能力（如 DeepSeek-R1）。這自然引出了一個想法：能否用 RL 更直接、更直觀地提升推理效率？目前的研究主要圍繞如何透過 RL 策略減少或控制推理軌跡的 token 使用，同時保持效能。

帶長度獎勵的強化學習（Efficient RL with Length Reward）

核心思想：在 RL 的獎勵函式中直接加入對長度的考量，通常是懲罰過長輸出。

實現方式如下：

1. 設定預算：

基於任務難度（透過成功率等指標量化）設定 token 長度預算，並據此設計獎勵。

在 prompt 中明確給出目標長度指令，並懲罰偏離目標的行為。

2. 歸一化獎勵：

將長度獎勵與基線模型（透過預取樣得到）的長度進行比較和歸一化。

在每個 prompt 內部進行長度懲罰歸一化。

使用相對於同問題下生成的最長/最短答案的歸一化長度因子作為獎勵。

3. 設計特定函式：

使用如餘弦函式形式的獎勵，在鼓勵有效推理步驟的同時，對過度增長的長度施加懲罰。

無長度獎勵的強化學習（Efficient RL without Length Reward）

核心思想：不直接在獎勵中加入長度項，而是透過改變 RL 框架或最佳化目標來間接實現效率。

從源頭提升效率：預訓練階段的探索

這一部分著眼於在模型預訓練階段就融入高效設計的思路，旨在從根本上提升計算效率和效能。主要有三條路線：

潛空間預訓練（Pretraining with Latent Space）

核心思想：使用連續表示（而非離散 token）作為預訓練的基本單元。

子二次注意力（Subquadratic Attention）

核心思想：用計算複雜度低於 O(N²) 的注意力機制替代標準自注意力，以應對長 CoT 帶來的長序列處理挑戰。

線性化（Linearization）

核心思想：將預訓練好的標準 Transformer 模型轉換為線性迴圈結構（如 RNN 或 SSM），以提升部署效率。

未來方向：路在何方？

針對 LRM 高效思考的研究尚處早期，未來有許多激動人心的方向值得探索：

高效多模態與影片推理（Efficient Multimodal and Video Reasoning）

現狀：CoT 推理在多模態領域（影像、影片）也顯示出重要作用，但是其過度思考的問題非常嚴重，效率研究不足。

高效測試時擴充套件與無限思考（Efficient Test-time Scaling and Infinity Thinking）

現狀：測試時擴充套件（增加思考時間/計算）是提升效能的直接方法，主要分並行取樣（增寬）和順序修正（加深）。

當前面臨如下挑戰：

並行：固定取樣數對簡單問題浪費計算，對複雜問題可能探索不足。
順序：推理鏈可能無限延長（「無限思考」），帶來巨大計算開銷和管理難題。
平衡：如何高效地平衡搜尋寬度和深度以最佳化延遲和資源？

高效且可信賴的推理（Efficient and Trustworthy Reasoning）

現狀：長 CoT 給 LRMs 的可信賴性帶來新挑戰，包括安全性和可靠性。

當前面臨如下挑戰：

安全：推理過程中可能暴露敏感資訊，即使最終答案安全。
可靠：長鏈更容易積累錯誤（幻覺），且 CoT 過程本身可能與模型內部實際「思考」不符（CoT 不忠實問題）。

構建高效推理應用（Building Efficient Reasoning Applications）

RAG：高效推理對動態、步進式檢索與推理，以及根據需要調整檢索鏈長度和數量至關重要。

Agent：LRM Agent 推理能力強，但計算開銷大，限制了即時性。需要高效推理來降低延遲、成本，並緩解過度思考。

Tool learning：需要結合分層推理、早停、並行執行、動態查詢路由等策略來提升呼叫外部工具的效率。

其他領域：編碼、自動駕駛、醫療、具身智慧等領域同樣需要高效推理。

評估與基準（Evaluation and Benchmark）

現狀：當前評估多集中於數學任務，比較準確率-token 權衡。

當前面臨如下挑戰：

需要更細粒度的指標來評估「過度思考」現象，區分有效推理和冗餘步驟。
需要評估推理效率是否犧牲了通用智慧（如創造力）。
缺乏專門用於衡量 LRM 過度推理傾向的基準。

© THE END

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]

相關文章

DeepSeekR1也會大腦過載？UC伯克利等新作揭示：少琢磨讓計算成本直降43％

DeepSeekR1也會大腦過載？UC伯克利等新作揭示：少琢磨讓計算成本直降43％

首款內嵌DeepSeek手機曝光/馬斯克稱對收購TikTok不感興趣/奧特曼暗示GPT-5超越人類智慧|HuntGood週報

首款內嵌DeepSeek手機曝光/馬斯克稱對收購TikTok不感興趣/奧特曼暗示GPT-5超越人類智慧|HuntGood週報

OpenAI破大防，拒絕率從98％驟降2％！陳怡然團隊提出全新思維鏈劫持攻擊

OpenAI破大防，拒絕率從98％驟降2％！陳怡然團隊提出全新思維鏈劫持攻擊

港理工提出TokenSkip：讓大模型在CoT中“跳”過冗餘token，壓縮40％，效能幾乎不降！

港理工提出TokenSkip：讓大模型在CoT中“跳”過冗餘token，壓縮40％，效能幾乎不降！

全新CoD顛覆推理正規化，準確率接近但token消耗成倍降低

全新CoD顛覆推理正規化，準確率接近但token消耗成倍降低

打破自迴歸模型的“速度枷鎖”！NYU、賓大等釋出「推測解碼技術」最新綜述

打破自迴歸模型的“速度枷鎖”！NYU、賓大等釋出「推測解碼技術」最新綜述

Rho-1：基於選擇token建模的預訓練方法

Rho-1：基於選擇token建模的預訓練方法

4500美元復刻DeepSeek神話，1.5B戰勝o1-preview只用RL！訓練細節全公開

4500美元復刻DeepSeek神話，1.5B戰勝o1-preview只用RL！訓練細節全公開

長文字有了專屬困惑度！北大、MIT、阿里推出LongPPL新指標

長文字有了專屬困惑度！北大、MIT、阿里推出LongPPL新指標

超越DeepSeek-R1關鍵RL演算法GRPO，CMU「元強化微調」新正規化登場

超越DeepSeek-R1關鍵RL演算法GRPO，CMU「元強化微調」新正規化登場

Copyright © 2025 | WordPress Theme by MH Themes