250多篇論文,上海AILab綜述推理大模型高效思考

最近,像 OpenAI o1/o3、DeepSeek-R1 這樣的大型推理模型(Large Reasoning Models,LRMs)透過加長「思考鏈」(Chain-of-Thought,CoT)在推理任務上表現驚豔。
但隨之而來的是一個日益嚴重的問題:它們太能「說」了!生成的推理過程往往充斥著冗餘資訊(比如反覆定義)、對簡單問題過度分析,以及對難題的探索淺嘗輒止。
正如 Qwen2.5-32B-Instruct 回答「3 的平方是多少」只需要 30 個 token,而它的 LRM 版本 QwQ-32B 卻能滔滔不絕地輸出 1248 個 token 來反覆驗證。
這種低效不僅拖慢了模型訓練和推理速度,也給實際應用(如智慧體系統)帶來了巨大挑戰。莎士比亞說:「簡潔是智慧的靈魂(Brevity is the soul of wit)」。在 LRM 時代,我們提出「效率是智慧的精髓(Efficiency is the essence of intelligence)」。
一個真正智慧的模型,應該懂得何時停止不必要的思考,明智地分配計算資源(token),最佳化求解路徑,用優雅的精確性平衡成本與效能。
上海AI Lab聯合 9 家單位,總結超過 250 篇相關論文,深入探討了當前提升 LRMs 思考效率的研究,聚焦於這個新正規化下的獨特挑戰。
  • 論文標題:A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
  • 論文連結https://arxiv.org/pdf/2503.21614
  • 程式碼倉庫:https://github.com/XiaoYee/Awesome_Efficient_LRM_Reasoning
圖表 1:綜述的主要結構,分類章節,以及未來重要的研究方向

思考效率:定義、常見模式與挑戰

在深入探討方法之前,我們先明確什麼是思考效率,看看 LRMs 通常在哪些方面表現「低效」,以及提升思考效率面臨哪些獨特挑戰。

思考效率的定義

我們從任務分佈的角度定義推理效率。對於一個 LRM 模型,其在任務分佈上的思考效率定義為:
其中,每個任務

被形式化定義為

,其中

代表一個數據集,而

是對應的質量。

是模型在任務

上的質量(如準確率、創造力等),

是計算成本(如 FLOPs、生成 token 數等)。簡單來說,提高效率要麼提升表現 Q,要麼降低成本 C。這個公式強調了效能與成本的權衡。

推理低效的常見模式

儘管長 CoT 有效,但 LRMs 常常表現出以下低效模式:
  • 冗餘內容:模型輸出中充斥大量重複、冗餘的文字(如反覆複述問題),這些內容對最終答案幫助不大,卻增加了計算成本。
  • 過度思考簡單問題:LRM 難以根據任務複雜度有效分配「思考預算」。即使是簡單問題(如 2+3=?),也可能生成多輪冗餘的驗證步驟。
  • 不連貫與次優推理:這類現象稱為「欠思考」。模型頻繁地切換思考方向,導致推理過程淺顯、碎片化,增大了推理鏈的長度。

LRM 思考效率提升的獨特挑戰

提升 LRM 的推理效率面臨一些新的、獨特的挑戰:
  • 量化推理效用:難以評估推理鏈中每一步的實際貢獻。這使得精確判斷哪些部分可以壓縮或刪減變得困難,在不犧牲效能的前提下追求簡潔成為一個微妙的平衡問題。
  • 控制思考長度:長度控制一直是 LLM 的難題,在 LRM 中更顯關鍵。簡單的 token 級限制過於死板,無法適應推理的語義結構。如何讓模型「思考得恰到好處」,既不太淺以致遺漏邏輯,也不太深以致浪費計算,仍是一個懸而未決的問題。
  • 超越 Transformer 架構瓶頸:現有 LRM 大多基於 Transformer,其二次複雜度在處理數千甚至更多 token 的長推理鏈時成為嚴重瓶頸。開發能夠處理長序列的新架構或高效近似方法至關重要。
  • 跨任務泛化:不同任務需要不同的推理深度。單一的推理策略或長度策略難以適應所有任務。如何在保證跨領域魯棒性的同時實現效率,是一個複雜挑戰。

推理時如何更高效?

這一部分聚焦於在模型推理(生成答案)階段提升效率的方法,主要有四類策略:

長度預算(Length Budgeting)

最直接的方法是明確限制計算資源。
  • 整體預算:透過特定提示詞或解碼策略來控制總 token 數或思考步數。
  • 分步預算:引入規劃 token 來控制每步長度,或鼓勵生成簡潔的中間步驟。
  • 動態預算:根據問題難度或模型置信度動態分配資源,或透過懲罰機制阻止不成熟的思考切換。

系統切換(System Switch)

借鑑人類思維的雙系統理論(System1 快直覺,System2 慢審慎)。
  • 核心思想:讓模型根據任務情況在快速(類 System1)和慢速(類 System2)推理模式間切換,最佳化資源分配。

模型切換(Model Switch)

在不同複雜度的模型間分配計算任務。
  • 核心思想:用小模型處理簡單部分/草稿,大模型處理困難部分/驗證,或根據任務動態選擇最合適的模型。

並行搜尋(Parallel Search)

提升 Best-of-N、Self-Consistency 等並行生成方法的效率。
  • 核心思想:同時生成多個候選答案,但透過更智慧的策略減少總體計算量。

透過微調學習高效推理

監督微調(SFT)是讓模型學習遵循特定指令的常用方法。這一部分探討如何透過 SFT 讓 LRM 學會更高效地推理,主要分為兩類:

推理鏈壓縮(Reasoning Chain Compression)

  • 核心思想:讓模型學習生成更簡潔、無冗餘的推理鏈。

潛空間微調(Latent-Space SFT)

  • 核心思想:用連續的隱藏狀態(latent space)表示推理步驟,替代顯式的 token 生成。

如何用強化學習塑造高效推理?

強化學習(Reinforcement Learning,RL)已被證明能有效引導 LLM 發展深度推理能力(如 DeepSeek-R1)。這自然引出了一個想法:能否用 RL 更直接、更直觀地提升推理效率?目前的研究主要圍繞如何透過 RL 策略減少或控制推理軌跡的 token 使用,同時保持效能。

帶長度獎勵的強化學習(Efficient RL with Length Reward)

  • 核心思想:在 RL 的獎勵函式中直接加入對長度的考量,通常是懲罰過長輸出。
  • 實現方式如下
1. 設定預算
基於任務難度(透過成功率等指標量化)設定 token 長度預算,並據此設計獎勵。
在 prompt 中明確給出目標長度指令,並懲罰偏離目標的行為。
2. 歸一化獎勵
將長度獎勵與基線模型(透過預取樣得到)的長度進行比較和歸一化。
在每個 prompt 內部進行長度懲罰歸一化。
使用相對於同問題下生成的最長/最短答案的歸一化長度因子作為獎勵。
3. 設計特定函式
使用如餘弦函式形式的獎勵,在鼓勵有效推理步驟的同時,對過度增長的長度施加懲罰。

無長度獎勵的強化學習(Efficient RL without Length Reward)

  • 核心思想:不直接在獎勵中加入長度項,而是透過改變 RL 框架或最佳化目標來間接實現效率。

從源頭提升效率:預訓練階段的探索

這一部分著眼於在模型預訓練階段就融入高效設計的思路,旨在從根本上提升計算效率和效能。主要有三條路線:

潛空間預訓練(Pretraining with Latent Space)

  • 核心思想:使用連續表示(而非離散 token)作為預訓練的基本單元。
子二次注意力(Subquadratic Attention)
  • 核心思想:用計算複雜度低於 O(N²) 的注意力機制替代標準自注意力,以應對長 CoT 帶來的長序列處理挑戰。
線性化(Linearization)
  • 核心思想:將預訓練好的標準 Transformer 模型轉換為線性迴圈結構(如 RNN 或 SSM),以提升部署效率。

未來方向:路在何方?

針對 LRM 高效思考的研究尚處早期,未來有許多激動人心的方向值得探索:

高效多模態與影片推理(Efficient Multimodal and Video Reasoning)

  • 現狀:CoT 推理在多模態領域(影像、影片)也顯示出重要作用,但是其過度思考的問題非常嚴重,效率研究不足。

高效測試時擴充套件與無限思考(Efficient Test-time Scaling and Infinity Thinking)

  • 現狀:測試時擴充套件(增加思考時間/計算)是提升效能的直接方法,主要分並行取樣(增寬)和順序修正(加深)。
  • 當前面臨如下挑戰
  • 並行:固定取樣數對簡單問題浪費計算,對複雜問題可能探索不足。
  • 順序:推理鏈可能無限延長(「無限思考」),帶來巨大計算開銷和管理難題。
  • 平衡:如何高效地平衡搜尋寬度和深度以最佳化延遲和資源?

高效且可信賴的推理(Efficient and Trustworthy Reasoning)

  • 現狀:長 CoT 給 LRMs 的可信賴性帶來新挑戰,包括安全性和可靠性。
  • 當前面臨如下挑戰
  • 安全:推理過程中可能暴露敏感資訊,即使最終答案安全。
  • 可靠:長鏈更容易積累錯誤(幻覺),且 CoT 過程本身可能與模型內部實際「思考」不符(CoT 不忠實問題)。

構建高效推理應用(Building Efficient Reasoning Applications)

  • RAG:高效推理對動態、步進式檢索與推理,以及根據需要調整檢索鏈長度和數量至關重要。
  • Agent:LRM Agent 推理能力強,但計算開銷大,限制了即時性。需要高效推理來降低延遲、成本,並緩解過度思考。
  • Tool learning:需要結合分層推理、早停、並行執行、動態查詢路由等策略來提升呼叫外部工具的效率。
  • 其他領域:編碼、自動駕駛、醫療、具身智慧等領域同樣需要高效推理。

評估與基準(Evaluation and Benchmark)

  • 現狀:當前評估多集中於數學任務,比較準確率-token 權衡。
  • 當前面臨如下挑戰
  • 需要更細粒度的指標來評估「過度思考」現象,區分有效推理和冗餘步驟。
  • 需要評估推理效率是否犧牲了通用智慧(如創造力)。
  • 缺乏專門用於衡量 LRM 過度推理傾向的基準。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章