MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 深度學習自然語言處理

大綱

背景：LLM學會“想太多”，人類開始頭疼
效率危機：“長篇大論”問題出在哪？
推理階段最佳化：學會“點到為止”
監督微調：思維做“瘦身手術”
強化學習：“決策直覺”
預訓練革新：從底層重塑高效思維
未來展望：推理的終極形態會是什麼？
總結：高效推理是進化的必經之路

當LLM學會“想太多”，我們開始頭疼

近年來，以DeepSeek-R1、OpenAI o1為代表的大型推理模型（LRMs）展現出驚人的複雜問題解決能力。它們像人類一樣透過“思維鏈”（Chain-of-Thought）逐步推導答案，但這種能力卻帶來了新煩惱——AI太能“碎碎念”了！

例如，面對一道小學數學題，傳統指令模型只需30個詞就能解答，而某LRM模型竟用了1248個詞，相當於寫一篇小作文。這種“過度思考”不僅浪費算力，在即時互動場景（如自動駕駛決策）中更可能引發災難。本文揭秘如何給LLM的“話癆”屬性對症下藥。

論文：A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond連結：https://arxiv.org/pdf/2503.21614

效率危機：“長篇大論”問題出在哪？

論文將推理效率定義為“單位計算成本獲得的解題質量”，並總結三大低效模式：

冗餘內容：反覆解釋題目，像學生湊作文字數
簡單問題複雜化：2+3=?也要列十種解法驗證
思維跳躍：遇到難題時淺嘗輒止，在多個思路間反覆橫跳

更嚴峻的是，傳統加速方法（如模型壓縮）對這類“思維冗長”束手無策。就像給跑車換輕量化零件，卻解決不了司機繞遠路的問題。

推理階段最佳化：讓LLM學會“點到為止”

當前最直接的解決方案是在推理過程中動態調控：

字數預算：像考試作文要求“不少於800字”，給AI設定詞數上限
雙系統切換：模仿人腦“快思考”與“慢思考”，簡單問題直覺反應，難題再啟動深度推理
模型路由：小模型處理簡單任務，大模型專攻硬骨頭，像醫院分診系統
並行搜尋：同時生成多個解題思路，及時淘汰低效路徑

這些方法已在部分場景實現推理長度縮減40%，但強制截斷可能導致關鍵步驟缺失，仍需更精細的控制策略。

監督微調：給思維做“瘦身手術”

透過訓練資料改造，“從源頭學會簡潔”：

推理鏈壓縮：用GPT-4當老師，把囉嗦的思維過程精簡成提綱
隱式推理：讓AI用“腦內活動”替代文字推導，像人類心算時不寫草稿

例如Coconut技術將傳統思維鏈替換為隱藏層狀態迴圈，推理速度提升17%。但這類方法可能讓AI變成“黑箱”，難以追溯錯誤根源。

強化學習：訓練“決策直覺”

透過獎勵機制塑造AI的“成本意識”：

詞數懲罰：答案正確但用詞過多？扣分！
動態平衡：根據題目難度自動調整思考深度，像老司機根據路況切換駕駛模式

實驗顯示，引入強化學習後模型在數學題上的冗餘推理減少58%，但過度最佳化可能導致AI在複雜問題上“躺平”，需要更智慧的獎勵設計。

預訓練革新：從底層重塑高效思維

從模型架構動刀，突破Transformer的限制：

線性注意力：將計算複雜度從平方級降至線性級，處理長文字不再卡頓
稀疏注意力：只關注關鍵資訊，像閱讀時跳讀無關段落
狀態空間模型：用類RNN結構記憶關鍵資訊，減少重複計算

這些變革讓模型在保持精度的同時，推理速度提升3倍以上，但與傳統架構的相容性仍是挑戰。

未來展望：推理的終極形態會是什麼？

論文勾勒出四大前沿方向：

多模態高效推理：讓AI看影片時不再逐幀分析，快速抓住關鍵幀
無限思考：像圍棋AI一樣邊推理邊總結，突破上下文長度限制
可信推理：既要簡潔又要可靠，避免“為了簡短胡說八道”
應用革命：在醫療診斷、自動駕駛等領域實現即時精準決策

未來的AI可能像福爾摩斯般精準犀利，用最少步驟直擊問題核心。

總結：高效推理是進化的必經之路

當AI學會“少即是多”，我們離真正的智慧就更近一步。這項研究不僅關乎算力節省，更是開啟通用人工智慧的關鍵鑰匙——畢竟，真正的智慧不在於能想多少，而在於如何想得巧。

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

dignews.cc

上海AILab釋出LLM高效Reasoning綜述！全面總結如何“少想多做”

大綱

當LLM學會“想太多”，我們開始頭疼

效率危機：“長篇大論”問題出在哪？

推理階段最佳化：讓LLM學會“點到為止”

監督微調：給思維做“瘦身手術”

強化學習：訓練“決策直覺”

預訓練革新：從底層重塑高效思維

未來展望：推理的終極形態會是什麼？

總結：高效推理是進化的必經之路

關於我們

相關文章

DeepMind最新研究：逆向思維訓練LLM可大幅提升AI推理能力

推理AI「腦補」成癮，廢話拉滿！馬里蘭華人學霸揭開內幕

“奇葩”程式設計題，僅OpenAI與一國產模型破解，來看看新AGI路線怎麼初露鋒芒

Kimi數理化能跟o1掰手腕了？新模型k1有點兒強

LLM實現自迴歸搜尋！MIT哈佛等提出「行動思維鏈」COAT，推理能力大提升

港理工提出TokenSkip：讓大模型在CoT中“跳”過冗餘token，壓縮40％，效能幾乎不降！

250多篇論文，上海AILab綜述推理大模型高效思考

從o1-mini到DeepSeek-R1，萬字長文帶你讀懂推理模型的歷史與技術

長鏈推理相關論文速覽

一手實測「豆包」深度思考模式：能超越DeepSeek嗎？