中科院提出DEER：讓Reasoning提前退出，推理提速50％準確率漲10％

2025-07-26 16:00 機器學習演算法與自然語言處理

MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 深度學習自然語言處理

當LLM“想太多”怎麼辦？

想象你考試時反覆驗算同一道題，最後反而改錯了答案——這就是當前大型語言模型（如ChatGPT的“推理模式”）的困境。它們會像強迫症患者一樣生成冗長的推理步驟，不僅拖慢速度，還可能“想太多”導致出錯。

論文：DYNAMIC EARLY EXIT IN REASONING MODELS連結：https://arxiv.org/pdf/2504.15895

問題：長推理鏈的“雙刃劍”

關鍵矛盾：

效率低：生成1000字分析只為一個選擇題答案
易跑偏：過度推理可能引入錯誤資訊（比如強行給“1+1”編造複雜證明）

資料說話：

75%的題目存在“珍珠推理點”（即提前退出也能答對）
36.7%的題目只需不到一半的推理步驟即可答對

DEER如何實現“聰明剎車”？

核心邏輯

盯梢關鍵詞：監測“Wait”“Alternatively”等思考轉折詞
誘導試答：遇到轉折點時讓LLM先“交卷”
信心評估：若試答置信度夠高，直接終止思考（其中的置信度計算（簡單理解：AI對自己答案的“自信程度”平均值）

舉個栗子🌰： AI在解數學題時突然出現“Wait”，DEER會立刻讓它輸出當前答案。如果此時答案置信度高達99%，就果斷喊停，避免後續無效思考。

並行decoding和KVCache管理

效果：推理效率翻倍，準確率不降反升

震撼資料

推理長度縮短31-43% ：相當於從寫作文變成列提綱
準確率提升1.7-5.7% ：少即是多的完美詮釋
程式設計任務更誇張：程式碼生成長度減少64.9%，透過率反升

對比實驗

用“Alternatively”代替“Wait”作剎車訊號，準確率更高但效率稍降

case：數學題中的“斷點”決策

看論文中的經典案例：

原版推理：LLM反覆驗證導致死迴圈，最終超時未作答
DEER版：在第一次正確推理後立即剎車，成功得分

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章

從零開始繪製DeepSeekR1架構和訓練流程

從零開始繪製DeepSeekR1架構和訓練流程

國內12家主流大模型，誰是地表最強？親測後發現是它！…

國內12家主流大模型，誰是地表最強？親測後發現是它！…

如何用RL來提升大模型效能

如何用RL來提升大模型效能

新研究揭示DeepSeek/o3弱點：頻繁切換思路放棄正確方向，最短答案往往就是對的！

新研究揭示DeepSeek/o3弱點：頻繁切換思路放棄正確方向，最短答案往往就是對的！

用極小模型復現R1思維鏈的失敗感悟

用極小模型復現R1思維鏈的失敗感悟

推理AI「腦補」成癮，廢話拉滿！馬里蘭華人學霸揭開內幕

推理AI「腦補」成癮，廢話拉滿！馬里蘭華人學霸揭開內幕

驚爆老外的DeepSeek-R1到底多強？實測高考真題，仍存4個短板

驚爆老外的DeepSeek-R1到底多強？實測高考真題，仍存4個短板

開源22萬條DeepSeekR1的高質量資料！你也能復現DeepSeek了

開源22萬條DeepSeekR1的高質量資料！你也能復現DeepSeek了

DeepSeekR1遇難題142次“Igiveup”，研究還稱需增加推理時機控制機制

DeepSeekR1遇難題142次“Igiveup”，研究還稱需增加推理時機控制機制

2025美國最新奧數題，讓大模型集體翻車，DeepSeekR1平均分也不到5％

2025美國最新奧數題，讓大模型集體翻車，DeepSeekR1平均分也不到5％

Copyright © 2025 | WordPress Theme by MH Themes