中科院提出DEER:讓Reasoning提前退出,推理提速50%準確率漲10%

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
當LLM“想太多”怎麼辦?
想象你考試時反覆驗算同一道題,最後反而改錯了答案——這就是當前大型語言模型(如ChatGPT的“推理模式”)的困境。它們會像強迫症患者一樣生成冗長的推理步驟,不僅拖慢速度,還可能“想太多”導致出錯。

論文:DYNAMIC EARLY EXIT IN REASONING MODELS連結:https://arxiv.org/pdf/2504.15895

問題:長推理鏈的“雙刃劍”

關鍵矛盾:

  • 效率低:生成1000字分析只為一個選擇題答案
  • 易跑偏:過度推理可能引入錯誤資訊(比如強行給“1+1”編造複雜證明)

資料說話:

  • 75%的題目存在“珍珠推理點”(即提前退出也能答對)
  • 36.7%的題目只需不到一半的推理步驟即可答對

DEER如何實現“聰明剎車”?

核心邏輯

  1. 盯梢關鍵詞:監測“Wait”“Alternatively”等思考轉折詞
  2. 誘導試答:遇到轉折點時讓LLM先“交卷”
  3. 信心評估:若試答置信度夠高,直接終止思考 (其中的置信度計算(簡單理解:AI對自己答案的“自信程度”平均值)
舉個栗子🌰: AI在解數學題時突然出現“Wait”,DEER會立刻讓它輸出當前答案。如果此時答案置信度高達99%,就果斷喊停,避免後續無效思考。

並行decoding和KVCache管理

效果:推理效率翻倍,準確率不降反升

震撼資料

  • 推理長度縮短31-43% :相當於從寫作文變成列提綱
  • 準確率提升1.7-5.7% :少即是多的完美詮釋
  • 程式設計任務更誇張:程式碼生成長度減少64.9%,透過率反升

對比實驗

  • 用“Alternatively”代替“Wait”作剎車訊號,準確率更高但效率稍降

case:數學題中的“斷點”決策

看論文中的經典案例:
  • 原版推理:LLM反覆驗證導致死迴圈,最終超時未作答
  • DEER版:在第一次正確推理後立即剎車,成功得分

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章