更多thinking≠更好結果,精準thinking可砍掉一半長度

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
大模型推理為什麼又長又囉嗦?
想象一下讓學霸解題:明明第一步就得出答案,卻非要反覆驗算十遍,還寫滿整張草稿紙——這就是當前大模型(如GPT-4、DeepSeek)的痛點!

論文:Optimizing Length Compression in Large Reasoning Models連結:https://arxiv.org/pdf/2506.14755
論文發現:模型在簡單題目上過度推理,生成大量無關步驟。比如解方程時,答案早出現了,後面全是"讓我再檢查一下…"的廢話。
如圖對比:普通模型像寫小作文,LC-R1訓練後像發微博

關鍵發現:模型在"無效思考"上浪費45%時間!

作者提出 "無效思考"(Invalid Thinking)概念:
定義:模型得出正確答案後繼續的冗餘驗證步驟量化指標 VT率:有效推理長度 ÷ 總推理長度
驚人資料:當前頂尖模型的平均VT率僅58-65%,意味著35-45%的計算資源在空轉
好比打車去3公里外吃飯,司機繞路開了6公里

解決原則:"簡短"和"夠用"的平衡術

傳統方法粗暴砍長度可能誤傷關鍵步驟。本文提出兩大原則:
  • Brevity(簡短):只保留必要推理,答案一齣立刻停筆
  • Sufficiency(夠用):確保關鍵邏輯步驟不丟失
類比烹飪:
  • 普通廚師:煮麵10分鐘,再煮5分鐘"確保熟透" → 冗餘
  • 智慧廚師:煮麵10分鐘,筷子一夾就關火 → Brevity+Sufficiency

LC-R1方法:雙獎勵機制的訓練魔法

核心方法:用強化學習給模型"植入條件反射"
  • 長度獎勵:整體輸出越短,獎勵越大(防囉嗦)
  • 壓縮獎勵:精準識別"無效思考"並刪除(防過度檢查)
關鍵操作當模型首次輸出正確答案時,立刻給</think>標記發"紅包"(獎勵),訓練它養成答完即停的習慣!
公式示意:壓縮獎勵 = 1 – (有效長度 / 原始長度)提前終止時罰分 -1(避免偷工減料)

效果驗證:砍掉一半長度,精度只掉2%

在7大測試集(數學/程式設計/邏輯題)中,LC-R1碾壓其他壓縮方法:
  • 平均縮短50%長度:從1萬token→5千token
  • 精度僅下降1.8-2.1% (其他方法降幅4-12%)
  • VT率飆升至97% (原模型僅58%)
如圖:LC-R1穩居帕累託前沿最優位置

案例對比:同一道數學題
  • 原始模型:寫1600字小作文(43%是廢話)
  • LC-R1:500字搞定,邏輯完整

彩蛋:壓縮後模型反而更"專注"?

  • 不影響探索能力:多次嘗試解題的成功率不變
  • 通殺難易題目:從小學數學到奧賽題,壓縮率穩定
"刪掉的真是純廢話,留著的全是乾貨!"

結語

LC-R1的價值不僅是技術突破,更揭示了模型推理的本質規律更多步驟≠更好結果,精準思考才是王道

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章