浙大+阿里提出快慢思考新方法:在多模態Reasoning上準確率漲10%,長度砍半

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
為什麼大模型會“想太多”?
當你被問到“1+1等於幾”時,如果非要先寫一篇《論加法本源》再回答“2”,這就是典型的“過度思考”。當前的大型視覺語言模型(LVLM)也面臨同樣問題:無論問題難易,它們都會生成冗長的推理過程,導致效率低下,甚至因“話多必失”降低準確率。

論文:Fast-Slow Thinking for Large Vision-Language Model Reasoning連結:https://arxiv.org/pdf/2504.18458
如下表中簡單題反被長答案拖累:

論文將這種現象稱為“overthinking”,並指出其核心矛盾:
  • 簡單問題:長答案浪費算力,還可能引入錯誤細節
  • 複雜問題:短答案無法覆蓋關鍵推理步驟

傳統方法與FAST在準確率與推理長度上的對比

學會“偷懶”:FAST框架的三大絕招

FAST的核心是動態調節推理深度,其秘訣在於三個創新設計:

問題難度

  • 難度分:透過模型多次嘗試的正確率計算(公式:),即時判斷題目難度。
  • 複雜度分:結合影像紋理(GLCM熵)和語義(ViT分類熵),量化問題是否需要詳細推理(公式:)。

獎勵機制

  • 準確獎:答案正確+1分
  • 格式獎:按要求用標籤包裹答案+0.5分
  • 思維獎:簡單題答得短/難題答得長+0.5分(公式:動態調節長度獎勵,見下表對比)

動態剎車系統

透過KL散度係數控制模型“放飛自我”的程度:
  • 難題(如微積分):鬆開剎車(β趨近0.001),鼓勵探索
  • 簡單題(如識圖):踩緊剎車(β趨近0.03),避免跑偏

不同難度資料訓練對模型表現的影響

實驗:準確率飆升10%,推理長度砍半

論文在7個多模態推理基準測試中驗證FAST:
  • 準確率:相比基礎模型平均提升超10%,在MathVista等複雜任務中超越GPT-4o
  • 效率:推理長度比傳統“慢思考”方法減少32.7%-67.3%(如下表中R1-OneVision長度692 vs. FAST僅204)

  • 智慧平衡:對難題自動延長推理(如幾何題硬核模式長度+60%),簡單題則“秒答”

案例對比

技術靈魂:動態調節的“剎車”與“油門”

FAST最精妙的設計在於動態性
  • 資料篩選:訓練前期專攻難題(“慢思考”),後期專練速答(“快思考”)
  • 獎勵機制:不是一刀切鼓勵長或短,而是根據題目型別“按需分配”
  • 正則化調節:KL係數隨難度浮動,如同開車時自動切換經濟/運動模式
這種設計讓AI像人類一樣具備元認知能力——知道何時該深思熟慮,何時該果斷決策。
最後,論文也指出待解難題:如何讓模型自主判斷“未知問題”該快該慢?這可能成為下一階段的研究重點。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章