如今的Reasoning模型都不具備批判性思維！簡單問題，Overthinking！離譜

2025-08-25 18:41 機器學習演算法與自然語言處理

MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 深度學習自然語言處理

“宇宙終極問題的答案是42！”——科幻經典《銀河系漫遊指南》中，超級計算機用750萬年算出了一個荒誕答案。沒想到，現實中的大模型竟也上演了類似劇情：當被問到“a的值是多少”這種無解問題時，某頂尖推理模型瘋狂輸出幾千字“思考過程”，最後硬憋出個“2”……

左側是《銀河系漫遊指南》的42，右側是LLM生成的長篇大論

論文：Missing Premise exacerbates Overthinking:Are Reasoning Models losing Critical Thinking Skill?連結：https://arxiv.org/pdf/2504.06514

問題核心

MiP-Overthinking：當問題缺少關鍵資訊時，LLM會進入“死迴圈思考”。比如問“小明買了打折書花了19.5元，原價多少？”（故意隱藏折扣率），人類會立刻反問“打幾折？”，而LLM卻開始腦補：

假設折扣率是8折→計算
懷疑自己算錯→重新假設7折→再算
反覆糾結→最終瞎猜答案

對比人類與AI應對缺失前提問題的差異

實驗

研究團隊設計了四個“陷阱題庫”：

公式陷阱：直接問“ln(a+b)的值”（a、b未定義）
身體互換：把數學題的問題和題幹對調（如“吃餅乾”問題配“買鉛筆”的提問）
關鍵刪除：去掉必要條件（如刪除“每週跑3次”中的次數）
高階數學：手動刪除複雜題的關鍵條件

結果發現：越複雜的模型越容易中招！

發現

透過對比10+個主流模型，結論顛覆認知：

推理模型（如DeepSeek-R1）：遇到陷阱題時，回答長度暴漲2-4倍，但正確率幾乎為零
非推理模型（如GPT-4o）：回答簡潔，更快識破陷阱

不同模型在陷阱題上的回答長度對比

更扎心的是：推理模型其實早發現問題！資料顯示它們在前幾步就意識到“題目有問題”，但就像強迫症患者停不下來，繼續寫小作文自圓其說……

現場還原

來看某頂級模型的“迷惑行為大賞”：題目：計算((γ))+Ξ的值（γ、Ξ未定義）心路歷程：

懷疑是希臘數字→算出3+60=63
糾結括號含義→假設是程式設計符號
聯想化學符號→懷疑是表面張力
最終結論：答案是63！

（實際這題根本無解）

模型回答片段截圖，標註彩色思考路徑

一些啟發

論文戳破當前LLM Reasoning訓練的三大盲區：

獎勵機制偏差：RL訓練過度獎勵“長答案”
批判思維缺失：沒有教模型說“我不知道”
思維傳染性：蒸餾訓練會傳播過度思考

解決方向：

給LLM裝“剎車系統”：檢測到冗餘思考時強制停止
訓練“質疑能力”：增加識別無效問題的專項訓練

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章

大模型數學推理資料合成相關方法

大模型數學推理資料合成相關方法

科學家為大模型能力“湧現現象”提供實證反例，並進行心理學層面的解釋

科學家為大模型能力“湧現現象”提供實證反例，並進行心理學層面的解釋

超越DeepSeekV3！普林斯頓&北大提出ReasonFlux：層次化RL推理新正規化

超越DeepSeekV3！普林斯頓&北大提出ReasonFlux：層次化RL推理新正規化

8卡32B模型超越o1預覽版、DeepSeekV3，普林斯頓、北大提出層次化RL推理新正規化

8卡32B模型超越o1預覽版、DeepSeekV3，普林斯頓、北大提出層次化RL推理新正規化

多元推理重新整理「人類的最後考試」記錄，o3-mini（high）準確率最高飆升到37％

多元推理重新整理「人類的最後考試」記錄，o3-mini（high）準確率最高飆升到37％

輕鬆拿捏高等數學，LLM平均得分90+！GPT-4o、Mistral幾乎沒錯

輕鬆拿捏高等數學，LLM平均得分90+！GPT-4o、Mistral幾乎沒錯

科學家實現大模型動態選取推理，優於靜態推理技術等方法

科學家實現大模型動態選取推理，優於靜態推理技術等方法

對話|張憲：自主學習規則是大模型數學推理效能提升的關鍵

對話|張憲：自主學習規則是大模型數學推理效能提升的關鍵

全球首個「影片教學」基準！南洋理工、CMU釋出Video-MMMU

全球首個「影片教學」基準！南洋理工、CMU釋出Video-MMMU

揭秘DeepSeekR1-Zero訓練方式，GRPO還有極簡改進方案

揭秘DeepSeekR1-Zero訓練方式，GRPO還有極簡改進方案

Copyright © 2025 | WordPress Theme by MH Themes