新研究揭示DeepSeek/o3弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的!

來源:量子位(ID: QbitAI)
作者:關注前沿科技
DeepSeek和o1/o3一類推理大模型持續帶來震撼之際,有人開始研究他們的弱點了
最新研究揭示:
在遇到高難度問題時,推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路,卻因缺乏深入探索而失敗——這種現象被研究者稱為Underthinking(欠思考)
研究團隊來自騰訊AI實驗室、蘇州大學和上海交通大學,主要研究物件是開源的DeepSeek-R1和Qwen QwQ系列模型。
透過分析AI的錯誤答案,他們發現當前的推理大模型經常在思考早期就走上了正確的路線,但傾向於“淺嘗輒止”,很快開始探索別的思路,導致後續生成的數千個tokens對解題毫無貢獻。
這種“無效努力”不僅浪費計算資源,還顯著降低了答案的正確率。

“三心二意”是罪魁禍首

這一現象在解決數學競賽題等更為複雜任務時尤為明顯。
為了系統分析,團隊在三個具有挑戰性的測試集MATH500、GPQA Diamond和AIME2024上,對類o1模型QwQ-32B-Preview、DeepSeek-R1-671B等進行了實驗。
下圖比較了正確和錯誤回答中的token使用量和思維切換次數。平均來看,類o1模型在錯誤回答中比正確回答多消耗了225%的token,原因是思維切換頻率增加了418%。
為了深入分析這一現象,研究團隊開發了一套評估框架,用於判斷被放棄的推理路徑是否實際上足以推匯出正確答案。
結果觀察到,許多模型在回答開頭階段的思路是正確的,但並未繼續深入完成推理。
超過70%的錯誤回答中至少包含一個正確的思路。此外,在超過50%的錯誤回答中,有10%以上的思路是正確的。
如下圖所示的例子,例如,Thought 1透過識別給定方程類似於以(0,0)和(20,11)為中心的橢圓方程,啟動了正確的解釋。將兩個表示式設為相等,是尋找滿足這兩個方程的公共點(x, y)的有效方法。
然而,模型並未專注於深入探索這一合理思路,使用進一步的代數操作和最佳化技術進行分析,而是頻繁切換思路,額外消耗了約7270個token,卻依然未能得出正確答案。
最終,它得出一個缺乏擴充套件COT過程支援的猜測答案。
基於這些觀察,研究人員提出了一個用於量化Underthinking程度的指標(Underthinking Metric)
這個指標透過測量錯誤答案中的token使用效率來評估推理效率,計算從回答開始到第一個正確思路出現所需的token數量與總token數量的比值。
實驗結果表明,所有測試的類o1模型都存在顯著的思維不足問題。模型的準確率與思維不足之間的關係在不同資料集上表現各異。
在MATH500-Hard和GPQA Diamond資料集上,效能更優的DeepSeek-R1-671B模型在取得更高準確率的同時,其UT得分也更高,表明錯誤回答中存在更多思維不足。
這意味著,儘管模型整體能力更強,但在不確定時可能生成更長但效率較低的推理過程,可能是因為模型探索了多個錯誤的推理路徑,卻未能有效收斂到正確解答。
相反,在AIME2024測試集中,DeepSeek-R1-671B模型不僅取得了更高的準確率,還表現出較低的UT得分,反映出較少的思維不足和更高的token效率。
這表明模型在該任務中,即使未得出正確答案,其推理過程依然保持專注和高效,團隊表示這可能是因為模型與 AIME2024所要求的問題型別和推理過程更好地對齊。
理解思維不足現象對於開發能夠提供正確答案並具備有效推理過程的模型至關重要。

如何讓AI學會“一心一意”

如何讓模型像優秀學生一樣“沉下心來鑽研”?
研究者借鑑了人類考試策略,提出了一種“思路切換懲罰機制”(Thought Switching Penalty,TIP)
其原理類似於考試時給自己定規矩:“先專注當前方法,至少嘗試10分鐘再換思路”。
技術細節上,TIP會對觸發思路切換的關鍵詞施加懲罰,降低這些詞在解碼過程中的生成機率,迫使模型在當前路徑上探索更久。
例如,當模型開始寫“Alternatively, we can consider…”時,TIP會透過調整引數(懲罰強度α和持續時間β),抑制這種過早的切換傾向。
實驗結果顯示,加入TIP能讓模型在數學測試上的準確率上升,同時UT Score下降,說明既減少了無效切換,又提高了答案質量。
例如在AIME2024數學競賽測試上,加入TIP的QwQ-32B-Preview模型準確率從41.7%提升至45.8%,同時UT Score從72.4降至68.2。
並且這種“無痛升級”無需重新訓練模型,僅需調整解碼策略,展現了其實用價值。

One More Thing

UC Berkeley教授Alex Dimakis幾乎同時分享了類似的觀察,
對於DeepSeek-R1和所有推理模型,錯誤的答案更長,而正確的答案要短得多。
基於此,他們提出一個簡單的解決辦法,稱為“簡潔解碼”(Laconic decoding)
並行執行5次模型,從答案中選擇tokens最少的。
初步實驗結果表示,簡潔解碼在AIME2024測試上能提高6%-7%的準確率,比Consensus Decoding更好也更快。
論文地址:https://arxiv.org/abs/2501.18585

參考連結:

[1]https://x.com/tuzhaopeng/status/1885179412163027406

[2]https://x.com/AlexGDimakis/
status/1885447830120362099


相關文章