UC伯克利:讓推理模型少思考,準確率反而更高了!

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 量子位
作者 | 克雷西
讓推理模型不要思考,得到的結果反而更準確?
UC伯克利新研究發現,強制要求模型跳過思考過程,推理能力卻比正常思考還好。
例如在定理證明任務當中,“不思考”模式僅使用30%的Token,就能實現和完整思考一樣的準確率。
特別是施加Token限制之後,“不思考”模式的效果變得更加明顯。
這究竟是怎麼一回事呢?來看下UC伯克利發表的論文。

跳過思考,推理模型反而更強了

論文的研究目的,是比較顯式思考過程(Thinking)和跳過思考過程(NoThinking)的效果差異,並在不同約束條件下評估這兩種方法的表現。
研究使用DeepSeek-R1-Distill-Qwen-32B作為主要實驗模型,該模型透過在Qwen-32B基礎上使用DeepSeek-R1生成的資料進行蒸餾得到。
為了確保結果的可靠性,研究同時選擇了Qwen-32B-Instruct作為基線模型,並在7B和14B規模的相同架構模型上進行了驗證實驗。
在資料集的選擇上,研究力求全面覆蓋不同型別的推理任務:
  • 在數學問題方面,既包含了AIME 2024、AIME 2025、AMC 2023等標準難度的測試集,也包含了更具挑戰性的OlympiadBench數學子集;
  • 在程式設計能力評估方面,使用了持續更新的LiveCodeBench v2版本;
  • 在定理證明領域,則透過MiniF2F測試形式化數學推理能力,透過ProofNet評估邏輯和定理證明能力。
實驗首先進行了基礎效能評估,也就是在不限制token的情況下比較三種方法的表現。研究團隊詳細記錄了每種方法在不同k值下的pass@k效能表現和token使用量。
結果顯示,在無預算限制的情況下,NoThinking在定理證明任務上能夠以30%的token用量達到與Thinking相似的效能,兩種方法都明顯優於基線模型。
在其他任務上,雖然NoThinking的初始pass@1效能較低,但隨著k值增加會逐漸追平Thinking的表現,同時token使用量減少
隨後,實驗引入了預算強制,透過設定token限制來進行對照實驗。
具體來說,當模型達到預設的token預算時,系統會強制其生成最終答案,如果此時模型仍在思考框內,則會在最終答案標籤前新增結束思考標記。
研究分別在低預算(約3000tokens以下)和高預算(約3500tokens)兩種場景下進行了詳細測試。
在預算受限的場景下,NoThinking在低預算情況下(<3000 tokens)完全優於Thinking,這種優勢會隨著k值的增加而擴大。
在高預算場景下(~3500 tokens),儘管Thinking在pass@1上略有優勢,NoThinking從k=2開始就展現出更好的效能。
在並行擴充套件測試中,研究根據任務特性採用了不同的評估方法。
對於有完美驗證器的任務(如形式定理證明),可以直接使用驗證器選擇最佳答案,並詳細記錄延遲和token使用量;
對於沒有驗證器的任務,研究實現了多數投票機制和基於置信度的選擇策略,透過實驗比較了不同選擇策略的效果。
對於具有驗證器的任務,NoThinking可以在將延遲降低至1/7、token使用量減少至1/4的同時,保持與傳統方法相似的準確率。
在沒有驗證器的任務中,比如AMC 2023和OlympiadBench,NoThinking甚至超越了完整版Thinking的表現,同時可將延遲降低至1/9。
為了避免實驗結果受到資料汙染的影響,研究團隊專門使用了新發布的AIME 2025資料集進行驗證。
結果作者發現。相同的效能模式在新舊資料集上都能穩定重現,這證實了研究發現反映了模型的真實行為特徵。

大模型“思考過程”引熱議

Hacker News上,有人表示這項研究讓其對大模型的思考有了新的認識:
過去我認為大模型“思考”很有用,是因為它可以把更多的概念帶到上下文當中,但現在看似乎不是?
還有人想到了Claude廠商Anthropic前些天發表的報告,其中指出大模型輸出的“思考過程”不一定代表其真實想法。
這份報告的實驗發現,Claude 3.7 Sonnet僅在25%的情況下在其思維鏈中提及收到的提示資訊,DeepSeek R1則為39%,意味著大多數情況下模型不會忠實反映其真實決策過程。
Anthropic的這份報告,引起了針對大模型“思考過程”的熱烈討論。
有人表示,思維鏈有效的關鍵是產生了更多用於“思考”的計算,但如果用它來展示模型工作過程,那隻不過是額外的上下文。
但也有人認為Anthropic的研究並沒有切中問題要害,因為模型的訓練過程就是為了獲得正確答案而最佳化,不能指望這樣的訓練方式能夠讓模型準確說出推理過程。

作者簡介

本論文第一作者是UC伯克利博士生馬文潔,導師是Matei Zaharia副教授和Sewon Min助理教授研究重點是理解和提升語言模型的推理能力,以及測試時計算。
馬文潔本科畢業於南京大學計算機學院,期間曾參加該學院的PASCAL(程式語言與統計分析)研究組。
另一名華人作者何靜軒,目前在UC伯克利從事博士後研究,研究興趣為機器學習和計算機安全,合作導師是宋曉冬(Dawn Song)教授。
何靜軒博士和本科分別畢業於蘇黎世聯邦理工學院和浙江大學。
另外,UC伯克利博士生Charlie Snell、Tyler Griggs,以及一作馬文潔的兩名導師也參與了此項研究。
論文地址:https://arxiv.org/abs/2504.09858參考連結:[1]https://www.anthropic.com/research/reasoning-models-dont-say-think[2]https://news.ycombinator.com/item?id=43572374

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章