CoT是否仍是增強Reasoning能力的必要工具?

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
近年來,推理大語言模型(RLLMs)透過內建的鏈式思考(CoT)能力,在複雜任務中展現出顯著優勢。然而,傳統LLMs依賴外部CoT提示(如少樣本示例)提升效能,但研究人員擔心這種策略可能對RLLMs無效甚至有害。本文首次系統探究了零樣本CoT(僅新增“逐步思考”指令)和少樣本CoT對RLLMs的影響,並提出了關鍵問題:CoT提示是否仍是增強RLLMs推理能力的必要工具

論文:Innate Reasoning is Not Enough:In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking連結:https://arxiv.org/pdf/2503.19602

CoT提示對RLLMs的四大作用:提升效能、控制思考令牌數、調節推理步驟、抑制過度反思

方法與實驗

實驗覆蓋1.5B至32B引數的RLLMs(如DeepSeek-R1系列),並在6個數學推理資料集(GSM8K、MATH、AIME24等)上測試。透過對比直接提示零樣本CoT少樣本CoT,評估以下指標:
  • 準確性:答案正確率
  • 思考令牌數:模型輸出中用於推理的token數量
  • 推理步驟:邏輯分解的步驟數
  • 反思頻率:如“Wait”“Double-check”等自我修正語句的出現次數

不同模型在多個數據集上的準確性對比

主要發現

  • 效能提升的普遍性:72%的實驗場景中,CoT提示顯著提升RLLMs準確性,如R1-1.5B在GSM8K任務中零樣本CoT提升475.4%。
  • 模型容量與任務複雜度的互動效應
    • 大模型(如32B)在複雜任務(如AIME24)上提升顯著(最高333%),而在簡單任務(如GSM8K)上增益微弱(0.6%)。
    • 小模型(如1.5B)則相反,簡單任務提升顯著(475%),複雜任務增益有限。
  • 單樣本CoT的優越性:與LLMs不同,RLLMs在單示例提示下表現最佳(如R1-32B在AIME24上提升467%),多示例可能引入干擾。
  • 過度反思的抑制:CoT提示可將反思頻率降低約90%(如R1-32B在AIME24上從414次/問題降至2.56次)。

對比不同提示方法下模型的反思頻率

深度分析

  • 思考令牌分佈:直接提示下令牌數分散,而CoT提示(尤其是少樣本)使分佈集中,減少冗餘。

MATH資料集上不同提示方法的令牌分佈差異
  • 推理步驟與準確性的關係:複雜任務中,步驟數與準確性正相關,但簡單任務存在“倒U型”關係(步驟過多導致效能下降)。

步驟數與準確性的相關性
  • 注意力機制揭示的過度反思根源:RLLMs對“Wait”“Double-check”等詞的注意力權重顯著高於基模型,表明其訓練過程中過度擬合自修正機制。

對比R1-8B與基模型的注意力分佈差異

結論與意義

本文證實了CoT提示對RLLMs的必要性:
  1. 效能最佳化:透過單樣本CoT實現高效推理。
  2. 行為調控:抑制過度反思,減少冗餘計算。
  3. 工程啟示:需根據模型容量和任務複雜度動態選擇提示策略。未來研究可探索更精細的提示設計,或結合強化學習進一步最佳化RLLMs的反思機制。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章