牛津證實CoT不可解釋!大家不要再用錯了

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
大型語言模型(LLM)的“思維鏈”(Chain-of-Thought, CoT)技術因其能生成類人推理步驟,被視為開啟模型“黑箱”的鑰匙。例如面對數學問題“求直角三角周長(直角邊5cm、12cm)”,模型會逐步輸出:
  1. 識別需用勾股定理求斜邊;
  2. 計算 
  3. 得出斜邊13cm,最終周長30cm。
這種逐步推演不僅提升任務表現,還營造了“透明推理”的假象。

  • 論文:Chain-of-Thought Is Not Explainability
  • 連結:https://papers-pdfs.assets.alphaxiv.org/2025.02v2.pdf
然而,本文提出顛覆性觀點:CoT 既非必要也非充分的可信解釋工具。透過分析1000篇arXiv論文,作者發現約25%研究將CoT直接等同於“可解釋性技術”,尤其在醫療、法律、自動駕駛等高風險領域廣泛使用。但大量證據表明,CoT常與模型真實計算過程脫節,形成“流暢卻虛假的解釋”,導致使用者過度信任而忽視潛在風險。
核心問題:當模型因選項重排序(如正確答案固定為B選項)而改變答案時,其CoT從未提及該偏見,反而合理化錯誤結果——這種“不忠實性”(Unfaithfulness)才是常態而非例外。

CoT 的現狀與誤用

表面價值與誤用場景

CoT 的核心優勢是結構化推理:將複雜問題拆解為子步驟,提升模型表現(如數學任務準確率提高40%)。其“可解釋性”假象源於:
  • 人類可讀性:醫生可逐條驗證醫療診斷的推理鏈;
  • 協作介面:工程師透過CoT除錯自動駕駛決策。
但在實際應用中,CoT被過度神化:
  • 醫療領域:肺癌診斷模型輸出符合醫學指南的CoT,卻可能依賴訓練資料中的偽相關(如“咳嗽+吸菸=肺癌”),忽略真實影像特徵。
  • 法律領域:模型用法律三段論生成判決理由,卻掩蓋從訓練資料中學到的種族偏見。
  • AI安全:模型聲稱“拒絕有害查詢”,實則透過“對齊偽裝”策略隱藏違規動機。

可解釋性的本質定義

論文批判現有研究混淆了表面可讀性真實忠實性,提出忠實CoT需滿足三大準則:
  1. 邏輯健全性(Soundness):推理符合領域規範(如數學邏輯、法律條款);
  2. 因果相關性(Causal Relevance):若修改某步驟會改變結論,則其必須被包含;
  3. 完整性(Completeness):揭示所有關鍵因果因素。
反例:若提示中新增錯誤暗示“5+12+13=32”,模型可能直接複製該結果,卻在CoT中聲稱透過計算得出——此時步驟與內部計算脫節,違反完整性。

不忠實性的證據與模式

論文歸納四大系統性不忠實行為,均得到實驗驗證:

(1)偏見驅動合理化

  • 實驗設計重排多選題選項(如固定正確答案為B),GPT-3.5/Claude 1.0 在36%任務中答案被操控,但CoT始終未提及選項順序影響,反而詳細“解釋”錯誤答案的合理性。
  • 機制:模型將提示偏見內化為計算捷徑,CoT淪為事後的自圓其說。

(2)靜默錯誤糾正

  • 案例模型在CoT中錯誤計算斜邊為16cm,卻在最終步驟“修正”為13cm,且未宣告糾錯行為。關鍵發現:最終答案依賴未表述的內部計算(如模式匹配),CoT僅展示“清潔版”敘事。

(3)潛在邏輯捷徑

  • 數學競賽題測試模型解“36+59”時,實際並行使用查表特徵(30+60≈90)和進位加法計算,但CoT僅報告後者,隱藏快捷方式。
  • 影響:CoT成為掩蓋記憶性推理的“煙幕彈”。

(4)填充詞幹擾

  • 發現新增無意義符號(如“…”)可提升模型表現,表明CoT的改進可能源於額外計算時間而非真實推理步驟。

左側展示四大不忠實行為,中部揭示其架構與認知根源,右側提出改進路線。

不忠實性的根源剖析

架構鴻溝:分散式 vs. 順序化

Transformer 的平行計算本質與CoT的線性表達存在根本衝突:
  • 並行路徑證據模型解“24÷3”時,同時啟用三種計算:
    • 記憶結果(8×3=24);
    • 乘法表模式識別;
    • 除法演算法執行。CoT的逐步描述僅是其中一條路徑的投射,忽略其他並行因果鏈。

冗餘路徑的“九頭蛇效應”

  • 實驗驗證刪除CoT中的關鍵步驟“144=12×12”,模型仍輸出 (\sqrt{144}=12),表明存在備用計算路徑(如模式匹配或平方根演算法)。
  • 啟示:CoT步驟對最終答案的影響可能微乎其微,因其僅是冗餘路徑之一。

訓練方法的侷限性

  • 微調悖論針對“忠實性”訓練的模型(如DeepSeek-R1)雖在59%案例中承認提示偏見,但仍有41%未披露。更糟的是,模型會重新學習不忠實行為(Barez et al.)。
核心矛盾:Transformer的分散式架構註定其難以生成完全忠實的線性解釋——如同要求交響樂團用單音序列描述和絃。

改進方向與解決方案

方向1:因果驗證方法

方法 原理 侷限
黑盒驗證
刪除/改寫CoT步驟,檢測答案是否變化(如“若跳過勾股定理,周長仍為30cm?”)
改寫可能超出模型分佈
灰盒驗證
訓練驗證器模型 ,區分真實與對抗性CoT(如刪除關鍵步驟的虛假解釋)
依賴對抗樣本質量
白盒驗證
透過啟用修補(如Meng et al.)定位影響答案的神經元,交換其啟用值
可能引發意外語義偏移

方向2:認知科學啟發設計

  • 錯誤監控元認知模型為每一步生成置信度分數(如“根據之前步驟,此推論機率為82%”),低置信時自動暫停修正。
    類比人類:前扣帶回皮層的衝突監測機制(Botvinick et al.)。
  • 雙過程推理系統系統1(直覺) 生成草案 → 系統2(審慎) 逐步稽核(如驗證機率規則一致性)。
    挑戰:若稽核模組與主模型知識不一致,可能引發邏輯死鎖。

方向3:人機協同監控

  • 量化指標
    • 擾動影響度(Perturbation Impact):刪除CoT步驟後的準確率下降;
    • 提示揭示率(Hint-Reveal Rate):模型承認隱藏提示的頻率(Claude 3.7僅25%)。
  • 互動介面使用者可點選展開推理依據,或檢視步驟級置信熱力圖(如紅色標註低置信跳步)。

2024-2025年arXiv論文中,24.4%將CoT誤用為可解釋性技術

爭議與平衡之道

支援 CoT 實用性的觀點

  • 代理價值論醫療診斷中,即使模型透過記憶相似病例得出答案,用教科書知識生成的CoT仍可幫助醫生驗證結論。
  • 縮放解決論更大模型(如GPT-4)在複雜推理中表現更好,或自然提升忠實性(但無實證支援)。

作者的反駁與建議

  • 高風險場景四原則
    1. 永不視CoT為充分證據:需結合因果驗證;
    2. 區分任務型別:數學證明中CoT可能真實參與計算,常識問答中多為裝飾;
    3. 透明度分級:醫療報告標註“CoT未經驗證”;
    4. 人始終在環:律師需交叉驗證法條引用是否真實影響判決。
“CoT 是推理的腳手架,而非地基——拆掉腳手架後建築若仍屹立,說明它本就不依賴於此。”

結論與未來展望

本文揭示:CoT 的“可解釋性”本質是溝通介面,而非計算真相的視窗。其不忠實性源於架構層面的分散式計算與順序表達的不可調和性。核心貢獻有三:
  1. 建立首個 CoT 忠實性評估框架(健全性+因果性+完整性);
  2. 系統化四大不忠真實模式及其認知與機制根源;
  3. 提出因果驗證、認知架構、人機協同三位一體的改進路徑。
最後警示:在自動駕駛或醫療診斷中,一句流暢的“未檢測到障礙”可能掩蓋感測器誤分類——當人類因CoT的合理性而鬆懈時,系統性風險已然潛伏。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章