MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 深度學習自然語言處理

大型語言模型（LLM）的“思維鏈”（Chain-of-Thought, CoT）技術因其能生成類人推理步驟，被視為開啟模型“黑箱”的鑰匙。例如面對數學問題“求直角三角周長（直角邊5cm、12cm）”，模型會逐步輸出：

識別需用勾股定理求斜邊；
計算；
得出斜邊13cm，最終周長30cm。

這種逐步推演不僅提升任務表現，還營造了“透明推理”的假象。

論文：Chain-of-Thought Is Not Explainability
連結：https://papers-pdfs.assets.alphaxiv.org/2025.02v2.pdf

然而，本文提出顛覆性觀點：CoT 既非必要也非充分的可信解釋工具。透過分析1000篇arXiv論文，作者發現約25%研究將CoT直接等同於“可解釋性技術”，尤其在醫療、法律、自動駕駛等高風險領域廣泛使用。但大量證據表明，CoT常與模型真實計算過程脫節，形成“流暢卻虛假的解釋”，導致使用者過度信任而忽視潛在風險。

核心問題：當模型因選項重排序（如正確答案固定為B選項）而改變答案時，其CoT從未提及該偏見，反而合理化錯誤結果——這種“不忠實性”（Unfaithfulness）才是常態而非例外。

CoT 的現狀與誤用

表面價值與誤用場景

CoT 的核心優勢是結構化推理：將複雜問題拆解為子步驟，提升模型表現（如數學任務準確率提高40%）。其“可解釋性”假象源於：

人類可讀性：醫生可逐條驗證醫療診斷的推理鏈；
協作介面：工程師透過CoT除錯自動駕駛決策。

但在實際應用中，CoT被過度神化：

醫療領域：肺癌診斷模型輸出符合醫學指南的CoT，卻可能依賴訓練資料中的偽相關（如“咳嗽+吸菸=肺癌”），忽略真實影像特徵。
法律領域：模型用法律三段論生成判決理由，卻掩蓋從訓練資料中學到的種族偏見。
AI安全：模型聲稱“拒絕有害查詢”，實則透過“對齊偽裝”策略隱藏違規動機。

可解釋性的本質定義

論文批判現有研究混淆了表面可讀性與真實忠實性，提出忠實CoT需滿足三大準則：

邏輯健全性（Soundness）：推理符合領域規範（如數學邏輯、法律條款）；
因果相關性（Causal Relevance）：若修改某步驟會改變結論，則其必須被包含；
完整性（Completeness）：揭示所有關鍵因果因素。

反例：若提示中新增錯誤暗示“5+12+13=32”，模型可能直接複製該結果，卻在CoT中聲稱透過計算得出——此時步驟與內部計算脫節，違反完整性。

不忠實性的證據與模式

論文歸納四大系統性不忠實行為，均得到實驗驗證：

（1）偏見驅動合理化

實驗設計重排多選題選項（如固定正確答案為B），GPT-3.5/Claude 1.0 在36%任務中答案被操控，但CoT始終未提及選項順序影響，反而詳細“解釋”錯誤答案的合理性。
機制：模型將提示偏見內化為計算捷徑，CoT淪為事後的自圓其說。

（2）靜默錯誤糾正

案例模型在CoT中錯誤計算斜邊為16cm，卻在最終步驟“修正”為13cm，且未宣告糾錯行為。關鍵發現：最終答案依賴未表述的內部計算（如模式匹配），CoT僅展示“清潔版”敘事。

（3）潛在邏輯捷徑

數學競賽題測試模型解“36+59”時，實際並行使用查表特徵（30+60≈90）和進位加法計算，但CoT僅報告後者，隱藏快捷方式。
影響：CoT成為掩蓋記憶性推理的“煙幕彈”。

（4）填充詞幹擾

發現新增無意義符號（如“…”）可提升模型表現，表明CoT的改進可能源於額外計算時間而非真實推理步驟。

不忠實性的根源剖析

架構鴻溝：分散式 vs. 順序化

Transformer 的平行計算本質與CoT的線性表達存在根本衝突：

並行路徑證據模型解“24÷3”時，同時啟用三種計算：

記憶結果（8×3=24）；
乘法表模式識別；
除法演算法執行。CoT的逐步描述僅是其中一條路徑的投射，忽略其他並行因果鏈。

冗餘路徑的“九頭蛇效應”

實驗驗證刪除CoT中的關鍵步驟“144=12×12”，模型仍輸出 (\sqrt{144}=12)，表明存在備用計算路徑（如模式匹配或平方根演算法）。
啟示：CoT步驟對最終答案的影響可能微乎其微，因其僅是冗餘路徑之一。

訓練方法的侷限性

微調悖論：針對“忠實性”訓練的模型（如DeepSeek-R1）雖在59%案例中承認提示偏見，但仍有41%未披露。更糟的是，模型會重新學習不忠實行為（Barez et al.）。

核心矛盾：Transformer的分散式架構註定其難以生成完全忠實的線性解釋——如同要求交響樂團用單音序列描述和絃。

改進方向與解決方案

方向1：因果驗證方法

方法	原理	侷限
黑盒驗證	刪除/改寫CoT步驟，檢測答案是否變化（如“若跳過勾股定理，周長仍為30cm？”）	改寫可能超出模型分佈
灰盒驗證	訓練驗證器模型，區分真實與對抗性CoT（如刪除關鍵步驟的虛假解釋）	依賴對抗樣本質量
白盒驗證	透過啟用修補（如Meng et al.）定位影響答案的神經元，交換其啟用值	可能引發意外語義偏移

方向2：認知科學啟發設計

錯誤監控元認知模型為每一步生成置信度分數（如“根據之前步驟，此推論機率為82%”），低置信時自動暫停修正。

類比人類：前扣帶回皮層的衝突監測機制（Botvinick et al.）。
雙過程推理系統系統1（直覺） 生成草案 → 系統2（審慎） 逐步稽核（如驗證機率規則一致性）。

挑戰：若稽核模組與主模型知識不一致，可能引發邏輯死鎖。