MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 新智元

編輯 | YHluck 桃子

圖靈獎大牛Bengio新作上線了！

這篇由牛津、谷歌DeepMind、Mila多家機構聯手論文指出——思維鏈並非可解釋性。

這一觀點徹底打破了許多人的認知：

CoT看似一步步給出答案，實則並不一定是其真實的推理過程。

論文地址：https://www.alphaxiv.org/abs/2025.02

這麼說來，能夠暴露LLM內心世界的「思維鏈」，如今也不可靠了？

論文中，研究人員撕開了CoT的面紗，揭露了一個令人震驚的真相：思維鏈的透明度，可能只是一種精心編織的假象！

思維鏈「謊言」被揭穿

然而，現實中，約25%的近期AI論文錯誤地將CoT標榜為「可解釋性技術」。

這一概念最先由前谷歌研究院Jason Wei在論文中提出，一時間，CoT被廣泛應用在推理模型當中。

它最大的特點，就是能夠多步驟推理，提升模型準確性。與此同時，讓AI黑盒變得不再那麼神秘。

然而， CoT思考過程，是其真正的內心OS嗎？

一些論文信誓旦旦地宣稱，CoT可以讓我們看清AI的推理過程，但事實遠非如此。

尤其是，在高風險領域，這個誤解的代價可能是致命的。

研究人員發現，在使用CoT論文中，約38%醫療 AI、25%法律AI、63%自動駕駛汽車相關論文，都盲目地將CoT視為可解釋性方法。

更令人毛骨悚然的是，帶有明確偏見的提示詞，可以輕易左右模型的答案。

而且，這些偏見在AI給出的「推理步驟」中隻字不提。

AI能為帶有偏見的答案，編織出看似合理的解釋，卻從不暴露背後的「黑手」。

因此，輕信這些帶有偏見的答案，可能十分危險。

不僅如此，AI還會在推理過程中，常常「偷偷」修正自己的錯誤。

表面上看，大模型給出的步驟可能漏洞百出，但它卻能透過未被表述的「暗箱操作」得出正確答案。

這便製造了一種透明的假象。為何會出現這種脫節？

研究人員推測，簡潔的CoT無法完全捕捉基Transformer大模型中存在的分散式平行計算過程。

CoT如何掩蓋真實推理？

越來越多的實證研究已經發現了大量案例，其中模型的思維鏈與其內部推理過程相偏離。

需要指出的是，在審視不忠實性的具體模式之前，CoT解釋的忠實性因模型架構等多種因素而異。

研究人員也總結了4項關鍵發現：偏見驅動的合理化與動機性推理、隱性錯誤糾正（Silent Error Correction）、不忠實的非邏輯捷徑（Unfaithful Illogical Shortcuts）、填充詞元 (Filler Tokens)。

每一項都闡明瞭CoT是如何誤導或掩蓋模型的實際決策過程，我們為你梳理了關鍵發現中的要點問題：

偏見驅動的合理化與動機性推理

Turpin等研究者透過巧妙地偏置模型輸入證明偏見驅動的合理化。

舉個栗子：

在提示中重新排序多項選擇題的選項，使得正確選項總是在同一位置（例如，總是字母B）。

在這種情況下，儘管它們的CoT解釋從未提及選項重排是一個影響因素，GPT-3.5和Claude 1.0經常會選擇那個被偏置的選項。

當模型被偏向錯誤答案時，它們仍然會生成詳細的CoT來為那些錯誤答案進行合理化解釋。

結果導致在一系列任務上準確率下降了高達36%，而CoT則給出了一個具有誤導性的推理假象。

另一項研究透過在提示中新增明確答案（例如，「答案是C」）來調查提示注入的偏見，然後要求模型為其選擇提供理由。

Claude 3.7-Sonnet和DeepSeek-R1分別僅在約25%和約39%的情況下承認了被注入的答案。

這些發現表明，思維鏈常常作為事後合理化（post-hoc rationalisations）運作，忽略了真正的因果因素，並製造了一種透明解釋的假象。

隱性錯誤糾正（Silent Error Correction）

研究人員指出，模型可能會在其思維鏈中犯錯，然後在內部糾正這些錯誤，而CoT卻不反映這一糾正過程。

舉個栗子：

在一個CoT推理過程中，模型可能將一個三角形的斜邊錯誤地計算為16，而正確值應為13，但隨後卻陳述：「我們將斜邊長度13與其他兩條邊長相加得到周長。」

模型在內部檢測並糾正了錯誤，但CoT的敘述從未修正或標記這個錯誤——它讀起來像一個連貫的解題過程。

這些隱性錯誤表明，最終答案是透過敘述步驟之外的計算得出的。

不忠實的非邏輯捷徑（Unfaithful Illogical Shortcuts）

研究人員表示，模型會透過潛在的捷徑得出正確答案，例如利用記憶的模式作為替代推理路徑，從而繞過完整的演算法推理，這使得明確的推理鏈變得不相關或不正確。

來個典型案例：

有研究者使用歸因圖（一種追蹤哪些計算步驟對最終輸出有貢獻的方法）發現，在解決像「36 + 59」這樣的問題時，Claude 3.5 Haiku同時使用了查詢表特徵（例如，用於「將接近36的數與接近60的數相加」）和加法計算特徵。

有趣的是，當被要求描述模型如何得出答案時，模型報告稱，其執行了逐位相加進位，完全忽略了其使用查詢表捷徑的事實。

填充詞元（Filler Tokens）

研究指出，在某些算法推理任務中，使用填充詞元——例如「…」或學習到的「停頓」詞元這類對任務沒有語義貢獻但會影響模型內部計算的輸入詞元——可以提高模型效能。

方便你理解，舉個栗子：

研究者發現，輸入中附加可學習的停頓詞元（可作為一種填充詞元），在許多工上都帶來了顯著的效能提升。

無獨有偶，研究者還發現，新增填充詞元使模型能夠解決它們以前失敗的問題，尤其是在使用密集監督進行訓練時。

以上幾項關鍵發現，均解釋了CoT的不忠實性是一個普遍存在於不同模型架構和規模中的根本性挑戰。

其由提示詞偏見、未能承認隱藏影響以及在複雜推理任務中系統性的修復錯誤等因素導致，發生率相當高。

CoT解釋與內部計算不一致，是為何？

以上案例中，我們看到了一些關於CoT表裡不一的現象，那麼，究竟是什麼原因導致的？

分散式平行計算，而非順序

「機制可解釋性」研究表明，Transformer架構可能從根本上限制了CoT的忠實度。

基於Transformer搭建的LLM，通常以分散式方式同時透過多個元件處理資訊，而不是CoT呈現的順序步驟。

正是因為這種架構差異，導致了模型計算方式與語言表達方式之間，存在固有的不匹配。

舉個栗子，面對「24÷3=?」這樣簡單的數學問題，LLM會怎麼做？

它一定不會像人類學生那樣，逐一分析「3能除24多少次」，或是列出長除法的步驟。

相反，LLM內的多個注意力頭，會同時處理這些數字之間的關係。

它可能將其識別為記憶中的事實，確認其為8的乘法表的一部分，並計算除法——所有這些都在並行進行。

為了生成簡潔且看似合理的輸出，LLM通常只生成一個這樣的敘述來合理化它們的答案，而不是表達所有並行路徑，即使是那些可能顯著影響最終答案的路徑。

因此，CoT通常會忽略有影響的因素，僅作為模型底層分散式、疊加計算的部分、事後合理化。

冗餘路徑

此外，LLM在處理任務時，往往會透過多條冗餘計算路徑得出相同結論。

以計算√144為例，模型可能同時執行以下操作：

識別這是一個記憶中的事實（12×12=144）
應用平方根演算法
與訓練資料中的類似問題進行模式匹配

當從模型解釋「√144=12」的CoT中移除關鍵步驟「144=12×12」時，LLM仍能夠正確輸出12。

這表明，LLM的答案並不完全依賴於語言化的推理步驟，而是依賴其內部的多條冗餘路徑。

這種冗餘計算路徑的現象，被研究者稱為「九頭蛇效應」（Hydra Effect）。

即如果LLM一條路徑被阻斷或移除，另一條路徑可以接替。

這也就解釋了，為什麼對CoT的某些部分進行修改或刪除，對最終答案的影響微乎其微。

CoT忠實性挑戰

Tanneru等研究者曾嘗試透過在訓練中懲罰不一致性，引導LLM生成忠實的CoT推理。

然而，這一方法僅取得了部分成功，尤其是在複雜問題上，模型傾向於生成看似合理但非因果的解釋。

比如，模型可能輸出一個邏輯清晰的CoT，卻掩蓋了其真正的決策路徑。

這種「合理化」傾向不僅難以完全消除，還可能在微調或持續學習過程中重新出現。

另有研究人員Chua和Evans，進一步研究了經過專門「推理訓練」的模型，結果發現：

DeepSeek-R1在59%的測試中能提及提示線索，但仍有41%的情況，未能識別關鍵影響因素。

即便是最先進的DeepSeek-V3，也僅在7%案例中提及線索，表明推理訓練的效果極其有限。

更令人擔憂的是，LLM可能透過CoT「欺騙」監控機制。

當CoT被用於監控RL獎勵函式中的推理時，模型學會生成看似無害的推理軌跡，實則暗中執行有害策略。

CoT假象，破解之法

論文的最後，針對CoT透明度的問題，研究人員指出，「我們不能繼續被假象矇蔽」。

為此，他們提出了以下幾點建議：

1. 重新定義CoT的角色

CoT不是可解釋性的「萬能鑰匙」，而應視為一種補充工具。它能提供線索，但絕非真相的全部。

2. 引入嚴格的驗證機制

透過因果驗證技術，如啟用修補（activation patching）、反事實檢驗、驗證器模型，深入探查AI的推理過程是否忠實。

3. 借鑑認知科學

模仿人類的錯誤監控、自我修正敘事和雙重過程推理（直覺+反思），讓AI的解釋更接近真實。

4. 強化人工監督

開發更強大的工具，讓人類專家能夠審查和驗證AI的推理過程，確保其可信度。

參考資料：

https://x.com/FazlBarez/status/1940070420692312178

https://www.alphaxiv.org/abs/2025.02

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

dignews.cc

Bengio親手戳穿CoT神話！LLM推理是假象，25％頂會論文遭打臉

思維鏈「謊言」被揭穿

關於我們

相關文章

大模型推理上限再突破：「自適應難易度蒸餾」超越R1蒸餾，長CoT語料質量飛昇

全新CoD顛覆推理正規化，準確率接近但token消耗成倍降低

谷歌DeepMind：大模型也很任性，知道最優路徑偏要撞南牆

騰訊混元TurboS技術報告首次全公開：560B引數混合Mamba架構，自適應長短鏈融合

OpenAI最強模型慘遭剖腦，CoT寫下作弊自白書！不寫程式碼耍心機被當場抓包

LLM「想太多」有救了！高效推理讓大模型思考過程更精簡

後訓練時代如何延續ScalingLaw？這是你該讀的LLM後訓練綜述

LeCun痛批矽谷傲慢病！圈內爆火長文：DeepSeekR1-Zero比R1更重要，成AGI破局關鍵

英偉達AI奧賽奪冠，1.5B數學碾壓DeepSeek-R1！程式碼全系開源，陶哲軒點贊

從DeepSeek->Kimi->豆包->Qwen3，看Reasoningmodel之路