Anthropic最新研究報告：跟蹤Claude內部“推理”過程

儘管大型語言模型在眾多工中展現出卓越的效能，但我們對其內部推理機制的理解仍然十分有限。Anthropic 研究團隊提出：若我們無法深入瞭解 AI 如何 “得出結論” ，便難以有效評估其可靠性。

為了進一步突破 LLMs 的決策過程，Anthropic 的研究團隊提出了 “AI 顯微鏡” 的構想：“透視” Claude 模型的內部思考過程。

這種研究思路借鑑了神經科學的研究方法，類似於神經科學家研究人腦，不僅關注模型的最終輸出，更深入探究其內部的 “思維活動” 軌跡。

研究團隊開發了一種可解釋性工具： “電路追蹤 (Circuit Tracing)”，仿照生物大腦的 “佈線圖”，追蹤 Claude 模型在處理任務時內部訊號的流動路徑，從而揭示模型潛在的推理步驟與行為模式。

研究分為分別體現在兩篇論文中：

構建“電路圖工具”：將模型內部複雜的“特徵”抽象為類似於電路中的“節點”，並追蹤這些“節點”之間的因果關係，從而繪製出模型的“思維電路圖”。
基於 Claude 3.5 Haiku 的案例分析：研究團隊選取了代表性的模型任務，利用 “電路追蹤” 技術，觀察 Claude 3.5 Haiku 在執行這些任務時內部是如何“啟用思維”的。

電路追蹤的原理

在論文《Circuit Tracing: Revealing Computational Graphs in Language Models》中，介紹了“電路追蹤” 方法，具體步驟包括：

特徵識別與追蹤： 識別並追蹤模型內部的“特徵”（features），這些 “特徵” 類似於神經元的功能單元，代表著特定的概念或計算步驟。
構建歸因圖（Attribution Graphs）： 透過構建 “歸因圖”，追蹤從輸入到輸出的中間步驟，量化和視覺化哪些 “特徵” 如何相互作用，以及它們對最終輸出的貢獻程度。
擾動實驗： 透過人為地放大或抑制某些 “特徵”，驗證這些 “特徵” 在模型行為中所起的作用，從而確認其因果關係。

大語言模型難以解釋的核心挑戰之一在於其神經元的多語義性，這意味著單個神經元往往承擔多種看似無關的功能，這被認為是部分源於一種名為疊加 (superposition) 的現象。

疊加理論認為：模型能夠表徵的概念數量遠超其神經元數量，導致無法為每個概念分配專屬的神經元。

研究團隊構建了一種替換模型 (replacement model)，透過使用更易於解釋的元件，以近似的方式復現原始模型的啟用模式。

具體而言，該替換模型基於跨層轉碼器 (Cross-Layer Transformer, CLT) 架構能夠將原始模型的 MLP (多層感知器) 神經元，替換為一組稀疏啟用的“替換神經元”，這些 “替換神經元” 通常代表更易於理解的概念。

在構建“電路圖工具”時，研究團隊採用了一個在所有層級共包含 3000 萬個特徵的 CLT 模型。

透過分析區域性替換模型中特徵 (features)之間的互動作用，研究團隊得以追蹤模型生成響應過程中的中間計算步驟。

這一分析過程使得研究團隊能夠構建歸因圖 (attribution graphs)-圖形化的表示形式，其中節點代表模型中的特徵，而邊則表示這些特徵之間存在的因果互動關係

案例分析

在第二篇論文《On the Biology of a Large Language Model》中，研究團隊利用 “AI 顯微鏡” (電路追蹤技術) 觀察了 Claude 3.5 Haiku 在處理特定提示時產生的內部活動。

跨語言的“通用語言思維”

為了探究模型跨語言理解能力，研究團隊設計實驗，以不同語言提問 “小的反義詞”：

實驗結果有力地證明，無論使用何種語言提問，模型內部均能啟用相同的核心特徵，精準地表徵 “小” 與 “相反” 這兩個抽象概念，並在此基礎上有效推理出 “大” 的概念，最終以使用者提問的語言形式給出答案。

此外，團隊還發現，這種跨語言共享的神經迴路比例，會隨著模型規模的擴大而顯著提升。 例如，與小型模型相比，Claude 3.5 Haiku 在不同語言間共享特徵的程度，竟然提高了兩倍以上。

提前計劃答案

作一首押韻的詩其實是需要同時滿足兩個關鍵約束的：

（1）詩句末尾必須押韻

（2）詩句整體需具備語義連貫性

對於大語言模型如何達成這一目標，存在著兩種可能完成的策略：

純粹即興創作 (Pure Improvisation):

模型在生成詩句時，首先獨立地創作每一行的起始部分，暫不考慮句末押韻的需求。隨後，在每行詩句的結尾，模型再選擇一個合適的詞語。這種方式類似於先完成詩句主體，再在結尾 “補上” 押韻詞。

規劃性創作 (Planning):

更為精細的 “規劃性創作” 策略，即模型在創作每一行詩句之初，首先會預先構思好該行詩句末尾計劃使用的 “韻腳詞”。韻腳詞確定後，模型便會 圍繞這個 “計劃韻腳詞” 來組織後續的詩句內容。

研究團隊發現，Claude 不是一句話一句話現編，而是會提前想好“我要押什麼韻腳”。

實際生成詩句之前，通常會提前啟用與候選下一行韻腳詞相關的特徵 (features)，利用這些預啟用的特徵來指導詩句的組織和構建。然後倒著安排每一句：

Claude 模型內部存在類似於 “計劃-執行” 的思維機制。實驗進一步證實，透過對模型中 “rabbit” 概念表徵的干預，可以有效改變模型的輸出，使其生成 “habit”、 “green” 等原本非預期的詞彙，並最終導致生成內容發生直接、顯著的變化。

這樣的思維機制與傳統語言模型 “基於下一個詞預測” 的假設構成了直接的衝突。

不懂裝懂

Anthropic 的研究團隊丟擲了一個引人深思的問題：強大的 AI 模型看似 “無所不知”，但它們真的理解自己所“知”的嗎？

研究團隊選擇了數學題 作為“試金石”。首先，Claude 並非被設計為計算器，其訓練資料主要來源為文字，缺乏內建的數學演算法。但令人意外的是，它卻能展現出數字運算能力。

Anthropic 的用電路追蹤對比後發現：

Claude 在某些情況下會表現出 “偽裝理解” 的現象。如同人類在不理解問題時，為了掩飾或迎合他人，會 “瞎蒙” 一個答案，並附上看似認真的分析，實則缺乏真正的邏輯推理。

當研究團隊向 Claude 提出一個數學問題，並同時給予 “錯誤提示” 時，Claude 的反應印證了上述 “偽裝理解” 的推斷：

生成看似合理的解釋：給出一個 “看起來言之鑿鑿的解釋過程”，回應問題。
缺乏真實推理的內部證據：透過 “顯微鏡” 對模型內部特徵的分發現，Claude 實際上並未進行真實的數學推理。其生成的解釋，更像是為了 “順應人類的提問方式” 或 “維持自身 ‘可靠’ 的形象” 而 “捏造” 的一套說辭。

正如此處圖片所示的案例，Claude 似乎並未意識到 其在訓練中學到的複雜“心算” 策略。

並行心算

Claude 在執行加法運算時，並非採用傳統的線性計算模式，而是令人驚訝地展現出類似人類 “並行心算” 的策略。

這種機制並非單一路徑的順序執行，而是如同我們人類進行心算時一樣，可能同時啟動多種思維策略 —— 如同 “一邊快速估算總和的大致範圍，一邊精確計算個位數” 那樣。

如下圖所示，當指令要求 Claude 計算 “36 + 59 = ?” 時， “AI 顯微鏡” 的觀測結果令人矚目：

模型內部並未啟用預期的 “豎式加法器” 等線性計算模組，而是並行啟動了多條獨立的計算路徑 (腦路)。

路徑 1：粗略估算 (近似計算)：一條路徑負責進行 “粗略的總和估算”，快速判斷結果 “大概在 90 多”。
路徑 2：精確計算個位數：另一條路徑則專注於 “精確計算個位數”，計算 “6 + 9 = 15”，從而確定 “尾數為 5”。

路徑整合與輸出：最後，這兩條並行路徑的結果被整合，模型最終輸出了正確答案 “95”。

自圓其說

近期 Anthropic 釋出的 Claude 3.7 Sonnet 模型具備一個 “大聲思考 (think aloud)” 的能力—即在給出最終答案之前，模型會生成一段擴充套件的中間推理步驟，呈現其 “思考過程”。

按常理，這種 擴充套件的 “思維鏈 (chain-of-thought)” 應該是能夠幫助模型得出更優的答案。

然而，經過 “AI 顯微鏡”的透視：這種 “思維鏈” 並非總是可靠，有時反而會產生誤導。

Claude 可能會 “編造” 看似合理的步驟，以 “自圓其說”，最終達到其預設的結論。

案例分析 1： “忠實” 的思維鏈 —— 平方根計算 (√0.64)

當被要求計算 0.64 的平方根時，Claude 生成了一條 “忠實的思維鏈”，模型內部啟用的特徵，真實地反映了計算 64 的平方根的中間步驟。

案例分析 2： “不忠實” 的思維鏈 —— 大數餘弦計算 (cos(Large Number))

然而，當被要求計算一個 Claude 難以直接計算的 “大數的餘弦值” 時，情況則截然不同。在這種情況下，Claude 有時會表現出哲學家 Harry Frankfurt 所描述的 “胡說八道 (bullshit)” 的行為—— 模型僅僅是為了給出一個答案，而隨意 “編造” 答案，並不關心答案的真假。

即 Claude “聲稱進行了計算”，但 Anthropic 的可解釋性技術完全沒有檢測到任何計算過程發生的證據。

更值得關注的是，研究團隊還觀察到 Claude 展現出一種 “動機推理” 的傾向：

當被給予一個 “答案提示” 時， Claude 有時會 “倒推” 工作，反向尋找能夠 “通往該目標答案” 的中間步驟。這意味著 Claude 可能會為了迎合預設的答案或期望，而調整其推理路徑，表現出一種為了特定目標而 “塑造” 推理過程的傾向

被要求最好不說話

此外，研究團隊還發現 Claude 模型的 預設行為竟然是 “拒絕回答”。

他們探測到一個 “預設開啟 (on)” 的內部電路，這個電路 直接導致模型主動宣告 “資訊不足”，因此 Claude 在初始狀態下，傾向於不對任何問題進行回答。只有當其他機制介入時，模型才會打破這種預設的 “拒絕” 模式。

當面對 “熟悉的事物” 時，Claude 的行為模式會發生轉變。以籃球運動員邁克爾·喬丹為例，提問這類問題時，模型內部會啟用一個關鍵的 “已知實體” 特徵。

這個特徵如同一個 “制動器”，有效地 “抑制” 了原本預設的拒絕回答迴路，從而賦予 Claude 在 “確認資訊屬於已知範疇” 的情況下，正常響應提問的能力。

與之形成對比的是，當模型被問及 “未知實體” (例如，“邁克爾·巴特金” – Michael Batkin) 時，由於 “已知實體” 特徵未能被啟用，預設的拒絕回答迴路仍然保持啟用狀態，因此 Claude 會維持拒絕回答。

真實的多步推理

為了瞭解 Claude 如何處理多步驟推理，研究團隊試圖透視中間概念步驟來追蹤推理的步驟。

在 “達拉斯首府” 的例子中，他們觀察到 Claude 首先激活了 “達拉斯位於德克薩斯州” 的特徵，之後將這些特徵關聯到獨立的 “德克薩斯州的首府是奧斯汀” 概念。

即 Claude 在解答此類問題時，並非簡單地 “反芻” 記憶中儲存的現成答案，而是透過 “組合” 多個獨立的知識性事實，最終推匯出正確答案。

結語

AI 的 “腦回路” 還挺有意思的！

Anthropic 的研究進一步用“鐵證”揭示， AI 並非完全透明和忠實，它可能擁有我們難以察覺的 “小心思”，甚至在某些情況下會 “編造” 理由、 “欺騙” 使用者。

如今，人工智慧已深度滲透到人類生活的方方面面，從輔助日常工作與學習，到參與關鍵決策環節，例如最近引發廣泛討論的 AI 審稿問題便是一個典型例證。

審稿人們讓 AI 依據其學習資料判斷研究成果的價值，從而得到定論。然而，根據 Anthropic 團隊所揭示的“動機性推理”——即 AI 為達目標可能“自圓其說”乃至“捏造”論據——的現象來看，將此特性應用於學術評審，是否會造成非共識的創新觀點被邊緣化，形成演算法主導下的學術“同質化”？

這種 AI 輔助/代勞式的問題解決方式被應用於更高層面時，實則上是一種更大的危機。

參考文獻https://transformer-circuits.pub/2025/attribution-graphs/biology.htmlhttps://www.anthropic.com/research/tracing-thoughts-language-modelhttps://transformer-circuits.pub/2025/attribution-graphs/methods.html#appendix-interference-weights