

“AI 能不能真正理解你在想什麼?”這看似是哲學或心理學的問題,其實是 AI 下一階段演進繞不開的技術挑戰。技術術語叫做“心智理論”(ToM,Theory of Mind),即模型是否能夠理解、推理和預測他人的信念與意圖。
目前,大語言模型在部分心智測試中已展現出一定的能力,但其對資源的依賴使得在移動裝置、低功耗場景、教育陪伴型產品中難以直接部署。美國斯蒂文斯理工學院張登輝和徐兆卓助理教授和團隊關注的核心問題是:如何讓中小規模語言模型在生成過程中逐漸成長,最終具備“理解人”的基本能力?
為此,研究團隊提出了一種基於動態認知邏輯 (Dynamic Epistemic Logic, DEL) 與路徑評分機制的推理階段增強框架——DEL-ToM(Dynamic Epistemic Logic for Theory-of-Mind),旨在提升小模型在複雜心智測試中的可解釋推理能力。不改變模型結構、不重新訓練,只通過一個對於模型在心智測試中的生成過程進行評價,幫助模型推理式生成過程中選擇更合理的心智推理思路。
心智測試任務的難點不在於語言理解,而在於對多層巢狀信念的建模。模型不僅需要識別事實,還需理解“角色 A 認為角色 B 誤解了角色 C 的行為“這類高階結構。研究團隊認為大模型心智的本質不是知識問答,而是視角建模。
舉個經典例子:John 把巧克力放在抽屜裡,然後出門了。Mary 悄悄把巧克力移到了桌上。現在問題是:“John 回來後會去哪找巧克力?”
這個問題的標準答案應該是“抽屜”,因為 John 並不知道巧克力已經被挪走了。但很多小模型會直接說“桌上”,它們只看到了事實,而沒有理解 John 的視角。
更復雜的任務涉及三階巢狀(A 知道 B 以為 C 不知道…),這就要求模型不僅理解文字,還要構建多角色、多時間點的動態信念邏輯,挑戰非常高。人類兒童在 4 歲左右逐漸習得這類推理,而語言模型並不具備內建的信念建模機制。當它們面對“John 不知道 Mary 換了巧克力位置”的任務時,往往會直接根據事實回答,忽略主角的視角限制。這一現象在二階及以上信念任務中尤為明顯。這也意味著,心智慧力的構建,不只是訓練資料覆蓋問題,更是推理機制設計問題。

(來源:資料圖)
據介紹,DEL-ToM 的核心由兩個協同模組構成。
第一個協同模組是,信念路徑生成器(Belief Trace Generator),給定文字場景,語言模型生成多個可能的信念更新序列,每條路徑代表角色對世界狀態的動態理解過程。每條路徑由若干巢狀更新組成,形式化表達 DEL 動態認知邏輯中的狀態轉移。
第二個協同模組是過程評分模型(PBM,Process Belief Model),利用 DEL 動態認知邏輯標籤訓練的輕量化評分器,對每條路徑逐步評估其邏輯一致性與結構合理性。最終,選取得分最高路徑作為答案來源。
研究團隊強調的是一種推理階段的“信念路徑選擇”,讓模型像人一樣“先構建推理過程,再輸出結論”。這個方法不需要額外訓練資料,不依賴外部知識庫,僅透過邏輯約束和評分機制就能提升推理質量。

(來源:資料圖)
研究團隊在 Hi-ToM 資料集上評估 DEL-ToM 的效能,測試模型包括 LLaMA,Qwen 等模型系列,覆蓋各種形式的 ToM 任務。
關鍵發現包括:
-
Qwen3-4B 模型在 DEL-ToM 增強後表現超過 DeepSeekV3 和 GPT-4.1;
-
LLaMA3.2-7B 在 DEL-ToM 增強後表現接近 GPT-4.1;
-
DEL-ToM 顯著擴充套件小模型在 ToM 心智相關測試的效能,展現小模型的心智提升潛力。
此外,研究團隊還在心理學標準測試(Sally-Anne, Ice-Cream Van)上驗證了 DEL-ToM 在複雜信念建模方面的結構優勢。更重要的是:DEL-ToM 的增益與模型大小關係不大,說明其適配性良好,適合低資源環境部署。
在研究團隊的另一篇“兄弟篇”論文《敏感性與稀疏性的交匯:極端稀疏引數模式對大語言模型心智理論的影響》(Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models)中,研究團隊換了一個新研究角度:ToM 能力究竟是如何在語言模型內部產生的?它是否依賴某些極度稀疏的關鍵引數?

(來源:資料圖)
研究團隊首次提出“ToM-sensitive parameters”的概念,即模型中對心智推理結果極其敏感的少量稀疏引數集合。研究團隊的方法如下:
-
利用微擾方法在保持語言能力不變的條件下,逐步擾動稀疏關鍵引數;
-
精確定位哪些位置的模型引數輕微變化就會造成 心智慧力崩塌;
結果發現:只需擾動 0.001% 的引數,模型的 心智 表現就可下降 25% 以上。
更令人驚訝的是,這些敏感引數高度集中在 Transformer 架構中的位置編碼模組(如 RoPE),負責調控 Query 與 Key 在不同時間步之間的對齊角度。這種變化會破壞模型對故事事件順序的理解,進而影響“誰知道了什麼”這一 心智 核心要素。

(來源:資料圖)
總的來說,這項研究的意義在於:為大模型心智慧力提供了神經機制層面的解釋,即大模型心智慧力並非大規模引數協同湧現,而是具備高度結構性;可用於未來人工智慧模型心智慧力檢測和注入等應用的引數級調控工具設計。
兩項工作從不同角度強化研究團隊對“語言大模型是否真正具備心智”的理解,併為後續可解釋大模型、社會人格注入等方向提供理論基礎與工程方法。

圖 | 研究團隊:史蒂文斯理工張登輝老師和徐兆卓老師(來源:資料圖)
為什麼研究團隊強調“小模型”?很多人對該團隊提出疑問:為什麼不直接訓練一個大模型解決 任務?
理由有三:
-
成本可控:邊緣場景、K12 教育、陪伴型機器人無法承載大模型部署成本;
-
可解釋性強:小模型的輸出更容易被分析、糾偏和對齊;
-
科學價值:小模型更容易研究“為什麼出錯”“模型到底學到了什麼”。
研究團隊相信,小模型也具備在實踐中提升心智,達到大模型心智水平的潛力。其表示,心智慧力在多個實際場景中具有重要價值,尤其在資源受限裝置與需要高度可解釋輸出的系統中,比如用於教育機器人、醫療陪護系統、心理健康對話系統等。DEL-ToM 提供的邏輯路徑可直接用於決策解釋與反饋生成,具有良好的信任感與部署價值。
研究團隊表示,DEL-ToM 並非簡單提升小模型效能的工具,更是推動“過程可解釋、結構可控、生成可信”這一方向的一次嘗試。在研究團隊看來,心智不僅是能力評估指標,更是通向可信 AI 的橋樑。未來研究團隊還將進一步探索大模型的多路徑共識機制、心智評估與修正策略、跨模態信念建模(文字 + 圖表 + 場景模擬)。研究團隊相信,理解他人想法不僅是大模型的能力邊界,更是建立信任、服務人類的必要能力。
運營/排版:何晨龍


