

近年來,大模型之所以能夠獲得成功,其中一個重要原因是所謂的“湧現現象”——基於海量的訓練資料和引數,大模型在執行未經專門訓練的任務時,常常會湧現出超出預期的卓越能力。
以數學為例,主流的大模型普遍展現出瞭解答數學問題的推理能力。特別是在思維鏈方法的啟發下,人們普遍認為大模型解決數學問題的能力可以得到進一步增強。
然而,由於大規模神經網路的複雜性造成的不可解釋性,關於大模型如何產生數學推理能力的原理和機制,目前尚未有明確的科學定論。
為了提升大模型的可解釋性,學術界開始借鑑人類心理學的方法來研究大模型的思維模式。來自德國斯圖加特大學、美國加州大學聖地亞哥分校和美國哈佛大學的研究者在 Nature Computational Science 上發表的一項實證論文表明,思維鏈方法可以幫助大模型識別心理學中的認知反射測試問題的陷阱。
認知反射測試問題是一類精心設計的數學或邏輯問題,例如:“如果 5 個人縫製 5 件衣服需要 5 個小時,那麼 3 個人縫製 3 件衣服需要多少時間?”人類測試者常常會因為直覺(心理學中稱為“系統 1”)的干擾而出錯。
上述 Nature Computational Science 的論文認為藉助思維鏈方法,大模型可以被引導使用類似於人類的邏輯推理(即“系統 2”),從而提高解答認知反射測試問題的正確率。
在近期一項研究中,國防科技大學計算機學院研究團隊聯合中國科學院資訊工程研究所、新加坡科技研究局等機構重複並改進了上述研究中的實驗設計,對原始的認知反射測試問題進行了有針對性的(但儘可能保持簡單的)修改,卻得出了截然相反的結論。
圖 | 相關論文(來源:arXiv)
具體而言,本研究包含了三項實驗(注:所有實驗均是在採用思維鏈提示詞的前提下完成)。
實驗一:改變原始問題中的數字。具體測試組包括:
(A)原問題;
(B)改變原始問題中的部分數字;
(C)改變全部數字;
(D)將數字替換為字母,從而將算術問題轉變為代數問題。

(來源:arXiv)
若大模型具備真正的數學推理能力,能夠理解數學問題的本質,則僅改變題設中的數字,而不改變數學原理,理應不會導致正確率明顯下降。然而,實驗結果卻顯示出了相反的趨勢。主流大模型回答問題的平均正確率,由修改前的(A)86.8%,顯著下降至修改後的(B)68.5%、(C)53.1%、(D)20.9%。

(來源:arXiv)
透過分析大模型的答案可發現:導致錯誤的原因並非數字修改後計算複雜性的提升,而是解題步驟的改變。這一改變平均佔據了錯誤總數的(B)93.2%、(C)94.9%、(D)97.8%。這表明被測大模型在選擇解題步驟時,不僅依賴於題設中文字表述的數學原理,還與題設中的具體數字緊密相關,這顯然與人類邏輯推理(系統 2)的機制大相徑庭。
出現該現象的原因可能與大模型訓練的底層機理有關,即大模型透過文字之間的相關性來選擇生成機率較高的下一個 token,這種“填詞遊戲”的機制更接近於人類的直覺思維(系統 1),而非邏輯推理(系統 2)。

(來源:arXiv)
為進一步驗證以上推測,他們又設計了實驗一的反向實驗。
實驗二:在儘可能保持文字敘述相似的前提下,實質性改變原問題的數學機理。
例如:
-
原問題是:假設 5 個人縫製 5 件衣服需要 5 小時,那麼 3 個人縫製 3 件衣服需要多久?(時間與人數有關)
-
新問題為:假設 5 個人去 5 公里外的裁縫店需要 5 小時,那麼 3 個人去 3 公里外的裁縫店需要多久?(時間與人數無關)

(來源:arXiv)
實驗結果顯示,主流大模型的平均正確率由 73.3%(針對原問題)顯著下降至 27.5%(針對新問題)。其中,52.8% 的錯誤是由於沿用原問題的解題步驟導致的(注:每次實驗均獨立進行,不存在上下文關聯)。這說明大模型未能察覺新問題的數學原理已經發生實質性改變,而是僅憑藉文字敘述的相似性選擇了與原問題相同的解題步驟。
在實驗二中,國防科技大學計算機學院研究團隊還設計了另外兩項同類型的測試,均得出了相同的實驗結論。

(來源:arXiv)
實驗三:鑑於 OpenAI 最新發布的 o1 模型以其推理能力著稱,該團隊對 o1 重複了以上兩項實驗。
在重複實驗一的過程中,僅更改問題陳述中的數字並沒有顯著影響 o1 的正確率,這可能意味著 o1 在其內建思維鏈中採用了類似於“求解前,先列出方程”的相關提示。但這一推測目前無法得到官方證實,因為 OpenAI 並未公佈有關 o1 推理能力提升訓練的技術細節。

(來源:arXiv)
然而,在重複實驗二時,o1 的平均正確率,由 99.1%(針對原問題),下降到僅為 10%(針對新問題)。o1 與其他大模型一樣,對於改變了數學原理的新問題,仍然採用對應於原問題的解題步驟。
由此導致的錯誤平均佔比 82.5%。這說明,儘管 o1 經歷了以提升推理能力為目的訓練(微調),但並未從根本上提升其理解數學問題的能力。原因在於大模型的學習正規化並沒有發生實質性的改變,仍然是基於文字組合機率的“填詞遊戲”,導致大模型的思維模式根深蒂固地更接近於人類的直覺(系統 1),而非邏輯推理(系統 2)。
總結來說,本研究借鑑人類心理學中的認知反射測試(認知反射測試)方法,對主流大模型“湧現”出的數學推理能力進行了實證研究。透過構建正向實驗(實驗一)和反向實驗(實驗二),得出了與主流觀點大相徑庭的結論:
-
大模型基於文字相似性來匹配解題策略,而非真正理解了數學問題的本質原理。這種方式更接近於人類的直覺(系統 1)而非邏輯推理(系統 2)。
-
即使採用思維鏈或透過針對性微調(如 o1),也無法改變大模型根深蒂固的思維模式,因為訓練(微調)的底層正規化沒有改變,即仍然是根據文字組合出現的機率最佳化選擇。
也就是說,本次研究為備受關注的大模型能力“湧現現象”提供了實證反例,並進行了心理學層面的解釋,或可降低人們對思維鏈有效性以及大模型接近通用人工智慧能力的過度樂觀預期。
目前,相關論文正處於投稿流程中。不過,APPLE 等研究團隊同期釋出的其他兩篇相關“預印本”論文已經引起了廣泛的關注。這三項研究彼此獨立,在短短一個月內相繼亮相 arXiv,儘管採用了不同的資料集和實驗方案,卻得出了基本一致且可相互佐證的顛覆性結論。
相較於其他兩項研究,本研究從心理學的新穎視角出發,提供了獨特的實驗證據和解析維度,使得研究結果更具可解釋性。
在應用前景上:
(1)本次成果可以幫助人們更加深入地關注大模型的侷限性研究。例如,針對多樣化的資料集,採用更加豐富的實驗方案,以客觀、全面地評估大模型在各型別任務上的推理能力。
(2)透過借鑑經典心理學理論,嘗試模擬人類的邏輯思維(系統 2)來設計全新的大模型訓練正規化。這一嘗試有望從根本上轉變大模型的思維模式,使其真正具備邏輯推理能力。這或許是大模型向通用人工智慧邁進的關鍵一步。
參考資料:
1.Sprague, Z. et al. To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning.arXiv(2024).http://arxiv.org/abs/2409.12183
2.Mirzadeh, I. et al. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models.arXiv(2024).http://arxiv.org/abs/2410.05229
3.Xie, W. et al. Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From A Psychological Perspective. Preprint at http://arxiv.org/abs/2410.14979 (2024).
4.HAGENDORFF T, FABI S, KOSINSKI M. Human-like intuitive behavior and reasoning biases emerged in large language models but disappeared in ChatGPT[J/OL]. Nature Computational Science, 2023, 3(10): 833-838. DOI:10.1038/s43588-023-00527-x.
運營/排版:何晨龍


