

在人類科學史上,不同科學家對同一現象常常提出不同的理論解釋。牛頓和萊布尼茨各自獨立發明了微積分,愛因斯坦和玻爾關於量子力學的解釋存在分歧。而如今,人工智慧也日益成為科學研究的重要工具,它們不僅能協助科學家進行研究,甚至也能自行學習新的知識。那麼,當兩個 AI 模型面對相同的科學任務時,它們是否會得出相同的理解,形成同一種理論呢?
來自美國麻省理工學院物理系和人工智慧與基礎互動研究所(Institute of Artificial Intelligence and Fundamental Interactions)團隊的一項研究,給這個問題作出了回答。
相關論文以《兩個 AI 科學家會達成一致嗎?》(Do Two AI Scientists Agree?)為題發表在預印本平臺 arXiv 上。
圖丨相關論文(來源:arXiv)

MASS:模擬 AI 科學家的學習之路
為了探索 AI 如何學習物理理論,研究人員開發了一種稱為 MASS(多物理 AI 標量科學家,Multiple AI Scalar Scientists)的新型神經網路架構。
MASS 框架的設計靈感來源於物理學中的一個基本原理——最小作用量原理。這個原理表明,物理系統的演化路徑總是使其某個稱為“作用量”的標量函式取最小值,這個標量函式通常與系統的拉格朗日量(Lagrangian)或哈密頓量(Hamiltonian)相關。許多基礎物理理論都可以從這樣一個標量函數出發,透過特定的數學運算(如求導)推匯出系統的運動方程。

圖丨 MASS 的框架(來源:arXiv)
傳統的物理學神經網路,如哈密頓神經網路(HNN, Hamiltonian Neural Network)或拉格朗日神經網路(LNN, Lagrangian Neural Network),通常將特定的運動方程(如哈密頓方程或尤拉-拉格朗日方程)硬編碼到網路結構中,然後讓網路專注於學習標量函式本身。但 MASS 框架採取了更為靈活和通用的策略。它不僅為每個待研究的物理系統學習一個獨立的標量函式,我們稱之為 S,這代表了對該系統內在規律的初步假設。
更關鍵的是,MASS 還擁有一個跨所有系統共享的“理論評估層”。這個共享層是整個架構的核心,它負責學習如何從標量函式 S 及其對系統座標(如位置、速度或動量)的各階導數中,推匯出系統的運動方程。
這種設計賦予了 MASS 學習“元理論”的能力,即學習推導物理定律本身規則的能力,而不是僅僅學習某個特定定律的具體形式。整個工作流程模擬了人類科學家的研究過程。首先,MASS 接收來自不同物理系統的觀測資料,例如物體的運動軌跡或狀態演化,這相當於資料輸入階段。
接著,對每個系統,MASS 內部的一個獨立子網路學習其特定的標量函式 S,這可以看作是假設形成的過程。隨後,共享的最終層介入進行理論評估,它對學習到的各個標量函式 S 進行求導等一系列數學運算,並結合可學習的權重,推斷出描述系統行為的統一控制方程。這一步驟強制要求 AI 用一套融貫的“理論框架”來解釋所有觀察到的系統。
最後是改進與泛化階段,模型將其推斷出的運動或狀態變化與真實的觀測資料進行比較,計算誤差,並透過反向傳播演算法調整網路的所有引數(包括學習標量函式的子網路和學習理論規則的共享層)。這個過程不斷迭代,目標是優化出一個單一的理論體系,使其能同時且準確地描述多個不同的物理系統。
透過訓練多個具有不同隨機初始化的 MASS 模型,研究人員得以模擬不同的 AI 科學家群體,並細緻觀察它們學習到的標量函式 S 以及最終推匯出的理論有何異同。

從簡諧振子到混沌雙擺
研究團隊使用 MASS 進行了大量受控實驗。他們首先從經典力學中最基礎的模型開始,如簡諧振子(Simple harmonic oscillator)和單擺(Simple pendulum),然後逐步引入更復雜的系統,包括開普勒問題(Kepler problem,描述行星運動)、相對論性諧振子,甚至是一些研究人員設計的、沒有標準物理解釋的“合成”勢能系統(Synthetic potentials)。
為了模擬多個獨立科學家的情景,研究人員使用不同的隨機“種子”(seeds)來初始化多個 MASS 模型例項,然後讓它們學習相同的資料集。他們仔細追蹤了模型的訓練過程、最終學習到的理論(透過分析最終層輸出的數學表示式和內部啟用 activations)以及這些理論之間的相似性。
在 AI 學習的初級階段,當它只面對一個非常簡單的系統時,比如簡諧振子,它確實能夠非常準確地預測系統的行為。然而,當研究人員深入剖析其內部形成的“理論”時,發現情況並不簡單。AI 有時會學到一種包含大量數學項的複雜表達,其複雜程度遠超標準物理理論描述該系統所需。
更有意思的是,不同的 AI,僅僅因為初始隨機種子的不同,就可能學到形式上略有差異的標量函式 S,儘管這些不同的函式都能最終匯出正確的預測結果。在這個階段,一些 AI 學習到的理論在形式上更接近物理學中的哈密頓描述(這是一種側重於能量守恆的視角,通常表達為系統動能與勢能之和)。

圖丨(a)最終層的權重(藍色)和平均啟用範數(紅色);(b)顯著啟用的相關性(來源:arXiv)
研究中最關鍵發現來自於逐步增加學習任務複雜性的過程。當研究人員要求 AI 不再只解釋單一系統,而是要同時理解並解釋簡諧振子、單擺、開普勒問題等多個不同物理系統時,情況發生了很大變化。那些原先僅在簡單系統上有效、可能包含冗餘資訊或甚至是“錯誤”假設的理論開始暴露出侷限性,它們無法同時滿足來自多個系統的新資料約束。
這個過程非常像自然選擇:只有那些更具普適性、更能抓住物理本質的理論,才能在更廣泛、更多樣的物理現象面前“存活”下來並得到強化。一個有力的證據是,隨著 AI 需要學習的物理系統數量的增加,其理論中“顯著項”(即對最終預測結果貢獻最大的那些數學項)的數量呈現出顯著減少的趨勢。這清晰地表明,AI 在面對更豐富、更復雜的資料挑戰時,傾向於主動尋找更簡潔、更核心、更具統一性的解釋。

圖丨由單個 AI 科學家學習的成對相關性,該科學家在逐步處理越來越複雜的系統時訓練(來源:arXiv)
隨著系統複雜度的進一步提升,特別是當引入那些在廣義座標(Generalized Coordinates)下描述更為複雜的系統時,AI 學習到的理論展現出一種明確的轉變趨勢。它們明顯地從早期類似哈密頓量的形式,逐漸轉向了更接近拉格朗日量(Lagrangian)的形式。拉格朗日量在物理學中通常表達為系統動能與勢能之差。
研究人員透過多種方法交叉驗證了這一重要發現。一種方法是直接擬合:他們將 AI 學習到的標量函式 S,分別與理論上的拉格朗日量 L 和哈密頓量 H 進行線性擬合,考察其形式是否符合(其中 T 為動能,V 為勢能)。結果一致顯示,在經過複雜系統訓練後,絕大多數 AI 學到的 S 都滿足擬合係數 c1 和 c2 符號相反(這恰好對應了拉格朗日 L=T–V 的形式),而不是符號相同(對應哈密頓 H=T+V 的形式)。
另一種方法是進行啟用分析:研究人員運用主成分分析(PCA, Principal Component Analysis)等降維技術來處理 AI 最終層的神經元啟用值。他們發現,儘管不同 AI 例項(不同種子)的內部啟用模式可能千差萬別,具體數值差異很大,但它們最主要的啟用成分(通常能解釋超過 90% 的方差)之間卻具有極高的相關性(correlation),其相關係數常常非常接近 1 或者-1(-1 的情況表示一個簡單的符號反轉,即所謂的“宇稱翻轉”(parity flip,在物理意義上通常不改變理論本質)。這有力地表明,在功能層面上,不同的 AI 科學家最終就物理規律的核心數學表達達成了一種高度的功能性一致。

圖丨 50 個 MASS 科學家分別研究各種物理系統時第一主成分的相關性。大多數相關性較高,只有接近 −1 的相關性表示奇偶性翻轉(來源:i)
此外,研究者還設計了約束最佳化實驗:他們設定了一個最佳化目標,強制要求 AI 的最終輸出必須能夠由拉格朗日理論框架下的兩個關鍵數學項 (S⁻¹ᵧᵧSₓ和-S⁻¹ᵧᵧSₓᵧy) 進行線性組合來精確重構。結果發現,在這種嚴格約束下,重構的擬合效果非常好,R² 值(決定係數,衡量擬合優度)極高。這從另一個角度證明了,AI 在複雜動力學問題上學習到的內在關係,確實是遵循了拉格朗日理論的框架。

圖丨拉格朗日量的高 R² 值表明學習到的網路恢復了與解析拉格朗日量相同的函式依賴關係(來源:arXiv)
那麼,為什麼 AI 會表現出對拉格朗日描述的偏愛呢?研究者推測,這可能與拉格朗日形式本身的數學特性有關。拉格朗日力學在處理廣義座標系時展現出更強的普適性和形式上的簡潔性,而哈密頓形式則通常需要依賴更嚴格定義的“正則座標”。當提供給 AI 的訓練資料是以通用座標形式給出時,AI 自然會傾向於學習並採用那個更直接適用、約束更少的拉格朗日框架。
最後,為了驗證這種方法的潛力,研究團隊還將 MASS 應用於更高維度的挑戰,即二維的混沌雙擺(Double pendulum)問題。眾所周知,雙擺系統以其複雜的混沌行為而聞名。實驗結果顯示,即使研究人員沒有在 MASS 架構中預先植入用於強制能量守恆的尤拉-拉格朗日方程(Euler-Lagrange equations),MASS 模型也能夠透過學習資料,相當準確地掌握並復現雙擺那看似無序的複雜混沌軌跡。更重要的是,在模擬過程中,系統的總能量漂移非常小,顯示出良好的物理守恆性。這個成功的案例證明 MASS 方法不僅侷限於簡單系統,而且有潛力被擴充套件到更高維度、更接近現實世界複雜性的物理問題研究中。

圖丨透過 MASS 求解至均方誤差為 5×10−3 的雙擺軌跡。(來源:arXiv)

“兩個 AI 科學家會達成一致嗎?”
那麼,回到最初的問題:兩個 AI 科學家會達成一致嗎?這項研究給出的答案是:在很大程度上是的,尤其是在它們面對足夠豐富、多樣化且具有挑戰性的證據時。儘管由於隨機性的影響,它們的內部實現細節(例如具體的神經網路權重數值)可能千差萬別,就像不同的人類科學家可能有不同的思考路徑,但它們最終收斂到的核心物理理論,以及它們傾向於使用的描述該理論的數學框架(特別是對拉格朗日描述的偏愛),表現出高度的一致性。
而且研究結果也突出強調了拉格朗日力學在描述經典系統方面可能具有的某種更深層次的核心地位,至少從 AI 透過資料學習的視角來看是如此。同時,MASS 的成功,或許也能為未來構建可自主發現全新物理理論的系統提供一點啟示。
研究人員也提出了幾個值得進一步探索的方向,包括探索座標選擇的影響、修改損失函式以研究不同理論的學習機制、嘗試不同的模型架構,以及如何有效擴充套件模型解決更高維問題。
團隊希望,他們的工作不僅僅是講述一個關於哈密頓與拉格朗日兩種理論在 AI 學習中競爭與選擇的有趣故事,更能為未來構建功能更強大、同時又保持可解釋性的下一代 AI 科學家鋪平道路。
參考資料:
1.https://arxiv.org/abs/2504.02822
運營/排版:何晨龍



