

近日,北京大學本科校友、美國麻省理工學院劉子鳴博士和所在團隊提出了神經熱力學定律(NTL,neural thermodynamic laws),這是一個會在大模型訓練中自然湧現的熱力學概念和定律,也是一個能為大模型訓練動態提供全新洞見的框架。
對於本次成果劉子鳴在 X 上寫道:“疊加態和神經標度律是語言模型中的兩大神奇現象。本次新研究表明,它們其實是同一枚硬幣的兩面!在實踐中,人們可以透過‘負’權重衰減來控制疊加態,從而控制擴充套件。”他還表示:“AI 終究是自然的(naturAl),而非人工的(Artificial)。”

圖 | 劉子鳴(來源:https://kindxiaoming.github.io/)

為大模型架起通往物理學的橋樑
總的來說,本次成果的主要貢獻如下:
首先,研究團隊進行了快慢動力學分解的數學表述。在 river–valley loss landscape 中,他們將訓練過程解耦為兩個動力學過程:第一個是快速動態過程,即沿 valley 方向呈現固定學習率 η 下的平衡態或衰減學習率下的退火態;第二個是慢速動態過程,即沿 river 方向的漂移運動。
其次,研究團隊打造了一個可被精確求解的 river–valley loss landscape 簡化模型,該模型能夠同時捕捉快速動態和流動動態,能為訓練行為和最優學習率排程提供解析解。
再次,研究團隊證明了本次成果與大模型的實證關聯性。具體來說他們證明來自該簡易模型的洞見能夠很好地推廣到真實大模型的訓練之中,並能為學習率排程提供直觀且有效的啟發。
同時,神經網路訓練與熱力學之間的二重性,為深入理解深度學習提供了科學基礎,這為大模型架起了一座通往物理學的橋樑。
結合該團隊目前所知道的他們認為學習率主要有三個作用:控制溫度、控制熵力、控制時間尺度。本次也研究證明大模型訓練的諸多方面,都能透過熱力學概念進行解析性理解。未來,該團隊將基於本次獲得的科學見解設計算法,以便提高大模型訓練的效率。

圖 | 訓練動態與熱力學的關聯(來源:arXiv)

大型神經網路與熱力學系統的驚人相似
就研究過程來說,如前所述該團隊在本次研究中提出了一款 river–valley loss landscape 簡化模型。與此同時,他們還分析了在隨機梯度下降(SGD,Stochastic Gradient Descent)和符號梯度下降(SignGD,Sign Gradient Descent)下的訓練動態。
需要說明的是,river–valley loss landscape 是一個用於描述神經網路最佳化過程中損失函式拓撲結構的比喻性概念。
其中:
-
river 指的是低維的、平緩的最佳化路徑,它的梯度較小但是方向穩定,對應著引數更新的高效通道。
-
valley 指的是被陡峭區域包圍的平坦區域,對應著區域性最小值。
-
loss Landscape 指的是神經網路引數空間中損失函式值的幾何分佈,反映了不同引數組合下的模型表現。
大型神經網路與熱力學系統有著驚人的相似之處,兩者都涉及大量的自由度,並表現出隨機動力學特性。因此,此前人們已經探索了神經網路與熱力學之間的聯絡。然而,這些研究主要集中在具有相對簡單、易於理解 loss landscape 的經典機器學習模型上。
前不久,有一支研究團隊揭示了大模型的複雜 loss landscape 特徵,這種被稱為 river-valley 的結構由兩類方向構成:平坦緩慢的 river 方向與陡峭快速的 valley 方向。直觀來講,快速動態會在 valley 內快速達到平衡態,而慢速動態則沿會 river 方向逐漸演化,並會受到快速動態的精細調節。
這種快慢分離的機制使得人們能夠獨立處理 valley 方向與 river 方向的動力學,從而得到可解析求解的結果。具體來說:快速動態呈現出熱平衡與退火特性,而慢速動態則表現為漂移過程。
在定性層面以及在某些情況下的定量層面,這些解析解與經典熱力學概念和定律存在相似性。
大模型的 loss landscape 呈現出典型的 river-valley 結構特徵。而本次研究的目標是透過神經熱力學定律的理論框架,將上述直觀認識形式化。因此,本次成果與大模型訓練有著直接相關性。
研究人員在論文中寫道,這種最佳化理論與熱力學之間的二元性,為理解和評估現代最佳化器提供了全新的理論視角。(需要說明的是,現代最佳化器是一種專門為神經網路訓練設計的高階梯度下降演算法,旨在透過最小化損失函式來提升模型的效能,是訓練複雜 AI 模型的關鍵技術。)
於理論層面,在 river–valley loss landscape 的假設之下,該團隊證明關鍵熱力學量以及經典熱力學原理,會從大模型的訓練動態中自然湧現。
於實踐層面,這一研究為設計學習率排程策略提供了直觀的指導原則。(需要說明的是,學習率排程策略是深度學習訓練的核心調參技巧之一,其本質是透過動態調整更新步長,在快速搜尋解空間與精細調整最優解之間取得平衡。)
大模型訓練動態與熱力學之間的二元性,不僅在概念和理論上具有深刻意義,更為學習率排程等實踐設計提供了實質性的指導。
在大模型預訓練中,一種常用的學習率排程策略是預熱-穩定-衰減(WSD,warmup-stable-decay)。根據以往文獻可知:穩定階段對應於沿 river 方向的運動,並伴隨著 valley 方向的波動;而衰減階段則會抑制 valley 方向的變化。
正是在此啟發之下,該團隊引入了基於 river–valley loss landscape 的簡化模型。這一模型不僅具有解析可解性,還能自然地詮釋為熱力學系統,並在實際大模型訓練動態中展現出高度的實證一致性。
基於快速動態和慢速動態之間的時間尺度分離特性,研究團隊將總損失函式 ℓ 分解為兩個部分:快部分 ℓf 和慢部分 ℓs,從而為構建河谷景觀的簡化模型帶來了啟發。
在固定學習率的情況之下,快速動態會收斂到一個穩態分佈,而這和熱平衡狀態是類似的。當學習率逐漸衰減時,分佈狀態會相應演化,這一過程類似於退火現象。此外,快速動態會對慢速動態施加一種有效的熵力作用,這與物理學中的熵力現象具有相似性。
值得注意的是,學習率 η 在所有這些現象中都起著核心作用。透過闡明學習率複雜且有時相互矛盾的作用機制,研究團隊提出了一套直觀高效的學習率排程設計準則。
相比此前基於經驗或基於現象開展大模型最佳化研究,尤其是最佳化學習率排程設計的研究成果來說,本次成果的表徵更加側重於機制性研究。
目前,相關論文以《大模型訓練中的神經熱力學定律》(Neural Thermodynamic Laws for Large Language Model Training)為題發在 arXiv[1]。

圖 | 相關論文(來源:arXiv)
另據悉,劉子鳴博士師從於麻省理工學院教授馬克斯·泰格馬克(Max Tegmark),主要研究 AI 與物理科學的交叉領域,他將自己的研究方向分為 Science of AI、Science for AI 和 AI for Science。目前,他正在尋找博士後職位。
參考資料:
https://arxiv.org/pdf/2505.10559
https://x.com/ZimingLiu11
https://kindxiaoming.github.io/
排版:劉雅坤


