只有透過海量測試才能抓住泛化性的本質嗎?

本文第一作者為上海交通大學博士生程磊,指導老師為上海交通大學張拳石教授。
當以端到端黑盒訓練為代表的深度學習深陷低效 Scaling Law 而無法自拔時,我們是否可以回到起點重看模型表徵本身——究竟什麼才是一個人工智慧模型的「表徵質量」或者「泛化性」?我們真的只有透過海量的測試資料才能抓住泛化性的本質嗎?或者說,能否在數學上找到一個定理,直接從表徵邏輯複雜度本身就給出一個對模型泛化性的先驗的判斷呢?
  • 論文標題:Revisiting Generalization Power of a DNN in Terms of Symbolic Interactions
  • 論文地址:https://arxiv.org/abs/2502.10162
本文就上述問題給出了初步的探索,從神經網路內在精細互動表徵複雜度的角度來探索「可泛化互動表徵」和「不可泛化互動表徵」各自所獨有的分佈。
一、大模型時代呼喚更高效的泛化性分析策略——中層表徵邏輯的交流與對齊
儘管深度學習基礎理論近年來取得了長足的發展,但一些根本性問題仍未得到有效解決。典型地,對神經網路泛化性的研究依然停留在一個相對較淺的層面——主要在高維特徵空間分析解釋神經網路的泛化性(例如透過損失函式景觀平滑度來判斷泛化性)。
因此,我們始終無法對神經網路泛化性給出一個「究竟」的解釋——究竟怎樣的確切的表徵才叫高泛化性的表徵。
然而,不同於判斷「人工神經網路」的泛化性,人們對自身「生物神經網路」可靠性的有一種更加直接有效的評價策略——在內在表徵層面的交流。讓我們跳出不言自明的直覺,反觀人類智慧,其實人類的交流是一種很神奇的能力,兩個上百上千億神經元的黑盒大腦(而且連結方式也各不相同)居然可以不約而同地共享相同的底層符號化認知——不僅包括語言,還包括一些下意識的公共認知(比如底層的 image segmentation 都是下意識自動完成的),讓人們可以直接可以從中層邏輯層面進行交流和對齊。人類彼此透過交流中層表徵邏輯層面來實現對齊和互信,而不是像對待神經網路那樣,需要透過長期的、大樣本的、統計上的正確率來證明其可靠性。
比起端到端評測中統計意義的正確率,透過中層表徵邏輯的交流,是判斷一個智慧體表徵可靠性的一個更直接、更高效、更本質的手段。
二、兩個本質的數學問題
然而,上述在中層精細表徵邏輯上的交流與對齊,目前並沒有被應用在人工神經網路上,根本上,工程實現上種種細節問題都可以歸結為兩個基本的數學問題。
問題 1:能否數學證明神經網路內在複雜混亂的各種精細表徵邏輯,可以被清晰地、簡潔地解釋為一些符號化的概念。
這裡,我們要面對一個看似相互矛盾的「既要又要」,既要解釋的「簡潔性」又要同時兼顧解釋的「全面性」——用簡潔的符號化操作解釋神經網路中幾乎全部的細節表徵變換。
實驗室前期提出的「等效互動解釋理論」部分解決了上述問題。它證明了大部分神經網路的分類置信度的計算可以等效表示為一個符號化的(稀疏的)「與或互動邏輯模型」。
具體地,給定一個包含 n 個輸入單元的輸入樣本,其一共存在 2^n 種不同的遮擋狀態,我們發現神經網路在這 2^n 種不同遮擋狀態下對目標類別的不同分類置信度,都可以表示為少量的(比如 50 到 150 個)與或互動邏輯的數值效用之和。
即無論輸入樣本被如何遮擋,其各種變化的分類置信度都可以被這個「與或互動邏輯模型」中 50 到 150 個互動所全部擬合出來。我們將其稱為互動的「無限擬合性」——這是一個很強的結論,在數學上保證了「神經網路內在精細表徵邏輯可以被嚴格地解釋為少量的『 與或互動概念』」。
圖 1. 與或互動的無限擬合性。給定一個神經網路,總能構造出一種稀疏的「與或互動邏輯模型」,僅使用少量的顯著「與或互動」來精確匹配神經網路在所有 2^n 種遮擋樣本上的輸出。
如圖 1 所示,「與或互動邏輯模型」中的互動分為「與互動」和「或互動」兩類。其中,「與互動」S 表示神經網路所等效建模的輸入單元間的「與邏輯」關係,當集合 S 內所有輸入單元均出現在輸入樣本(不被遮蓋)時,該互動為神經網路的分類自信分數貢獻一個數值效應 

。例如,圖 1 中 LLaMA-7B 模型編碼了一個與互動

,當集合內輸入單元均出現時,為 LLM 預測下一個詞素「space」(目標單詞 spacetime 中的詞素 token)貢獻一個正的數值效應。「或互動」表示神經網路所等效建模的輸入單元間的「或邏輯」關係,當集合 S 內任一輸入單元出現(不被遮蓋)時,該「或互動」為神經網路的分類自信分數貢獻一個數值效應

 。例如,上圖中模型編碼了一個或互動

,當集合內任一輸入單元出現時,為 LLM 預測下一個單素「space」貢獻一個正的數值效應

相關內容參考部落格:
https://zhuanlan.zhihu.com/p/693747946
https://mp.weixin.qq.com/s/MEzYIk2Ztll6fr1gyZUQXg
三、透過符號化互動概念複雜度分佈直接判斷神經網路的泛化性
問題 2:我們能否直接透過神經網路所等效建模的符號化互動概念,直接判斷神經網路的泛化性。
由於問題 1 已經在實驗室前期工作中給出了理論解答,本文主要討論解決問題 2——究竟能否在互動概念表徵層面判斷一個黑盒模型的泛化性,即我們能否從某個具體的數學指標,直接將神經網路的互動概念表徵和神經網路的泛化性建立起內在的相關性。
由於我們證明了神經網路的分類置信度可以被解構為少量互動概念數值效用的和,所以神經網路整體展現出的泛化性可以被視為不同互動概念泛化性的整合效用。
互動泛化性的定義:如果一個互動概念在訓練樣本中大量出現,同時也在測試樣本中也大量出現,那麼我們認為這個互動概念被泛化到了測試樣本。反之,如果一個互動概念只在訓練樣本中出現,而不在測試樣本中出現,那麼這個互動被認為是不可穩定泛化的。比如,在人臉檢測中,神經網路往往建模兩個眼睛和一個鼻子之間的互動概念,如果這樣的互動概念在訓練樣本和測試樣本上出現的頻率是差不多的,那麼這個互動概念就是可以穩定泛化的。
互動概念的階數(複雜度):互動概念 S 的複雜度可以由互動概念的階數來量化,即互動概念 S 中包含輸入單元的數目,i.e. order(S)=|S|。高階(複雜)互動包含更多的輸入單元,而低階(簡單)互動包含更少的輸入單元。
互動概念的分佈:對於所有 m 階互動,我們透過計算所有 m 階正互動的強度之和  和所有 m 階負互動的強度之和來表示互動概念在不同階數(複雜度)上的分佈。具體計算公式如下
我們發現了,神經網路中不可泛化互動往往在不同階數(複雜度)上呈現紡錘形分佈,而可泛化的互動往往在不同階數(複雜度)呈現衰減形分佈。
以圖 2 為例,大多數可泛化的互動是低階互動,少部分是中高階互動。此時可泛化的互動隨著階數升高強度逐漸減小,其在不同階數上的分佈呈現衰減形;而大多數不可泛化的互動主要是中階互動,很少有極低階互動和極高階互動,而且每一階的不同互動效用近似正負抵消。換言之,不可泛化的互動在不同階數上的分佈呈現紡錘形。
圖 2. 我們發現神經網路的互動可以被分解為兩部分:服從衰減形分佈的可泛化的互動和服從紡錘形的不可泛化的互動
實驗一:當我們訓練神經網路直至過擬合,我們發現神經網路過擬合前的互動往往呈現衰減形分佈,而過擬合階段新出現的互動往往呈現紡錘形分佈。
具體地,我們使用神經網路測試集 loss 與訓練集 loss 之間的 loss gap 將神經網路的學習過程分成兩個階段:第一階段,神經網路的 loss gap 趨近於 0,對應神經網路的正常學習過程。此時神經網路主要編碼了低階互動,互動的分佈呈現衰減形,如圖 3 所示。第二階段,神經網路的 loss gap 開始上升,對應神經網路的過擬合過程,此時神經網路開始編碼中高階互動。我們使用

 分別表示神經網路在第二階段過程中(相對於第一階段末)所新編碼的 m 階正互動的強度之和和 m 階負互動的強度之和。我們發現,在過擬合階段神經網路新編碼的互動呈現紡錘形分佈。這印證了不可泛化的互動往往呈現紡錘形分佈,而可泛化性的互動往往呈現衰減形分佈的結論。

圖 3. 互動在神經網路訓練過程的兩階段動態變化過程。第一階段,由模型引數初始化產生的噪聲互動(時間點 A)被逐漸去除(時間點 B),神經網路主要編碼了衰減形分佈的互動。第二階段,神經網路新編碼的互動的分佈呈現紡錘形(時間點 C 和 D)。
實驗二:當我們修改訓練好的神經網路,使其包含更多的不可泛化的表徵時,新出現的互動往往呈現紡錘形。
具體地,給定一個訓練好的神經網路,我們使用以下兩種方法向神經網路注入不可泛化的表徵:1. 向神經網路引數中新增高斯噪聲,2. 向樣本中新增對抗擾動。與實驗一類似,我們使用

表示神經網路在修改後相對於修改前所新編碼的 m 階正互動的強度之和和 m 階負互動的強度之和。

我們發現,修改後新出現的互動的分佈呈現紡錘形。此外,當我們逐漸增大所加入的噪聲強度(方差),此時新出現的紡錘形分佈的互動強度也逐漸增大。上述實驗部分印證了不可泛化的互動的分佈往往呈現紡錘形的結論。
圖 4. 注入噪聲後,新出現的互動分佈(

)呈現紡錘形。隨著注入噪聲強度的逐漸增加,新出現的呈現紡錘形分佈的互動強度隨之增大。理論估計的紡錘形互動分佈(

)(見公式(6))與實驗測量的新出現互動分佈高度匹配。

我們提出了兩個引數模型來建模神經網路的不可泛化互動的紡錘形分佈和可泛化互動的衰減形分佈。
第一,對於紡錘形分佈的建模,我們團隊在之前的工作中發現了給定一個完全初始化的神經網路,此時神經網路編碼的互動是無意義的高斯噪聲。這時,可以證明給定完全初始化的神經網路,當輸入單元的數量為 n 時,神經網路的 m 階互動的強度和滿足二項分佈

。因此,在當前研究中,我們進一步發現對於一個訓練過的神經網路,如果不是所有的輸入單元之間都有互動時,我們可以引入比例係數

來構造如下引數模型來建模該模型不可泛化的互動的紡錘形分佈。

其中伽馬函式

的作用是將階乘拓展到實數範圍

 ,進而實現了將二項分佈

拓展到實數範圍,即 

第二,對於衰減形分佈的建模,我們團隊在之前的工作中理論並實驗驗證了神經網路在訓練過程的第二階段的互動變化動態過程。定理 2.3 表示了神經網路引數和資料集中的不穩定噪聲可以去除神經網路的相互抵消的中高階互動,即避免過擬合。因此,我們可以透過設定

,來去除給定神經網路互動中的過擬合成分,從而得到衰減形分佈的可泛化互動。

圖 5 展示了在不同噪聲強度

下的理論互動分佈和實際過擬合過程中的實際互動分佈,結果顯示定理 2.3 確實能有效預測過擬合前的互動分佈。

圖 5. 比較神經網路的過擬合階段的不同時間點點實際互動的分佈

和理論互動的分佈

因此,我們提出以下引數模型來建模神經網路可泛化互動的衰減形分佈。
給定一個神經網路,我們提出演算法將神經網路建模的互動的分佈分解成服從衰減形分佈可泛化互動

和服從紡錘形分佈的不可泛化互動

兩部分。

四、實驗驗證
實驗一:驗證紡錘形互動引數模型能精確匹配實際情景的不可泛化的互動分佈。
具體地,在第三節的實驗二中我們提出透過在神經網路引數上加高斯噪聲以及在輸入樣本上加對抗擾動的方法為神經網路注入不可泛化的表徵,我們發現注入不可泛化的表徵後新出現的互動分佈呈現紡錘形。結果如圖 4 所示,可見我們提出的理論模型能精確匹配實際場景下的不可泛化的互動分佈。
實驗二:驗證提取可泛化互動分佈和不可泛化互動的分解演算法的可靠性。
本實驗中,我們同時提取神經網路建模的可泛化互動的分佈和不可泛化的互動的分佈。我們將從以下兩個角度來驗證演算法的可靠性。
角度 1. 當我們往神經網路中注入更多的不可泛化的表徵時,分解演算法是否能精確提取出更顯著的不可泛化互動分佈和幾乎穩定的可泛化互動分佈。
角度 2. 我們使用擬合誤差

和 

來評估分解演算法的擬合質量。

實驗結果如下圖所示,分解演算法提取的不可泛化互動的紡錘形分佈隨著噪聲增大逐漸顯著,而可泛化互動的衰減形分佈幾乎不變。此外,擬合誤差的相對強度較小,表明擬合質量較優。該實驗驗證了使用分解演算法確實能有效提取神經網路的可泛化互動的衰減分佈和不可泛化互動的紡錘形
圖 6. 使用分解演算法提取可泛化互動的衰減型分佈

與不可泛化互動的紡錘型分佈

。當我們向神經網路注入更多不可泛化的表徵時,分解演算法提取出了更顯著的不可泛化互動分佈和幾乎穩定的可泛化互動分佈。

實驗三:在真實場景應用下使用分解演算法提取可泛化互動的分佈和不可泛化互動的分佈。
具體地,我們在多個模型在多個數據集上使用分解演算法來提取兩種互動的分佈。對於每個模型,我們選取了該模型在訓練過程中的四個時間點,進而展示神經網路訓練過程中可泛化互動的分佈和不可泛化互動的分佈變化。結果如圖 7 所示
圖 7. 使用分解演算法從真實神經網路訓練過程中的不同時間點提取可泛化互動的衰減型分佈

與不可泛化互動的紡錘型分佈

。在正常學習階段,神經網路主要去除了紡錘形分佈的互動,並學習了衰減形分佈的互動。在過擬合階段,DNN 進一步學習紡錘形分佈的互動。

我們發現,在神經網路訓練的學習階段(此時 loss gap 幾乎為零)主要消除了紡錘形分佈的不可泛化的互動,這種互動來源於神經網路初始化引起的純噪聲。當學習階段結束時,神經網路主要編碼的是衰減型分佈的可泛化的互動。
然後,在神經網路訓練的過擬合階段(此時神經網路的 loss gap 開始增加),神經網路又重新學習了紡錘形分佈的互動。這表明神經網路開始編碼不可泛化的正負相互抵消的中高階互動,這對應了典型的過擬合現象。
實驗四:基於我們的理論,我們甚至可以解構出 Qwen2.5-7b 模型和 DeepSeek-r1-distill-llama-8b 模型的異同。
DeepSeek 模型中大部分互動可以泛化到測試樣本。Qwen 模型的互動正負抵消較多,在中階互動部分呈現出較為明顯的「紡錘形」——這些正負抵消的紡錘形互動代表過擬合的表徵,而且這些紡錘形分佈的互動的泛化性比較差。
五、結論和討論
我們透過神經網路所編碼的互動概念的泛化能力來解釋神經網路整體的泛化能力的根因。我們發現神經網路中可泛化的互動通常呈現衰減型分佈,而不可泛化的互動通常呈現紡錘型分佈。此外,給定一個神經網路,我們進一步提出了一種方法來提取神經網路編碼的可泛化互動和不可泛化互動。
然而,我們的工作距離解釋模型泛化性的終極理論還很遙遠。我們僅描述了可泛化互動作用和不可泛化互動作用在複雜度上的總體分佈趨勢。然而,對於特定樣本,理論依然無法從微觀角度解釋神經網路所建模的全部互動概念。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章