
©作者 | 倪雲昊、郭宇芯等
單位 | 北京航空航天大學
本文作者均來自北京航空航天大學人工智慧學院和複雜關鍵軟體環境全國重點實驗室黃雷副教授團隊。一作倪雲昊為研一學生,二作郭宇芯為大三學生,三作賈俊龍為研二學生,通訊作者為黃雷副教授(主頁:https://huangleibuaa.github.io/)
神經網路通常由三部分組成:線性層、非線性層(啟用函式)和標準化層。線性層是網路引數的主要存在位置,非線性層提升神經網路的表達能力,而標準化層(Normalization)主要用於穩定和加速神經網路訓練,很少有工作研究它們的表達能力,例如,以 Batch Normalization 為例,它在預測階段可以認為是線性變換,從表達上並未引入非線性。因此研究人員普遍認為 Normalization 並不能夠提升模型的表達能力。
然而,最近由北京航空航天大學人工智慧學院黃雷老師團隊發表在 ICML 2024上的論文《On the Nonlinearity of Layer Normalization》指出,層標準化(Layer Normlization,LN)以及其計算退化版本 RMSNorm 具有非線性表達能力,並詳細討論了 LN 的萬能近似分類能力。

論文標題:
On the Nonlinearity of Layer Normalization
https://arxiv.org/abs/2406.01255
該論文對 LN 的非線性進行了數學證明。並且提出了僅含線性層和 LN 的簡單神經網路 LN-Net,在足夠深的情況下,理論上,可以任意分類給定的樣本和樣本類別。這一發現打破了人們將各種 Normalization 視為不具有擬合能力的線性變換的慣性認知,而非線性層和標準化層也不再是互不相交的神經網路模組。
目前,隨著 transformer 的廣泛使用,LN 作為其中的固定組成部分,已經成為了一種普遍使用的技術,該研究在未來可能為神經網路架構提供新的理論依據,在這個方向上,具有開創性意義。

LN非線性的數學發現
對於非線性研究,文章並沒有直接討論 LN 本身的分析性質,而是更具有實用意義地探究了 LN 與資料之間的互動。
作者首先提出了統計量 SSR(Sum of Squares Ratio),描述兩個類別下樣本的線性可分性。當對樣本進行線性變換時,SSR 也會發生變化。因此,定義樣本在所有線性變換下對應的最小的 SSR 為 LSSR。文章指出,當 LSSR 越小時,樣本之間的線性可分性越強。
然而,當對樣本施加的線性變化替換為“線性變換-LN-線性變換”的結構時,發現得到的新的 SSR 有可能低於 LSSR,這驗證了 LN 的非線性表達——如果 LN 是線性的,那麼“線性變換-LN-線性變換”也是線性的,得到的新 SSR 不可能會低於 LSSR。

LN在分類問題中的任意可分性
為了進一步研究,作者將 LN 拆分為兩個步驟:中心化(centering)和尺度縮放 (scaling)。中心化從數學上是一個線性變換,因此 LN 的非線性主要存在於尺度縮放操作當中(文章中也稱之為球面投影,是 RMSNorm 執行的操作)。作者以最為簡單的線性不可分的異或資料為例,透過線性變換和球面投影將這四個點進行了正確分類。

更一般地,作者提出了使用 LN 和線性層對任意數目樣本進行正確分類的演算法,探究了 LN-Net 的萬能近似能力。

透過構造演算法步驟,將神經網路的逐層變換轉換為同類樣本合併問題,將萬能近似分類問題轉換為樣例歸併問題,並指出——對於任意標籤的 m 個樣本,都可以構造一個 O(m) 層的 LN-Net,對這 m 個樣本進行正確分類。這一構造方法為計算神經網路的 VC 維也提供了新的思路。作者指出,在此基礎上,可以推斷出有 L 個層標準化層的 LN-Net,VC 維至少有 L+2。


LN非線性加強與實際應用
作者在證明了 LN 非線性的基礎上,為進一步加強 LN 的非線性以便於實際應用,提出了分組層標準化技術 (LN-G)。作者在數學上從海森矩陣的角度預測分組能強化 LN 的非線性,並從實驗上初步探測了 LN-G 的表達能力。
作者指出,在 CIFAR-10 隨機標籤資料集上,對於通常的線性層模型,其準確率不超過 20%;而使用線性層和 LN-G 構成的神經網路(不引入傳統的啟用函式作為非線性單元)能夠取得 55.85% 的準確率。

作者進一步探究了 LN-G 在無啟用函式的卷積神經網路的分類效果,並實驗上證明了這種沒有啟用函式的神經網路的確有著強大的擬合能力。此外,作者類比 MLP 上 GN 作用於整個樣本上(將單個樣本拉伸成一維向量,再進行 GN),提出了 LN-G-Position。在沒有非線性層的 ResNet 網路上使用 LN-G-Position 方法在 CIFAR-10 資料集上能夠取得 86.66% 的準確率,體現了 LN-G-Position 強大的表達能力。

作者接下來在 Transformer 上進行了實驗探究,將原本的 LN 替換為 LN-G,根據實驗結果發現了分組層標準化能有效性提升 Transformer 網路的效能,證明了真實網路中,該理論的可行性。

結論與展望
作者在《On the Nonlinearity of Layer Normalization》論文中,理論上首次證明了僅含有線性層和 LN 的模型的萬能分類能力以及給定特定深度的模型的 VC 維下界,這裡面最重要的意義是將傳統深度神經網路的表達能力的分析朝廣泛使用的現代真實網路邁出了一大步,這一點可能為未來的神經網路結構設計提供新的思路。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
