反向傳播、前向傳播都不要，這種無梯度學習方法是Hinton想要的嗎？

機器之心報道

編輯：張倩、+0

Noprop：沒有反向傳播或前向傳播，也能訓練神經網路。

「我們應該拋棄反向傳播並重新開始。」早在幾年前，使反向傳播成為深度學習核心技術之一的 Geoffrey Hinton 就發表過這樣一個觀點。

而一直對反向傳播持懷疑態度的也是 Hinton。因為這種方法既不符合生物學機理，與大規模模型的並行性也不相容。所以，Hinton 等人一直在尋找替代反向傳播的新方法，比如 2022 年的前向 – 前向演算法。但由於效能、可泛化性等方面仍然存在問題，這一方向的探索一直沒有太大起色。

最近，來自牛津大學和 Mila 實驗室的研究者向這一問題發起了挑戰。他們開發了一種名為 NoProp 的新型學習方法，該方法既不依賴前向傳播也不依賴反向傳播。相反，NoProp 從擴散和流匹配（flow matching）方法中汲取靈感，每一層獨立地學習對噪聲目標進行去噪。

論文標題：NOPROP: TRAINING NEURAL NETWORKS WITHOUT BACK-PROPAGATION OR FORWARD-PROPAGATION
論文連結：https://arxiv.org/pdf/2503.24322v1

研究人員認為這項工作邁出了引入一種新型無梯度學習方法的第一步。這種方法不學習分層表示 —— 至少不是通常意義上的分層表示。NoProp 需要預先將每一層的表示固定為目標的帶噪聲版本，學習一個區域性去噪過程，然後可以在推理時利用這一過程。

他們在 MNIST、CIFAR-10 和 CIFAR-100 影像分類基準測試上展示了該方法的有效性。研究結果表明，NoProp 是一種可行的學習演算法，與其他現有的無反向傳播方法相比，它實現了更高的準確率，更易於使用且計算效率更高。透過擺脫傳統的基於梯度的學習正規化，NoProp 改變了網路內部的貢獻分配（credit assignment）方式，實現了更高效的分散式學習，並可能影響學習過程的其他特性。

在看了論文之後，有人表示，「NoProp 用獨立的、無梯度的、基於去噪的層訓練取代了傳統的反向傳播，以實現高效且非層次化的貢獻分配。這是一項具有開創性意義的工作，可能會對分散式學習系統產生重大影響，因為它從根本上改變了貢獻分配機制。

其數學公式中涉及每層特定的噪聲模型和最佳化目標，這使得無需梯度鏈即可進行獨立學習。其優勢在於透過讓每一層獨立地對一個固定的噪聲目標進行去噪，從而繞過了反向傳播中基於順序梯度的貢獻分配方式。這種方式能夠實現更高效、可並行化的更新，避免了梯度消失等問題，儘管它並未構建傳統的層次化表示。」

還有人表示，「我在檢視擴散模型架構時也產生過這樣的想法…… 然而，我認為這可能是一種非最優的方法，所以它現在表現得如此出色讓我感到很神秘。顯而易見的是其並行化優勢。」

為什麼要尋找反向傳播的替代方案？

反向傳播雖是訓練神經網路的主流方法，但研究人員一直在尋找替代方案，原因有三：

生物學合理性不足：反向傳播需要前向傳遞和後向傳遞嚴格交替，與生物神經系統運作方式不符。
記憶體消耗大：必須儲存中間啟用值以計算梯度，造成顯著記憶體開銷。
平行計算受限：梯度的順序傳播限制了並行處理能力，影響大規模分散式學習，並導致學習過程中的干擾和災難性遺忘問題。

目前為止，反向傳播的替代最佳化方法包括：

無梯度方法：如直接搜尋方法和基於模型的方法
零階梯度方法：使用有限差分近似梯度
進化策略
基於區域性損失的方法：如差異目標傳播（difference target propagation）和前向 – 前向演算法

但這些方法因在準確性、計算效率、可靠性和可擴充套件性方面的限制，尚未在神經網路學習中廣泛應用。

方法解析

NoProp

設 x 和 y 是分類資料集中的一個輸入 – 標籤樣本對，假設從資料分佈 q₀(x,y) 中抽取，z₀,z₁,…,zₜ ∈ Rᵈ 是神經網路中 T 個模組的對應隨機中間啟用值，目標是訓練該網路以估計 q₀(y|x)。

定義兩個分佈 p 和 q，按以下方式分解：

p 分佈可以被解釋為一個隨機前向傳播過程，它迭代地計算下一個啟用值 zₜ，給定前一個啟用值 zₜ₋₁ 和輸入 x。實際上，可以看到它可以被明確表示為一個添加了高斯噪聲的殘差網路：

其中 Nᵈ(・|0,1) 是一個 d 維高斯密度函式，均值向量為 0，協方差矩陣為單位矩陣，aₜ,bₜ,cₜ 是標量（如下所示），bₜzₜ₋₁ 是一個加權跳躍連線，而 ûθₜ(zₜ₋₁,x) 是由引數 θₜ 引數化的殘差塊。注意，這種計算結構不同於標準深度神經網路，後者沒有從輸入 x 到每個模組的直接連線。遵循變分擴散模型方法，也可以將 p 解釋為給定 x 條件下 y 的條件隱變數模型，其中 zₜ 是一系列隱變數。可以使用變分公式學習前向過程 p，其中 q 分佈作為變分後驗。關注的目標是 ELBO，這是對數似然 log p (y|x)（即證據）的下界：

遵循 Sohl-Dickstein 和 Kingma 等人的方法，將變分後驗 q 固定為一個易於處理的高斯分佈。在這裡使用方差保持的 Ornstein-Uhlenbeck 過程：

其中 uᵧ 是類別標籤 y 在 Rᵈ 中的嵌入，由可訓練的嵌入矩陣 W (Embed) ∈ Rᵐˣᵈ 定義，m 是類別數量。嵌入由 uᵧ = {W (Embed)}ᵧ 給出。利用高斯分佈的標準性質，我們可以得到：

其中 ᾱₜ = ∏ₛ₌ₜᵀαₛ，μₜ(zₜ₋₁,uᵧ) = aₜuᵧ + bₜzₜ₋₁，aₜ = √(ᾱₜ(1-αₜ₋₁))/(1-ᾱₜ₋₁)，bₜ = √(αₜ₋₁(1-ᾱₜ))/(1-ᾱₜ₋₁)，以及 cₜ = (1-ᾱₜ)(1-αₜ₋₁)/(1-ᾱₜ₋₁)。為了最佳化 ELBO，將 p 引數化以匹配 q 的形式：

其中 p (z₀) 被選為 Ornstein-Uhlenbeck 過程的平穩分佈，ûθₜ(zₜ₋₁,x) 是由引數 θₜ 引數化的神經網路模組。給定 zₜ₋₁ 和 x 對 zₜ 進行取樣的結果計算如殘差架構（方程 3）所示，其中 aₜ,bₜ,cₜ 如上所述。最後，將此引數化代入 ELBO（方程 4）並簡化，得到 NoProp 目標函式：

其中 SNR (t) = ᾱₜ/(1-ᾱₜ) 是信噪比，η 是一個超引數，U {1,T} 是在整數 1,…,T 上的均勻分佈。我們看到每個 ûθₜ(zₜ₋₁,x) 都被訓練為直接預測 uᵧ，給定 zₜ₋₁ 和 x，使用 L2 損失，而 p̂θout (y|zₜ) 被訓練為最小化交叉熵損失。每個模組 ûθₜ(zₜ₋₁,x) 都是獨立訓練的，這是在沒有透過網路進行前向或反向傳播的情況下實現的。

實現細節

NoProp 架構如圖 1 所示。

在推理階段，NoProp 架構從高斯噪聲 z₀開始，透過一系列擴散步驟轉換潛變數。每個步驟中，潛變數 zₜ透過擴散動態塊 uₜ演化，形成序列 z₁→z₂→…→zₜ，其中每個 uₜ都以前一狀態 zₜ₋₁和輸入影像 x 為條件。最終，zₜ透過線性層和 softmax 函式對映為預測標籤ŷ。

訓練時，各時間步驟被取樣，每個擴散塊 uₜ獨立訓練，同時線性層和嵌入矩陣與擴散塊共同最佳化以防止類別嵌入崩潰。對於流匹配變體，uₜ表示 ODE 動態，標籤預測透過尋找與 zₜ在歐幾里得距離上最接近的類別嵌入獲得。

訓練所用的模型如圖 6 所示，其中左邊為離散時間情況的模型，右邊為連續時間情況的模型。

作者在三種情況下構建了相似但有區別的神經網路模型：

離散時間擴散：神經網路 ûθt 將影像 x 和潛變數 zt−1 透過不同嵌入路徑處理後合併。影像用卷積模組處理，潛變數根據維度匹配情況用卷積或全連線網路處理。合併後的表示透過全連線層產生 logits，應用 softmax 後得到類別嵌入上的機率分佈，最終輸出為類別嵌入的加權和。
連續時間擴散：在離散模型基礎上增加時間戳 t 作為輸入，使用位置嵌入編碼並與其他特徵合併，整體結構與離散情況相似。
流匹配：架構與連續時間擴散相同，但不應用 softmax 限制，允許 v̂θ 表示嵌入空間中的任意方向，而非僅限於類別嵌入的凸組合。

所有模型均使用線性層加 softmax 來引數化相應方程中的條件機率分佈。

對於離散時間擴散，作者使用固定餘弦噪聲排程。對於連續時間擴散，作者將噪聲排程與模型共同訓練。

實驗結果

作者對 NoProp 方法進行了評估，分別在離散時間設定下與反向傳播方法進行比較，在連續時間設定下與伴隨敏感性方法（adjoint sensitivity method）進行比較，場景是影像分類任務。

結果如表 1 所示，表明 NoProp-DT 在離散時間設定下在 MNIST、CIFAR-10 和 CIFAR-100 資料集上的效能與反向傳播方法相當，甚至更好。此外，NoProp-DT 在效能上優於以往的無反向傳播方法，包括 Forward-Forward 演算法、Difference Target 傳播以及一種稱為 Local Greedy Forward Gradient Activity-Perturbed 的前向梯度方法。雖然這些方法使用了不同的架構，並且不像 NoProp 那樣顯式地對影像輸入進行條件約束 —— 這使得直接比較變得困難 —— 但 NoProp 具有不依賴前向傳播的獨特優勢。

此外，如表 2 所示，NoProp 在訓練過程中減少了 GPU 記憶體消耗。

為了說明學習到的類別嵌入，圖 2 可視化了 CIFAR-10 資料集中類別嵌入的初始化和最終學習結果，其中嵌入維度與影像維度匹配。

在連續時間設定下，NoProp-CT 和 NoProp-FM 的準確率低於 NoProp-DT，這可能是由於它們對時間變數 t 的額外條件約束。然而，它們在 CIFAR-10 和 CIFAR-100 資料集上通常優於伴隨敏感性方法，無論是在準確率還是計算效率方面。雖然伴隨方法在 MNIST 資料集上達到了與 NoProp-CT 和 NoProp-FM 相似的準確率，但其訓練速度明顯較慢，如圖 3 所示。