再次顛覆學界想象！何愷明發表新作：擴散模型不一定需要噪聲條件

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：機器之心｜編輯：蛋醬、杜偉

一直以來，研究者普遍認為，去噪擴散模型要想成功執行，噪聲條件是必不可少的。

而大神何愷明的一項最新研究，對這個觀點提出了「質疑」。

「受影像盲去噪研究的啟發，我們研究了各種基於去噪的生成模型在沒有噪聲調節的情況下的表現。出乎我們意料的是，大多數模型都表現出了優美的退化，它們甚至在沒有噪聲條件的情況下表現得更好。」

論文標題：Is Noise Conditioning Necessary for Denoising Generative Models?
論文地址：https://arxiv.org/pdf/2502.13129

研究者對這些模型在無噪聲條件情況下的行為進行了理論分析。具體來說，他們研究了噪聲水平分佈中固有的不確定性、在沒有噪聲條件的情況下去噪所造成的誤差以及迭代取樣器中的累積誤差。綜合這些因素，提出了一個誤差邊界，該誤差邊界的計算無需任何訓練，完全取決於噪聲條件和資料集。

實驗表明，這個誤差邊界與所研究的模型的噪聲 – 無條件行為有很好的相關性，特別是在模型出現災難性失敗的情況下，其誤差邊界要高出幾個數量級。

由於噪聲 – 無條件模型很少被考慮，專門為這種未充分探索的情況設計模型是有價值的。為此，研究者從 EDM 模型中提出了一個簡單的替代方案。在沒有噪聲條件的情況下，該變體可以實現很強的效能，在 CIFAR10 資料集上的 FID 得分達到 2.23。這一結果大大縮小了噪聲 – 無條件系統與噪聲 – 條件系統之間的差距（例如，EDM 的 FID 為 1.97）。

關於未來，研究者希望消除噪聲條件將為基於去噪的生成模型的新進展鋪平道路，激勵業界重新審視相關方法的基本原理，並探索去噪生成模型領域的新方向。例如，只有在沒有噪聲條件的情況下，基於分數的模型才能學習到獨特的分數函式，並實現經典的、基於物理學的朗格文動力學。

對於這項新研究，有人評論稱：我們花了數年時間來完善噪聲條件技術，到頭來卻發現即使沒有噪聲條件，模型同樣能執行得很好。所以，科學其實就是利用額外數學的反覆試錯。

去噪生成模型的重構

研究者提出了一種可以總結各種去噪生成模型訓練和取樣過程的重構（reformulation），核心動機是隔離神經網路 NN_θ，從而專注於其在噪聲條件方面的行為。

首先來看去噪生成模型的訓練目標。在訓練期間，從資料分佈 p (x) 中取樣一個數據點 x，並從噪聲分佈 p (ϵ)（例如正態分佈 N (0, I)）中取樣噪聲 ϵ。噪聲影像 z 由以下公式得出：

一般來說，去噪生成模型涉及最小化損失函式，該函式可以寫成：

現有幾種方法（iDDPM、DDIM、EDM 和 FM）的排程函式具體如下表 1 所示。值得注意的是，在研究者的重構中，他們關注的是迴歸目標 r 與神經網路 NN_θ 直接輸出之間的關係。

其次是取樣。給定訓練好的 NN_θ，取樣器迭代地進行去噪。具體來講，對於初始噪聲 x_0 ～ N (0, b (t_max)^2I)，取樣器迭代地計算如下：

最後是噪聲條件網路。在現有方法中，神經網路 NN_θ(z|t) 以 t 指定的噪聲水平為條件，具體可以參見圖 1（左）。

同時，t-embedding 提供時間級資訊作為網路額外輸入。本文的研究涉及這種噪聲條件的影響，即考慮了 NN_θ(z) 和 NN_θ(z|t)，參見圖 1（右）。

無噪聲條件模型

基於上述重構，研究者對消除噪聲條件的影響進行了理論分析，其中涉及到了訓練目標和取樣過程。他們首先分析了訓練階段的有效迴歸目標和單個去噪步驟中的誤差，然後給出了迭代取樣器中累積誤差的上限。

有效目標

形式上，最佳化公式 (2) 中的損失等同於最佳化以下損失，其中預期 E [・] 中的每個項都有對應的唯一有效目標：

對於無噪聲條件的有效目標，同樣地，如果網路 NN_θ(z) 不接受 t 作為條件，則其唯一的有效目標 R (z) 應該僅取決於Z。在這種情況下，損失為：

唯一有效目標如下：

後驗集中 p (t|z)

接下來，研究者探究了 p (t|z) 與狄拉克 δ 函式的相似度。對於影像等高維資料，人們早已意識到可以可靠地對噪聲水平進行估計，這意味著可以得到一個集中的 p (t|z)。

陳述 1：（p (t|z) 集中）。考慮單個數據點 x ϵ [-1, 1]^d，則 ϵ～(0, I)，t～U [-0, 1] 以及 z = (1 – t) x + tϵ（流匹配情況）。給定一個由已有 t_⁎生成的噪聲影像 z = (1 – t_⁎) x + t_⁎ϵ，條件分佈 p (t|z) 下 t 的方差如下：

有效迴歸目標的誤差

使用 p (t|z)，研究者探究了有效迴歸目標 R (z) 和 R (z|t) 之間的誤差。在形式上，考慮如下：

他們表明，方差 E (z) 明顯小於 R (z) 的範數。

陳述 2（有效迴歸目標的誤差）。考慮到陳述 1 中的場景以及流匹配情況，公式 (10) 中定義的誤差滿足如下：

取樣中的累積誤差

到目前為止，研究者關注到了單個迴歸步驟的誤差。而在去噪生成模型中，推理取樣器是迭代的，因而進一步研究了迭代取樣器中的累積誤差。

為了便於分析，研究者假設網路 NN_θ 足以擬合有效迴歸目標 R (z|t) 或 R (z)。在此假設下，他們將上面公式 (4) 中的 NN_θ 替換為 R。這就有了以下陳述 3：

陳述 3（累積誤差的上限）。考慮公式 (4) 中 N 個步驟的取樣過程，從相同的初始噪聲 x_0 = x’_0 開始。透過噪聲調節，取樣器計算如下：

而在無噪聲條件下，計算如下：

作為參考，EDM 設定為

，其中 σ_d 為資料標準差。由於

是應用於網路 NN_θ 的係數，因而研究者將其設定為常數以使該網路不用建模一個 t – 依賴尺度。在實驗中，這種簡單的設計表現出了比 EDM 更低的誤差上限（陳述 3），因而被命名為了 uEDM，它是無噪聲條件的縮寫。

實驗結果

研究者對各種模型的噪聲條件影響進行了實證評估：

擴散：iDDPM、ADM、uEDM
基於流的模型：此處採用了 Rectified Flow (1-RF)
一致性模型：iCT ECM

下表 2 總結了不同生成模型中的 FID 變化情況，有或無噪聲調節分別用 “w/t ” 和 “w/o t ” 表示。

劃重點如下：

(i) 與通常的看法相反，噪聲條件並不是大多數基於去噪模型發揮作用的有利因素。大多數變體都能優雅地工作，表現出微小但適當的衰減（黃色）；

(ii) 在去除噪聲條件後，一些基於流的變體可以獲得更好的 FID（綠色）；

(ili) uEDM 變體在不使用噪聲條件的情況下實現了 2.23 的 FID，縮小了與噪聲條件方法的強基線的差距；

(iv) 與擴散模型相關但目標函式有很大不同的一致性模型，也可以表現得很優美；

(v) 在本文研究的所有變體中，只有「DDIM w/ ODEsampler*」會導致災難性失敗（紅色），FID 顯著惡化至 40.90。圖 5 (a) 展示了其定性表現：模型仍然能夠理解形狀和結構，但「overshoot」或「undershoot」會產生過飽和或噪聲結果。

在圖 4 中，研究者根據經驗評估了在 100 步 ODE 取樣器下不同方法的陳述 3 中的誤差邊界。誤差邊界的計算只取決於每種方法的時間表和資料集。圖 4 也展示了理論邊界與經驗行為之間的緊密聯絡。具體來說，DDIM 的災難性失敗可以用其誤差邊界高出幾個數量級來解釋。另一方面，EDMFM 和 uEDM 在整個過程中的誤差邊界都很小。

隨機性水平。在表 2 中，DDIM 只在確定性 ODE 取樣器中失敗；在 SDE 取樣器（即 DDPM 取樣器）中仍然表現良好。

如圖 6 所示，隨機性越大，FID 分數越高。當 λ=1 時，DDIM 的表現與 iDDP 類似。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2024，即可下載CVPR 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）來了！想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料，歡迎掃描下方二維碼，加入CVer計算機視覺（知識星球），已彙集上萬人！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請贊和在看

dignews.cc

再次顛覆學界想象！何愷明發表新作：擴散模型不一定需要噪聲條件

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

何愷明在MIT授課的課件PPT下載

ECCV 2024 論文和程式碼下載

CVPR 2024 論文和程式碼下載

相關文章

ICLR2025|Z-Sampling：讓擴散模型在反思中提升取樣

何愷明團隊新作DHN：將哈密頓力學泛化到神經運算元，實現更高階物理推理！

ICLR2025|如何在ImageNet-1K上訓練視覺基礎模型？！

比知識蒸餾好用！田淵棟等提出CoCoMix：革新Transformer預訓練框架