點選下方卡片,關注“CVer”公眾號
點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
點選進入—>【擴散模型】投稿交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【擴散模型】投稿交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:極市平臺 |作者:Summer Clover@知乎
來源丨https://zhuanlan.zhihu.com/p/24324673054
導讀
從理論角度證明了擴散取樣中的每一次反思都可以提供額外的語義資訊。
xLeaF Lab作品。
本文由論文一作同學 Lichen Bai @愛吃糖果 主筆,Lab PI編輯、修改。

亮點總結
我們發現擴散模型中去噪過程和反演過程之間引導(CFG)強度的差距能夠捕捉潛在空間中的語義資訊,這對影像生成質量以及與生成條件的對齊具有重要影響。
我們把一個擴散模型在一步取樣後重新反演到上一步的操作叫做擴散反思。我們的工作從理論角度證明了擴散取樣中的每一次反思都可以提供額外的語義資訊。
基於此,我們提出了Zigzag Diffusion Sampling(Z-Sampling),一種讓擴散模型在一步步的自我反思中提高生成質量。 看下面的示意圖就很容易理解,為什麼叫Z取樣,因為它的取樣軌跡變成了“之”字型。


Z-Sampling實際上是xLeaF Lab上一篇文章介紹的工作“Golden Noise”的姐妹篇 xLeaF Lab | 擴散模型的“黃金噪聲”:隨機噪聲並不生而平等(https://zhuanlan.zhihu.com/p/15259944648)。
Golden Noise只考慮第一步反思操作對於初始噪音的影響,並用一個小網路來學習第一步反思。而Z-Sampling考慮了擴散反思在整個取樣路徑的累計收益。所以Z-Sampling大部分時候在生成質量上甚至會更高於Golden Noise,大大提高了擴散反思能提供的受益上限。當然,代價是會出多幾步擴散反思的成本。
Z-Sampling方法利用反思過程中CFG強度的差距,透過每一步自反思操作積累語義資訊,從而生成更理想的結果。Z-Sampling能夠靈活控制語義資訊的注入,適用於多種擴散架構,特別是作為一種無訓練方法,Z-Sampling在限制推理時間的情況下,依然能夠顯著超越基準效能 。
我們的實驗裡,Z-Sampling在DrawBench上可以讓DreamShaper上相對於標準取樣的HPS勝率winning rate提高到94%!
Z-Sampling已被ICLR2025接收,程式碼已經開源,歡迎大家使用!
Code: https://github.com/xie-lab-ml/Zigzag-Diffusion-Sampling
Paper: Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection(https://openreview.net/pdf?id=MKvQH1ekeY)
知識儲備
這項研究聚焦於擴散模型的推理取樣上,擴散模型透過逐漸給資料新增噪聲直到變成隨機,然後再透過反向去噪來恢復或生成新資料。我們分析的關鍵工具是擴散模型的去噪和反演過程,具體來說:
Denoising Process (去噪過程)

上面這張圖可以說是對擴散模型最經典的解釋之一:從隨機取樣的高斯隱變量出發, 經過去噪網路,迭代地生成乾淨的結果——這也是擴散模型的去噪過程。在這個過程中,純噪聲x_t經過T步去噪,得到了生成資料x_0。
Inversion Process (反演過程)
相反地,如果有一個乾淨資料x_0,我們如何得到對應生成它的高斯噪聲呢?這時便需要利用擴散模型的反演過程,反演操作在影像和影片編輯領域中得到了廣泛應用。值得注意的是,在忽略反演帶來的誤差前提下,並且假設兩個過程的去噪網路引數以及生成條件(例如條件引導強度)一致的情況下,去噪過程與反演過程可視為一對互逆的對映。

研究動機&觀察
在擴散模型的取樣過程中,什麼才算是一個“好的隱變數”?或者說,一個好的隱變數需要具備哪些與眾不同的屬性?
我們的方法受到了兩個關鍵insight啟發。
1. Latent空間有隱含語義資訊
作為Z-Sampling的姊妹篇,第一個觀察實驗其實已經在擴散模型的“黃金噪聲”:隨機噪聲並不生而平等(https://zhuanlan.zhihu.com/p/15259944648)中闡述過了,這裡我們再簡要說明一下:
這個實驗的結論可以用一句話概括:“對於特定的條件提示,如果一個隨機取樣的初始噪聲能夠在沒有任何額外條件的情況下,就能生成與提示相關的結果,那麼可以認為這個初始噪聲天然地攜帶了與提示相關的語義資訊。在這種情況下,這個噪聲就是一個好的初始隱變數。
舉個例子,下圖(左)中,考慮在 seed 為 21 時取樣的初始噪聲。從第一列可以看出,即使在無條件下 ,seed 21也能生成和“Flower”相關的影像。因此,可以認為seed 21天然地攜帶了與“Flower”相關的語義資訊。接著,在給定提示 prompt= "Flower"時,相比於其他初始噪聲(例如 seed = 41),是一個更好的初始隱變數(對Flow而言),從這個初始噪音出發,可以得到更符合提示的生成結果。
而下圖(右)形象地展示了這一實驗得出的結論:綠色的隱變數(帶有語義資訊)要比紅色的隱變數(不帶有語義資訊)更好。這意味著帶有語義資訊的隱變數能更好地對齊給定的提示,從而生成更加符合預期的結果。

2.擴散反思(Inversion)注入語義資訊
我已經知道了從無條件生成可以看出來,有的latent和prompt是天生一對,能提高生成質量。
而第二個實驗的insight是,“Inversion促使隱變數變得更好”。
考慮兩張自然照片(左邊的貓咪,和右邊的蜘蛛),按照DDIM Inversion的操作,我們將它們反轉得到與貓咪和蜘蛛對應的初始噪聲。

接著神奇的事情發生了。貓咪反轉得到的latent就是更擅長生成貓咪,蜘蛛反轉得到的latent就是更擅長生成蜘蛛。

擴散反思機制的秘訣
到底是什麼導致Inversion操作有如此魔力呢。答案就是此前提到的伏筆,在 Inversion 操作中,條件的引導非常弱(CFG scale很小), 而在對應的 Denoising 過程中,我們通常設定較高的引導尺度(e.g. 5.5),也就是說,Inversion 和 Denoising 之間存在一個 guidance gap, 這個 gap 的存在使得隱變數能夠注入與提示有關的語義資訊,使之成為一個good latent(即第一個觀察實驗中的latent with semantic information)。
其實,這個實驗的核心概念很容易理解。我們可以將其想象成兩個階段:第一個階段是去噪過程(綠色箭頭),第二個階段是反演過程(棕色箭頭)。

上式可以推匯出(由於去噪過程和反演過程的可逆性):

我們如果僅考慮當前時刻和前一時刻的關係,先在強條件下去噪,然後在弱條件下反演,從而是隱變數包含更多的語義資訊。

同樣有

這也說明了,去噪與反演操作之間的引導差距(即引導強度的差異)能夠有效地捕捉和注入提示相關的語義資訊,從而最佳化生成結果的質量。
至此,得到了本文的核心結論:
Denoising與Inversion操作之間的guidance gap能夠捕捉latent空間中和prompt 相關聯的語義資訊,並將這些語義資訊注入到隱變數中,最佳化擴散模型的取樣質量。
Z-Sampling演算法
接下來的部分就順理成章了。既然每次反思都有新的資訊注入,那麼我們就每步都進行反思,具體演算法如下所示:

我們只需要關注這個gap,就能隨意控制取樣軌跡中語義資訊注入的大小和方向了,我們稱之為Z-Sampling。同樣的,Z-Sampling 的取樣軌跡呈現出一個之字形(PS:我們的後續工作在實驗中還原了這種 zigzag 的取樣軌跡)。
理論分析

同時,我們進行了一些推導,表示Z-Sampling的效果可以由兩項決定:
-
語義增益項:由guidance gap帶來的語義資訊增益 -
反演誤差項:由inversion process帶來的不可避免的近似誤差
我們在論文裡做了更詳細的說明,表明應該儘可能增大語義增益項,而縮小反演誤差項,從而帶來更好的生成效果增益。

特別的,如果反演誤差為0的話,那麼Z-Sampling帶來的效果則完全由guidance scale在去噪和反演過程裡的差值決定。

可以看到guidance gap控制著語義增益項的強度和方向,精細地調節模型如何以及多大程度上將提示中的語義資訊融入到生成過程中,這也為之前的兩個觀察實驗提供了理論上的解釋。
實驗結果
由於篇幅限制,此處僅展示部分實驗結果;更多詳細的實驗結果請參見論文 。
-
實驗一比較直觀,主要比較了 winning rate的結果, Z-Sampling 在四個指標上均取得了領先,特別是在 HPS v2 指標上(這是一個用於評估人類偏好的指標),其 winning rate 可以超過了 90%。

-
實驗二是主實驗, 為了證明 Z-Sampling 在不同型別的擴散模型中均具有普適性,我們選用了以下幾類模型:基於U-Net架構(SD-2.1,SDXL)、蒸餾模型(DreamShaper-xl-v2-turbo),基於DiT架構(Hunyuan-DiT),並在兩個Benchmark中表現均比較出色。

-
實驗三的目的是證明 Z-Sampling 與其他多種擴散模型提升方法之間是正交的,其提升效果可以相互疊加。無論是基於訓練的方法(例如 Diffusion DPO),還是免訓練的方法(例如 AYS),都能與 Z-Sampling 協同工作,進一步提升生成效果。我們認為這一特性蠻nice的,使得 Z-Sampling 具備即插即用的優勢,展現出比較大的應用潛力。

定性實驗
-
總體來說,Z-Sampling 帶來了一些令人滿意的改進——無論是在影像對比度的提升上,還是在更好契合 prompt 方面,都有一定進步。在風格、位置、顏色、數量等多個維度上,也展現出了相應的提升效果。
-
同時,我們也對Attention Map做了一些視覺化分析,Z-Sampling可以讓去噪網路對entity token的注意力響應更加清晰明瞭一些。

消融實驗
限於篇幅,更多實驗分析請參見論文
-
Guidance Gap:第一個消融實驗想證明,guidance gap 是怎麼影響Z-Sampling的效果的。下圖可以看到,當gGuidance Gap為正時,會呈現正增益;而Guidance Gap為0時,則近似為標準取樣;當Guidance Gap為負的話,Z-Sampling反而會帶來負增益。實驗完全如理論預言。


-
Time Efficiency:另一個重要的消融分析關注的是時間效率問題。儘管 Z-Sampling 會引入額外的去噪和反轉操作,但實驗證明,這種“之字形”(zigzag)操作帶來的效能提升遠遠超過了其額外的時間開銷。我們透過調整超引數,使得 Z-Sampling 與標準取樣在生成同一張圖片時所用的時間保持一致(具體表現為score network推理次數一致), 在相同的時間消耗下,Z-Sampling 始終優於標準取樣,且大大提升了效能上限。這一實驗結果為 Z-Sampling 的實際應用提供了有力支撐。

展望
最後再來總結展望一下,我們提出了一種新的擴散取樣演算法Z-Sampling——透過讓擴散模型在取樣時反思走出一種Zigzag的取樣軌跡。參考LLM推理的術語,我們把擴散模型取樣中每一步進行反演這個操作稱之為“擴散反思”。
我們的理論分析(Theorem 3)很清楚地指出了,擴散反思操作的價值就是為latent空間提供語義增益,而步步反思可以累計這種增益;而motivation實驗裡end2end的反演會讓不同step的語義增益互相抵消。
我們的實驗結果也證明了,Z-Sampling既可以提高擴散模型生成質量的上限,也可以在相同的生成時間下超過標準方法。
甚至這種擴散反思操作還能推廣到影片生成領域,用影像生成模型幫助影片生成模型“反思”,突破影片生成模型取樣質量的上限——這也就得到了我們另一篇ICLR2025工作的方法:影像-影片混合取樣器(IV mixed Sampler)。
這裡先做個預告,後續撰文介紹。
Code: https://github.com/xie-lab-ml/IV-mixed-Sampler
Paper: IV-mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis(https://openreview.net/pdf?id=ImpeMDJfVL)
Website page: https://klayand.github.io/IVmixedSampler/
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
擴散模型和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如擴散模型或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
