不用GAN不用擴散,無需訓練解鎖AI生圖新境界!判別模型成神秘第三極


新智元報道  

編輯:桃子 英智
【新智元導讀】你能想象判別模型也能成為強大的影像合成高手嗎?「直接上升合成」(DAS)做到了!它突破傳統認知,藉助多解析度最佳化等創新技術,在影像生成的多個關鍵任務中表現出色。
判別模型與生成模型長期以來彼此獨立,前者專注於分類和識別,後者用於資料生成。
最近一項名為「直接上升合成」(Direct Ascent Synthesis,DAS)的獨立研究,顛覆了這一傳統觀念,揭示出判別模型中隱藏著令人驚歎的生成能力。
論文連結:https://arxiv.org/abs/2502.07753
DAS的核心觀點挑戰了人們對判別模型和生成模型的傳統認知。
研究人員發現,判別模型並非只能用於判別任務,其內部實際上蘊含著豐富的生成知識。透過合適的最佳化技術,判別模型可以突破傳統角色,成為強大的影像合成工具。
以CLIP模型為例,它能夠將影像對映到嵌入向量,這些嵌入向量不僅包含了影像的語義資訊,還捕捉到了自然影像的結構特徵。
然而,傳統的反向對映嘗試,即將嵌入向量轉換回影像時,往往會遇到問題。以往的方法通常會產生退化的結果,生成的影像在數學上與目標嵌入向量匹配度很高,但在人類觀察者眼中卻像是毫無意義的噪聲。
這種現象在對抗樣本的研究中尤為明顯,也揭示了表示匹配與感知質量之間的矛盾。
DAS的研究者們卻從中獲得了靈感,他們認為這種看似的限制實際上是一個機會。

在可能的反向對映空間中,既存在自然影像,也存在對抗模式。透過精心設計的最佳化方法,就有可能引導模型生成自然且有意義的影像,從而挖掘出判別模型中隱藏的生成能力。
關鍵創新:多解析度最佳化
DAS的關鍵創新在於多解析度最佳化。它打破了傳統最佳化直接在畫素層面操作的侷限,將影像分解為多個不同解析度的元件進行同時最佳化:
其中,

表示分辨率為r的影像元件,影像被表示為從1×1到224×224解析度的一系列元件之和。

從正則化角度來看,多解析度分解提供了一種自然的正則化方式。它透過強制不同解析度之間的一致性,避免了最佳化過程中出現退化的高頻解決方案,而這些高頻噪聲往往是傳統對抗最佳化產生無意義影像的原因。
同時,不同解析度的元件能夠在合適的尺度上捕捉語義資訊,比如低解析度元件可以把握影像的整體結構,高解析度元件則專注於細節,從而使生成的影像在語義上更加連貫。
在最佳化目標的設定上,DAS透過衡量生成影像與目標描述(如文字描述對應的嵌入向量)的CLIP嵌入相似度來進行最佳化:
其中,i對多個CLIP模型進行索引,j對增強操作進行索引。
公式具有幾個關鍵特性:1)所有解析度的元件同時進行最佳化;2)梯度根據各尺度的重要性自然地分佈;3)透過尺度分解抑制高頻對抗模式。
梯度會根據不同解析度元件的重要性自然地分佈,進一步促進了生成過程朝著符合自然影像統計結構的方向發展。
最終生成影像的功率譜遵循1/f²分佈,這正是自然影像的典型特徵,證明了多解析度最佳化生成影像的有效性。
DAS實現細節
研究者採用了幾種技術來確保穩定且高質量的生成:

資料增強

研究發現,隨機的x-y位移和畫素噪聲這兩種簡單的資料增強方式,與多解析度先驗協同工作,能夠顯著提升生成的穩定性和影像質量。
單獨使用其中任何一種增強方式效果都有限,但兩者結合,就能為模型在最佳化過程中提供更多的變化和穩定性,使得生成的影像更加多樣化且自然。
更復雜的資料增強方式可能會進一步提高生成質量,這為後續研究留下了探索空間。

位移處理

在處理影像位移時,DAS採用了一種獨特的策略。與傳統的填充方法不同,它在生成影像時,會將影像尺寸擴大為(H+2s)×(W+2s),其中s是最大位移量。
這樣在進行位移增強時,影像就有了足夠的緩衝空間,避免了因位移導致的邊界問題。最後,再將生成的影像中心裁剪為所需的H×W尺寸,確保影像的完整性和一致性。

模型整合

為了進一步提高生成質量,DAS採用了模型整合的方法。它平均了三個CLIP模型(OpenAI ViT-B/32 和兩個 OpenCLIP ViT-B/32 變體,分別在不同資料集上訓練)的梯度。
雖然單個模型也能實現影像生成,但透過模型整合,能夠在一定程度上提升生成影像的質量和穩定性。
不過,研究人員也發現,部分CLIP模型在轉換為生成器時表現不佳,目前還沒有明確的原因,有待後續研究。

框架擴充套件

DAS的框架具有很強的擴充套件性,在多目標向量方面,生成過程可以由多個加權目標引導,透過不同提示的組合,實現對生成影像的精細控制。
在風格遷移和重建任務中,目標嵌入可以來自文字,也可以來自參考影像。
基於CLIP模型強大的表示能力,即使經過大幅度的維度壓縮,DAS仍然能夠在重建過程中保留影像的語義內容和風格元素。
實驗結果與分析
研究人員對DAS進行了全面的實驗,從多個角度驗證了其效能和優勢。
實驗聚焦在四個關鍵方面:生成一致性、可控修改、重建保真度以及在不同應用中的通用性。
研究者採用3個CLIP模型進行整合:OpenAI ViT-B/32、兩個OpenCLIP ViT-B/32變體。上述模型均基於ViT架構,但也驗證了非ViT模型同樣可以取得類似的生成效果。

生成質量與一致性

在生成質量和一致性實驗中,研究人員選擇了兩個具有挑戰性的提示:火山爆發和冬夜的劍橋。
多次執行DAS生成影像的結果顯示,它在生成過程中表現出了高度的可靠性。
在語義一致性方面,每次生成的影像都能保持一致的高階特徵,比如火山場景中的火山灰柱結構和景觀融合,劍橋場景中的建築主題和冬夜氛圍都非常穩定。
在構圖理解上,生成的影像展現出了複雜而合理的構圖,即使沒有經過專門的構圖訓練,也能自然地平衡前景和背景,體現出對場景結構的理解。
此外,不同執行結果之間的差異呈現出自然影像的特徵,如光照變化、視角微調等,而非對抗模式,這表明多解析度先驗成功地將最佳化過程限制在了自然影像流形內。

可控修改

在可控修改實驗中,研究人員以一張原始影像為基礎,根據不同的文字提示對影像進行修改。
結果表明,DAS能夠實現精確的區域性調整和全域性場景轉換。
在結構儲存方面,影像的核心幾何結構和空間關係在修改過程中得以保留,比如道路場景中,道路的基本形狀和位置不會因為修改提示而被破壞。
語義控制上,影像的修改能夠準確響應文字提示,並且保持物理上的合理性,像下雪的道路場景中,雪會自然地堆積在路面上。
在多尺度協調方面,新新增的元素能夠在不同空間尺度上無縫融合,火山爆發場景中,不僅有大規模的地形變化,還有區域性的大氣效果,兩者協調一致。

嵌入引導的重建

從CLIP嵌入中重建影像是對DAS的一項嚴格測試,因為這需要從高度壓縮的表示(從150,528維壓縮到512維)中恢復高維影像結構。
實驗結果令人驚喜,DAS 能夠恢復出大量的語義和風格資訊。
在語義保留上,主要的場景元素及其關係被一致地恢復出來。風格保留方面,顏色方案、光照條件和藝術特質都能有效地轉移。
構圖保真度上,整體的佈局和空間組織保持完整。同時,在細節上還能呈現出自然的變化,使得重建影像既保留了原始影像的主要特徵,又具有一定的多樣性。

專業應用

在生成國旗的任務中,DAS能夠處理精確的幾何圖案和象徵元素,雖然生成的國旗並不完美,但已經能夠清晰地識別出各個國家的國旗特徵,像瑞士國旗的精確比例和巴西國旗複雜的星星圖案都能得到較好的呈現。
在影像修復任務中,DAS可以根據給定的提示(如「夜晚的城市天際線」)生成與現有影像上下文無縫融合的內容,展示出其在處理邊界條件和結構連續性方面的優勢。
這表明,DAS能夠在多種複雜任務中發揮作用,且不需要針對特定任務進行專門的訓練或架構修改。

風格遷移

在風格遷移方面,DAS 同樣表現出色。透過將起始影像向風格影像的嵌入方向最佳化,DAS能有效地實現風格遷移。
與傳統的基於畫素空間最佳化的風格遷移方法相比,DAS生成的結果更加自然,高頻偽影更少,而且所需的最佳化步驟也更少。
這使得DAS成為了傳統風格遷移技術的有力替代方案,為使用者帶來更加流暢和高質量的風格遷移體驗。
參考資料:
https://x.com/stanislavfort/status/1890724291752100265
https://arxiv.org/abs/2502.07753

相關文章