CVPR2025滿分論文!重建vs生成:解決擴散模型中的最佳化難題

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:Deeeep Learning
重建vs 生成:解決擴散模型中的最佳化難題
題目:Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
作者:Jingfeng Yao, Xinggang Wang
作者單位:華中科技大學
Paperhttps://arxiv.org/abs/2412.04852
Codehttps://github.com/hustvl/LightningDiT
兩階段的潛在擴散模型中存在最佳化難題:在visual tokenizer中增加每個標記的特徵維度,雖能提升重建質量,但要達到相近的生成效能,卻需要大得多的擴散模型和更多訓練迭代。因此,現有系統常常只能採用次優解決方案,要麼因tokenizer中的資訊丟失而產生視覺偽影,要麼因計算成本高昂而無法完全收斂。作者認為這種困境源於學習不受約束的高維潛在空間的固有困難。為了解決這一問題,作者建議在訓練視覺詞元分析器時,將潛在空間與預先訓練的視覺基礎模型對齊。提出的VA-VAE(視覺基礎模型結合變分自動編碼器)顯著擴充套件了潛在擴散模型的重建生成邊界,使高維潛在空間中的Diffusion Transformers(DiT) 能夠更快地收斂。為了充分發揮VA-VAE的潛力,構建了一個增強型DiT基線,改進了訓練策略和架構設計,稱為LightningDiT。在ImageNet 256×256 生成上實現了最佳 (SOTA) 效能,FID得分為1.35,同時在短短64epoch內就達到了2.11FID得分,展現了卓越的訓練效率——與原始DiT相比,收斂速度提高了21倍以上。
相關工作
  • 視覺化生成的tokenizer
visual tokenizer包括以變分自編碼器(VAE)為代表的連續型和 VQVAEVQGAN 等離散型。離散型詞元分析器雖然能提高重建保真度,但編碼對照本利用率低下,對生成效能產生不利影響。連續tokenizer透過增加詞元分析器的特徵維度會提高重建質量,但會降低生成效能,還需要大幅增加訓練成本當前缺乏對連續型 VAE 最佳化的有效解決方案
  • 擴散Transformer的快速收斂
擴散TransformerDiT目前是潛在擴散模型最常用的實現方式,存在收斂速度慢的問題,往研究提出多種加速方法,本文則從最佳化視覺詞元分析器學習的潛在空間入手,在不修改擴散模型的情況下實現更快收斂,並對 DiT 進行了訓練策略和架構設計最佳化。
  • 網路架構
VA-VAE基於VQGAN模型架構,透過視覺基礎模型對齊損失(VF損失)最佳化潛在空間。VF損失由邊緣餘弦相似度損失(Marginal Cosine Similarity Loss)和邊緣距離矩陣相似度損失(Marginal Distance Matrix Similarity Loss)組成,是一個即插即用模組,在不改變模型架構和訓練流程的情況下解決最佳化困境。
  • 邊際餘弦相似度損失
將視覺標記器編碼器輸出的影像潛在特徵投影后,與凍結的視覺基礎模型輸出的特徵計算餘弦相似度,透過 ReLU 函式和設定邊際值,使相似度低於邊際值的特徵對損失有貢獻,從而聚焦於對齊差異較大的特徵對。
  • 邊際餘弦相似度損失
將視覺標記器編碼器輸出的影像潛在特徵投影后,與凍結的視覺基礎模型輸出的特徵計算餘弦相似度,透過ReLU函式和設定邊際值,使相似度低於邊際值的特徵對損失有貢獻,從而聚焦於對齊差異較大的特徵對。

visual tokenizer採用LDM的架構和訓練策略,使用VQGAN網路結構和KL損失,訓練三種不同的f16標記器VF損失,VF損失(MAE),VF損失(DINOv2。生成模型採用LightningDiT,在ImageNet上以256解析度訓練,設定相關引數和訓練策略。
使用 VF 損失在f16d32和f16d64收斂速度提升明顯
8種不同tokenizer的重建和生成的評估
與現有擴散模型對比
視覺化效果

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章