ICLR2025|加速20倍!清華朱軍團隊提出DBIM:擴散橋隱式模型

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心

論文有兩位共同一作。鄭凱文為清華大學計算機系三年級博士生,何冠德為德州大學奧斯汀分校(UT Austin)一年級博士生。
擴散模型(Diffusion Models)近年來在生成任務上取得了突破性的進展,不僅在影像生成、影片合成、語音合成等領域都實現了卓越表現,推動了文字到影像、影片生成的技術革新。然而,標準擴散模型的設計通常只適用於從隨機噪聲生成資料的任務,對於影像翻譯或影像修復這類明確給定輸入和輸出之間對映關係的任務並不適合。
為了解決這一問題,一種名為去噪擴散橋模型(Denoising Diffusion Bridge Models, DDBMs)的變種應運而生。DDBM 能夠建模兩個給定分佈之間的橋接過程,從而很好地應用於影像翻譯、影像修復等任務。然而,這類模型在數學形式上依賴複雜的常微分方程 / 隨機微分方程,在生成高解析度影像時通常需要數百步的迭代計算效率低下,嚴重限制了其在實際中的廣泛應用。
相比於標準擴散模型,擴散橋模型的推理過程額外涉及初始條件相關的線性組合和起始點的奇異性,無法直接應用標準擴散模型的推理演算法。為此,清華大學朱軍團隊提出了一種名為擴散橋隱式模型(DBIM)的演算法,無需額外訓練即可顯著加速擴散橋模型的推理。

  • 論文標題:Diffusion Bridge Implicit Models
  • 論文連結:https://arxiv.org/abs/2405.15885
  • 程式碼倉庫:https://github.com/thu-ml/DiffusionBridge
方法介紹
DBIM 的核心思想是對擴散橋模型進行推廣,提出了一類非馬爾科夫擴散橋(non-Markovian Diffusion Bridges)。這種新的橋接過程不僅與原來的 DDBM 擁有相同的邊緣分佈與訓練目標,而且能夠透過減少隨機性,實現從隨機到確定性的靈活可控的取樣過程。
具體而言,DBIM 在模型推理過程中引入了一個方差控制引數 ρ,使得生成過程能夠在隨機取樣與確定性取樣之間自由切換。當完全採用確定性推理模式時,DBIM 能夠直接以隱式的形式表示生成過程。這種思想是標準擴散模型的著名推理演算法 DDIM 在擴散橋模型上的推廣與拓展。
更進一步,DBIM 演算法可以匯出擴散橋的一種全新的常微分方程(ODE)表達形式,相較於 DDBM 論文中的常微分方程形式更加簡潔有效。
在此基礎上,作者首次提出了針對擴散橋模型的高階數值求解方法,進一步提升了推理的精度與效率。
此外,為了避免確定性取樣過程中出現的初始奇異性問題,作者提出了一種「啟動噪聲」(booting noise)機制,即僅在初始步驟中加入適當隨機噪聲,從而保證了模型的生成多樣性,並同時保留了對資料的編碼與語義插值能力。
實驗結果
作者在經典的影像翻譯和影像修復任務上進行了如下實驗:
  • 在 Edges→Handbags(64×64)和 DIODE-Outdoor(256×256)影像翻譯任務中,DBIM 僅需 20 步推理即可達到甚至超越 DDBM 模型 118 步推理的生成質量。當推理步數增至 100 步時,DBIM 進一步提升生成質量,在更高解析度任務上全面領先。
  • 在更具挑戰的 ImageNet 256×256 影像修復任務中,DBIM 僅需 20 步推理便顯著超越了傳統擴散橋模型 500 步推理的效果,實現了超過 25 倍的推理加速。在 100 步推理時,DBIM 進一步重新整理了這一任務的 FID 記錄。
透過引數 η 控制取樣過程中的隨機性大小,論文發現確定性取樣模式在低步數時具備顯著優勢,而適當增加隨機效能夠在較高步數下進一步提升生成多樣性與 FID 指標。這與標準擴散模型推理的性質相似。
此外,高階取樣器能夠在不同取樣步數下一致提升生成質量,增強影像細節。
論文所用訓練、推理程式碼及模型檔案均已開源。如果你對 DBIM 感興趣,想要深入瞭解它的技術細節和實驗結果,可訪問論文原文和 GitHub 倉庫。

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章