2025年,Diffusion還有的做嗎?

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達
點選進入—>【擴散模型】投稿交流群

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

論文連結(已中 ACM MM 2024
http://arxiv.org/abs/2404.09831
程式碼連結
https://github.com/wangjiyuan9/D4RD
WeatherKITTI資料集連結
https://wangjiyuan9.github.io/project/weatherkitti/

研究背景與問題

  • 問題: 基於擴散模型的單目深度估計方法雖然效能優越,但在現實世界常見的惡劣條件下(如雨、雪等)通常表現不可靠。提高模型在這些挑戰性環境下的魯棒性 (robustness) 是一個關鍵問題。
  • 現有挑戰: 傳統的魯棒單目深度估計 (RMDE) 方法主要分為兩類:
    • 基於對比學習的對齊方法(下圖b): 強制模型對清晰影像  及其增強版本  預測一致的深度 ,但容易陷入“坍塌解(全估計為0)”,缺乏完美的引導訊號。
    • 基於知識蒸餾的偽監督方法(下圖a): 使用在清晰影像上訓練的教師模型  估計深度  作為偽標籤,來監督在惡劣條件下(輸入 )的學生模型 ,但學生模型的效能受限於教師模型的準確性(存在效能上限)且在有巨大域差異時出錯。

論文提出的方法 (D4RD)

  • 核心思想: 提出了一種名為 D4RD (Diffusion for Robust Depth) 的新型魯棒深度估計框架,該框架專門為擴散模型設計了一種定製化的對比學習模式
  • “三位一體”對比方案 ('Trinity' Contrastive Scheme):
    • 我們巧妙地利用了擴散模型前向過程中取樣得到的真實高斯噪聲  (見下公式) 作為一種**天然的、完美的錨點 **。
    • 將知識蒸餾的思路與對比學習相結合:不僅要求模型對清晰影像  預測的噪聲  和對增強影像  預測的噪聲  儘可能一致,還引導它們共同趨近於前向過程取樣的真實噪聲 。這種包含三者對齊的模式透過噪聲級三位一體對比損失 (noise-level trinity contrast loss, ) 實現:
    • 優勢: 相比傳統對比學習(如  $ L_cst} =F(I) – F(I_{aug)|  \epsilon  L_dis} =F_s(I_{aug) – F_T(I)| $),沒有教師模型帶來的效能瓶頸。
  • 多層級對比擴充套件 (Multi-level Contrast):
    • 將“三位一體”的思想從噪聲預測層面 () 擴充套件到了更通用的特徵層面 (feature level) 和**影像層面 (image level)**。
    • 在特徵層面,引入**特徵級三位一體損失 ()**,利用教師模型  提取的特徵  作為次優引導,對比學生模型  提取的特徵  和 :
    • 在影像層面,設計了一個簡單的 CNN 網路  來增強清晰影像  得到  和增強影像  得到 $ I'{aug}*    L{img} $)** 對比:
    • 目的: 將魯棒性感知的“壓力”均勻分佈到網路的多個元件(不同層級)上,從而提升整體潛力。
  • 基線模型穩定性增強 (Baseline Stability Enhancement): 在引入核心的對比學習方案之前,本文還對作為基礎的擴散模型進行了三項簡單而有效的改進,以增強其穩定性和收斂性:
    • 偽深度知識蒸餾增強: 使用動態加權的 BerHu 損失代替 L1 損失,並用自適應閾值代替固定閾值過濾偽標籤。
    • 深度值異常點移除: 使用 Sigmoid 啟用函式及其逆函式處理深度值,將其約束在 [0, 1] 範圍內,有效移除負值等異常點,且比 VAE 潛空間擴散更簡單。
    • 特徵-影像聯合條件: 將輸入影像與其提取的深度相關特徵進行拼接,作為擴散模型的條件輸入,提供更豐富的上下文資訊。

實驗與結果

  • 資料集: 主要在 WeatherKITTI 上訓練,並在 KITTI, KITTI-C, DrivingStereo, Dense 等7個場景資料集上進行評估,均為SoTA:

  • 效能: D4RD 在各種合成損壞和真實世界惡劣天氣條件下的定量(如 AbsRel, SqRel, RMSE 等指標)和定性評估中,均顯著優於現有的 SOTA 方法。

拓展方向

計算機視覺發展到現在,越來越卷,湧入的人越來越多,很多經典領域的主賽道近乎於做無可做。Diffusion,作為從2023年火爆至今頂會依然活躍的方案,似乎前景無量但又幾乎做無可做。
現有的視覺問題往往熱衷於在晴朗的、清晰的資料集上鑽研、改進、刷點。而在現實世界中,諸如黑夜、雨雪霧等外界因素和影像失焦、壓縮等內部因素導致的影像退化,會極大的影響各任務的效能。時至今日,在許多視覺子領域,這個方向遠沒有到紅海。而利用Diffusion內在魯棒性賦能,更是幾乎沒有人關注到了這一點(本文paper關注較低)
本文方案採用了一種擴散噪聲對比方案,在許多部分對深度估計任務本身做了契合性設計。但嘗試遷移到其他任務上會非常有前景!(語義分割/目標檢測/法線估計/光流估計等)
因此,非常歡迎其他CV子領域的學者嘗試將本文的方案進行修改!

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
擴散模型交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章