CVPR2025|拿下多個第一!MonSter:雙目深度估計大模型

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

本文介紹了MonSter,一種用於立體深度估計的基礎模型,旨在利用單目深度估計和立體匹配的互補優勢,解決現有立體匹配方法難以處理匹配線索有限的不適定區域,如遮擋、無紋理、細結構、反光等區域,在提升精度的同時增強泛化效能。透過雙分支結構,迴圈迭代最佳化單目深度與雙目深度,並設計了“單目引導增強(MGR)”和“立體引導對齊(SGA)”的模組,充分結合兩分支深度的優勢。實驗結果表明,MonSter在五個最常用的benchmark上均達到SOTA——Sceneflow、KITTI 2012、KITTI 2015、Middlebury和ETH3D。在泛化性方面,MonSter僅僅使用少量公開訓練集就達到最優水準。
相關論文 MonSter: Marry Monodepth to Stereo Unleashes Power 獲得 CVPR 2025 Highlight,程式碼已開源。
論文地址:https://arxiv.org/abs/2501.08643
專案程式碼:https://github.com/Junda24/MonSter
目前 MonSter在 ETH3D, KITTI 2012, KITTI 2015等多個排行榜位列第一/並列第一。
KITTI 2015:

KITTI 2012:

ETH3D:

1. 引言:
立體匹配從經過校正的立體影像中估計視差,然後可轉換為絕對深度。它是自動駕駛、機器人導航和三維重建等許多應用的核心。基於深度學習的方法在標準基準測試上表現出了令人矚目的效能。這些方法大致可分為基於代價濾波的方法和基於迭代最佳化的方法,但本質上都是從相似性匹配中推匯出視差,基於兩幅影像中存在可見匹配關係的假設。這就給匹配線索有限的病態區域(如遮擋、無紋理區域、重複/細長結構以及畫素表示較低的遠處物體)中帶來了挑戰。
與立體匹配不同,單目深度估計直接從單幅影像中恢復三維資訊,因此不會遇到誤匹配的挑戰。儘管單目深度能夠為立體匹配提供結構資訊,但其深度不可避免的具有尺度和偏移模糊性,直接將這種相對深度和立體匹配的絕對深度進行融合無法充分結合二者的優勢。
如圖所示,單目深度模型的預測與真實值存在很大差異。即使在全域性尺度和偏移對齊之後,仍然存在大量誤差,這使得單目深度和立體視差的畫素級融合變得複雜。基於這些見解,我們提出了MonSter,這是一種將立體匹配分解為單目深度估計和逐畫素尺度-偏移恢復的新方法,它充分結合了單目和立體演算法的優點,克服了缺乏匹配線索的侷限性。主要貢獻如下:
1.我們提出了一種新穎的立體匹配方法MonSter,充分利用畫素級的單目深度先驗,顯著提高了立體匹配在病態區域和精細結構中的深度感知效能。
2.MonSter在五個廣泛使用的排行榜上排名第一:KITTI 2012、KITTI 201、Scene Flow、Middlebury和ETH3D,將當前SOTA提高了多達49.5%。
3.與SOTA方法相比,MonSter在不同資料集上始終如一地實現了最佳的零樣本泛化。僅在合成數據上訓練的MonSter在各種真實世界資料集上均表現出色。          
2. 方法

核心方法:
1. 雙支路架構:
MonSter由兩個主要支路組成:單目深度支路和立體匹配支路。單目支路負責從單幅影像中提取深度資訊,而立體支路則從立體影像對中估計視差。
2. 互相強化:
這兩個支路透過名為“單目引導增強(MGR)”和“立體引導對齊(SGA)”的模組進行多次迭代,增強彼此的效能。初始的單目深度和立體視差會被互相使用,從而不斷最佳化。
3. 自適應選擇和引導:
在每次迭代中,根據置信度引導選擇可靠的立體特徵,以便更新每個畫素的單目視差。這一過程能夠有效減小因光照變化、紋理缺失等導致的錯誤匹配。MGR模組則利用最佳化後的單目深度來進一步改善立體視差。
4. 尺度、偏移最佳化:
在執行互相改進之前,首先需要對單目深度進行全域性的尺度和偏移對齊,以將其轉換為與立體視差粗略對齊的視差圖。這一對齊過程透過最小化預測的單目深度與已有立體視差之間的誤差來實現。但直接將單目視差單向融合到立體匹配中仍然會受到尺度-偏移模糊性的影響,這通常會在複雜區域(如傾斜或曲面)中引入噪聲。因此使用SGA模組有效地解決了這一問題,確保了MonSter的魯棒性
5. 條件引導卷積GRU:
在每一輪迭代,使用條件引導卷積GRU來處理不同分支的輸入及其置信度,實現對未匹配區域的細緻修正。這樣能保證單目深度為立體匹配提供穩定可靠的指導。
3. 實驗結果
1. Benchmark performance

我們在五個benchmark上均達到SOTA,均顯著提升。
2. 病態區域等挑戰場景表現

我們在KITTI 2012的反光區域上排行第一,且相比SOTA在Out-3(All)和Out-4(All)指標上大幅提升58.32%和65.02%。同時,在細小邊緣區域,我們相比我們的基線方法提升了24.39%。這證明了我們結合單目深度的有效性,大大提升了立體匹配在病態區域的效能。          
3. 零樣本泛化性

僅僅使用Sceneflow進行訓練,我們的泛化性就已大幅超越SOTA方案。有趣的是,僅僅只需要增加CREStereo和TartanAir進訓練集,我們的泛化性就能顯著增強,在ETH3D上相比baseline方案提升49.16%。
4. 消融實驗

在消融實驗中,我們系統驗證了模型各關鍵元件的有效性,透過比較MGR、SGA模組和普通卷積融合,證明MGR、SGA模組的有效性。這證明僅僅是簡單的普通卷積融合,並不能充分發揮二支路資訊互補的優勢。

我們還證明了我們方法的高效性,當使用我們的框架時,僅需要4次迭代就可以達到相比baseline更高的精度,推理速度更快。同時我們還透過替換單目深度估計模型,證明了我們方法的通用性,相比baseline均具有顯著提升。
5. 視覺化結果
Zero-Shot performance in the wild

Zero-Shot performance in KITTI

展望
我們致力於提供一個更輕量化版本的MonSter,並且由於MonSter的強泛化性(我們僅僅使用少量公開訓練集),我們將提供一個更多資料集混合訓練的版本供給社群使用,除此以外,MVS的版本即將release!歡迎關注!
團隊介紹:
該論文來自於華中科技大學、道通智慧以及英特爾。其中論文一作程俊達為華中科技大學在讀博士,此前曾在大疆、英特爾和道通智慧實習。研究方向為3D 視覺。

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章