CVPR2025|雙目匹配新突破！DEFOM-Stereo高效利用單目深度基礎模型

2025-07-09 18:30 PaperWeekly

概況

雙目立體匹配是計算機視覺中幾十年來經久不衰的一個研究課題，其主要是從矯正的左右目影像中恢復稠密的匹配視差。進入深度學習時代後, 雙目匹配的準確度和魯棒性都得到了穩步的提高。

然而，現在模型仍然受到搜尋準確的稠密匹配的一些固有難點的約束，如遮擋（在右圖中匹配點沒有直接展現），弱紋理/影像模糊/不良曝光（造成匹配難以準確定位），以及高分辨（往往伴隨著大視差，需要很大搜索範圍）。

最近，深度估計領域的的一個相關任務 – 單目相對深度估計獲得非常大的提升。例如，Marigold [1] 和 Depth Anything V1 [2] 和 V2 [3] 在不同場景中實現了卓越的零樣本泛化能力。其中 Depth Anything V2 [4] 是能夠恢復非常好的場景結構細節，且相比與基於 Stable Diffusion 的 Marigold [5] 具有顯著更快的速度。

因此，為了能夠利用單目深度基礎模型提供的強大的單目先驗用於雙目匹配，本文設計了將 Depth Anything V2 [6] 迴圈雙目匹配框架 RAFT-Stereo [7]，從構造出了新的雙目匹配模型 DEFOM-Stereo。

在模擬域到真實域的 Zero-Shot 綜合評估上，DEFOM-Stereo 相比於其他雙目模型具有顯著的優勢。此外，在雙目領域的權威線上 Benchmarks 上，包括 KITTI，Middlebury 和 ETH3D 上，DEFOM-Stereo 均由眾多指標排名第一。並且，在魯棒視覺挑戰（RVC）的聯合評估設定下，我們的模型也能同時在各個子測試集上由於之前所有 RVC 模型。

論文標題：

DEFOM-Stereo: Depth Foundation Model Based Stereo Matching

論文地址：

http://arxiv.org/abs/2501.09466

專案主頁：

https://insta360-research-team.github.io/DEFOM-Stereo/

程式碼開源：

https://github.com/Insta360-Research-Team/DEFOM-Stereo

方法框架

2.1 聯合編碼器

我們利用 Depth Anything V2 中的強大預訓練 ViT 和隨機初始化的 CNN 一起組成聯合編碼器，這樣使得雙目匹配網路中的特徵提取更加有效。由於在迴圈雙目匹配框架中，存在兩個影像編碼器：

1）匹配特徵編碼器，同時應用在左右圖從而來計算畫素點之間的相關性；

2）上下文提取器，只應用在左圖來控制迴圈的視差迭代恢復過程。我們同時構建了組合特徵提取器和組合上下文特徵提取器。

2.2 單目視差初始化

為了利用 Depth Anything V2 估計的深度（實際上是仿射不變的視差）中的已經恢復的場景結構資訊，我們將其估計的“深度”進行一定的幅度調整後，用於迴圈迭代視差的初始化。

雖然相對深度估計被設計成能夠恢復仿射不變視差，即與真實視差只相差一個未知的線性變換。但我們在實測發現，即使是最先進的 Depth Anything V2，估計的"深度"圖和真實的視差之間不能只用一個線性變換擬合，其估計的“深度”圖的各個區域間存在一定的尺度不一致性，如下圖所示。

此外，我們將 Depth Anything V2 估計的“深度”圖經過仿射對齊到 GT 視差後，再進行視差誤差計算，同樣也產生非常大的誤差。這些，都給後續的迴圈迭代視差恢復造成了一定的困難。

2.3 尺度更新

為了應對上述單目深度的尺度不一致現象，我們在原始的迴圈殘差迭代更新前面插入了提出的一種尺度更新模組，這個模組以估計一個稠密的尺度因子圖的，並以乘積形式更新迭代的視差圖。

為了使稠密的尺度因子圖恢復得更加準確，我們還設計了一種從相關體金字塔中進行尺度查詢的方法。尺度查詢主要是預設一系列尺度因子，乘以當前估計視差圖獲得一些列尺度視差圖，再去相關體金字塔取樣獲取尺度相關特徵。

實驗結果

3.1 零樣本泛化對比

3.2 線上 Benchmarks

我們模型同時在 Middlebury，ETH3D，KITTI 2012/2015 上同時具有領先表現，同時在 RVC 聯合評估也完勝其他 RVC 模型。

參考文獻

[1] https://marigoldmonodepth.github.io/

[2] https://depth-anything.github.io/

[3] https://depth-anything-v2.github.io/

[4] https://depth-anything-v2.github.io/

[5] https://marigoldmonodepth.github.io/

[6] https://depth-anything-v2.github.io/

[7] https://github.com/princeton-vl/RAFT-Stereo

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

·

相關文章

一種命令列解析的新思路（Go語言描述）

一種命令列解析的新思路（Go語言描述）

全模態對齊終於有了開源參考：北大團隊釋出align-anything，資料、演算法、評估一網打盡！

全模態對齊終於有了開源參考：北大團隊釋出align-anything，資料、演算法、評估一網打盡！

ICLR2025|即時線上！清華、NTU提出適用於具身場景的3D分割一切模型

ICLR2025|即時線上！清華、NTU提出適用於具身場景的3D分割一切模型

挖掘DiT的位置解耦特性，PersonalizeAnything免訓練實現個性化影像生成

挖掘DiT的位置解耦特性，PersonalizeAnything免訓練實現個性化影像生成

「注意力實際上是對數的」？七年前的Transformer還有新發現，Karpathy點贊

「注意力實際上是對數的」？七年前的Transformer還有新發現，Karpathy點贊

優雅的對樹形結構進行高效能分頁，閉包表才是yyds

優雅的對樹形結構進行高效能分頁，閉包表才是yyds

多模態版DeepSeek-R1：評測表現超GPT-4o，模態穿透反哺文字推理能力！北大港科大出品，已開源

多模態版DeepSeek-R1：評測表現超GPT-4o，模態穿透反哺文字推理能力！北大港科大出品，已開源

強化學習也湧現？自監督RL擴充套件到1000層網路，機器人任務提升50倍

強化學習也湧現？自監督RL擴充套件到1000層網路，機器人任務提升50倍

英偉達開源自適應多模態「世界生成」模型！開啟機器人、自動駕駛訓練革命

英偉達開源自適應多模態「世界生成」模型！開啟機器人、自動駕駛訓練革命

無痛提升文字對齊！無分類引導新正規化CFG-Zero*火了，支援Diffusers/ComfyUI

無痛提升文字對齊！無分類引導新正規化CFG-Zero*火了，支援Diffusers/ComfyUI

Copyright © 2025 | WordPress Theme by MH Themes