CVPR2025|突破2D侷限！Change3D：從3D影片建模視角重塑遙感變化檢測和描述任務

2025-08-24 21:25 CVer

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【遙感】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

論文：https://arxiv.org/pdf/2503.18803

專案：https://zhuduowang.github.io/Change3D

程式碼：https://github.com/zhuduowang/Change3D

單位：武漢大學, 香港大學, 字節跳動

核心創新點

◆三維時空建模範式

首個影片理解視角統一雙時相影像分析任務，透過Change3D框架實現時空特徵聯合建模，突破傳統二維方法的表徵侷限；

◆ 高效化動態感知

基於可學習感知幀實現高效特徵挖掘，摒棄複雜模組設計，僅透過時序建模即完成變化區域高精度提取；

◆ 多維度效能突破

在遙感影像變化檢測/描述等4類任務、8大評測基準中，以約6%-13%引數量（相較於當前最優演算法）實現全面性能領先。

研究背景

遙感變化檢測與描述技術透過分析雙時相影像實現地表動態監測，在災害預警、國土監管等領域具有重要價值。當前主流方案多采用三階段流程（如圖1 (a)）：

◆獨立特徵編碼：基於孿生網路分別提取雙時相影像空間特徵；

◆差異特徵構建：透過注意力機制等設計捕捉雙時相特徵關聯性；

◆多工解碼：透過獨立解碼器生成變化圖或描述文字。

圖1 傳統正規化 vs. 本研究提出的正規化

技術瓶頸解析：

◆任務耦合性弱：獨立編碼器難以針對性學習變化敏感特徵，引數分配失衡（影像編碼器約佔用80%引數）導致特徵學習效率低下；

◆架構通用性差：變化檢測與描述任務需分別設計變化提取模組，制約統一框架構建。

圖2 不同模型的引數分佈對比

創新方案：

受影片建模技術能夠有效建模幀間關聯的啟發，本研究提出Change3D時空聯合建模框架（如圖1(b)）：

◆時序特徵重構：將雙時相影像與可學習感知幀沿時間維度拼接，構建三維時空序列；

◆動態差異感知：透過影片編碼器聯合建模時空特徵，使感知幀自主捕獲跨時相變化資訊；

◆統一特徵解碼：基於感知幀特徵同步生成高精度變化圖與描述文字。

方法

為驗證Change3D框架的多工適配性，本研究將其應用於遙感影像變化檢測與描述任務。如圖3所示，其核心流程包括：

l感知幀初始化：根據任務數量（檢測/描述）動態生成對應數量的可學習感知幀；

l時空輸入構建：將雙時相影像與感知幀沿時間維度堆疊，形成三維影片幀序列輸入；

l感知特徵學習：透過影片編碼器實現感知幀與雙時相影像的跨幀互動，提取任務導向的感知特徵；

l多模態輸出解碼：基於感知幀特徵，分別透過檢測解碼器（生成變化掩膜）和描述解碼器（生成自然語言描述）輸出結果。

圖3 統一多工的Change3D模型架構

效能突破

定量結果：

本研究系統地評估了Change3D模型在多種遙感影像變化檢測和描述任務上的效能，如表1-4所示，涵蓋二值變化檢測、語義變化檢測、建築物損毀評估和變化描述任務。與最先進的方法相比，本研究提出的方法所需的引數減少至6%-13%，計算量減少至8%-34%，並且擁有最快的推理速度，同時在所有評測基準上均取得了優越的效能。

定性結果：

圖4視覺化結果表明：

（1）Change3D透過雙時相互動直接感知變化資訊，無需獨立提取模組，而傳統方法需依賴額外模組設計；

（2）相對於現有的方法，Change3D在特徵提取階段能夠有效地聚焦變化區域，實現變化檢測與描述任務的高效最佳化。

圖4 雙時相特徵

、

及變化特徵

的視覺化結果。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）來了！想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料，歡迎掃描下方二維碼，加入CVer計算機視覺（知識星球），已彙集上萬人！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看

相關文章

CVPR2025|清華&哈佛提出4DLangSplat：4D語言場建模新方法，動態場景精準識別！

CVPR2025|清華&哈佛提出4DLangSplat：4D語言場建模新方法，動態場景精準識別！

CVPR2025|多視角視覺目標跟蹤新突破！MITracker：高效融合多視角特徵，解決遮擋與目標丟失問題！

CVPR2025|多視角視覺目標跟蹤新突破！MITracker：高效融合多視角特徵，解決遮擋與目標丟失問題！

CVPR2025|多視角目標跟蹤新突破！MITracker：高效融合多視角特徵，解決遮擋與目標丟失問題！

CVPR2025|多視角目標跟蹤新突破！MITracker：高效融合多視角特徵，解決遮擋與目標丟失問題！

頂刊TIP2025！北大&清華等提出：多目標跟蹤新方法TOPICTrack和大規模資料集

頂刊TIP2025！北大&清華等提出：多目標跟蹤新方法TOPICTrack和大規模資料集

ICRA2025|OpenGS-SLAM：僅憑RGB影像實現戶外場景高精度定位與重建

ICRA2025|OpenGS-SLAM：僅憑RGB影像實現戶外場景高精度定位與重建

小紅書&上交提出多模態大模型新基準WorldSense！Gemini1.5Pro準確率僅48％

小紅書&上交提出多模態大模型新基準WorldSense！Gemini1.5Pro準確率僅48％

CVPR2025|CRA：跨模態因果對齊，讓機器更懂視覺證據！

CVPR2025|CRA：跨模態因果對齊，讓機器更懂視覺證據！

LeCun世界模型再近一步！Meta研究證明：AI可無先驗理解直覺物理

LeCun世界模型再近一步！Meta研究證明：AI可無先驗理解直覺物理

CVPR2025|加快22倍！Meta提出EdgeTAM：基於SAM2的高效影片分割模型，效能與速度兼得！

CVPR2025|加快22倍！Meta提出EdgeTAM：基於SAM2的高效影片分割模型，效能與速度兼得！

Adobe黑科技ObjectMover：影片擴散拿下影像編輯，秒懂物理規律！

Adobe黑科技ObjectMover：影片擴散拿下影像編輯，秒懂物理規律！

Copyright © 2025 | WordPress Theme by MH Themes