AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

本文將為大家介紹“DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding”(DynamicVis:用於遙感影像理解的高效通用視覺基礎模型),程式碼已開源。

-
Title:DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
-
Paper:https://arxiv.org/abs/2503.16426
-
Code:https://github.com/KyanChen/DynamicVis
/導讀/
該論文提出了一種名為DynamicVis的動態視覺感知基礎模型,旨在解決現有遙感影像處理方法在跨任務泛化性、高解析度資料處理效率及大場景語義理解方面的侷限性。針對遙感影像中關鍵目標占比小、分佈稀疏且傳統模型難以高效處理長序列二維標記(約10萬)的挑戰,該模型借鑑人類視覺選擇性注意力機制,設計了基於動態區域感知的主幹網路,透過選擇性狀態空間模型平衡區域性細節與全域性上下文,實現大規模資料的高效編碼(處理2048×2048畫素影像僅需97毫秒,消耗GPU記憶體為ViT的3%)。結合多例項元嵌入學習正規化,利用百萬級區域標註資料集提升跨任務知識遷移能力,在場景分類、目標檢測、道路分割等九類遙感任務中表現優於Transformer基線,尤其在多粒度視覺分析任務中達到最優效能。程式碼已開源。
/引言/
遙感技術的快速發展顯著提升了衛星影像的時空解析度,推動了高解析度地球觀測能力的進步,併為土地利用分類、城市規劃及社會經濟分析等應用提供了關鍵支援。然而,現有基礎模型在遙感領域仍面臨顯著挑戰:首先,當前跨任務基礎模型稀缺,且大多基於低解析度、小尺寸影像訓練,導致高解析度資料中的細節資訊未被充分利用,引發知識退化及細粒度任務(如小目標檢測)效能下降。例如,RSPrompter、Grounding DINO等模型雖在特定任務中表現優異,但通用性受限;RingMo和SpectralGPT雖透過自監督最佳化模型,卻受限於解析度擴充套件能力。其次,高解析度影像處理面臨巨大計算負擔,Transformer架構的自注意力機制因其二次計算複雜度,對硬體資源要求極高。現有稀疏令牌壓縮方法(如視覺令牌聚合與重取樣)雖可緩解計算壓力,但存在資訊過度壓縮、並行性不足等問題。此外,基於ViT的模型將影像塊壓縮至通道維度(如16×16畫素),導致小目標細節丟失,難以滿足遙感任務對多層次特徵(場景級語義、目標級判別、畫素級精度)的聯合需求。
為解決上述問題,研究者提出DynamicVis動態視覺感知基礎模型,其核心創新包括:1)受生物選擇性注意力機制啟發,透過動態令牌路由選擇性地增強任務相關區域的特徵,同時保留空間語義完整性,避免全域性計算;2)將下采樣核尺寸縮小至4×4以減少細節損失,並引入選擇性狀態空間模型(SSMs)對動態篩選的令牌進行高效長序列建模,平衡全域性場景理解與區域性特徵提取;3)設計基於元嵌入的多例項學習框架,利用弱區域標註的百萬級fMoW資料集進行預訓練,實現跨任務地理知識遷移。
實驗表明,DynamicVis在九項下游任務中均展現出卓越效能,計算開銷顯著降低。該研究貢獻在於提出首個兼顧高解析度細節與計算效率的遙感基礎模型架構,探索了弱監督預訓練正規化,併為分層特徵編碼提供了新思路。

/方法/
該研究提出了一種面向遙感影像解譯的動態視覺感知基礎模型DynamicVis,其核心架構遵循預訓練-微調正規化,包含動態區域感知SSM主幹網路、元嵌入預訓練框架及模組化任務解碼器三部分。
動態區域感知SSM主幹網路

模型採用多尺度特徵金字塔結構,由四階段SSM特徵提取器與FPN構成。特徵提取器透過漸進式小步長下采樣保留細粒度資訊,每個階段包含三個核心模組:
-
Patch Merger:採用卷積壓縮空間維度,僅在第一階段嵌入可學習位置編碼,採用小步長避免ViT式激進下采樣導致的資訊丟失。
-
Sparse Mixer:透過扁平化-選擇性標記建模單元(STIM)-恢復維度的流程處理長序列。其核心元件STIM單元包含:
-
動態標記選擇:結合全域性語義(自適應池化壓縮)與區域語義(Gumbel噪聲輔助的Top-K選擇),保留關鍵區域特徵;
-
雙路徑SSM掃描:對選中的全域性/區域標記進行雙向狀態空間建模,僅需兩路徑即可覆蓋全域性依賴並建模非因果資料,降低計算複雜度;
-
增量連線:透過重要性加權殘差連線,將增強後的關鍵特徵與原始序列融合,保留完整資訊流。
-
特徵金字塔網路:聚合多尺度特徵,輸出五級解析度特徵圖,支撐跨解析度語義表達。
元嵌入多例項預訓練

基於fMoW資料集區域級標註,設計多例項對比學習框架:
-
區域視覺表徵:採用通用RoI提取器(GRoIE)跨多尺度特徵圖進行區域特徵池化,生成維度統一的視覺嵌入向量;
-
類別元嵌入:利用CLIP文字編碼器初始化可學習的類別語義向量,構建特徵空間對齊目標;
-
MIL-NCE損失函式:透過最大化正樣本對(區域特徵-對應元嵌入)相似度、抑制負樣本對,實現跨例項的對比學習,增強特徵判別性。

下游任務遷移機制
設計層次化任務解碼器適配多粒度需求:
-
區域級任務:影像分類採用全域性平均池化+線性層;檢索任務直接利用高層特徵向量;
-
例項級任務:繼承Faster R-CNN框架,RPN生成候選框後接檢測/分割頭;
-
畫素級任務:語義分割採用UperNet融合多尺度特徵,變化檢測透過雙時相特徵差分+MLP解碼差異圖。
/實驗/
該研究實驗部分系統評估了DynamicVis基礎模型在多粒度遙感視覺任務中的效能,涵蓋區域級、例項級和畫素級任務。
預訓練配置
-
採用fMoW-rgb資料集進行預訓練,包含102萬訓練樣本和2萬測試樣本
-
構建基於Mamba架構的base/large雙版本模型
-
使用雙目標損失函式,結合Gumbel噪聲退火策略
場景分類

小目標檢測

例項分割

語義分割


變化檢測



區域分類

影像檢索

/結論/
該論文提出了名為DynamicVis的動態遙感影像視覺感知基礎模型。該框架受人類視覺系統選擇性注意力機制啟發,透過自適應聚焦顯著區域來捕獲通用視覺語義表徵。其核心架構整合了基於狀態空間模型(SSMs)的動態區域感知主幹網路,在區域性細節提取與全域性上下文建模之間實現最優平衡,從而以高效計算和可擴充套件方式編碼高解析度地理空間資料。模型採用元嵌入多例項學習(MIL)正規化進行訓練,資料集包含數百萬區域級標註。經過九項關鍵遙感任務的系統性評估,DynamicVis展現出卓越的泛化能力:在稀疏目標解譯任務(如小目標檢測和變化分析)中,其效能與基於ViT的大型模型相當,但計算需求顯著降低——處理2048×2048畫素影像時僅需97毫秒延遲(相當於ViT的6%)和833MB視訊記憶體(相當於ViT的3%)。嚴格的基準測試表明,該框架在不同粒度需求的任務中均優於基於Transformer的方法,尤其在需要分層視覺線索整合的任務中創造了新的最先進水平(SOTA),驗證了其高效處理多層級視覺特徵的綜合能力。
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
