ICCV2025|釋放海量衛星影像的潛力!SelectiveMAE:高效的遙感掩碼影像建模

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達
點選進入—>【遙感】微信交流群

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文idea入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:遙感與深度學習 

論文介紹

題目Harnessing Massive Satellite Imagery with Efficient Masked Image Modeling
會議International Conference on Computer Vision 2025
論文:https://arxiv.org/abs/2406.11933
資料/程式碼/模型https://github.com/MiliLab/SelectiveMAE
年份:2025
單位:國防科技大學,清華大學,武漢大學,中關村學院,南開大學
注:本篇由論文原作者審閱

背景

近年來,Masked Autoencoders (MAE) 在自然影像自監督學習中效果顯著,但直接用於遙感影像時效率低下,因為遙感影像往往包含大量無效或重複的背景區域。傳統隨機 Mask 方法會浪費算力在這些低價值區域,導致大規模遙感預訓練成本高、效率低。為此,本文提出 SelectiveMAE,透過只選擇語義豐富的塊進行編碼和重建,顯著提高了訓練效率,更適用於大規模遙感場景。

創新點

  • 提出了大規模遙感基礎模型訓練新流程
    • 構建了一個規模和多樣性遠超現有的可見光遙感影像資料集 OpticalRS-13M(共 1,320 萬張影像),比同類遙感資料集大至少 4 倍。
  • 創新了高效 Masked Image Modeling (MIM) 方法
    • 提出SelectiveMAE,利用語義豐富度自適應選擇要編碼和重建的 patch,只用 ~40% 的影像塊即可達相同精度,大幅減少了對冗餘背景的計算浪費。
    • 引入Progressive Semantic Token Selection (PSTS),借鑑課程學習思想,分階段動態選擇補充資訊豐富的 patch,避免梯度爆炸並加速收斂。

資料

OpticalRS-13M
1. 資料來源
所有影像來自過去十年間公開的多源高解析度衛星影像,如 WorldView、QuickBird、GeoEye 等。
2. 規模與畫素量
  • OpticalRS-13M 總計包含 1,320 萬張影像,總畫素量超過 2.6 萬億,單張影像平均畫素接近 20 萬。是現有同類資料集(如 MillionAID、SeCo、CACo、SEN12MS、SSL4EO、SatlasPretrain 等)的 4 倍以上。
  • 同時提供了一個體量較小的版本 OpticalRS-4M,包含近 400 萬張影像。

3. 多樣性與覆蓋範圍
  • 資料覆蓋多種遙感場景與典型任務:包括場景分類、目標檢測、畫素級語義分割等多種下游任務。
  • 總共包含 12 個主要類別
    • 場景類:城市、農田、森林、草地、沙漠/裸地、水體、溼地、冰雪;
    • 目標類:建築物、道路、船舶/車輛;
    • 事件類:火災、洪水、滑坡、地震後等突發事件也納入單獨類別,用於動態變化監測和應急場景。
  • 場景和目標資訊比已有自監督光學遙感資料更全面,類別粒度更細。

4. 資料質量處理
  • 對原始多源資料做了 篩選、切片(分塊)和去重,去掉冗餘和質量低下的樣本,保證選入的 patch 有足夠的語義資訊。
  • 按照 DiRS(多樣性、豐富性、可擴充套件性)原則構建,服務更廣泛的任務場景。

方法

本文提出了提出高效的MIM方法SelectiveMAE,主要內容包括以下幾點:

1 有選擇的編碼和重建

  • 目標:避免對無效或冗餘的背景塊進行編碼和重建,只關注對下游任務(檢測、分割)有貢獻的“語義塊”。
  • 如何判斷語義性? 作者引入 HOG (Histogram of Oriented Gradients) 演算法,提取每個塊的區域性梯度資訊:
    • 梯度強表示存在邊緣、紋理或目標結構 → 更可能包含有用語義;
    • 梯度弱則大多是純色或簡單背景 → 重建價值低。
  • 因此,SelectiveMAE 會:
    • 先對每張圖的所有塊計算 HOG;
    • 挑選語義性強的子集作為可見塊送進編碼器;
    • 再從剩下被 Mask 的塊裡,再挑一部分語義性較強的做解碼器的重建目標。

2 部分重建(Partial Reconstruction)

  • 與 MAE 的做法(75% 塊 Mask → 全部都要解碼器還原)不同,SelectiveMAE 只還原一部分 Mask 塊。
  • 並且,這部分不是隨機挑,而是從剩餘 Mask 中挑選 HOG 高的塊來還原,保證解碼器只學真正有用的內容。
  • 這樣一來,解碼器的引數負擔和計算也隨之降低,訓練更快。

3 漸進式語義選擇 (PSTS)

  • 如果 Mask 比例很高(比如編碼器只輸入 15% 塊),訓練會出現梯度爆炸或不收斂

  • 為了保證可收斂性和魯棒性,作者設計了一個 Progressive Semantic Token Selection (PSTS) 機制:
    • 一開始,只輸入相似度高、語義一致的“簡單塊”,讓模型先學習容易模式;
    • 隨著訓練輪數推進,動態從未選中的塊中挑選與已選塊 語義互補(即相似度低)的新塊加入;
    • 這樣逐步從易到難,保證了低 Mask 下依然穩定收斂,同時補足了前期沒有覆蓋到的多樣性資訊。
  • PSTS 的動態選擇基於塊之間的相似度度量,具體實現是利用 Cosine Distance(或其他距離)來判斷哪些塊是互補的。

實驗與分析

作者在多個遙感分類檢測和分割任務上驗證了提出的方法,相比現有自監督方法在精度和效率上都有提升。實驗結果還表明,這種方法在大規模預訓練後對不同下游任務遷移效果穩定,適用於多樣化的遙感場景。
更多圖表分析可見原文

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
遙感交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-遙感微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如遙感+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章