ICCV2025|釋放海量衛星影像的潛力！SelectiveMAE：高效的遙感掩碼影像建模

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【遙感】微信交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：遙感與深度學習

論文介紹

題目：Harnessing Massive Satellite Imagery with Efficient Masked Image Modeling

會議：International Conference on Computer Vision 2025

論文：https://arxiv.org/abs/2406.11933

資料/程式碼/模型：https://github.com/MiliLab/SelectiveMAE

年份：2025

單位：國防科技大學，清華大學，武漢大學，中關村學院，南開大學

注：本篇由論文原作者審閱

背景

近年來，Masked Autoencoders (MAE) 在自然影像自監督學習中效果顯著，但直接用於遙感影像時效率低下，因為遙感影像往往包含大量無效或重複的背景區域。傳統隨機 Mask 方法會浪費算力在這些低價值區域，導致大規模遙感預訓練成本高、效率低。為此，本文提出 SelectiveMAE，透過只選擇語義豐富的塊進行編碼和重建，顯著提高了訓練效率，更適用於大規模遙感場景。

創新點

提出了大規模遙感基礎模型訓練新流程：

構建了一個規模和多樣性遠超現有的可見光遙感影像資料集 OpticalRS-13M（共 1,320 萬張影像），比同類遙感資料集大至少 4 倍。

創新了高效 Masked Image Modeling (MIM) 方法：

提出SelectiveMAE，利用語義豐富度自適應選擇要編碼和重建的 patch，只用 ~40% 的影像塊即可達相同精度，大幅減少了對冗餘背景的計算浪費。
引入Progressive Semantic Token Selection (PSTS)，借鑑課程學習思想，分階段動態選擇補充資訊豐富的 patch，避免梯度爆炸並加速收斂。

資料

OpticalRS-13M

1. 資料來源

所有影像來自過去十年間公開的多源高解析度衛星影像，如 WorldView、QuickBird、GeoEye 等。

2. 規模與畫素量

OpticalRS-13M 總計包含 1,320 萬張影像，總畫素量超過 2.6 萬億，單張影像平均畫素接近 20 萬。是現有同類資料集（如 MillionAID、SeCo、CACo、SEN12MS、SSL4EO、SatlasPretrain 等）的 4 倍以上。
同時提供了一個體量較小的版本 OpticalRS-4M，包含近 400 萬張影像。

3. 多樣性與覆蓋範圍

資料覆蓋多種遙感場景與典型任務：包括場景分類、目標檢測、畫素級語義分割等多種下游任務。
總共包含 12 個主要類別：

場景類：城市、農田、森林、草地、沙漠/裸地、水體、溼地、冰雪；
目標類：建築物、道路、船舶/車輛；
事件類：火災、洪水、滑坡、地震後等突發事件也納入單獨類別，用於動態變化監測和應急場景。

場景和目標資訊比已有自監督光學遙感資料更全面，類別粒度更細。

4. 資料質量處理

對原始多源資料做了 篩選、切片（分塊）和去重，去掉冗餘和質量低下的樣本，保證選入的 patch 有足夠的語義資訊。
按照 DiRS（多樣性、豐富性、可擴充套件性）原則構建，服務更廣泛的任務場景。

方法

本文提出了提出高效的MIM方法SelectiveMAE，主要內容包括以下幾點：

1 有選擇的編碼和重建

目標：避免對無效或冗餘的背景塊進行編碼和重建，只關注對下游任務（檢測、分割）有貢獻的“語義塊”。
如何判斷語義性？ 作者引入 HOG (Histogram of Oriented Gradients) 演算法，提取每個塊的區域性梯度資訊：

梯度強表示存在邊緣、紋理或目標結構 → 更可能包含有用語義；
梯度弱則大多是純色或簡單背景 → 重建價值低。

因此，SelectiveMAE 會：

先對每張圖的所有塊計算 HOG；
挑選語義性強的子集作為可見塊送進編碼器；
再從剩下被 Mask 的塊裡，再挑一部分語義性較強的做解碼器的重建目標。

2 部分重建（Partial Reconstruction）

與 MAE 的做法（75% 塊 Mask → 全部都要解碼器還原）不同，SelectiveMAE 只還原一部分 Mask 塊。
並且，這部分不是隨機挑，而是從剩餘 Mask 中挑選 HOG 高的塊來還原，保證解碼器只學真正有用的內容。
這樣一來，解碼器的引數負擔和計算也隨之降低，訓練更快。

3 漸進式語義選擇 (PSTS)

如果 Mask 比例很高（比如編碼器只輸入 15% 塊），訓練會出現梯度爆炸或不收斂。

為了保證可收斂性和魯棒性，作者設計了一個 Progressive Semantic Token Selection (PSTS) 機制：

一開始，只輸入相似度高、語義一致的“簡單塊”，讓模型先學習容易模式；
隨著訓練輪數推進，動態從未選中的塊中挑選與已選塊 語義互補（即相似度低）的新塊加入；
這樣逐步從易到難，保證了低 Mask 下依然穩定收斂，同時補足了前期沒有覆蓋到的多樣性資訊。

PSTS 的動態選擇基於塊之間的相似度度量，具體實現是利用 Cosine Distance（或其他距離）來判斷哪些塊是互補的。

實驗與分析

作者在多個遙感分類檢測和分割任務上驗證了提出的方法，相比現有自監督方法在精度和效率上都有提升。實驗結果還表明，這種方法在大規模預訓練後對不同下游任務遷移效果穩定，適用於多樣化的遙感場景。

更多圖表分析可見原文

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

遙感交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-遙感微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如遙感+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）人數破萬！如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料，一定要掃描下方二維碼，加入CVer知識星球！最強助力你的科研和工作！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看

dignews.cc

ICCV2025|釋放海量衛星影像的潛力！SelectiveMAE：高效的遙感掩碼影像建模

AI/CV重磅乾貨，第一時間送達

點選進入—>【遙感】微信交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

論文介紹

背景

創新點

資料

方法

1 有選擇的編碼和重建

2 部分重建（Partial Reconstruction）

3 漸進式語義選擇 (PSTS)

實驗與分析

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

CVPR2025|突破2D侷限！Change3D：從3D影片建模視角重塑遙感變化檢測和描述任務

北航&港大提出DynamicVis：用於遙感影像理解的高效通用視覺基礎模型

AAAI2025|定位地球上的一切！遙感開放詞彙目標檢測

CVPR2025|MUST：首個多光譜無人機單目標跟蹤資料集和統一框架

AAAI2025|S³-Mamba：面向病變分割的小尺寸敏感Mamba

AAAI2025|MMGDreamer：幾何可控的3D室內場景生成新標杆

ContinuousSR：從離散低解析度影像中重建連續高解析度高質量訊號

CVPR2025|CRA：跨模態因果對齊，讓機器更懂視覺證據！

CVPR2025|比高斯更靈活！港大&VAST提出DRK：新型徑向核潑濺

CVPR2025|武大提出HyperFree：波段自適應的新一代高光譜遙感基礎模型

AI/CV重磅乾貨，第一時間送達 點選進入—>【遙感】微信交流群

新增微訊號：CVer2233，小助手會拉你進群！ 掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

論文介紹

背景

創新點

資料

方法

1 有選擇的編碼和重建

2 部分重建（Partial Reconstruction）

3 漸進式語義選擇 (PSTS)

實驗與分析

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

AI/CV重磅乾貨，第一時間送達

點選進入—>【遙感】微信交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！