AI/CV重磅乾貨,第一時間送達
點選進入—>【遙感】微信交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【遙感】微信交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

論文介紹
題目:Harnessing Massive Satellite Imagery with Efficient Masked Image Modeling
會議:International Conference on Computer Vision 2025
資料/程式碼/模型:https://github.com/MiliLab/SelectiveMAE
年份:2025
單位:國防科技大學,清華大學,武漢大學,中關村學院,南開大學
注:本篇由論文原作者審閱

背景
近年來,Masked Autoencoders (MAE) 在自然影像自監督學習中效果顯著,但直接用於遙感影像時效率低下,因為遙感影像往往包含大量無效或重複的背景區域。傳統隨機 Mask 方法會浪費算力在這些低價值區域,導致大規模遙感預訓練成本高、效率低。為此,本文提出 SelectiveMAE,透過只選擇語義豐富的塊進行編碼和重建,顯著提高了訓練效率,更適用於大規模遙感場景。
創新點
-
提出了大規模遙感基礎模型訓練新流程:
-
構建了一個規模和多樣性遠超現有的可見光遙感影像資料集 OpticalRS-13M(共 1,320 萬張影像),比同類遙感資料集大至少 4 倍。
-
創新了高效 Masked Image Modeling (MIM) 方法:
-
提出SelectiveMAE,利用語義豐富度自適應選擇要編碼和重建的 patch,只用 ~40% 的影像塊即可達相同精度,大幅減少了對冗餘背景的計算浪費。
-
引入Progressive Semantic Token Selection (PSTS),借鑑課程學習思想,分階段動態選擇補充資訊豐富的 patch,避免梯度爆炸並加速收斂。

資料
OpticalRS-13M
1. 資料來源
所有影像來自過去十年間公開的多源高解析度衛星影像,如 WorldView、QuickBird、GeoEye 等。
2. 規模與畫素量
-
OpticalRS-13M 總計包含 1,320 萬張影像,總畫素量超過 2.6 萬億,單張影像平均畫素接近 20 萬。是現有同類資料集(如 MillionAID、SeCo、CACo、SEN12MS、SSL4EO、SatlasPretrain 等)的 4 倍以上。
-
同時提供了一個體量較小的版本 OpticalRS-4M,包含近 400 萬張影像。

3. 多樣性與覆蓋範圍
-
資料覆蓋多種遙感場景與典型任務:包括場景分類、目標檢測、畫素級語義分割等多種下游任務。
-
總共包含 12 個主要類別:
-
場景類:城市、農田、森林、草地、沙漠/裸地、水體、溼地、冰雪;
-
目標類:建築物、道路、船舶/車輛;
-
事件類:火災、洪水、滑坡、地震後等突發事件也納入單獨類別,用於動態變化監測和應急場景。
-
場景和目標資訊比已有自監督光學遙感資料更全面,類別粒度更細。


4. 資料質量處理
-
對原始多源資料做了 篩選、切片(分塊)和去重,去掉冗餘和質量低下的樣本,保證選入的 patch 有足夠的語義資訊。
-
按照 DiRS(多樣性、豐富性、可擴充套件性)原則構建,服務更廣泛的任務場景。
方法
本文提出了提出高效的MIM方法SelectiveMAE,主要內容包括以下幾點:

1 有選擇的編碼和重建
-
目標:避免對無效或冗餘的背景塊進行編碼和重建,只關注對下游任務(檢測、分割)有貢獻的“語義塊”。
-
如何判斷語義性? 作者引入 HOG (Histogram of Oriented Gradients) 演算法,提取每個塊的區域性梯度資訊:
-
梯度強表示存在邊緣、紋理或目標結構 → 更可能包含有用語義;
-
梯度弱則大多是純色或簡單背景 → 重建價值低。
-
因此,SelectiveMAE 會:
-
先對每張圖的所有塊計算 HOG;
-
挑選語義性強的子集作為可見塊送進編碼器;
-
再從剩下被 Mask 的塊裡,再挑一部分語義性較強的做解碼器的重建目標。
2 部分重建(Partial Reconstruction)
-
與 MAE 的做法(75% 塊 Mask → 全部都要解碼器還原)不同,SelectiveMAE 只還原一部分 Mask 塊。
-
並且,這部分不是隨機挑,而是從剩餘 Mask 中挑選 HOG 高的塊來還原,保證解碼器只學真正有用的內容。
-
這樣一來,解碼器的引數負擔和計算也隨之降低,訓練更快。
3 漸進式語義選擇 (PSTS)
-
如果 Mask 比例很高(比如編碼器只輸入 15% 塊),訓練會出現梯度爆炸或不收斂。

-
為了保證可收斂性和魯棒性,作者設計了一個 Progressive Semantic Token Selection (PSTS) 機制:
-
一開始,只輸入相似度高、語義一致的“簡單塊”,讓模型先學習容易模式;
-
隨著訓練輪數推進,動態從未選中的塊中挑選與已選塊 語義互補(即相似度低)的新塊加入;
-
這樣逐步從易到難,保證了低 Mask 下依然穩定收斂,同時補足了前期沒有覆蓋到的多樣性資訊。


-
PSTS 的動態選擇基於塊之間的相似度度量,具體實現是利用 Cosine Distance(或其他距離)來判斷哪些塊是互補的。
實驗與分析
作者在多個遙感分類檢測和分割任務上驗證了提出的方法,相比現有自監督方法在精度和效率上都有提升。實驗結果還表明,這種方法在大規模預訓練後對不同下游任務遷移效果穩定,適用於多樣化的遙感場景。





更多圖表分析可見原文
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
遙感交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如遙感+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
