AAAI2025|定位地球上的一切!遙感開放詞彙目標檢測

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

題目:Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community
會議:39th Annual AAAI Conference on Artificial Intelligence (CCF-A會議)
論文:https://arxiv.org/abs/2408.09110
專案:https://jaychempan.github.io/LAE-website/
程式碼:https://github.com/jaychempan/LAE-DINO
年份:2025
單位:清華大學,浙江工業大學,中國科學院大學,蘇黎世聯邦理工大學等
創新點
資料引擎構建:面對當前遙感領域目標檢測標註類別稀缺,開發了LAE-Label Engine,用於收集、自動標註和統一多達10個遙感資料集,為提供遙感基礎模型提供可擴充套件資料基礎。
資料集構建:構建了LAE-1M資料集。LAE-1M是首個大規模遙感目標檢測資料集,涵蓋了廣泛的類別,包含100萬個標註例項。
模型設計:當前多模態大模型對定位能力不準確,提出了LAE-DINO模型,這是針對遙感領域的大規模開放詞彙目標檢測器。

LAE-Label 資料引擎
LAE-Label Engine旨在解決遙感領域缺乏多樣化、大規模標註資料的問題。LAE-Label Engine 的主要任務是透過半自動化的方式,構建一個大規模的遙感目標檢測資料集 LAE-1M,該資料集包含100萬個標註例項。

lLAE-FOD 資料集構建
LAE-FOD 資料集是透過對現有的標註遙感資料集進行處理和統一構建的。具體步驟如下:
1)影像切片:由於遙感影像通常解析度較高,LAE-Label Engine 首先對這些高解析度影像進行切片處理,將其分割為適合模型訓練的小尺寸影像。
2)格式對齊:不同資料集的標註格式可能不同,LAE-Label Engine 將這些標註格式統一為 COCO 格式,便於後續處理。
3)取樣:為了確保資料集的多樣性和平衡性,LAE-Label Engine 對每個類別的例項進行隨機取樣,避免某些類別的例項過多或過少。
lLAE-COD 資料集構建
LAE-COD 資料集是透過半自動化的方式構建的,主要利用了大模型(如SAM 和 LVLM)進行自動標註。具體步驟如下:
1)SAM(Segment Anything Model):首先,LAE-Label Engine 使用 SAM 模型從遙感影像中提取感興趣區域(RoI)。SAM 能夠根據點或框提示精確地分割出物體的邊緣,但無法識別具體的類別。
2)LVLM(Large Vision-Language Model):接著,LAE-Label Engine 使用 LVLM(本實驗主要基於開源的書生多模態大模型InternVL)對SAM 提取的 RoI 進行類別標註。LVLM 能夠根據影像內容生成可能的物體類別,並提供類別的置信度。
3)規則過濾:最後,LAE-Label Engine 透過規則過濾去除無效或低質量的標註。例如,去除單調的影像、低置信度的類別標註等。
LAE-1M 資料集
LAE-1M 資料集涵蓋了廣泛的類別,包含100萬個標註例項。以下是 LAE-1M 資料集的具體內容:
資料集的具體內容
1) LAE-FOD 資料集:包含來自多個現有遙感資料集的標註例項,如 DOTA、DIOR、FAIR1M、NWPU VHR-10、RSOD、Xview、HRSC2016 和 Condensing-Tower 等。這些資料集經過影像切片、格式對齊和隨機取樣處理後,形成了 LAE-FOD 資料集。
2)LAE-COD 資料集:包含透過 SAM 和 LVLM 自動標註的例項,主要來自 AID、NWPU-RESISC45、SLM 和 EMS 等資料集。這些資料集經過 SAM 提取 RoI、LVLM 進行類別標註和規則過濾後,形成了 LAE-COD 資料集。
資料集的特點
1)大規模:LAE-1M 資料集包含100萬個標註例項,是迄今為止最大且類別覆蓋最廣的遙感目標檢測資料集。
2)多樣性:LAE-1M 資料集涵蓋了廣泛的類別,包括飛機、船舶、車輛、建築物、道路、機場、港口等,能夠為模型提供豐富的訓練資料。
3)半自動化結合:LAE-1M 資料集透過自動化(SAM 和 LVLM)和半自動化(規則過濾)的標註方式構建,能夠在保證標註質量的同時,大幅減少人工標註的工作量。
LAE-DINO開放詞彙檢測器
總體框架

LAE-DINO引入了兩個新模組:
1)動態詞彙構建(Dynamic Vocabulary Construction, DVC):動態地為每個訓練批次選擇正負詞彙,解決了大規模詞彙集帶來的訓練效率問題。
2)視覺引導的文字提示學習(Visual-Guided Text Prompt Learning, VisGT):透過將視覺特徵對映到語義空間,增強文字特徵,從而更好地利用影像和文字之間的關係進行目標檢測。
動態詞彙構建(DVC)
傳統的開放詞彙目標檢測模型通常使用固定長度的文字編碼器(如 BERT 或 CLIP),將所有類別詞彙拼接成一個超長文字序列。然而,當詞彙集規模較大時(如1600個類別),這種方法會導致計算效率低下,甚至超出文字編碼器的最大長度限制。
1)動態詞彙長度:DVC 設定一個動態詞彙長度

(如60),每個訓練批次只選擇部分正負詞彙進行訓練。

2)正負詞彙選擇:對於每個訓練批次,DVC首先選擇當前批次中的所有正類別詞彙,然後從剩餘的詞彙集中隨機選擇負類別詞彙,直到達到的設定的長度。
優勢:DVC 顯著減少了文字編碼器的計算負擔,同時保留了模型對大規模詞彙集的適應能力。
視覺引導的文字提示學習(VisGT)    
遙感影像中的場景通常非常複雜,單一的文字提示難以充分表達影像中的語義資訊。傳統的開放詞彙目標檢測模型主要依賴文字提示來引導視覺特徵,但在複雜場景中,文字提示的稀疏性和侷限性可能導致檢測效果不佳。
1)場景特徵提取:VisGT 首先透過平均所有正類別文字特徵,生成“場景特徵”(Scene Feature)。場景特徵代表了影像中所有物體的整體語義資訊。
2)視覺特徵對映:VisGT 使用多尺度可變形自注意力(MDSA)模組,將視覺特徵對映到語義空間,生成視覺引導的文字特徵。
3)模態對齊:VisGT 將視覺引導的文字特徵與原始文字特徵結合,輸入到 Transformer 編碼器中,增強影像和文字之間的模態對齊。
VisGT 使用對比損失(Contrastive Loss)來監督視覺特徵到語義空間的對映過程。具體來說,對比損失用於最小化預測的場景特徵與真實場景特徵之間的差異。
實驗設定
在多個遙感基準資料集(如DIOR、DOTAv2.0)和新構建的含有80類的LAE-80C基準上進行了廣泛的實驗,驗證了LAE-1M資料集和LAE-DINO模型的有效性。
1)開放集檢測:LAE-DINO 在開放集檢測任務中顯著優於現有的開放詞彙目標檢測方法(如 GLIP 和 GroundingDINO)。
2)封閉集檢測:LAE-DINO 在封閉集檢測任務中也表現出色,尤其是在少量資料微調的情況下,仍能取得優異的檢測效果。
應用前景
該研究為地球科學應用(如環境監測、自然災害評估、土地利用規劃等)提供了強大的工具,推動了遙感領域開放詞彙目標檢測的發展。

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2024,即可下載CVPR 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看


相關文章