ICCV2025|如何在不同模態遙感影像裡準確找到同一艘船?

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達
點選進入—>【遙感】投稿交流群

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文idea入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

論文介紹

題目:Cross-modal Ship Re-Identification via Optical and SAR Imagery: A Novel Dataset and Method
會議:International Conference on Computer Vision 2025
論文https://arxiv.org/abs/2506.22027
資料/程式碼https://github.com/Alioth2000/Hoss-ReID
年份:2025
單位中國科學院空間應用工程與技術中心

背景

這篇文章面向遙感船舶追蹤場景,針對如何用低軌光學和 SAR 衛星在不同時間、不同氣象條件下持續追蹤同一艘船這一實際需求。
現有方法依賴靜止軌道或影片衛星,要麼解析度低,要麼覆蓋範圍和時長有限,不適合真實場景下的連續追蹤。
因此,作者提出用跨模態船舶再識別(ReID)的方法,結合低軌多星座,實現全天候、全時段、廣域船舶身份匹配和軌跡生成,用於搜尋救援、執法監測等應用。

創新點

  • 提出了首個跨模態(光學與SAR)船舶 ReID 資料集(HOSS ReID),填補了現有光學-紅外或單一模態資料集的空白,專門針對低軌遙感星座的船舶跨模態追蹤需求。
  • 設計了新的跨模態 ReID 方法 TransOSS,基於 Vision Transformer,創新性地引入:
    • 雙頭分模態 Patch Tokenizer(光學和SAR各自獨立嵌入)
    • 模態資訊嵌入(用於區分不同模態特徵)
    • 船舶尺寸嵌入(利用遙感特有的物理尺寸資訊)
    • 對比學習預訓練 + 下游微調,顯著提升跨模態特徵對齊能力。

資料

HOSS ReID 資料集

資料來源與採集:
  • 使用Jilin-1 光學星座 和 TY-MINISAR SAR 星座進行自主程式設計成像採集,非公開資料,完全自建。
  • 主要選取港口、運河等高密度船舶區域(如巴拿馬運河、蘇伊士運河),透過多星座在短時間內對同一船舶從多角度、多模態進行成像。
  • 採用人工標註:手動繪製船舶邊框、裁剪,並手動匹配同一船舶跨時空的多模態序列。
資料規模與特徵:
  • 解析度:光學影像 0.75 米 GSD,SAR 影像 1 米 GSD。
  • 模態:光學影像(RGB,8-bit)和 SAR 影像(單通道,32-bit 浮點)。
  • 總規模:13 條影像序列(每條序列含 2~5 幀),總共 43 幀原始大圖,提取後形成:
    • 449 條船舶軌跡(含 163 條幹擾軌跡)
    • 共 1832 張船舶裁剪影像
    • 訓練集:361 條軌跡,1063 張影像
    • 驗證集(Query):88 條軌跡,176 張影像
    • 驗證集(Gallery):88 條軌跡 + 163 條幹擾軌跡,共 593 張影像
資料組織格式:
  • 格式參考Market-1501行人 ReID 標準。
  • 檔名含 ID、序列號、攝像頭號(對應衛星)、模態標識。
  • 所有影像均為 TIFF 格式,未做 DEM 正射校正,但已做幾何與輻射校正。
設計要點:
  • 資料集設計包含干擾目標(distractors),模擬真實環境中存在大量無關船舶的場景,提高 ReID 難度。
  • 每條 Query 有 50% 光學、50% SAR,Gallery 中同一 ID 的模態分佈不固定。
  • 有些 ID 僅包含單一模態,符合實際拍攝時多模態獲取受天氣/時間/軌道約束的特點。

方法

TransOSS

這篇文章提出的TransOSS針對光學與SAR跨模態船舶 ReID設計,核心思路是:在同一網路裡同時處理光學和SAR兩種模態,提取可共享的身份特徵,完成跨模態匹配。
整體架構:
  • 基於 Vision Transformer (ViT) 架構改造。
  • 核心思路是把輸入影像拆分成小塊(patch),分別嵌入到統一的特徵空間。
  • 不同於通用 ViT,TransOSS 做了針對跨模態的定製化改進
關鍵改進點:
雙頭 Tokenizer(Cross-modal Dual-head Tokenizer)
    • 對光學和 SAR 影像分開嵌入,使用兩個獨立的輸入頭,而不是直接混用一個輸入結構。
    • 這樣能在輸入階段就保留模態差異,同時避免互相干擾。
模態資訊嵌入(Modality Information Embedding)
    • 在輸入階段,顯式給每個影像加入它的“模態標識”。
    • 網路在後續 Transformer 編碼中就能有意識地區分兩種模態,學習到模態無關的特徵。
船舶尺寸嵌入(Ship Size Embedding)
    • 利用遙感影像可直接獲取的物理尺寸資訊(船長、船寬、長寬比),把它作為附加資訊輸入網路。
    • 這樣可以彌補 ReID 任務中因統一縮放影像而丟失的尺度特徵。
共享 Transformer 主幹(Modality-shared Transformer Encoder)
    • 光學和 SAR 模態分別嵌入後,走相同的 Transformer 主幹提取特徵。
    • 保證兩種模態提取到的特徵在同一空間可對比。
訓練策略(Two-Stage Training):
  • 第一階段:先用大規模公開的光學-SAR配對資料做對比學習預訓練,學會跨模態的相似性匹配。用到的資料如 SEN1-2 和 DFC23 等常見 SAR-光學對齊資料集。
  • 第二階段:在自建的 HOSS ReID 上做有監督微調,透過 ID 分類損失和三元組損失約束,讓模型在複雜干擾條件下學會區分同類與異類。

實驗與分析

本文方法在跨模態船舶再識別任務上顯著優於現有可見光-紅外 ReID 方法,驗證了模型的跨模態對齊能力。實驗結果證明,新引入的對比預訓練和輔助資訊設計有效提升了匹配準確性。
更多圖表分析可見原文

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ICCV 2025 論文和程式碼下載

在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章