AI/CV重磅乾貨,第一時間送達
點選進入—>【遙感】投稿交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【遙感】投稿交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

論文介紹
題目:Cross-modal Ship Re-Identification via Optical and SAR Imagery: A Novel Dataset and Method
會議:International Conference on Computer Vision 2025
論文:https://arxiv.org/abs/2506.22027
資料/程式碼:https://github.com/Alioth2000/Hoss-ReID
年份:2025
單位:中國科學院空間應用工程與技術中心

背景
這篇文章面向遙感船舶追蹤場景,針對如何用低軌光學和 SAR 衛星在不同時間、不同氣象條件下持續追蹤同一艘船這一實際需求。
現有方法依賴靜止軌道或影片衛星,要麼解析度低,要麼覆蓋範圍和時長有限,不適合真實場景下的連續追蹤。
因此,作者提出用跨模態船舶再識別(ReID)的方法,結合低軌多星座,實現全天候、全時段、廣域船舶身份匹配和軌跡生成,用於搜尋救援、執法監測等應用。

創新點
-
提出了首個跨模態(光學與SAR)船舶 ReID 資料集(HOSS ReID),填補了現有光學-紅外或單一模態資料集的空白,專門針對低軌遙感星座的船舶跨模態追蹤需求。
-
設計了新的跨模態 ReID 方法 TransOSS,基於 Vision Transformer,創新性地引入:
-
雙頭分模態 Patch Tokenizer(光學和SAR各自獨立嵌入)
-
模態資訊嵌入(用於區分不同模態特徵)
-
船舶尺寸嵌入(利用遙感特有的物理尺寸資訊)
-
對比學習預訓練 + 下游微調,顯著提升跨模態特徵對齊能力。
資料
HOSS ReID 資料集
資料來源與採集:
-
使用Jilin-1 光學星座 和 TY-MINISAR SAR 星座進行自主程式設計成像採集,非公開資料,完全自建。
-
主要選取港口、運河等高密度船舶區域(如巴拿馬運河、蘇伊士運河),透過多星座在短時間內對同一船舶從多角度、多模態進行成像。
-
採用人工標註:手動繪製船舶邊框、裁剪,並手動匹配同一船舶跨時空的多模態序列。


資料規模與特徵:
-
解析度:光學影像 0.75 米 GSD,SAR 影像 1 米 GSD。
-
模態:光學影像(RGB,8-bit)和 SAR 影像(單通道,32-bit 浮點)。
-
總規模:13 條影像序列(每條序列含 2~5 幀),總共 43 幀原始大圖,提取後形成:
-
449 條船舶軌跡(含 163 條幹擾軌跡)
-
共 1832 張船舶裁剪影像
-
訓練集:361 條軌跡,1063 張影像
-
驗證集(Query):88 條軌跡,176 張影像
-
驗證集(Gallery):88 條軌跡 + 163 條幹擾軌跡,共 593 張影像
資料組織格式:
-
格式參考Market-1501行人 ReID 標準。
-
檔名含 ID、序列號、攝像頭號(對應衛星)、模態標識。
-
所有影像均為 TIFF 格式,未做 DEM 正射校正,但已做幾何與輻射校正。
設計要點:
-
資料集設計包含干擾目標(distractors),模擬真實環境中存在大量無關船舶的場景,提高 ReID 難度。
-
每條 Query 有 50% 光學、50% SAR,Gallery 中同一 ID 的模態分佈不固定。
-
有些 ID 僅包含單一模態,符合實際拍攝時多模態獲取受天氣/時間/軌道約束的特點。
方法
TransOSS
這篇文章提出的TransOSS針對光學與SAR跨模態船舶 ReID設計,核心思路是:在同一網路裡同時處理光學和SAR兩種模態,提取可共享的身份特徵,完成跨模態匹配。
整體架構:
-
基於 Vision Transformer (ViT) 架構改造。
-
核心思路是把輸入影像拆分成小塊(patch),分別嵌入到統一的特徵空間。
-
不同於通用 ViT,TransOSS 做了針對跨模態的定製化改進。

關鍵改進點:
雙頭 Tokenizer(Cross-modal Dual-head Tokenizer)
-
對光學和 SAR 影像分開嵌入,使用兩個獨立的輸入頭,而不是直接混用一個輸入結構。
-
這樣能在輸入階段就保留模態差異,同時避免互相干擾。
模態資訊嵌入(Modality Information Embedding)
-
在輸入階段,顯式給每個影像加入它的“模態標識”。
-
網路在後續 Transformer 編碼中就能有意識地區分兩種模態,學習到模態無關的特徵。
船舶尺寸嵌入(Ship Size Embedding)
-
利用遙感影像可直接獲取的物理尺寸資訊(船長、船寬、長寬比),把它作為附加資訊輸入網路。
-
這樣可以彌補 ReID 任務中因統一縮放影像而丟失的尺度特徵。
共享 Transformer 主幹(Modality-shared Transformer Encoder)
-
光學和 SAR 模態分別嵌入後,走相同的 Transformer 主幹提取特徵。
-
保證兩種模態提取到的特徵在同一空間可對比。
訓練策略(Two-Stage Training):
-
第一階段:先用大規模公開的光學-SAR配對資料做對比學習預訓練,學會跨模態的相似性匹配。用到的資料如 SEN1-2 和 DFC23 等常見 SAR-光學對齊資料集。
-
第二階段:在自建的 HOSS ReID 上做有監督微調,透過 ID 分類損失和三元組損失約束,讓模型在複雜干擾條件下學會區分同類與異類。

實驗與分析
本文方法在跨模態船舶再識別任務上顯著優於現有可見光-紅外 ReID 方法,驗證了模型的跨模態對齊能力。實驗結果證明,新引入的對比預訓練和輔助資訊設計有效提升了匹配準確性。


更多圖表分析可見原文
ICCV 2025 論文和程式碼下載
在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合
CVPR 2025 論文和程式碼下載
在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集
ICCV 2025 論文和程式碼下載
ICCV 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
