CVPR2025|MUST:首個多光譜無人機單目標跟蹤資料集和統一框架

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:遙感與深度學習

論文介紹

題目:MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking
期刊:IEEE/CVF Computer Vision and Pattern Recognition Conference
論文:https://arxiv.org/abs/2503.17699
資料:https://github.com/q2479036243/MUST-Multispectral-UAV-Single-Object-Tracking
年份:2025
單位:北京理工大學

創新點

  • 提出了首個面向無人機多光譜單目標跟蹤的大規模資料集(MUST),包含250個影片序列,涵蓋12類真實挑戰情境,填補了該領域的空白。
  • 構建了統一融合光譜、空間和時間特徵的跟蹤框架(UNTrack),綜合利用歷史光譜提示、初始模板和連續幀資訊,提高在複雜場景中的魯棒性。
  • 引入非對稱注意力機制和光譜背景抑制模組,有效降低計算量,提升了目標定位的精度和效率。
  • 設計了光譜提示編碼器並結合引數遷移策略,使RGB預訓練模型能有效適用於多光譜任務,大幅提升模型效能。

資料

MUST 資料集
  • 基本資訊包含 250 個多光譜影片序列,共 42671 幀,解析度為 1200×900,幀率 5 fps。
  • 光譜特徵每幀影像具有 8 個波段,覆蓋 390–950 nm,涵蓋可見光與近紅外,增強目標與背景的光譜可分性。
  • 挑戰屬性每個序列標註了 12 類跟蹤挑戰,如遮擋、快速運動、相似顏色、背景雜亂、出視野等,全面模擬真實無人機跟蹤環境。
  • 採集與標註資料由無人機搭載多光譜相機採集,飛行高度 20–250 米。所有影像經幾何與輻射校正,並由人工精確標註目標框和遮擋狀態。

方法

本文提出了一種名為 UNTrack 的多光譜無人機目標跟蹤框架。該方法透過統一建模光譜、空間和時間特徵,提升在複雜場景下的跟蹤魯棒性與效率。整體結構包括三個主要模組:統一非對稱Transformer、光譜提示編碼器,以及預測頭。
1. 統一非對稱Transformer
該模組的目標是從多個維度提取目標的判別特徵,具體包括:
  • 輸入資訊:將歷史幀的光譜提示、初始模板影像和連續搜尋幀作為統一輸入,構建一個融合的特徵序列。
  • 非對稱注意力機制:與標準Transformer不同,UNTrack只保留與目標定位密切相關的注意力路徑,例如模板與搜尋幀之間的互動,歷史提示與搜尋幀之間的互動等;而剪除掉冗餘或干擾性的部分(如模板與提示之間的相互作用),以降低計算開銷並減少噪聲干擾。
  • 搜尋序列輸入:不同於只用當前幀進行搜尋,UNTrack引入連續幀作為序列輸入,從而更好地建模目標在時間上的連續性和運動軌跡。
2. 光譜背景消除機制
為減少背景干擾和計算成本,UNTrack在Transformer中嵌入了一個背景消除模組,流程如下:
  • 基於注意力結果判斷影像中各區域與目標的相關性。
  • 只保留與目標高度相關的區域作為候選,其餘區域視為背景並剔除。
  • 候選區域比例會在訓練中動態調整,以適應不同場景下的目標顯著性。
該機制利用多光譜資訊增強了目標與背景的光譜差異感知,能夠有效過濾外部干擾。
3. 光譜提示編碼器
該模組用於生成並更新代表目標材料特徵的光譜提示,具體做法如下:
  • 首先,將歷史光譜提示與當前模板資訊進行特徵融合,提取目標的穩定光譜特徵。
  • 使用 compression-excitation機制(透過輕量卷積和多層感知機)聚焦關鍵光譜通道,抑制冗餘資訊。
  • 最終輸出一個緊湊的光譜向量,用作下一個時間點的跟蹤輸入,從而增強跨幀一致性。
該設計確保了模型能持續感知目標的“材料本質”,即使目標在顏色或外形上發生變化,也能維持準確跟蹤。
4. 預測頭與損失設計
UNTrack採用雙分支預測頭來同時進行目標定位與分類:
  • 一條分支用於輸出目標位置的邊界框。
  • 另一條分支用於輸出每個候選區域是否為目標的置信度。
訓練階段使用了常見的分類損失與邊界框迴歸損失,保證定位精度和分類準確性。

結果與分析

本文方法在多光譜無人機跟蹤資料集上全面優於現有主流方法,表現出更強的魯棒性和適應性。同時在多光譜和RGB通用資料集上也展現出良好的遷移能力,證明了其結構的通用性與效率。
更多圖表分析可見原文。

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章