AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

論文介紹
題目:MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking
期刊:IEEE/CVF Computer Vision and Pattern Recognition Conference
論文:https://arxiv.org/abs/2503.17699
資料:https://github.com/q2479036243/MUST-Multispectral-UAV-Single-Object-Tracking
年份:2025
單位:北京理工大學

創新點
-
提出了首個面向無人機多光譜單目標跟蹤的大規模資料集(MUST),包含250個影片序列,涵蓋12類真實挑戰情境,填補了該領域的空白。
-
構建了統一融合光譜、空間和時間特徵的跟蹤框架(UNTrack),綜合利用歷史光譜提示、初始模板和連續幀資訊,提高在複雜場景中的魯棒性。
-
引入非對稱注意力機制和光譜背景抑制模組,有效降低計算量,提升了目標定位的精度和效率。
-
設計了光譜提示編碼器並結合引數遷移策略,使RGB預訓練模型能有效適用於多光譜任務,大幅提升模型效能。
資料
MUST 資料集
-
基本資訊包含 250 個多光譜影片序列,共 42671 幀,解析度為 1200×900,幀率 5 fps。
-
光譜特徵每幀影像具有 8 個波段,覆蓋 390–950 nm,涵蓋可見光與近紅外,增強目標與背景的光譜可分性。
-
挑戰屬性每個序列標註了 12 類跟蹤挑戰,如遮擋、快速運動、相似顏色、背景雜亂、出視野等,全面模擬真實無人機跟蹤環境。
-
採集與標註資料由無人機搭載多光譜相機採集,飛行高度 20–250 米。所有影像經幾何與輻射校正,並由人工精確標註目標框和遮擋狀態。



方法
本文提出了一種名為 UNTrack 的多光譜無人機目標跟蹤框架。該方法透過統一建模光譜、空間和時間特徵,提升在複雜場景下的跟蹤魯棒性與效率。整體結構包括三個主要模組:統一非對稱Transformer、光譜提示編碼器,以及預測頭。

1. 統一非對稱Transformer
該模組的目標是從多個維度提取目標的判別特徵,具體包括:
-
輸入資訊:將歷史幀的光譜提示、初始模板影像和連續搜尋幀作為統一輸入,構建一個融合的特徵序列。
-
非對稱注意力機制:與標準Transformer不同,UNTrack只保留與目標定位密切相關的注意力路徑,例如模板與搜尋幀之間的互動,歷史提示與搜尋幀之間的互動等;而剪除掉冗餘或干擾性的部分(如模板與提示之間的相互作用),以降低計算開銷並減少噪聲干擾。
-
搜尋序列輸入:不同於只用當前幀進行搜尋,UNTrack引入連續幀作為序列輸入,從而更好地建模目標在時間上的連續性和運動軌跡。

2. 光譜背景消除機制
為減少背景干擾和計算成本,UNTrack在Transformer中嵌入了一個背景消除模組,流程如下:
-
基於注意力結果判斷影像中各區域與目標的相關性。
-
只保留與目標高度相關的區域作為候選,其餘區域視為背景並剔除。
-
候選區域比例會在訓練中動態調整,以適應不同場景下的目標顯著性。
該機制利用多光譜資訊增強了目標與背景的光譜差異感知,能夠有效過濾外部干擾。
3. 光譜提示編碼器
該模組用於生成並更新代表目標材料特徵的光譜提示,具體做法如下:
-
首先,將歷史光譜提示與當前模板資訊進行特徵融合,提取目標的穩定光譜特徵。
-
使用 compression-excitation機制(透過輕量卷積和多層感知機)聚焦關鍵光譜通道,抑制冗餘資訊。
-
最終輸出一個緊湊的光譜向量,用作下一個時間點的跟蹤輸入,從而增強跨幀一致性。
該設計確保了模型能持續感知目標的“材料本質”,即使目標在顏色或外形上發生變化,也能維持準確跟蹤。
4. 預測頭與損失設計
UNTrack採用雙分支預測頭來同時進行目標定位與分類:
-
一條分支用於輸出目標位置的邊界框。
-
另一條分支用於輸出每個候選區域是否為目標的置信度。
訓練階段使用了常見的分類損失與邊界框迴歸損失,保證定位精度和分類準確性。
結果與分析
本文方法在多光譜無人機跟蹤資料集上全面優於現有主流方法,表現出更強的魯棒性和適應性。同時在多光譜和RGB通用資料集上也展現出良好的遷移能力,證明了其結構的通用性與效率。




更多圖表分析可見原文。
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
