CVPR2025|MUST：首個多光譜無人機單目標跟蹤資料集和統一框架

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：遙感與深度學習

論文介紹

題目：MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking

期刊：IEEE/CVF Computer Vision and Pattern Recognition Conference

論文：https://arxiv.org/abs/2503.17699

資料：https://github.com/q2479036243/MUST-Multispectral-UAV-Single-Object-Tracking

年份：2025

單位：北京理工大學

創新點

提出了首個面向無人機多光譜單目標跟蹤的大規模資料集（MUST），包含250個影片序列，涵蓋12類真實挑戰情境，填補了該領域的空白。
構建了統一融合光譜、空間和時間特徵的跟蹤框架（UNTrack），綜合利用歷史光譜提示、初始模板和連續幀資訊，提高在複雜場景中的魯棒性。
引入非對稱注意力機制和光譜背景抑制模組，有效降低計算量，提升了目標定位的精度和效率。
設計了光譜提示編碼器並結合引數遷移策略，使RGB預訓練模型能有效適用於多光譜任務，大幅提升模型效能。

資料

MUST 資料集

基本資訊包含 250 個多光譜影片序列，共 42671 幀，解析度為 1200×900，幀率 5 fps。
光譜特徵每幀影像具有 8 個波段，覆蓋 390–950 nm，涵蓋可見光與近紅外，增強目標與背景的光譜可分性。
挑戰屬性每個序列標註了 12 類跟蹤挑戰，如遮擋、快速運動、相似顏色、背景雜亂、出視野等，全面模擬真實無人機跟蹤環境。
採集與標註資料由無人機搭載多光譜相機採集，飛行高度 20–250 米。所有影像經幾何與輻射校正，並由人工精確標註目標框和遮擋狀態。

方法

本文提出了一種名為 UNTrack 的多光譜無人機目標跟蹤框架。該方法透過統一建模光譜、空間和時間特徵，提升在複雜場景下的跟蹤魯棒性與效率。整體結構包括三個主要模組：統一非對稱Transformer、光譜提示編碼器，以及預測頭。

1. 統一非對稱Transformer

該模組的目標是從多個維度提取目標的判別特徵，具體包括：

輸入資訊：將歷史幀的光譜提示、初始模板影像和連續搜尋幀作為統一輸入，構建一個融合的特徵序列。
非對稱注意力機制：與標準Transformer不同，UNTrack只保留與目標定位密切相關的注意力路徑，例如模板與搜尋幀之間的互動，歷史提示與搜尋幀之間的互動等；而剪除掉冗餘或干擾性的部分（如模板與提示之間的相互作用），以降低計算開銷並減少噪聲干擾。
搜尋序列輸入：不同於只用當前幀進行搜尋，UNTrack引入連續幀作為序列輸入，從而更好地建模目標在時間上的連續性和運動軌跡。

2. 光譜背景消除機制

為減少背景干擾和計算成本，UNTrack在Transformer中嵌入了一個背景消除模組，流程如下：

基於注意力結果判斷影像中各區域與目標的相關性。
只保留與目標高度相關的區域作為候選，其餘區域視為背景並剔除。
候選區域比例會在訓練中動態調整，以適應不同場景下的目標顯著性。

該機制利用多光譜資訊增強了目標與背景的光譜差異感知，能夠有效過濾外部干擾。

3. 光譜提示編碼器

該模組用於生成並更新代表目標材料特徵的光譜提示，具體做法如下：

首先，將歷史光譜提示與當前模板資訊進行特徵融合，提取目標的穩定光譜特徵。
使用 compression-excitation機制（透過輕量卷積和多層感知機）聚焦關鍵光譜通道，抑制冗餘資訊。
最終輸出一個緊湊的光譜向量，用作下一個時間點的跟蹤輸入，從而增強跨幀一致性。

該設計確保了模型能持續感知目標的“材料本質”，即使目標在顏色或外形上發生變化，也能維持準確跟蹤。

4. 預測頭與損失設計

UNTrack採用雙分支預測頭來同時進行目標定位與分類：

一條分支用於輸出目標位置的邊界框。
另一條分支用於輸出每個候選區域是否為目標的置信度。

訓練階段使用了常見的分類損失與邊界框迴歸損失，保證定位精度和分類準確性。

結果與分析

本文方法在多光譜無人機跟蹤資料集上全面優於現有主流方法，表現出更強的魯棒性和適應性。同時在多光譜和RGB通用資料集上也展現出良好的遷移能力，證明了其結構的通用性與效率。

更多圖表分析可見原文。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）人數破萬！如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料，一定要掃描下方二維碼，加入CVer知識星球！最強助力你的科研和工作！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看

dignews.cc

CVPR2025|MUST：首個多光譜無人機單目標跟蹤資料集和統一框架

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

論文介紹

創新點

資料

方法

結果與分析

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

ICRA2025|OpenGS-SLAM：僅憑RGB影像實現戶外場景高精度定位與重建

英偉達RTX5060發售日期定了！國內定價2499元

ICML2025|長影片理解新SOTA！螞蟻&人大提出ViLAMP-7B：單卡可處理3小時影片

CVPR2025|突破2D侷限！Change3D：從3D影片建模視角重塑遙感變化檢測和描述任務

邁向長上下文影片生成！FAR：基於長短時上下文的下一幀預測正規化

ICML2025|SparseVideoGen：讓影片生成模型無損加速兩倍！

CVPR2025|SketchVideo：讓手繪動起來，影片生成進入線稿時代！

CVPR2025|北大提出SLAM3R：基於單目影片的即時密集3D場景重建

小紅書&上交提出多模態大模型新基準WorldSense！Gemini1.5Pro準確率僅48％

CVPR2025|多視角視覺目標跟蹤新突破！MITracker：高效融合多視角特徵，解決遮擋與目標丟失問題！

AI/CV重磅乾貨，第一時間送達 點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！ 掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

論文介紹

創新點

資料

方法

結果與分析

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！