點選下方卡片,關注“CVer”公眾號
點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微信:CVer2233,小助手拉你進群!
掃描下方二維碼,加入CVer學術星球!可獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研,強烈推薦!
新增微信:CVer2233,小助手拉你進群!
掃描下方二維碼,加入CVer學術星球!可獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研,強烈推薦!
TDRL: 受到蜂群複雜運動模式的啟發,本文提出了一種融合運動與外觀特徵的並行關聯跟蹤新正規化,並構建了一個極具挑戰性的大規模基準資料集BEE24。
0. 效果展示

圖1.1:TOPICTrack在BEE24資料集的跟蹤結果

圖1.2:TOPICTrack在流行資料集上的跟蹤結果
1. 導語
影片資料和演算法的進步推動了多目標跟蹤(MOT)領域的發展。現有的MOT資料集主要關注遮擋和外觀相似性問題,而複雜的運動模式雖廣泛存在,卻常被忽視。為了解決這一問題,我們提出了一個新資料集——BEE24,旨在突出展示覆雜的運動場景。BEE24特別具有挑戰性,因為它要求跟蹤多個外觀相似且運動複雜的小蜜蜂,並且這些物體的運動持續時間較長,這十分貼近實際需求(如蜜蜂養殖和無人機群體監控)。
身份關聯演算法一直是MOT研究的核心。現有的跟蹤演算法大致可以分為兩類:單特徵正規化(基於運動或外觀特徵)和序列正規化(透過將一種特徵作為主特徵,另一種作為輔特徵)。然而,這些傳統正規化無法充分利用不同特徵之間的互補性。本文提出了一種全新的並行正規化,並介紹了雙輪並行匹配方法TOPIC。TOPIC能夠結合運動和外觀特徵,並根據運動複雜度自適應選擇最合適的特徵作為匹配度量。此外,我們還設計了一個基於注意力機制的外觀重建模組AARM,該模組能夠重構外觀特徵嵌入,從而增強外觀特徵的表示能力。
綜合實驗結果表明,我們的方法在四個公開資料集以及BEE24上均取得了領先的效能表現。值得注意的是,我們提出的並行正規化大幅超越了現有的關聯正規化。例如,與單特徵關聯正規化相比,我們的方法能將錯誤負例減少6%至81%。
2. 背景與動機
多目標跟蹤(MOT)是計算機視覺領域的重要子領域,廣泛應用於機器人導航、智慧監控和人機互動等多個領域。在MOT任務中,研究者們需要從影片幀中檢測出感興趣物體的位置,並將其身份跨幀關聯起來。隨著技術的不斷進步,資料集的構建與演算法最佳化成為推動多目標跟蹤系統性能提升的關鍵。
2.1 資料集的侷限性與突破
在現有的MOT資料集中,研究者通常採用兩種主要的方式來應對不同場景的挑戰:一是透過擴充套件場景多樣性或物體類別,如GMOT-40資料集;二是關注特定挑戰,如遮擋(如MOT17、MOT20資料集)或高相似度的外觀(如DanceTrack資料集)。然而,這些資料集中的運動模式相對簡單,多數物體的運動模式類似,且缺乏足夠的變化性,這在實際應用中可能無法有效應對複雜的運動場景。例如,蜂群在蜂箱周圍運動時,不僅會在飛行、爬行等多種模式之間頻繁切換,而且其運動速度呈現出明顯的非線性變化,如圖2。
為了應對這種複雜運動的跟蹤問題,我們提出了一個全新的資料集——BEE24,專注於展示覆雜的運動模式。BEE24在兩個關鍵方面豐富了資料特性:一是不同物體在同一幀內的運動差異,二是物體在幀間運動的顯著變化。

2.2 演算法的侷限性與突破

許多現有的跟蹤演算法自2016年DeepSORT以來,都遵循了序列關聯正規化。該正規化利用某一特徵(如外觀特徵或運動特徵)初步篩選候選匹配,再利用另一特徵進行主匹配,如圖3b。然而,這種方法未能充分利用不同特徵的優勢,且篩選過程可能導致跟蹤的遺漏(即假陰性)。最近的研究如ByteTrack和OC-SORT採用了基於單一特徵的關聯正規化(如圖3a),單純依賴運動特徵。這種方法在某些資料集上的表現優於基於兩個特徵的序列正規化,但由於檢測器的差異,這些比較未必公平。
根據我們對不同特徵表現的分析,低速場景下(如MOT17和DanceTrack),由於運動較簡單,運動特徵更有效;而在高速場景中(如BEE24和GMOT-40),複雜的非線性運動使得基於運動特徵的模型面臨挑戰,這時外觀特徵的表現更佳。
考慮到上述不同特徵在不同場景中的優勢,直觀的想法是將更多特徵結合使用,從而提升效能。為此,我們提出了一個新的並行關聯正規化,並設計了TOPIC(Two rOund Parallel matchIng meChanism)方法來實現這一正規化。TOPIC能夠同時使用運動和外觀特徵作為匹配度量,並根據運動複雜度自適應選擇最優特徵,從而減少假陰性(FN)的出現。與傳統的序列匹配正規化相比,這種並行正規化能夠更有效地利用不同特徵之間的互補性。
此外,我們還提出了一個基於注意力機制的外觀重建模組(AARM),用於增強物體的外觀特徵表示,提高物體在多幀間的區分度。
3. BEE24資料集簡介

表1:對比MOT資料集統計特性
如表1所示,與現有的MOT資料集相比,BEE24在多個方面具有顯著的優勢和挑戰:
-
複雜的運動模式:BEE24資料集的運動模式更加複雜,物體在同一幀內的運動差異較大(MMSAO),且單個物體的運動隨時間變化大(MMSO)。這與許多現有資料集中的線性或低速運動形成鮮明對比,如圖2和4。 -
小物體跟蹤:BEE24中的蜜蜂是最小的目標之一,平均物體面積遠小於GMOT-40等資料集中的物體,這增加了跟蹤演算法在小物體檢測和跟蹤方面的挑戰。 -
大規模標註:資料集包含總計446,908個標註,最大影片時長達到200秒,單影片的標註數量和最大時長均超過了大部分現有資料集,尤其是在高密度場景下的跟蹤任務中,BEE24為演算法提供了更多挑戰。

4. 演算法簡介
4.1 並行匹配正規化:TOPIC方法
TOPIC的核心思想是同時利用運動特徵和外觀特徵進行匹配,並透過兩輪匹配機制解決可能的匹配衝突。在第一輪匹配中,透過匈牙利演算法分別計算基於外觀和基於運動的匹配結果。然後,對於衝突的匹配,TOPIC根據運動水平自適應地選擇更可靠的特徵進行最終匹配。這一機制有效減少了假陰性(FN),提高了整體的跟蹤準確性。如演算法1的虛擬碼所示。

4.2 基於注意力的外觀重建模組:AARM
AARM採用基於餘弦距離的注意力機制,透過計算歷史軌跡和當前檢測的相似性來增強外觀特徵的表示。透過這種方式,AARM能夠改善同一物體在不同幀間的相似度,同時增強不同物體之間的區分度。
AARM的工作原理是,首先為每個目標計算出跨幀的注意力圖,然後透過殘差機制對外觀特徵進行重建,從而提升相同物體的相似性,並減少不同物體之間的混淆,如圖5所示。此外,該模組無需訓練且即插即用。

5. 主要實驗結果
為了驗證提出方法的有效性和優越性,我們在MOT17、MOT20、DanceTrack、GMOT-40和BEE24共5個數據集和多個主流跟蹤演算法(如FairMOT、ByteTrack等)上進行了詳盡的實驗,主要的實驗結果如下。
5.1 TOPIC的有效性
與其他關聯正規化相比,我們提出的TOPIC在5個數據集中的大多數關鍵指標上實現了1%以上的精度提升,如表2。透過視覺化TOPIC的匹配機制(見圖6),我們展示了其如何在不同的運動水平下,自適應地切換外觀和運動特徵,顯著提升了複雜場景中的跟蹤效果。


5.2 AARM的有效性
在對比實驗中,我們發現AARM在不同跟蹤器中均能夠一致地顯著提高跟蹤效能,並能即插即用(見表2)。我們進一步揭示了AARM的在目標外觀表徵的能力,它在所有5個數據集上實現了最小的類間相似度(InterCS)和最高的類內相似度(IntraCS),降低了資料關聯的難度,如圖7。

5.3 速度與精度的平衡
如圖8所示,儘管引入Re-ID模組會略微增加計算時間,但其對跟蹤精度的提升是顯著的。特別是在運動複雜的場景中,TOPICTrack能夠以更高的精度和較低的計算開銷達到最佳的跟蹤效果。

5.4 基準測試
透過在5個數據集上的對比,TOPICTrack在多個關鍵指標上超越了主流演算法,達到了新SOTA(見表3-7)。透過分析不同資料集的目標特性,我們發現TOPICTrack在處理複雜運動、遮擋以及外觀相似度高的目標時,表現尤為突出。





6. 總結
在資料集特性擴充套件方面,本文提出了一種新的MOT資料集BEE24,該資料集挑戰模型跟蹤多個相似外觀的小物體,且物體運動複雜、持續時間長。BEE24有助於推動MOT技術在現實場景中的應用與發展。在演算法最佳化方面,我們提出了一種新的並行關聯正規化——TOPIC,能夠根據物體的運動水平自適應選擇外觀或運動特徵進行關聯。同時,我們提出AARM,增強了跟蹤器對物體外觀的表示能力,並且能夠即插即用。大量實驗驗證了我們提出的跟蹤器在五個資料集上的有效性和優越性。
本文未對目標檢測模型(採用YOLOX)和運動模型(採用OC-SORT)進行改進。因此,未來可以考慮進一步最佳化檢測模型和運動模型,以提升跟蹤效能。
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CVPR 2024 論文和程式碼下載
CVPR 2024 論文和程式碼下載
多目標跟蹤交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多目標跟蹤+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看
