AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

協同感知新賽道!清華髮布Griffin:空地協同檢測與跟蹤資料集基準
儘管近年來自動駕駛技術取得了顯著進展,但單一視角的感知方式始終存在固有的侷限性,特別是在遮擋物體的識別以及遠距離探測方面面臨諸多困難。雖然車車協同與車路協同技術提供了可能的解決方案,但其實際部署仍需要大規模的路側單元建設與高密度的網聯車輛普及,面臨巨大的經濟成本挑戰。相較之下,空地協同感知透過整合無人機的全景視角與地面車輛的精細觀測,在智慧城市、應急響應、安防巡邏等場景下具備可快速部署的獨特優勢。然而,該領域的發展長期受制於公開資料集及標準化評估基準的缺乏。為此,作者提出了一套空地協同3D感知的綜合基線方案,包含對應的資料集、演算法評估框架與基線模型,均已完整開源:
-
• 論文預印本地址:https://arxiv.org/abs/2503.06983 -
• 程式碼倉庫:https://github.com/wang-jh18-SVM/Griffin -
• 資料集下載:https://huggingface.co/datasets/wjh-svm/Griffin

圖1:Griffin資料集中標註的視覺化示例。地面車輛平臺搭載了四個攝像頭和一個雷射雷達,空中無人機平臺則配備了五個攝像頭。每個視角均同時提供了RGB影像、例項分割真值標註與3D目標標註。圖中的邊界框展示了協同視角下的3D目標標註,表明單個智慧體需要透過協同資訊觀察到自身視角下被遮擋的物體。作者透過紅色圓圈和箭頭突出標註了這類情況。
動機與背景
儘管前景廣闊,但空地協同感知系統的開發仍面臨兩大核心挑戰。首先是動態視角失配問題——相較於車車/車路協同中感測器在水平面的相對運動,無人機視角存在動態的垂直高度變化及更大幅度的俯仰角、滾轉角變化,加劇了跨視角特徵對齊的複雜度。其次,現有無人機視角的3D感知資料集質量普遍存在缺陷,如下表所示,主流無人機協同資料集如CoPerception-UAV、UAV3D和AeroCollab3D均未考慮目標遮擋分析,導致其標註包含不可見區域的目標框;此外,多數資料集採用過度簡化的固定視角或固定高度設定,與真實資料中受風力擾動與加減速影響的無人機動態姿態變化存在顯著差異。
表1:代表性協同感知資料集對比

-
• "Cams (/Agent)"列表示每個智慧體上的攝像頭數量。"Occ-Aware"列表示模擬資料集是否標註了目標的遮擋情況。"Altitude"表示路側感測器的安裝高度或無人機的巡航高度。 -
• 在"Source"列中,"Joint Sim"指CARLA與AirSim/SUMO的聯合模擬,而"Sim"表示僅使用CARLA。 -
• †屬性來自V2U-COO原始論文(其資料集尚未公開)。其中"Altitude"列的"80®&70(L)"分別表示左右無人機的固定高度。
針對這些挑戰,本研究的核心貢獻主要體現在三個方面:
(1)推出了首個面向空地協同3D檢測與跟蹤任務的開源資料集Griffin,包含200多個動態場景的近3萬幀、27萬張多視角影像,且覆蓋了不同天氣、時段和地圖場景。該資料集實現了例項級遮擋量化標註,並模擬了真實無人機在不同高度、不同風速擾動下的動態飛行特性。
(2)提出了一套用於綜合評估空地協同3D檢測與跟蹤效能的統一框架,在涵蓋經典檢測、跟蹤演算法評價指標的基礎上,進一步包含了通訊成本、時延魯棒性和無人機飛行高度適應性等評價維度。
(3)提出了AGILE(Aerial-Ground Instance-LEvel intermediate fusion)基線模型,也是首個空地協同例項特徵級融合框架,實現了檢測跟蹤任務的聯合最佳化。該方法證明了空地協同的有效性,在通訊成本與感知精度之間實現了有效平衡。相關成果均已完整開源,為後續空地協同感知研究提供了堅實支撐。
Griffin資料集介紹
資料採集框架
空地協同感知資料採集框架採用模組化架構設計,主要包含兩個核心部分:伺服器端和客戶端。伺服器端用於模擬真實世界的交通場景和環境,基於虛幻引擎4構建,並整合了CARLA和AirSim兩大模擬平臺。客戶端採用Python開發,包含四個功能模組,分別負責交通控制、無人機路徑規劃、場景配置和感測器管理。整體框架詳見圖2。
考慮到實際應用場景下不同平臺的承載能力,地面車輛平臺同時配備了環視攝像頭和雷射雷達,無人機平臺則只攜帶環視攝像頭。兩種平臺的設計方案詳見圖3。

圖2:資料採集框架。虛線表示靜態資料流(用於場景初始化),實線表示動態資料流(每幀均進行傳輸)。

圖3:協同單元設計
資料預處理
在Griffin資料集中,作者規定了統一的世界座標系、自車座標系、感測器座標系和模擬器座標系來實現空間對齊,並將模擬器生成的3D標註統一轉換至指定的右手座標系,並同時支援KITTI和NuScenes兩種標準格式的資料。為了確保時間同步,資料採集時採用CARLA的同步模式保證各感測器資料的時間一致性,同時提供了評測介面模擬通訊時延,以便評估演算法在不同時延條件下的魯棒性。不同座標系的設定詳見表2。
表2:不同座標系的設定

-
• xyz座標軸方向:ENU (東-北-上), FLU (前-左-上), RDF (右-下-前), RD (右-下), ESU (東-南-上), NED (北-東-下)。 -
• 座標系手性:R (右手系), L (左手系)。
在資料標註方面,作者為每幀資料提供了完整的3D標註資訊,包含行人、車輛等六類交通目標的詳細引數:類別標籤、跟蹤ID、可見度,以及由空間座標、三維尺寸和旋轉角度構成的邊界框。
針對現有資料集普遍存在的遮擋判斷問題,作者實現了一種結合例項分割真值的目標可見率計算方法。得益於CARLA模擬器提供的例項分割真值感測器介面,作者在資料採集過程中,採用相同的感測器內外引數設定,同步錄製了視角一致的RGB影像資料與例項分割真值資料。後處理階段,作者根據環境中各目標真值的位姿與尺寸資訊,在其檢測框範圍內取樣一定數量的散點,並將其投影到例項分割真值中,透過對比畫素的語義類別和例項編號,判斷取樣點是否被遮擋,進而計算目標的可見率百分比。可見率較低的目標均被篩選剔除,並輔以人工最佳化,以確保標註結果的精度與可靠性。
資料統計分析
作者構建了包含205個場景片段的資料集,每個片段持續15秒,對應150幀影像資料,總計生成了超過30,000幀資料和近275,000張影像。為保證資料集的多樣性和泛化能力,作者在CARLA模擬器中選取了Town03和Town10HD兩個城市場景地圖,以及Town06和Town07兩個郊區場景地圖,並透過多維度的環境變數增強了採集場景豐富度。如圖4所示,天氣條件覆蓋正午、黃昏、夜晚不同時段,晴朗、雨天、霧天等多種能見度,以及0至9m/s的風速組合;不同測試場景間的交通流密度和車輛速度等引數也有所不同。

圖4:天氣條件分佈
此外,為進一步支援不同場景的研究需求,作者根據無人機飛行高度將採集資料劃分為三個子集:25米左右的低空資料Griffin-25m、40米左右的中低空資料Griffin-40m,以及20-60米的隨機高度資料Griffin-Random。同時,資料集還包含了地面車輛與無人機的多種協作模式,構建了豐富的相對定位形態。以Griffin-Random子集為例,無人機相對於車輛的位姿分佈如圖5所示。

圖5:Griffin-Random中無人機的位姿分佈。(a) 相對於自車的水平位置;(b) 垂直位置分佈;© 相對於地面的俯仰與側傾角分佈。
基線演算法框架
作者實現了一系列基線方法以提供效能參考,併為後續研究奠定基礎。如圖6所示,現有的協同感知方法一般可以被分為前融合、中融合、後融合三類,分別針對不同視角下的影像輸入、神經網路特徵、結果輸出三個層次的資料進行融合,本項研究對這三類正規化均進行了實現,共同構成了研究空地協同感知任務的基線框架。

圖6:協同感知的不同融合階段
對於中融合,即特徵級融合正規化,現有的協同感知方法大多選擇圖6.2(a)所示的BEV特徵作為融合的媒介,將來自不同視角的BEV特徵進行空間對齊後,融合重疊覆蓋區域的特徵。這一正規化在車車、車路協同等場景下表現良好,但是在空地協同場景下,由於無人機在飛行過程中會產生較大的動態俯仰與側傾角,生成的BEV特徵平面並不與真實地面相平行,對齊空地視角的BEV特徵會非常困難。
因此,本項研究提出的AGILE方法採用圖6.2(b)所示的例項級中融合正規化。例項級的物件查詢(instance query)由BEV特徵進一步生成,每個查詢包括編碼目標語義、幾何屬性的特徵向量與顯式的3D空間參考點。這些查詢透過空間注意力機制動態聚焦於場景中的潛在目標,提供細粒度的場景表徵。相較於稠密的BEV特徵,這些稀疏的例項查詢更加易於進行跨視角對齊,也更適用於空地協同場景。
具體而言,AGILE中採用BEVFormer作為主幹網路,生成兩視角獨立的BEV特徵,並參考TrackFormer的設計,從BEV特徵中分別生成兩視角的例項查詢。每個查詢都會在時序多幀間傳遞、更新,對應於多幀間感知到的同一例項目標。每一幀都會初始化一部分新的例項,對應新感知到的目標;當目標脫離視野後,對應的查詢也會被摧毀。因此,這一正規化在特徵層面完成了對於目標的跟蹤,可以同步輸出目標的檢測結果與跟蹤ID。
針對無人機視角,作者利用機身定位資訊,首先估計無人機座標系下地面的位置,並據此確定例項參考點的初始化位置。這些例項查詢隨後與無人機視角下維護的BEV特徵互動,更新特徵、參考點與置信度。隨後,將置信度高於檢測閾值的例項查詢傳輸給地面視角。
在地面視角下,作者首先利用外參矩陣和相對位置資訊,將來自無人機的例項查詢參考點投影到車輛座標系中,實現顯式對齊。同時,借鑑UniV2X的隱式對齊方法,將查詢特徵與外參旋轉矩陣拼接後輸入三層MLP網路,以更新其特徵表示。隨後,結合參考點的歐氏距離與特徵相似度,對兩視角的查詢進行跨視角匹配,將匹配成功的查詢對送入另一個三層MLP進行特徵融合;未匹配但置信度較高的查詢也被保留,共同用於生成檢測框和跟蹤軌跡。最終,透過與真實軌跡對比計算損失,實現檢測與跟蹤的聯合最佳化。
此外,作者還實現瞭如圖6.1所示的前融合方法和圖6.3所示的後融合方法作為對比基線。前融合方法在資料層面對無人機和地面車輛的原始影像進行整合,首先將無人機攝像頭的外參轉換到車輛座標系下,實現空間對齊,隨後將所有影像共同輸入BEVFormer模型,生成統一的BEV特徵。下游任務採用與AGILE相同的架構,實現聯合檢測與跟蹤功能。而後融合方法採用獨立處理流程,無人機和車輛影像分別透過BEVFormer模型生成各自的檢測框,隨後利用基於歐幾里得距離的匈牙利演算法對兩視角檢測結果進行匹配,實現跨視角融合。在跟蹤階段,採用AB3DMOT框架,利用卡爾曼濾波方法進行運動預測,利用匈牙利演算法關聯跨幀目標。
實驗結果
作者在Griffin-25m、Griffin-40m和Griffin-Random資料集上按照8:2劃定訓練與驗證集,在以自車為中心102.4m×102.4m的感知範圍內評估協同感知演算法的效能。
實驗結果表明,AGILE方法展現出了多方面的優勢。表3整體展示了Griffin-25m資料集上不同方法在多種時延條件下的檢測和跟蹤效能。
表3:在Griffin-25m資料集上不同延遲條件下的檢測與跟蹤效能

在效能表現方面,協同演算法顯著優於單視角方法,驗證了空地協同的有效性。在零延遲條件下,所有融合方法相比無融合方案均展現出了明顯提升。其中,前融合方法實現了71.0%的檢測AP提升和79.9%的跟蹤AMOTA提升,但通訊開銷極大;後融合方法雖然僅提供3.0%的AP增益,但將通訊成本降低了三個數量級;而AGILE方法在保持高效通訊的同時,仍取得12.6%的檢測AP提升和19.8%的跟蹤AMOTA提高。綜合而言,AGILE方法在檢測和跟蹤任務中都較好地平衡了效能與通訊傳輸資料量,體現了例項級融合對時序關聯的強化作用。
在通訊時延方面,儘管前融合在每個時延條件下均保持最高精度,但其效能下降幅度最為顯著——在400毫秒延遲時AP下降33.6%,AMOTA下降36.0%。AGILE與後融合的效能下降百分比相近,但在所有延遲條件下AGILE的精度始終優於後融合。這表明AGILE在時延干擾下的魯棒性更強,更適合實際場景中的動態通訊環境。
表4:不同無人機飛行高度資料集下的檢測與跟蹤效能表現。括號內數值表示相較無融合方法的相對提升幅度。比較同一類協同方法在不同資料集上的指標相對提升幅度,可反映其對無人機高度變化的魯棒性。

在飛行高度適應性方面,作者對比了不同無人機飛行高度下演算法的檢測與跟蹤效能,結果如表4所示。可以發現協同感知方法對無人機高度變化較為敏感,在不同飛行高度下存在顯著效能差異。在Griffin-25m資料集上,協同方法相比無融合基線取得最大提升;當高度升至40米(Griffin-40m)時,無人機視角下目標尺度縮小,導致協同效能明顯下降;而在20-60米隨機高度(Griffin-Random)場景中,由於不同資料幀中目標尺度、距離極不一致,跨視角對齊失效,例項融合與後融合方法的表現甚至不如無融合基線。這些發現凸顯了開發自適應融合機制以應對動態高度變化的迫切需求。
結論與展望
本項研究提出了一個面向空地協同3D檢測與跟蹤的綜合框架。實驗驗證了協同感知的有效性,但也揭示了當前方法的侷限性,如應對無人機高度變化的泛化能力不足、通訊頻寬需求與感知效能的權衡問題等。未來研究可重點探索自適應無人機飛行高度與目標尺度的動態融合機制以及模擬到現實的遷移技術,以提升空地協同感知在複雜現實場景中的魯棒性。
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
