點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
端到端輔助駕駛實現了感知與規劃的無縫整合,是當前各大車企的“必爭之地”,也是從 L2 級輔助駕駛向 L3 及以上的高階輔助駕駛演進的重要技術!
NVIDIA 蟬聯 CVPR 2025 端到端輔助駕駛挑戰賽冠軍
2025年,NVIDIA 英偉達研究團隊重磅提出 GTRS:一種端到端輔助駕駛創新框架!該框架實現了更高的效能,在 AI 頂級會議 CVPR 2025 上的輔助駕駛國際挑戰賽 “NAVSIM v2 End-to-End Driving Challenge” 賽道中蟬聯冠軍!該冠軍方案在評測中高達 49.4 EPDMS!

NVIDIA在端到端輔助駕駛賽道上蟬聯冠軍
難度升級!NAVSIM v2挑戰賽引入一個新的組別 Navhard,它包含複雜的真實場景以及使用 3DGS 生成的合成連續場景,重點考驗模型在複雜駕駛情境下的決策魯棒性與安全性。
GTRS(Generalized Trajectory Scoring):一個結合了粗粒度和細粒度軌跡評估的端到端多模態規劃的統一框架。GTRS 包含三個互補的創新:1)基於擴散的軌跡生成器;2)多種軌跡泛化的評分器;3)感測器增強、軌跡精細化的評分器。
Paper:https://arxiv.org/abs/2506.06664
GitHub:https://github.com/NVlabs/GTRS
GTRS 在 NAVSIM v2 挑戰賽上排名第一!即使在感測器輸入並非最優的情況下也展現出卓越的效能,接近依賴於ground-truth 感知的SOTA方法。

NVIDIA 排名第一
GTRS:端到端輔助駕駛規劃方案

GTRS 演示Demo
GTRS:一個可泛化的端到端多模態規劃框架,它將基於擴散模型的軌跡生成與詞表評分相結合。憑藉超密集詞表、感測器增強和精細化策略,GTRS 能夠對動態和靜態候選集進行有效評分,在 Navhard 基準測試上展現出卓越的規劃效能和麵向域外資料的泛化能力。
GTRS 框架主要由三大模組組成,如下圖所示:

GTRS 框架的三大模組
1. 基於擴散模型的軌跡生成器(DP)
採用基於擴散策略(Diffusion Policy)的軌跡生成器來生成多個軌跡 proposals。該軌跡生成器由以下部分組成:一個用於提取影像特徵的影像主幹網路、一個 BEV 編碼器和一個基於 BEV 特徵生成 N 個軌跡proposals Vdp 的擴散 Transformer。
2. 多種軌跡泛化的評分器(GTRS-Dense)
為了實現魯棒的泛化,NVIDIA 研究團隊引入一種新穎的詞表泛化技術,該技術可以訓練模型有效地評估各種軌跡分佈,即使是訓練期間未見過的軌跡分佈。進而提出了詞表泛化的軌跡評分器 GTRS-Dense,它基於 Hydra-MDP(去年 NVIDIA 的冠軍方案)構建,在軌跡評分方面引入了關鍵創新。該架構由以下部分組成:一個影像主幹網路、一個將候選標記編碼為特徵表示的 tokenizer 和一個用於建模軌跡和影像 tokens 之間的複雜互動的 Transformer 解碼器。

GTRS-Dense 框架
這種詞表泛化技術使模型能夠有效地對靜態軌跡詞表和動態生成的 proposals 進行評分,而無需對這兩種型別進行專門的訓練。
3. 感測器增強、軌跡精細化的評分器(GTRS-Aug)
為了進一步增強模型在多樣化和跨域環境中的魯棒性,NVIDIA 研究團隊開發了一套系統化的感測器增強策略 GTRS-Aug,並結合了改進訓練機制。該方法側重於兩大關鍵挑戰:處理感測器資料中的感知分佈變化,以及在安全關鍵場景中區分細微不同的軌跡選項。

首先,透過對輸入影像應用受控的 2D 水平檢視旋轉來引入結構化感測器擾動。這些擾動並非隨機增強,而是專門針對模型在不同視角條件下保持一致性軌跡評估的能力。為了保持標籤一致性,對用於訓練的 ground-truths 應用了相應的變換。
其次,開發了一種專注於細粒度軌跡判別的精細化訓練機制。作為一個僅用於訓練的模組,它集成了一個額外的 Transformer 解碼器,可以逐步細化 top-k 最有希望的候選軌跡的軌跡得分,使模型能夠捕捉相似軌跡之間的細微差異。精細化過程由一個自蒸餾框架引導,其中模型的指數平均數指標(EMA)副本提供軟監督訊號:

綜合起來,這些策略使得 GTRS-Aug 能夠在具有挑戰性的域外環境中魯棒執行,而無需進行特定領域的適應。
模型整合
在訓練完上述子網路之後,在推理階段將軌跡生成器與軌跡評分器(GTRS-Dense、GTRS-Aug)結合使用,如下圖所示。生成器 Vdp 生成的動態proposals 會被新增到推理詞表 VL中,合併後的集合 Vdp ∪ VL會被tokenized 並由評分器進行評分。

GTRS 推理框架
這種在推理階段而非訓練階段順序整合動態 proposals 的設計選擇,巧妙地兼顧了兩種方法的優勢。透過僅使用多樣化的靜態詞表進行訓練,評分器能夠在廣泛的軌跡模式中培養出強大的泛化能力。然後,在推理階段,基於擴散的生成器會提供針對當前場景定製的細粒度、上下文感知的軌跡。同時,這種做法避免了在訓練過程中引入擴散取樣所帶來的計算開銷和潛在的不穩定性,但仍然能夠在部署時受益於動態生成軌跡所帶來的精度提升。
GTRS-Dense和GTRS-Aug這兩個軌跡評分器都有各自的獨特優勢,GTRS-Dense更加擅長泛化,GTRS-Aug則對於感知變化和軌跡的精細差異更加魯棒。最終模型整合提升了整體決策的可靠性與魯棒性。
實驗結果
NVIDIA 研究團隊在 Navtrain split 上訓練所有模型,而 Navhard split 和其他合成感測器資料不用於訓練。訓練預設進行 20 個 epochs,總批次大小為 528;軌跡生成器的訓練持續 50 個 epochs。學習率和權重衰減分別為 2 × 10^−4 和 0.0。將前檢視與經過中心裁剪的左前檢視和右前檢視連線在一起,構成輸入影像。對於軌跡生成器 DP,從後檢視、右後檢視和左後檢視構建類似的輸入影像,用於 BEV 構建。最後,使用 DDPM scheduler 進行 100 次去噪,並在 Vdp 中生成 100 個proposals。
GTRS-Dense 評分器評估。如表1所示,雖然評分器僅在超稠密靜態詞表 VXL 上進行訓練,但它對 Vdp 中未見過的動態 proposals 表現出良好的泛化能力(EPDMS:36.7),顯著優於採用隨機選擇的生成器(+11.1 EPDMS),展現出強大的零樣本泛化能力。將 Vdp 與 VXL 結合使用時,效能比 VXL 提升了 +1.1 EPDMS,證實了動態 proposals 在推理過程中的互補優勢。
有趣的是,Vdp ∪ VL 的表現優於 Vdp ∪ VXL,這可能是因為詞表複雜度的降低使其在領域外合成數據中具有更好的泛化能力。最後,在訓練期間對 VXL 應用 Dropout 獲得了最佳效能(EPDMS:43.4),表明詞表 Dropout 顯著增強了泛化能力。
GTRS-Aug 評分器評估。如表1所示,GTRS-Aug 實現了與最佳 GTRS-Dense 變體相同的頂級效能(EPDMS:43.4),並大幅超越了基線得分器(+2.8 EPDMS)。這證實了增強和精細化訓練能夠顯著提升軌跡分數。

表1. GTRS 評分器評估
如表2 所示,GTRS 變體相較於 LTF 基線取得了顯著的效能提升。透過將影像主幹縮放至 ViT-L 和 EVA-ViT-L,最好的單一模型在 Navhard 基準上達到了 45.3 EPDMS。此外,GTRS-E-Lite(評分期間 GTRS Dense 與 GTRS-Aug 的整合)達到了 46.6 EPDMS。
NVIDIA 研究團隊在挑戰賽上獲勝的參賽作品 GTRS-E(所有六個變體的整合)達到了 49.4 EPDMS,接近於依賴於ground-truth 感知的規劃器 PDM-Closed 的效能。

表2. Navhard 基準效能
總結
GTRS:一種通用的端到端多模態規劃方法,可以生成多種軌跡,並逐步篩選出最佳軌跡,還顯著提升了模型的泛化能力,在NAVSIM v2資料集上取得了當前最先進的規劃效能,成功拿到今年挑戰賽的第一名!實現了蟬聯冠軍!
NVIDIA 在輔助駕駛領域的實力綜合體現在端到端的軟體棧、強大的AI演算法支援,高效能硬體平臺以及廣泛的產業生態系統,一起強力推動了從 L2 到 L5 高階駕駛技術的開發和實現,為未來智慧出行提供了堅實的技術支援。
整理不易,請點贊和在看
