閉環端到端精度暴漲19.61%!華科&小米汽車聯手打造自動駕駛框架ORION,程式碼將開源

近年來,端到端(End-to-End,E2E)自動駕駛技術不斷進步,但在複雜的閉環互動環境中,由於其因果推理能力有限,仍然難以做出準確決策。雖然視覺 – 語言大模型(Vision-Language Model,VLM)憑藉其卓越的理解和推理能力,為端到端自動駕駛帶來了新的希望,但現有方法在 VLM 的語義推理空間和純數值軌跡的行動空間之間仍然存在巨大鴻溝。
除此之外,現有的方法常常透過疊加多幀的影像資訊完成時序建模,這會受到 VLM 的 Token 長度限制,並且會增加額外的計算開銷。
為了解決上述問題,本文提出了 ORION,這是一個透過視覺語言指令指導軌跡生成的端到端自動駕駛框架。ORION 巧妙地引入了 QT-Former 用於聚合長期歷史上下文資訊,VLM 用於駕駛場景理解和推理,並啟發式地利用生成模型對齊了推理空間與動作空間,實現了視覺問答(VQA)和規劃任務的統一端到端最佳化。
圖 1:不同的端到端自動駕駛正規化的對比
ORION 在具有挑戰性的閉環評測 Bench2Drive 資料集上實現了優秀的效能,駕駛得分為 77.74 分,成功率為 54.62%,相比之前的 SOTA 方法分別高出 14.28分和 19.61% 的成功率。
此外,ORION 的程式碼、模型和資料集將很快開源。
  • 論文標題:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
  • 論文地址:https://arxiv.org/abs/2503.19755
  • 專案地址:https://xiaomi-mlab.github.io/Orion/
  • 程式碼地址:https://github.com/xiaomi-mlab/Orion
  • 單位:華中科技大學、小米汽車
我們來看一下 ORION 框架下的閉環駕駛能力:
ORION 檢測到騎腳踏車的人並向左變道避免了碰撞。
ORION 檢測到右前方的車輛,先執行減速,然後再改變車道。
ORION 識別停車標誌並停車,等待一段時間,然後重新啟動成功透過十字路口。
主要貢獻
本文提出了一個簡單且有效的端到端自動駕駛框架 ORION,主要包含如下幾方面的貢獻:
  • VLM + 生成模型:利用生成模型彌補了 VLM 的推理空間與軌跡的動作空間之間的差距,從而使 ORION 能夠理解場景並指導軌跡生成。
  • QT-Former:引入 QT-Former 聚合歷史場景資訊,使模型能夠將歷史資訊整合到當前推理和動作空間中。
  • 可擴充套件性:ORION 可以與多種生成模型相容,實驗證明了所提出框架的靈活性。
  • 效能優異:在模擬資料集 Bench2drive 的閉環測試上取得 SOTA 的效能。
研究動機
經典的 E2E 自動駕駛方法透過多工學習整合感知、預測和規劃模組,在開環評估中表現出優秀的能力。然而,在需要自主決策和動態環境互動的閉環基準測試中,由於缺少因果推理能力,這些方法往往表現不佳。
近年來,VLM 憑藉其強大的理解和推理能力,為 E2E 自動駕駛帶來了新的解決思路。但直接使用 VLM 進行端到端自動駕駛也面臨諸多挑戰,例如,VLM 的能力主要集中在語義推理空間,而 E2E 方法的輸出是動作空間中的數值規劃結果。
一些方法嘗試直接用 VLM 輸出基於文字的規劃結果,但 VLM 在處理數學計算和數值推理方面存在不足,且其自迴歸機制導致只能推斷單一結果,無法適應複雜場景。還有些方法透過設計介面,利用 VLM 輔助經典 E2E 方法,但這種方式解耦了 VLM 的推理空間和輸出軌跡的動作空間,阻礙了兩者的協同最佳化。
除此之外,長期記憶對於端到端自動駕駛是必要的,因為歷史資訊通常會影響當前場景中的軌跡規劃。現有使用 VLM 進行端到端自動駕駛的方法通常透過拼接多幀影像來進行時間建模。但這會受到 VLM 的輸入 Token 的長度限制,並且會增加額外的計算開銷。
為了解決上述問題,本文提出了 ORION。ORION 的結構包括 QT-Former、VLM 和生成模型。 ORION 透過 QT-Former 聚合長時間上下文資訊,並巧妙地結合了生成模型和 VLM,有效對齊了推理空間和動作空間,實現了視覺問答(VQA)和規劃任務的統一端到端最佳化。
方法概覽
具體來說,ORION 透過以下三大核心模組,顯著提升了自動駕駛系統的決策能力:
1. QT-Former:長時序上下文聚合
ORION 引入了 QT-Former,透過引入歷史查詢和記憶庫,有效聚合長時視覺上下文資訊,增強了模型對歷史場景的理解能力。相比現有方法,QT-Former 不僅減少了計算開銷,還能更好地捕捉靜態交通元素和動態物體的運動狀態。
2. VLM:場景推理與指令生成
ORION 利用 VLM 的強大推理能力,結合使用者指令、長時和當前的視覺資訊,能夠對駕駛場景進行多維度分析,包括場景描述、關鍵物體行為分析、歷史資訊回顧和動作推理,並且利用自迴歸特性聚合整個場景資訊以生成規劃 token,用來指導生成模型進行軌跡預測。
3. 生成模型:推理與動作空間對齊
ORION 透過生成模型,將 VLM 的推理空間與預測軌跡的動作空間對齊。生成模型使用變分自編碼器(VAE)或擴散模型,以規劃 token 作為條件去控制多模態軌跡的生成,確保模型在複雜場景中做出合理的駕駛決策。
圖 2:ORION 整體架構圖
實驗結果
本文在 Bench2Drive 資料集上進行閉環評估測試,如表 1 所示,ORION 取得了卓越的效能,其駕駛得分(DS)和成功率(SR)分別達到了 77.74 和 54.62%,相比現在的 SOTA 方法提升了 14.28 DS 和 19.61% SR,展現了 ORION 強大的駕駛能力。
表 1:Bench2Drive 上閉環評估和開環評估的效能對比
此外,如表 2 所示,ORION 還在 Bench2Drive 的多能力評估中表現優異,特別是在超車(71.11%)、緊急剎車(78.33%)和交通標誌識別(69.15%)等場景中,ORION 的表現遠超其他方法。這得益於 ORION 透過 VLM 對駕駛場景的理解,能夠更好地捕捉駕駛場景之間的因果關係。
表 2:Bench2Drive 上多能力評估測試對比
可解釋性結果
下圖展示了 ORION 在 Bench2Drive 的閉環評估場景中的可解釋性結果。ORION 可以理解場景中正確的因果關係,並做出準確的駕駛決策,然後根據推理資訊指導規劃軌跡預測。
圖 3:可解釋性結果圖
總結
ORION 框架為端到端自動駕駛提供了一種全新的解決方案。ORION 透過生成模型實現語義與動作空間對齊,引入 QT-Former 模組聚合長時序場景上下文資訊,並聯合最佳化視覺理解與路徑規劃任務,在閉環模擬中取得了卓越的效能。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章