港科大、地平線提出DrivingWorld:基於影片GPT構建自動駕駛世界模型

自駕場景的可控生成和長時序生成?這個模型全都要!
——港科大和地平線聯合提出 DrivingWorld:基於影片 GPT 構建自動駕駛世界模型
DrivingWorld 的主要作者是來自香港科技大學和地平線公司的研究團隊,他們專注於世界模型和自動駕駛技術的研究,力求在這兩個領域做出更多的貢獻。
論文地址:
https://arxiv.org/abs/2412.19505
程式碼地址:
https://github.com/YvanYin/DrivingWorld
背景介紹
世界模型(World Model) 是一種可以模擬世界動態的模型,能夠基於過去的觀測實現對未來狀態的預測,因此被視為實現 AGI 的關鍵途徑。世界模型在自動駕駛領域展現了巨大的潛力,不僅具備對環境和駕駛狀態的深刻理解,還為未來軌跡預測與自動駕駛決策提供了重要支援。
然而,要透過 World Model 實現高逼真度的駕駛場景生成並非易事。香港科技大學與地平線聯合推出的基於自迴歸架構的 DrivingWorld 模型,為構建精準的自動駕駛世界模型帶來了全新突破。
為什麼世界模型要採用自迴歸模型?
同樣是輸出未來的影片,為什麼不採用擴散生成模型(Diffusion Model),而是採用自迴歸模型?為了回答這個問題,小編向GPT-4o詢問了這個問題。
如何實現這一步呢?
美國知名公司 Wayve 率先展示了針對自動駕駛的世界模型 GAIA-1。該模型採用了自迴歸路線,但是由於其採用的傳統 GPT 框架缺乏空間與時間動態建模能力,其生成影片質量與時間都有很大提升空間。
為解決這個問題,DrivingWorld 創新性地引入空間-時間先解耦後融合的機制,提出了一種基於 Next-State 自迴歸式框架的方法,用於實現超長時序影片預測和可控的影片生成。儘管相關領域已有一些研究,但是 DrivingWorld 在影片生成長度方面仍然取得了明顯突破。
  • 高效的影片可量化的編碼和解碼模組:首次提出影片可量化編碼解碼器,相比於單張圖壓縮方案,在降低影片抖動和提升連續性方面取得了明顯改進,FID 指標上相對於 SOTA 提升了 17%;
  • 解耦時序資訊和多模態資訊實現可控預測和超長時序預測:DrivingWorld 能夠生成未來 > 40s 的 video,相較於當前的 SOTA 方法(最長 15s)在時序長度上有了顯著提升;
  • 高效的自迴歸模型設計以實現並行化預測:DrivingWorld 採用了空間-時間先解耦後融合的設計,採用 next-state prediction 的自迴歸策略,有效降低了 token 預測的時間複雜度,在複雜影片生成任務中展現了良好的效能表現。
實驗結果
4.1 長時序生成
以下展示了一個長時序影片生成的示例。DrivingWorld 在不同幀之間能夠捕捉到連貫的 3D 場景結構。
4.2 解決Drift問題
在生成長序列時,模型經常會因為誤差積累導致顯著的 drift 問題。DrivingWorld 引入了一種有效的 mask token 策略,可以緩解 drift 的影響,從而提升生成質量。
4.3 生成質量評估
DrivingWorld 與現有的 SOTA 方法在 NuScenes 驗證集上進行了效能比較。其中,藍色表示 NuScenes 資料被包含在模型的訓練集中,橙色則代表 zero-shot 測試結果。“w/o P” 指未使用私有資料進行訓練的情況。具體對比結果如下:
從結果可以看出,DrivingWorld 模型不僅能夠生成更長的影片序列(最長達 40s / 400 幀),同時在 FID 和 FVD 上也展現出了較強的競爭力。
4.4 更多Demos展示
4.4.1 可控生成
4.4.2 長時序生成demo
未來工作
展望未來,DrivingWorld 還有很大的發展潛力。DrivingWorld 的研究團隊計劃進一步融入更多模態資訊,如車輛感測器資料、地圖資訊等,並整合多檢視輸入,如不同角度的攝像頭畫面。
透過全方位融合多模態和多視角資料,有望進一步提升模型在複雜駕駛環境下的理解能力、動作控制精度以及影片生成的準確性,從而推動自動駕駛系統整體效能和可靠性邁向新的高度,為自動駕駛技術的廣泛應用奠定堅實基礎。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章