SpatialVLA團隊 投稿
量子位 | 公眾號 QbitAI
與3D物理環境互動、適應不同機器人形態並執行復雜任務的通用操作策略,一直是機器人領域的長期追求。
現有的通用操作模型侷限於2D輸入,缺乏魯棒的3D感知能力,在面對單視角視差、光照變化和環境不一致等視覺外觀變化時表現較差,限制了其在現實世界中的通用性。
而人類具有通用且結構化的空間認知能力,能夠在不同的場景中精細準確的操作物體。因此,當前領域的一個關鍵問題是如何有效地為VLA模型賦予通用的3D物理世界空間理解能力?
來自上海AI Lab、TeleAI、上科大等機構的研究員提SpatialVLA——

百萬真機資料預訓練的空間具身通用操作模型,全面探究了空間表徵在具身通用操作模型中的潛力,在zero-shot泛化控制、場景高效微調、空間理解等多項評估中取得了最先進的效能。
通用操作策略面臨的挑戰
近期視覺-語言-動作模型的進展為構建此類通用策略提供了有前景的正規化,特別是透過在多樣化機器人資料上訓練視覺-語言模型。相關的最新研究包括OpenVLA、RDT、π0等。然而現有的VLA模型大多侷限於2D輸入,缺乏穩健的3D感知能力,且在面對單視角視差差距、光照變化和環境不一致等視覺外觀變化時表現較差,限制了其在現實世界中的可靠性。人類本能地形成結構化的空間認知模型,輕鬆地在直觀且個性化的工作空間中組織物體進行操作。
因此,當前領域的一個關鍵問題是如何有效地為VLA模型賦予通用的3D物理世界空間理解能力?
然而,開發具有3D空間智慧的通用機器人策略面臨兩個關鍵挑戰:
首先,由於相機感測器和安裝位置(例如腕部安裝與第三方視角)不同,機器人在各個形態下的觀察資料缺乏3D對齊,造成了3D觀察空間未同一校準的。
其次,機器人表現出多樣的動作特性,源自自由度、運動控制器、工作空間配置和任務複雜性的差異,使得學習通用空間動作變得複雜。

空間具身通用操作模型
為應對以上挑戰,本文提出了一個通用機器人策略SpatialVLA,透過探索對齊的空間表示,將VLA模型賦予3D空間智慧。給定影像觀察和任務指令,模型利用Ego3D位置編碼處理影像,並自迴歸地預測空間動作token,隨後解碼為連續動作At進行機器人控制:
-
Ego3D Position Encoding: SpatialVLA透過Ego3D位置編碼感知3D世界,將3D空間上下文與語義特徵融合,消除了對特定機器人相機校準的需求,具有廣泛的適用性。
-
Adaptive Spatial Action Grids:對於機器人動作,SpatialVLA採用自適應動作網格統一動作空間,將連續動作離散化為基於機器人任務資料的自適應網格,使得不同機器人之間的動作與物理世界的3D結構對齊。
-
Spatial Embedding Adaption: 在後訓練中,空間動作網格透過自適應網格重新離散化,展現了在新機器人環境中適應的卓越能力,提供了一種靈活且有效的機器人特定後期訓練方法。

具體來說,對於給定一個影像觀察 和任務指令 L,模型透過Ego3D位置編碼處理影像,並自迴歸地預測空間動作token,隨後將這些token解碼為連續動作 At 用於機器人控制。
該模型包含三個關鍵元件:(1)SigLIP視覺編碼器提取2D語義特徵,隨後透過Ego3D位置編碼將其與3D空間上下文相融合;(2)連續的7D動作 ΔT,ΔR, G 透過查詢自適應動作網格轉化為3個空間動作token,並自迴歸地預測並解碼以用於機器人控制;(3)在後期訓練中,動作網格和空間嵌入根據新的高斯分佈進行調整,以便有效地遷移到全新的機器人平臺。
團隊發現,所提出的SpatialVLA模型以通用且與機器人無關的方式橋接了觀察輸入和動作輸出,探索強大的3D空間感知表示,從而增強了VLA模型的魯棒性與通用性。
實驗驗證

團隊在7種不同的機器人學習場景中評估SpatialVLA的能力,包括24個真實機器人任務和3個模擬環境Simpler Env Google Robot、Simpler Env WidowX、LIBERO。
重點考察模型的三個關鍵能力:zero-shot泛化控制、新場景高效微調和空間理解能力。同時,團隊還進行了詳細的消融研究,驗證了設計決策。模型在多項評估中取得了最先進的效能。
1. zero-shot泛化控制
SimplerEnv Benchmark SOTA效能:包含WidowX和Google機器人配置,提供多樣的操作場景,並涵蓋不同的光照、顏色、紋理和機器人攝像頭位姿。團隊將模型與最新的通用操作策略進行比較,包括RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA和RoboVLM等。
SpatialVLA在zero-shot和微調setting中均表展示了更強的泛化能力和魯棒性,尤其在具有外觀多樣的機器人操作任務和環境條件下。
對於WidowX配置,SpatialVLA超越了RoboVLM,取得了34.4%和42.7%的整體成功率。在BridgeV2資料集上微調後,在“將茄子放入黃色籃子”任務中達到了100%的成功率,顯示了模型出色的零樣本泛化操作能力。

△Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.

△Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.
WidowX機器人平臺開箱即用:團隊還在真實的WidowX機器人平臺上進行實驗,涵蓋語言繫結、語義理解和運動干擾等任務。總體而言,SpatiaVLA在未見過的場景、物體、語言繫結和動態動作中表現出了較高的平均成功率,能夠根據提示中的顏色描述準確地執行任務,超越了OpenVLA和其他通用策略展示了強大的泛化能力操作和指令跟隨能力。

△Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.
2.新場景高效微調
Franka高效微調,LIBERO Benchmark SOTA效能:團隊在13個Franka機械臂平臺上 從1)拾取、放置、推拉和關閉基本任務;2)指令跟隨;3)混合多工三個角度來驗證模型的操作效能,與主流策略(包括Diffusion Policy、Octo和OpenVLA)進行比較。
評估結果展示了其作為通用機器人控制策略的多功能性,在多種任務中表現出色,並可有效作為新機器人微調的初始化。同時SpatialVLA能夠有效適應LIBERO環境中的任務,取得了78.1%的最高平均成功率,並在所有無state輸入的策略中排名第一。

△Figure 4. Adapting to New Robot Setups on Franka Robot.

△Figure 5. LIBERO Simulation Benchmark Results.
3.空間理解能力評估
團隊從三類機器人設定評估的空間理解能力:Franka機器人微調, WidowX機器人零樣本泛化,以及Libero-Spatial微調。任務展示了不同的空間複雜性,任務涉及提示理解,深度變化感知,物體佈局變化。與現有策略相比,SpatialVLA展現了優越的空間理解能力,在Franka任務#1中取得了73%的準確率,顯著提升了在WidowX零-shot任務(任務#2-4)中的操作能力,尤其是在複雜的位置變化上。在LIBERO-Spatial任務中,SpatiaVLA取得了88.2%的成功率。像Octo、Diffusion Policy和OpenVLA等策略,由於缺乏深度資訊的整合,在適應空間佈局變化時面臨較大挑戰,其成功率始終低於50%。因此,團隊建議將3D資訊,如深度或點雲,整合到VLA框架中,以提高模型在空間佈局變化中的適應性和魯棒性。

△Figure 6. Spatial Understanding Capability Evaluation.
目前專案已全面開源,輕鬆支援下載部署、預訓練和高效微調。

Huggingface:https://huggingface.co/collections/IPEC-COMMUNITY
訓練程式碼:https://github.com/SpatialVLA/SpatialVLA
專案主頁:https://spatialvla.github.io
論文地址:https://arxiv.org/abs/2501.15830
訓練程式碼:https://github.com/SpatialVLA/SpatialVLA
專案主頁:https://spatialvla.github.io
論文地址:https://arxiv.org/abs/2501.15830
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!