3DVLA新正規化！CVPR冠軍方案BridgeVLA，真機效能提升32％

新智元報道

編輯：LRST

【新智元導讀】中科院自動化所提出BridgeVLA模型，透過將3D輸入投影為2D影像並利用2D熱圖進行動作預測，實現了高效且泛化的3D機器人操作學習。實驗表明，BridgeVLA在模擬和真實場景中均展現出卓越的效能和資料效率，僅需3條軌跡即可在基礎任務中達到96.8%的成功率。

近年來，視覺-語言-動作（VLA）模型在機器人操作任務中大放異彩，成為推動通用機器人操作的重要引擎。

但現有的VLA模型，大多隻以2D資訊作為輸入，且需要大量的機器人資料進行微調；

反觀以PerAct，RVT-2為代表的3D操作策略，通常僅需要10條軌跡就能夠取得不錯的效果，因此，一個很自然的想法是，是否能將現有的2D VLA升級為3D VLA，使其同時兼具2D VLA的效果以及3D操作策略的效率？

中科院自動化所的研究人員提出的BridgeVLA給出了肯定的回答！

論文連結：https://www.arxiv.org/abs/2506.07961

專案主頁：https://bridgevla.github.io/home_page.html

實驗表明，BridgeVLA僅需採集3條軌跡就能在基礎設定中實現96.8%的任務成功率。

在多種泛化性設定中，比如未見過的干擾物、高度、光照、物體種類以及未見過的物體技能組合等，BridgeVLA展現出碾壓式的效能，相較於基線模型取得了32%的效能提升。

在模擬中，BridgeVLA屠榜了主流3D機器人操作基準，在RLBench、COLOSSEUM、GemBench等三個模擬基準中均取得了最先進的效能。

2D VLA的泛化，3D Policy的效率，這下全部打包帶走！

縮小VLM和VLA之間的遷移差距

圖1. BridgeVLA統一輸入與輸出的方案，兼顧泛化性與高效性

近來，OpenVLA、pi0等2D VLA架構在機器人領域取得了廣泛關注，它們藉助預訓練多模態大模型強大的表徵能力，將自然語言指令、影像觀測與動作預測串聯在一起，展現出很強的泛化能力。

然而，這型別2D VLA所帶來的代價同樣很大：為了讓模型真正學會每個任務，往往需要上百條專家演示。這其中的資料收集、清洗與標註需要高昂的人力成本，很難在更大規模的工業場景下落地。

與此同時，研究者們發現，如果直接在3D空間中學習動作策略，憑藉3D輸入蘊含的顯式空間結構資訊，模型只需極少的軌跡就能掌握操作技能，具有很高的資料效率。

因此，理論上來講，將3D資訊和VLA相結合是有可能構造出一個高效能且高效率的3D VLA模型的。然而，當前已有的3D VLA模型卻並未實現上述期待。

BridgeVLA的研究團隊發現，這背後有兩個方面的原因：

1）這些方案輸出形式割裂。大多數3D VLA方法把動作輸出建模為 token 序列，這樣的做法割裂了動作輸出與觀測輸入之間的空間對應關係，難以充分利用三維幾何資訊。

2）這些方案的輸入和預訓練多模態大模型的輸入分佈不匹配。預訓練VLM是以2D 影像作為輸入的，而這與微調階段的3D 輸入分佈差異巨大，導致直接遷移效果不佳。

基於這些觀察，BridgeVLA的研究團隊提出：如果將3D輸入與動作輸出都統一到2D空間，同時將預訓練階段的輸入和輸出也統一到2D空間的話，將可以同時繼承2D VLA的泛化能力與3D操作策略的資料效率。

BridgeVLA是如何設計的？

圖2. BridgeVLA 2D熱度圖預訓練與3D動作微調結構圖

BridgeVLA的訓練流程主要分為兩個階段：首先是2D 熱度圖預訓練，然後是3D動作微調。預訓練階段主要用於提升模型的空間感知能力，使其具備從影像和語言描述中精準定位目標區域的能力；而微調階段則透過三視角影像進行動作預測，完成具體的 3D 操作策略學習。

傳統的預訓練多模態大模型在預訓練階段主要透過預測token 序列來完成分類或生成任務，而這樣的token序列並不具備任何的空間結構。

為了使模型具備空間定位能力，BridgeVLA 設計了一種熱度圖預訓練方式，訓練模型根據文字指令預測關於目標物件位置的機率熱度圖，並使用了 RoboPoint 中的目標檢測資料集進行預訓練。

在模型結構上，BridgeVLA使用了由SigLIP視覺編碼器和Gemma Transformer構成的PaliGemma作為VLM主幹。

預訓練時，模型的輸入為影像與其對應的文字描述（如圖中紅色的杯子在哪），然後透過PaliGemma提取特徵，最後使用一個可學習的上取樣模組生成與原圖同分辨率的熱度圖。

整個過程採用交叉熵損失進行監督訓練。這種預訓練策略使VLM獲得了空間感知能力，能夠根據語言描述在影像中精準定位目標區域，為後續下游3D操作策略學習提供幫助。

在微調階段，模型的目標是根據3D點雲和語言指令輸出合理的機器人動作。

具體來說，BridgeVLA首先從頂部、正面和右側三個方向將點雲渲染為三幅2D影像，並將其作為輸入送入經過重新預訓練的 VLM 主幹網路。模型隨後會為每個視角生成一張2D 熱度圖。

為了保持微調與預訓練的一致性，VLM 的輸入中不包含機器人狀態或其他非視覺資訊，從而避免輸入分佈偏移。透過結合深度圖和相機引數，三個熱度圖可以被反投影，從而得到末端執行器的位置估計。

末端執行器的旋轉姿態和夾爪開閉狀態則透過額外引入的MLP進行預測。

泛化效能與取樣效率的兼得

BridgeVLA在多個主流3D操作榜單上都取得了最先進的效能。在RLBench中成功率達88.2%，相較於基準模型提升了6.8%

而在環境出現顏色、材質、物體大小等12種干擾的COLOSSEUM環境中相較於之前SoTA方法提升了7.3%，在同樣極具挑戰的GemBench環境中，即使面對全新位置、全新物體的考驗，BridgeVLA也取得了最佳的50%的成功率。

這些實驗都證明了BridgeVLA具備很強的泛化能力，充分利用了預訓練多模態模型中蘊含的豐富視覺與語言先驗知識。

圖3. BridgeVLA 在RLBench上的實驗結果

圖4. BridgeVLA 在COLOSSEUM上的實驗結果

圖5. BridgeVLA 在GemBench上的實驗結果

BridgeVLA同時在真機實驗中進行了大規模實驗，BridgeVLA可以很好的克服干擾物、不同高度、不同光照條件、不同背景的影響，同時也具有一定的組合泛化能力、和全新物體的泛化能力，這都得益於預訓練骨幹網路中蘊含的先驗特徵。

同時BridgeVLA也證明了其極高的資料效率，僅僅使用3條軌跡就可以達到96.8%的基礎任務成功率，幾乎與使用10條軌跡訓練的版本持平，結果表明BridgeVLA不僅泛化能力強，而且對資料要求極低，非常適合在真實機器人系統中部署與擴充套件。

圖6. BridgeVLA 在真機實驗上的實驗結果

BridgeVLA透過統一預訓練的輸入輸出到二維影像空間，建立起了一個高效能且高資料效率的3D VLA新正規化。

可以預見，未來將有更多類似的探索推動 VLA 模型持續演進，邁向新的高度。

參考資料：

https://bridgevla.github.io/

dignews.cc

3DVLA新正規化！CVPR冠軍方案BridgeVLA，真機效能提升32％

新智元報道

相關文章

空間具身通用操作模型！百萬真實資料訓練，預訓練程式碼全開源|上海AILab/TeleAI/上科大等團隊新作

萬字實錄：VLA正規化，具身智慧的曙光與迷霧丨GAIRLive

阿德萊德大學吳琦：VLN仍是VLA的未竟之戰丨具身先鋒十人談

阿德萊德大學吳琦：VLN仍是VLA的未竟之戰

解讀理想VLA司機大模型：你不用付費的專屬“代駕”

Gemini1.5Pro裝進機器人，參觀一遍公司就能禮賓、帶路

理想正在掀起智慧駕駛的iPhone4時刻

多模態模型賦能智慧終端，AI感測成關鍵硬體

具身智慧：人工智慧的下一個浪潮

端到端VLA並非唯一解：分層推理的具身基礎模型RoBridge破解機器人「知行合一」難題