端到端VLA並非唯一解:分層推理的具身基礎模型RoBridge破解機器人「知行合一」難題

RoBridge 在顯著降低訓練成本的同時,顯著提升開放式任務的操作魯棒性,為破解機器人「知行合一」難題提供了可擴充套件的技術路徑。
作者丨梁小丹、林倞
由中山大學、鵬城實驗室、拓元智慧等單位攜手推出的分層推理具身基礎模型RoBridge,在保持VLM語義理解優勢的同時,成功將強化學習的過程技能成功率提升至新高度,模型框架已經開源。
在開放式場景的機器人操作研究中,傳統端到端視覺語言動作(VLA)模型雖能實現指令理解與動作輸出的直接對映,卻面臨訓練成本高昂(通常需要數十張GPU數週訓練)、認知與執行割裂等根本性缺陷。針對這一核心問題,由梁小丹、林倞等知名學者提出的分層推理的具身基礎模型RoBridge,僅需單張A100訓練一天即可突破兩大技術瓶頸:其創新設計的分層結構透過認知規劃與物理執行的解耦,在保持VLM語義理解優勢的同時,成功將強化學習的過程技能成功率提升至新高度。該架構由三級模組構成——基於視覺語言模型(VLM)的高階認知規劃器(HCP)實現任務語義解析,不變可操作表示(IOR)構建符號化中間層,通用具身代理(GEA)負責物理執行。實驗表明,RoBridge零樣本泛化即可達成75%的新任務成功率,僅需5個真實樣本即可實現模擬到現實(Sim2Real)的泛化成功率(83%),相較RDT、π0等基線模型提升超40%,為破解機器人"知行合一"難題提供了更高效可靠的解決方案。
論文:RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
專案地址:https://abliao.github.io/RoBridge
1
背景:機器人操作技術的雙重困境
機器人操作技術長期受限於兩大瓶頸:

1. 1程式性技能困境。

為了獲得根據指令操縱物件的能力,RDT和π0等VLA模型通常採用資料驅動的軌跡擬合方法。然而,當面對環境變化時,包括波動的照明條件、相機姿態偏差和環境變化,這些方法經常遭受災難性的效能下降。強化學習雖然穩健,但具有試錯性和低學習效率的特點,使其在實際環境中的適用性較低。
圖1. 程式性技能方法、陳述性技能方法和RoBridge方法比較。

1.2 陳述性技能困境。

最近的工作將視覺語言模型 (VLM) 整合到機器人系統,如 ReKep和 OmniManip,它們使用多模態大模型來生成開放域任務的操作指令。雖然這些模型在理解方面表現出色,但它們缺乏具體經驗,並且需要將輸出限制為可執行動作。這種方法迫使語言模型在沒有物理直覺的情況下處理時空推理,這通常會導致難以置信的任務規劃。例如,在任務 “將塊 A 放在塊 B 上” 中,對空間的理解不足往往會導致這種方法產生致命缺陷的動作序列。
2
RoBridge框架
本文提出的RoBridge框架如圖所示,主要包括三個核心元件:高層認知規劃器(High-level Cognitive Planner, HCP)、不變可操作表示(Invariant Operable Representation, IOR)和通用具身智慧體(Generalist Embodied Agent, GEA)。整體流程如下:首先,HCP根據觀察資訊和任務指令將複雜任務分解為多個原子動作;其次,針對每個原子動作,HPC結合基礎模型生成IOR表示;最後,GEA基於該表示執行具體操作,整個過程透過閉環控制進行調節。各部分說明如下:
圖2. RoBridge框架
(1)高層認知規劃器(HCP)
HCP由視覺語言模型(如GPT-4o)和基礎模型API(如GroundingDINO、SAM和Track-Anything)構成。給定當前RGB影像和指令,透過VLM將任務分解為若干原子動作,其中表示動作型別,為操作物件,為目標位置(可選)。如圖示例中,任務被分解為抓取黃色圓柱體、移動至圓形插槽等四個原子動作。HCP透過基礎模型API進行物件分割,並結合感測器資料生成IOR表示。
(2)不變可操作表示(IOR)
每個原子動作

對應的IOR表示由四元組構成:

其中:Mi 包含夾爪、操作物件和目標的三視角掩膜 。Di 包含對應的一視角掩膜深度資訊 。Ci 包含末端執行器位姿和運動方向約束
透過GroundingDINO和SAM實現物件分割,結合VLM進行物件選擇。對於存在方向約束的任務(如開啟抽屜),HCP提供歸一化方向向量d∈R3。IOR表示具有領域不變性,可有效降低環境變化對模型的影響。
(3)通用具身智慧體(GEA)
在每個時間步 t 生成更新後的

,透過策略函式

對映為機械臂動作。針對“reach”類動作採用運動規劃,其他複雜動作結合強化學習與模仿學習進行訓練。

(4)閉環控制
採用雙頻更新機制:
– 高頻控制:透過Track-Anything即時更新掩膜和深度 
– 低頻控制:結合GPT-4o和夾爪狀態判斷任務狀態(成功/失敗/正常),失敗時重新生成。
3
通用具身智慧體訓練
如圖所示,訓練過程分為三個階段:
圖3. 通用具身智慧體訓練示意圖。
(1)強化學習階段
為每個任務訓練專家策略

,引入機械臂位姿、物體形狀和相機偏移等領域的隨機化以提升魯棒性。

(2)模仿學習階段
基於專家資料訓練通用策略

,輸入為廣義互動表示R。新增以下領域隨機化:

 1. 深度圖增強:高斯偏移、模糊、隨機掩膜 
2. 掩膜增強:隨機偏移、噪聲注入
(3)持續技能聚合
採用改進的DAgger演算法解決模仿學習的誤差累積問題(演算法1):
 1. 初始化各任務權重為均等值 
2. 定義分段函式將獎勵對映為權重調整值 
3. 迭代過程中動態調整任務取樣頻率,優先採集困難任務 
4. 記錄失敗軌跡並由專家生成修正資料
4
實驗

4.1 架構與訓練

我們為每個任務單獨訓練強化學習專家策略,採用DRQ-v2演算法進行訓練。輸入包含RGB影像、機器人本體感知和任務獨熱編碼,輸出低層級動作。通用智慧體採用與DRQ-v2相同的網路架構,輸入為不變可操作表示(IOR),其中原子動作採用獨熱編碼表示。

4.2 硬體配置

真實實驗採用Kinova Gen3機械臂,配置兩個Realsense D435i相機:腕部相機提供第一視角,固定相機提供第三視角。 設計四類任務:(1)物體抓取, (2)平面清掃 ,(3)按鈕按壓, (4)抽屜開啟。前兩類測試未見物體,評估泛化能力。另設計多階段積木插槽任務,評估長時程任務處理能力。
圖4.  RoBridge 在真實任務中表現卓越,適應真實複雜環境,展現良好泛化能力。

4.3 模擬基準

在Metaworld和Robosuite模擬環境中進行測試。Metaworld選取50個任務,在零樣本泛化測試中35個用於訓練,5個用於零樣本測試任務。

4.4 基線方法

  • DRQ-v2:多工強化學習基準
  • SayCan:基於LLM的技能規劃
  • PSL/ManipGen:動作級技能庫擴充套件方法
  • ReKep:關鍵點推理方法
  • RDT/π0系列:端到端擴散模型方法

4.5 模擬結果

下表顯示在Metaworld基準測試中,RoBridge平均成功率82.12%,較最優基線提升11.28%。在背景/光照/色彩/視角變化下均表現最佳魯棒性。

4.6真實場景結果

下表顯示在真實任務中,RoBridge平均成功率83.3%,長時程任務平均完成階段數3.0(表3)。視覺化結果顯示相比π0和ReKep,本方法能穩定處理複雜物理互動。
圖5. 真實機器人實驗

4.7 零樣本任務泛化

下表顯示在5個全新任務(物料分揀/物體取出/手柄按壓/托盤滑動/清掃入庫)中,RoBridge平均成功率75%,展現優異的零樣本遷移能力。
5
總結
本文提出了RoBridge,一種基於分層認知架構的機器人操作基礎模型,透過突破端到端VLA模型的瓶頸,以單張A100僅需1天訓練的高效正規化實現三大突破:其一,透過分離高層語義理解與底層物理控制,將VLM的開放場景認知優勢與強化學習的精確操作能力深度融合;其二,創新引入不變可操作表示(IOR)作為符號化中間層,有效解決傳統模型因跨模態特徵錯位導致的"腦手不一"問題;其三,零樣本泛化即可達成75%的新任務成功率,僅需5個真實樣本即可實現模擬到現實的泛化成功率(83%),相比RDT、π0等基線模型提升超40%。該架構透過高階認知規劃器(HCP)、IOR符號橋樑和通用具身代理(GEA)的三級協同,在顯著降低訓練成本的同時,顯著提升開放式任務的操作魯棒性,為破解機器人"知行合一"難題提供了可擴充套件的技術路徑。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
推薦閱讀

相關文章