億級短影片資料突破具身智慧ScalingLaw!Being-H0提出VLA訓練新正規化

BeingBeyond團隊 投稿量子位 | 公眾號 QbitAI
如何讓機器人從看懂世界,到理解意圖,再到做出動作,是具身智慧領域當下最受關注的技術重點。
真機資料的匱乏,正在使對應的視覺-語言-動作(VLA)模型面臨發展瓶頸。
儘管業界已投入大量資源構建資料平臺(如馬斯克主導的“資料工廠”專案),現有真機資料規模仍較模型規模定律所需的上億級訓練樣本相差三個數量級。

Being-H0:基於人類影片手部資料的大規模預訓練VLA模型
針對這一關鍵問題,北京大學&BeingBeyond盧宗青團隊提出了創新性解決方案:
該研究團隊利用海量人類操作影片提取手部運動軌跡,構建了規模達億級的訓練資料集
其核心貢獻在於提出了“物理指令微調”(physical instruction tuning)方法框架,實現了從人類手部運動到機器人動作空間的精確對映。
基於這一技術突破,團隊成功訓練出首個基於人類影片手部資料的大規模預訓練VLA模型——Being-H0,並完成了真實機器人平臺的驗證實驗。
這項研究發現:
  • 人的雙手可被視為各種末端執行器的標準模版(包括靈巧手、夾爪)
  • 透過大規模人手操作影片預訓練VLA生成人手動作,能解決具身領域規模定律(Scaling Law)的“資料瓶頸”
  • 預訓練VLA能大幅提升機器人操作任務成功率和真機樣本效率

Being-H0:首個利用人類操作軌跡訓練的大規模VLA模型

Being-H0的基礎建立於如下關鍵假設:
人類手部運動可以被視為最完備的操作執行器,而現有機器人末端執行器均可視為其特定子集。上至複雜的五指靈巧手,下至結構簡單的二指夾爪(可抽象為手腕-雙指三節點系統),都能從人類手部運動知識中獲益。
透過預訓練學習人類操作軌跡,可以構建具有廣泛適應性的基座模型。
值得注意的是,這類影片資料在當前的短影片時代具有極高的易獲取性,且天然避免了模擬環境數採帶來的“虛擬-現實”差異問題。
研究團隊借鑑視覺指令微調(visual instruction tuning)的成功經驗,創新性地提出了一個完整的物理指令微調框架。

物理指令調優訓練框架
與前者不同,新框架專門針對2D多模態資料與3D機器人動作空間之間的異構性問題進行了設計——這正是現有模型在具身任務中表現不及多模態評測的主要原因——包含以下三個關鍵部分:
1. 預訓練——從百萬量級人手操作影片中學習
傳統多模態大模型在向VLA遷移時面臨的核心瓶頸在於,預訓練階段與下游任務之間存在顯著的資料異構性。基於一維自然語言訓練的模型雖擅長語言推理,基於二維影像訓練的模型雖精於視覺語言推斷,但二者均難以建模三維動作空間的語義。為此,該研究透過海量手部操作軌跡資料來彌合這一模態鴻溝,並設計了統一的多模態自迴歸架構,實現了視覺、語言與動作模態的協同表徵學習與聯合生成。
Being-H0採用了分部位動作編碼方案: 在預訓練過程中,針對手腕和手指分別設計專用編碼器,採用基於分組的殘差變分量化自編碼器,將動作姿態重建誤差控制在毫米級,有效解決了動作離散化帶來的精度損失問題。
2. 物理空間對齊——消除不同資料來源的異構性,進行2D影片到三維空間的物理對齊
研究引入物理空間對齊技術,透過統一的座標系轉換方法,消除了多源資料在相機引數、觀測視角等方面的差異性,確保VLA模型能夠有效學習空間與動作表徵。
3. 後訓練——從預訓練模型遷移到真機
Being-H0建立了從人類動作到機器人操作的高效轉換通道,確保技能遷移的有效性。

預訓練和後訓練的架構細節

上億級規模UniHand資料集

為滿足物理指令調優框架對訓練資料的需求,研究團隊系統性地構建了一套完整的資料採集與處理流程,包括資料收集、清洗和對齊等關鍵環節。
基於此流程,團隊構建了規模達上億級的UniHand資料集
該資料集整合了來自11個開源資料來源的多模態資料,涵蓋動作捕捉系統、虛擬現實(VR)裝置採集以及常規RGB影片三種主要資料來源。

UniHand:規模超過1.5億的人類手勢動作資料集
在任務型別方面,資料集主要包含以下三類預訓練任務:
  1. 基於指令的手勢動作生成;
  2. 手勢動作語義理解;
  3. 上下文感知的動作預測。
經過系統整合與處理,最終構建的資料集包含1.5億條人類手部動作指令樣本。
值得注意的是,即便僅使用其中250萬條樣本進行預訓練,模型在手勢動作預測任務及下游真實機器人任務上均已展現出顯著效能提升。

真實機器人實驗驗證

除常規預訓練任務評估外,這項研究的一個重要貢獻在於開展了全面的真實機器人實驗以驗證方法有效性。
實驗結果表明,在保持下游任務訓練引數一致的情況下,基於物理指令調優框架訓練的Being-H0模型顯著超越了其基座模型InternVL3,同時也優於同期英偉達NVIDIA開源的VLA大模型GR00T N1.5。
需要特別指出的是,GR00T N1.5在訓練過程中同樣採用了人類影片資料進行隱式動作空間學習,且其訓練規模遠超Being-H0當前使用的預訓練資料量。
這一對比結果有力地證實了本研究資料構建策略的有效性:透過顯式構建與下游任務結構高度對齊的預訓練資料,能夠顯著提升模型從影片資料中學習人類動作知識的效果,進而提高下游任務的成功率。為深入驗證方法的魯棒性,研究團隊進一步對比了Being-H0與未經預訓練的基礎模型在不同訓練資料規模下的效能表現。
實驗設定了從25%到100%不等的訓練資料取樣比例,結果表明在相同資料量條件下,Being-H0模型始終展現出穩定的效能優勢。
此外,在同樣成功率下,Being-H0所需要的真機資料量遠少於其他模型(例如,在Pick-Place-Toy任務中,Being-H0在25%真機資料訓練的效能已接近其他模型在100%資料上的效能)。
這一系列實驗不僅驗證了物理指令調優框架的有效性,同時也證實了該方法可以顯著降低真機資料量。
下列影片展示了其中一些真機演示的例子(影片無加速剪輯)。

BeingBeyond團隊

Being-H0由包括智在無界、北京大學以及人民大學的研究團隊共同打造。
作為首個基於人類操作軌跡訓練的大規模VLA模型,Being-H0成功突破了資料封鎖的桎梏,為機器人靈巧操作研究開闢了新正規化。
團隊表示,正持續攻堅具身智慧大模型、靈巧操作、全身運動控制等核心技術,致力於讓機器人真正走進千家萬戶。
文章連結:https://arxiv.org/pdf/2507.15597專案官網:https://beingbeyond.github.io/Being-H0/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章