北大人形機器人智慧體Being-0:網際網路影片+少量真機資料,邁向自主具身智慧

Being團隊 投稿

量子位 | 公眾號 QbitAI
首個集運動、導航、靈巧操作於一體的人形機器人通用智慧體來了,來自北京大學盧宗青團隊。
這項新研究名為Being-0,提出了模組化的分層端到端架構,將具身大模型與人形機器人的運動、導航、靈巧操作無縫整合,使機器人能夠像人類一樣進行復雜推理,在物理世界中穿梭,並自主完成長程任務
更重要的是,Being-0實現這些功能,僅需要網際網路影片+少量真機資料
Be like:
Being,請拿我的紙杯去咖啡機做一杯意式濃縮。

讓人形機器人真正走入現實生活

要讓人形機器人真正融入現實生活、成為人類生活工作的助手,不僅需要成熟的運動控制和靈巧操作技能,更需要智慧的任務規劃與執行能力,實現自主、高效的長程任務執行。
然而,這面臨兩大難題:
  1. 如何讓機器人“想”得對?——智慧體需從人類的海量資料中學習通用、可泛化的任務理解和推理能力;
  2. 如何讓機器人“做”得準?——智慧體要能夠控制機器人本體,在複雜環境中實現可靠的技能規劃與銜接,穩定地進行運動導航、靈巧操作。
Being-0提出了一套模組化的分層架構來實現人形機器人智慧體,成功實現了機器人任務規劃、導航、靈巧操作的協同執行,並在真實環境中驗證了其高效性和可靠性。
具體來說,模組化的端到端分層架構由通用智慧+具身技能組成:
  • 上層:基礎大模型(FM)
    負責任務規劃、推理和失敗檢測,學習通用任務理解。
  • 中層:視覺語言模型(VLM)
    • 結合語言和機器人第一人稱視覺輸入,理解具身場景。
    • 將基礎大模型的任務規劃轉換為可執行的導航+操作技能,解決基礎大模型在具身推理上的不足。
  • 底層:模組化技能庫
    • 運動技能:讓機器人在場景中自主導航,穿梭自如。
    • 操作技能:包含抓取、放置、操作螢幕等原子技能。能夠用少量真機資料學習,實現新技能的即插即用。

網際網路影片+少量真機資料,高效訓練智慧體

將基礎大模型的任務規劃(如“取桌上的咖啡杯”)轉換為底層技能的執行並非易事。主流的VLA模型需要採集大量真實機器人的資料以實現泛化性,成本極高。而讓基礎大模型直接規劃呼叫原子技能庫,在人形機器人上面臨兩個難題:
  • 導航需要即時調整:不像輪式機器人可精確按照預先規劃的軌跡移動,人形機器人導航需要結合視覺觀察進行即時的地閉環控制。
  • 導航和操作需要有效銜接:例如讓機器人導航去咖啡機做咖啡,需要讓機器人到達面對咖啡機螢幕的位置;否則,不合理的結束位置將使得後續操作無法執行。
Being-0提出的VLM模型模組能夠利用低成本、海量的第一人稱影片資料進行學習,成為銜接基礎大模型和底層技能庫的橋樑:
  • 透過影片+標註的導航動作,VLM學會閉環的視覺導航策略,使人形機器人能夠穩定導航、找對目標;
  • 透過影片+標註的任務指令、技能,VLM 學會預測正確的原子技能,大幅提高執行效率和成功率。
在基礎大模型和VLM的加持下,模組化技能庫只需要少量遙操作資料即可訓練短程的原子技能,每個技能僅需約100條軌跡,顯著降低資料需求。

實現人類級別的靈巧操作

Being-0採用全尺寸人形機器人,搭載靈巧手+主動視覺,能實現人類級別的靈活操作。
就像這樣,主動調整頭部視角,提高環境感知能力,並使用多指靈巧手完成穩定的抓取、放置和靈巧的工具操作。
此外,團隊實現了將VLM和底層技能庫全部部署於機器人端,實現高效即時的任務響應,最小化對網路和外部算力的依賴。
高成功率的長任務推理與執行
Being-0還在多項真實世界長程任務中表現卓越,在大場地的辦公生活場景中實現了自主地搬運籃筐、抓取水瓶、製作咖啡等能力。
實驗結果驗證了:
Being-0的VLM設計提供了高效、高成功率的技能規劃和導航能力,使長程任務成功率遠超基線方法。
Being-0主動視覺的設計顯著增強了任務完成度,使導航、操作更加靈活高效。

Being團隊

Being團隊由來自北京大學、智源研究院以及智在無界的研究人員組成。
Being-0作為首個集運動、導航、靈巧操作於一體的人形機器人智慧體,成功打通了任務規劃-導航-操作的閉環控制,開啟人形機器人研究和應用的新篇章。
團隊表示,目前正在持續迭代人形機器人的具身大模型、全身運動控制、靈巧操作等能力,在未來讓機器人智慧體湧現更強的自主能力和泛化性。
論文連結:https://arxiv.org/abs/2503.12533
專案主頁:https://beingbeyond.github.io/being-0
—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章