李飛飛團隊「具身智慧」最新研究：機器人接手所有家務

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【超解析度】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：機器之心

李飛飛「具身智慧」又出新研究了。

「機器人學習領域中的一個『聖盃』級挑戰是執行通用的日常家庭移動操作任務。藉助一款新型雙臂移動機器人，我們的最新成果 ——BEHAVIOR Robot Suite（簡稱 BRS）正在嘗試攻克這一極為困難且尚未解決的難題！」

在日常生活中，你有沒有想過這樣一個問題，即機器人究竟需要具備哪些能力才能真正幫助人類完成家務任務？BRS 就是為了解決這項任務而誕生的 —— 簡單來講，BRS 就是一個綜合性框架，用於掌握機器人多樣化家庭任務中移動全身操作。無論是倒垃圾、擺放衣物還是清潔馬桶，BRS 都能讓機器人應對這些日常實用活動。

例如，基於 BRS 的機器人可以幫助使用者撿垃圾：

將扔在地上的物體重新放在架子上：

還能幫你清潔馬桶，看起來是一個任勞任怨的機器人：

Party 過後幫你收拾桌子：

還能幫你去衣櫃拿衣服：

這麼全能的機器人是如何實現的呢？我們接著往下看。

方法介紹

論文主頁：https://behavior-robot-suite.github.io/

機器人需要具備哪些關鍵能力才能有效執行日常家務？

透過分析，研究團隊確定了成功執行這些任務所必需的三項全身控制能力：雙手協調、穩定精確的導航以及廣泛的末端執行器可達性。

例如，搬運大型重物需要雙手操作，而在房屋中檢索工具則依賴於穩定精確的導航。複雜任務 —— 如一邊拿著雜貨一邊開門，需要協調運用這兩種能力。此外，日常物品分佈在不同位置和高度，這要求機器人能夠相應地調整其觸及範圍。

經過精心設計的機器人硬體，配備雙臂、移動底座和靈活軀幹，是實現全身操作的關鍵。

然而，這類複雜設計給策略學習方法帶來了重大挑戰，尤其是在資料採集規模化和全身協調動作方面。

為應對這些挑戰，研究團隊推出了 BRS，旨在透過全身操作技術解決各種真實家庭任務。

BRS 有兩項關鍵創新，兩者協同解決機器人硬體和學習方面的挑戰。

JoyLo（Joy-Con on Low-Cost Kinematic-Twin Arms）；
WB-VIMA（Whole-Body VisuoMotor Attention）。

JoyLo

為實現對高自由度移動機械臂的流暢控制，同時便於為後續策略學習收集資料，研究團隊推出了 JoyLo —— 一種構建經濟實惠的全身遠端操作介面的通用框架。

研究團隊在 R1 機器人上實現了 JoyLo，設計目標如下：

高效的全身協調控制系統，實現複雜動作的流暢銜接；
豐富的使用者反饋機制，帶來直觀的遠端操作體驗；
確保高質量的示範動作，提升策略學習效果；
低成本實現方案，大幅提高系統可及性；
即時、便捷的控制器設計，確保操作無縫順暢。

專案還提到，JoyLo 的成本總共不到 500 美元，團隊還貢獻了物料清單和組裝說明。

物料清單地址：https://behavior-robot-suite.github.io/docs/sections/joylo/overview.html#bill-of-materials-bom
組裝說明：https://behavior-robot-suite.github.io/docs/sections/joylo/step_by_step_assembly_guidance.html

WB-VIMA 策略

WB-VIMA 是一種模仿學習演算法，旨在透過利用機器人的固有運動學層次結構來建模全身動作。

WB-VIMA 的一個關鍵見解是，機器人關節之間存在強烈的相互依賴關係 —— 上游連結（例如軀幹）的小幅移動可能會導致下游連結（例如末端執行器）的大幅位移。為了確保所有關節之間的精確協調，WB-VIMA 將下游元件的動作預測條件化於上游元件的預測，從而實現更同步的全身運動。

此外，WB-VIMA 透過自注意力動態聚合多模態觀察，使其能夠學習表現力強的策略，同時減輕對本體感知輸入的過擬合。

實驗

實驗探討了以下問題：

Q1：BRS 支援哪些型別的家庭任務？
Q2：JoyLo 與其他方法相比表現如何？
Q3：WB-VIMA 是否優於基線方法？
Q4：哪些元件促成了 WB-VIMA 的有效性？

對於問題 1：BRS 適用於各種家庭任務，比如扔垃圾：

機器人先是導航到客廳中的垃圾袋旁邊，將其撿起（子任務 1），然後將垃圾攜帶到一扇關閉的門前（子任務 2），開啟門（子任務 3），移動到室外，並將垃圾袋放入垃圾桶（子任務 4）。

又比如，機器人打掃餐桌。機器人從客廳出發，導航到廚房的洗碗機（子任務 1）並開啟洗碗機（子任務 2）。然後，它移動到遊戲桌（子任務 3）收集碗（子任務 4）。最後，機器人返回洗碗機（子任務 5），將碗放入洗碗機內並關閉洗碗機（子任務 6）。穩定且精確的導航是完成這一任務的最關鍵能力。

對於問題 2：JoyLo 能夠為策略學習提供高質量的資料

研究團隊對 10 名參與者進行了全面的使用者研究，以評估 JoyLo 的效果及其收集資料對策略學習的適用性。下圖為將 JoyLo 與 VR 控制器和 Apple Vision Pro 進行比較。

效率優勢：

JoyLo 整體任務成功率是 VR 控制器的 5 倍（Apple Vision Pro 無人完成全任務）；
中位完成時間較 VR 控制器縮短 23%；
在鉸接物體操作等精細任務中表現突出。

使用者研究結果（10 名參與者）。

使用者體驗：

所有參與者最終評價 JoyLo 為最友好互動；
70% 使用者最初認為 IK 更直觀，但實操後偏好逆轉；
使用者反饋 IK 方法在移動底座 / 軀幹控制上存在顯著困難。

使用者參與者的人口統計資料和調查結果。

對於問題 3：WB-VIMA 始終優於基線方法

實驗顯示，WB-VIMA 在所有任務中全面超越基準方法：端到端任務成功率比 DP3 高 13 倍，比 RGB-DP 高 21 倍；平均子任務表現分別優於 DP3（1.6 倍）和 RGB-DP（3.4 倍）。

五項代表性家庭活動的成功率。「ET」表示整個任務，「ST」表示子任務。

評估期間的安全違規情況。WB-VIMA 與環境物體的碰撞極少，且幾乎不會因施加過度力量而導致電機失去動力。

對於問題 4：WB-VIMA 元件對任務效能的影響

研究團隊針對 WB-VIMA 展開消融實驗，分別移除自迴歸全身動作去噪和多模態觀察注意力機制模組。實驗表明，任一元件缺失均導致效能顯著下降：在「將物品放上架子」及「整理衣物」任務的「開啟衣櫃」子任務中，移除自迴歸去噪模組使成功率驟降 53%；而多模態注意力機制缺失則全面削弱各任務表現。

「放置物品到架子上」和「鋪展衣物」任務的消融實驗結果。

最後，研究團隊還展示了幾個失敗案例。包括：

1) 儘管機器人已經抓住把手，但未能完全開啟洗碗機；

2) 未能按下衝水按鈕；

3) 未能從地板上拾起垃圾袋；

4) 未能抬起地上的箱子；

5) 未能關閉衣櫃門。

瞭解更多內容，請檢視原論文。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群