李飛飛團隊「具身智慧」最新研究:機器人接手所有家務

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達
點選進入—>【超解析度】投稿交流群

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心
李飛飛「具身智慧」又出新研究了。
「機器人學習領域中的一個『聖盃』級挑戰是執行通用的日常家庭移動操作任務。藉助一款新型雙臂移動機器人,我們的最新成果 ——BEHAVIOR Robot Suite(簡稱 BRS)正在嘗試攻克這一極為困難且尚未解決的難題!」

在日常生活中,你有沒有想過這樣一個問題,即機器人究竟需要具備哪些能力才能真正幫助人類完成家務任務?BRS 就是為了解決這項任務而誕生的 —— 簡單來講,BRS 就是一個綜合性框架,用於掌握機器人多樣化家庭任務中移動全身操作。無論是倒垃圾、擺放衣物還是清潔馬桶,BRS 都能讓機器人應對這些日常實用活動。
例如,基於 BRS 的機器人可以幫助使用者撿垃圾:
將扔在地上的物體重新放在架子上:
還能幫你清潔馬桶,看起來是一個任勞任怨的機器人:
Party 過後幫你收拾桌子:
還能幫你去衣櫃拿衣服:
這麼全能的機器人是如何實現的呢?我們接著往下看。
方法介紹
論文主頁:https://behavior-robot-suite.github.io/
機器人需要具備哪些關鍵能力才能有效執行日常家務?
透過分析,研究團隊確定了成功執行這些任務所必需的三項全身控制能力:雙手協調、穩定精確的導航以及廣泛的末端執行器可達性。
例如,搬運大型重物需要雙手操作,而在房屋中檢索工具則依賴於穩定精確的導航。複雜任務 —— 如一邊拿著雜貨一邊開門,需要協調運用這兩種能力。此外,日常物品分佈在不同位置和高度,這要求機器人能夠相應地調整其觸及範圍。

經過精心設計的機器人硬體,配備雙臂、移動底座和靈活軀幹,是實現全身操作的關鍵。
然而,這類複雜設計給策略學習方法帶來了重大挑戰,尤其是在資料採集規模化和全身協調動作方面。
為應對這些挑戰,研究團隊推出了 BRS,旨在透過全身操作技術解決各種真實家庭任務。
BRS 有兩項關鍵創新,兩者協同解決機器人硬體和學習方面的挑戰。
  • JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms);
  • WB-VIMA(Whole-Body VisuoMotor Attention)。
JoyLo
為實現對高自由度移動機械臂的流暢控制,同時便於為後續策略學習收集資料,研究團隊推出了 JoyLo —— 一種構建經濟實惠的全身遠端操作介面的通用框架。
研究團隊在 R1 機器人上實現了 JoyLo,設計目標如下:
  • 高效的全身協調控制系統,實現複雜動作的流暢銜接;
  • 豐富的使用者反饋機制,帶來直觀的遠端操作體驗;
  • 確保高質量的示範動作,提升策略學習效果;
  • 低成本實現方案,大幅提高系統可及性;
  • 即時、便捷的控制器設計,確保操作無縫順暢。
專案還提到,JoyLo 的成本總共不到 500 美元,團隊還貢獻了物料清單和組裝說明。
  • 物料清單地址:https://behavior-robot-suite.github.io/docs/sections/joylo/overview.html#bill-of-materials-bom
  • 組裝說明:https://behavior-robot-suite.github.io/docs/sections/joylo/step_by_step_assembly_guidance.html
WB-VIMA 策略
WB-VIMA 是一種模仿學習演算法,旨在透過利用機器人的固有運動學層次結構來建模全身動作。
WB-VIMA 的一個關鍵見解是,機器人關節之間存在強烈的相互依賴關係 —— 上游連結(例如軀幹)的小幅移動可能會導致下游連結(例如末端執行器)的大幅位移。為了確保所有關節之間的精確協調,WB-VIMA 將下游元件的動作預測條件化於上游元件的預測,從而實現更同步的全身運動。
此外,WB-VIMA 透過自注意力動態聚合多模態觀察,使其能夠學習表現力強的策略,同時減輕對本體感知輸入的過擬合。
實驗
實驗探討了以下問題:
  • Q1:BRS 支援哪些型別的家庭任務?
  • Q2:JoyLo 與其他方法相比表現如何?
  • Q3:WB-VIMA 是否優於基線方法?
  • Q4:哪些元件促成了 WB-VIMA 的有效性?
對於問題 1:BRS 適用於各種家庭任務,比如扔垃圾:
機器人先是導航到客廳中的垃圾袋旁邊,將其撿起(子任務 1),然後將垃圾攜帶到一扇關閉的門前(子任務 2),開啟門(子任務 3),移動到室外,並將垃圾袋放入垃圾桶(子任務 4)。
又比如,機器人打掃餐桌。機器人從客廳出發,導航到廚房的洗碗機(子任務 1)並開啟洗碗機(子任務 2)。然後,它移動到遊戲桌(子任務 3)收集碗(子任務 4)。最後,機器人返回洗碗機(子任務 5),將碗放入洗碗機內並關閉洗碗機(子任務 6)。穩定且精確的導航是完成這一任務的最關鍵能力。
對於問題 2:JoyLo 能夠為策略學習提供高質量的資料
研究團隊對 10 名參與者進行了全面的使用者研究,以評估 JoyLo 的效果及其收集資料對策略學習的適用性。下圖為將 JoyLo 與 VR 控制器和 Apple Vision Pro 進行比較。
效率優勢:
  • JoyLo 整體任務成功率是 VR 控制器的 5 倍(Apple Vision Pro 無人完成全任務);
  • 中位完成時間較 VR 控制器縮短 23%;
  • 在鉸接物體操作等精細任務中表現突出。

使用者研究結果(10 名參與者)。
使用者體驗:
  • 所有參與者最終評價 JoyLo 為最友好互動;
  • 70% 使用者最初認為 IK 更直觀,但實操後偏好逆轉;
  • 使用者反饋 IK 方法在移動底座 / 軀幹控制上存在顯著困難。
使用者參與者的人口統計資料和調查結果。
對於問題 3:WB-VIMA 始終優於基線方法
實驗顯示,WB-VIMA 在所有任務中全面超越基準方法:端到端任務成功率比 DP3 高 13 倍,比 RGB-DP 高 21 倍;平均子任務表現分別優於 DP3(1.6 倍)和 RGB-DP(3.4 倍)。

五項代表性家庭活動的成功率。「ET」表示整個任務,「ST」表示子任務。

評估期間的安全違規情況。WB-VIMA 與環境物體的碰撞極少,且幾乎不會因施加過度力量而導致電機失去動力。
對於問題 4:WB-VIMA 元件對任務效能的影響
研究團隊針對 WB-VIMA 展開消融實驗,分別移除自迴歸全身動作去噪和多模態觀察注意力機制模組。實驗表明,任一元件缺失均導致效能顯著下降:在「將物品放上架子」及「整理衣物」任務的「開啟衣櫃」子任務中,移除自迴歸去噪模組使成功率驟降 53%;而多模態注意力機制缺失則全面削弱各任務表現。
「放置物品到架子上」和「鋪展衣物」任務的消融實驗結果。
最後,研究團隊還展示了幾個失敗案例。包括:
1) 儘管機器人已經抓住把手,但未能完全開啟洗碗機;
2) 未能按下衝水按鈕;
3) 未能從地板上拾起垃圾袋;
4) 未能抬起地上的箱子;
5) 未能關閉衣櫃門。
瞭解更多內容,請檢視原論文。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章