點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
點選進入—>【超解析度】投稿交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【超解析度】投稿交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心
李飛飛「具身智慧」又出新研究了。
「機器人學習領域中的一個『聖盃』級挑戰是執行通用的日常家庭移動操作任務。藉助一款新型雙臂移動機器人,我們的最新成果 ——BEHAVIOR Robot Suite(簡稱 BRS)正在嘗試攻克這一極為困難且尚未解決的難題!」

在日常生活中,你有沒有想過這樣一個問題,即機器人究竟需要具備哪些能力才能真正幫助人類完成家務任務?BRS 就是為了解決這項任務而誕生的 —— 簡單來講,BRS 就是一個綜合性框架,用於掌握機器人多樣化家庭任務中移動全身操作。無論是倒垃圾、擺放衣物還是清潔馬桶,BRS 都能讓機器人應對這些日常實用活動。
例如,基於 BRS 的機器人可以幫助使用者撿垃圾:

將扔在地上的物體重新放在架子上:

還能幫你清潔馬桶,看起來是一個任勞任怨的機器人:

Party 過後幫你收拾桌子:

還能幫你去衣櫃拿衣服:

這麼全能的機器人是如何實現的呢?我們接著往下看。
方法介紹

論文主頁:https://behavior-robot-suite.github.io/
機器人需要具備哪些關鍵能力才能有效執行日常家務?
透過分析,研究團隊確定了成功執行這些任務所必需的三項全身控制能力:雙手協調、穩定精確的導航以及廣泛的末端執行器可達性。
例如,搬運大型重物需要雙手操作,而在房屋中檢索工具則依賴於穩定精確的導航。複雜任務 —— 如一邊拿著雜貨一邊開門,需要協調運用這兩種能力。此外,日常物品分佈在不同位置和高度,這要求機器人能夠相應地調整其觸及範圍。

經過精心設計的機器人硬體,配備雙臂、移動底座和靈活軀幹,是實現全身操作的關鍵。
然而,這類複雜設計給策略學習方法帶來了重大挑戰,尤其是在資料採集規模化和全身協調動作方面。
為應對這些挑戰,研究團隊推出了 BRS,旨在透過全身操作技術解決各種真實家庭任務。
BRS 有兩項關鍵創新,兩者協同解決機器人硬體和學習方面的挑戰。
-
JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms);
-
WB-VIMA(Whole-Body VisuoMotor Attention)。

JoyLo
為實現對高自由度移動機械臂的流暢控制,同時便於為後續策略學習收集資料,研究團隊推出了 JoyLo —— 一種構建經濟實惠的全身遠端操作介面的通用框架。

研究團隊在 R1 機器人上實現了 JoyLo,設計目標如下:
-
高效的全身協調控制系統,實現複雜動作的流暢銜接;
-
豐富的使用者反饋機制,帶來直觀的遠端操作體驗;
-
確保高質量的示範動作,提升策略學習效果;
-
低成本實現方案,大幅提高系統可及性;
-
即時、便捷的控制器設計,確保操作無縫順暢。
專案還提到,JoyLo 的成本總共不到 500 美元,團隊還貢獻了物料清單和組裝說明。
-
物料清單地址:https://behavior-robot-suite.github.io/docs/sections/joylo/overview.html#bill-of-materials-bom
-
組裝說明:https://behavior-robot-suite.github.io/docs/sections/joylo/step_by_step_assembly_guidance.html
WB-VIMA 策略

WB-VIMA 是一種模仿學習演算法,旨在透過利用機器人的固有運動學層次結構來建模全身動作。
WB-VIMA 的一個關鍵見解是,機器人關節之間存在強烈的相互依賴關係 —— 上游連結(例如軀幹)的小幅移動可能會導致下游連結(例如末端執行器)的大幅位移。為了確保所有關節之間的精確協調,WB-VIMA 將下游元件的動作預測條件化於上游元件的預測,從而實現更同步的全身運動。
此外,WB-VIMA 透過自注意力動態聚合多模態觀察,使其能夠學習表現力強的策略,同時減輕對本體感知輸入的過擬合。
實驗
實驗探討了以下問題:
-
Q1:BRS 支援哪些型別的家庭任務?
-
Q2:JoyLo 與其他方法相比表現如何?
-
Q3:WB-VIMA 是否優於基線方法?
-
Q4:哪些元件促成了 WB-VIMA 的有效性?
對於問題 1:BRS 適用於各種家庭任務,比如扔垃圾:
機器人先是導航到客廳中的垃圾袋旁邊,將其撿起(子任務 1),然後將垃圾攜帶到一扇關閉的門前(子任務 2),開啟門(子任務 3),移動到室外,並將垃圾袋放入垃圾桶(子任務 4)。
又比如,機器人打掃餐桌。機器人從客廳出發,導航到廚房的洗碗機(子任務 1)並開啟洗碗機(子任務 2)。然後,它移動到遊戲桌(子任務 3)收集碗(子任務 4)。最後,機器人返回洗碗機(子任務 5),將碗放入洗碗機內並關閉洗碗機(子任務 6)。穩定且精確的導航是完成這一任務的最關鍵能力。
對於問題 2:JoyLo 能夠為策略學習提供高質量的資料
研究團隊對 10 名參與者進行了全面的使用者研究,以評估 JoyLo 的效果及其收集資料對策略學習的適用性。下圖為將 JoyLo 與 VR 控制器和 Apple Vision Pro 進行比較。

效率優勢:
-
JoyLo 整體任務成功率是 VR 控制器的 5 倍(Apple Vision Pro 無人完成全任務);
-
中位完成時間較 VR 控制器縮短 23%;
-
在鉸接物體操作等精細任務中表現突出。

使用者研究結果(10 名參與者)。
使用者體驗:
-
所有參與者最終評價 JoyLo 為最友好互動;
-
70% 使用者最初認為 IK 更直觀,但實操後偏好逆轉;
-
使用者反饋 IK 方法在移動底座 / 軀幹控制上存在顯著困難。

使用者參與者的人口統計資料和調查結果。
對於問題 3:WB-VIMA 始終優於基線方法
實驗顯示,WB-VIMA 在所有任務中全面超越基準方法:端到端任務成功率比 DP3 高 13 倍,比 RGB-DP 高 21 倍;平均子任務表現分別優於 DP3(1.6 倍)和 RGB-DP(3.4 倍)。

五項代表性家庭活動的成功率。「ET」表示整個任務,「ST」表示子任務。

評估期間的安全違規情況。WB-VIMA 與環境物體的碰撞極少,且幾乎不會因施加過度力量而導致電機失去動力。
對於問題 4:WB-VIMA 元件對任務效能的影響
研究團隊針對 WB-VIMA 展開消融實驗,分別移除自迴歸全身動作去噪和多模態觀察注意力機制模組。實驗表明,任一元件缺失均導致效能顯著下降:在「將物品放上架子」及「整理衣物」任務的「開啟衣櫃」子任務中,移除自迴歸去噪模組使成功率驟降 53%;而多模態注意力機制缺失則全面削弱各任務表現。

「放置物品到架子上」和「鋪展衣物」任務的消融實驗結果。
最後,研究團隊還展示了幾個失敗案例。包括:
1) 儘管機器人已經抓住把手,但未能完全開啟洗碗機;
2) 未能按下衝水按鈕;
3) 未能從地板上拾起垃圾袋;
4) 未能抬起地上的箱子;
5) 未能關閉衣櫃門。

瞭解更多內容,請檢視原論文。
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
