點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

隨著具身智慧的不斷發展,機器人操作也逐漸融入到人們的日常生活中,可輔助完成物體抓取、倒水、表面清潔和整理等任務。透過模仿學習,如今的機器人能夠模仿影片演示中的動作,完成對應的任務。但要求操作環境與影片演示中的環境幾乎完全相同,這限制了其在新場景中的泛化能力,比如:當被操作物體的位置或被操作物體本身發生變化時,機器人便無法準確地完成任務。
為解決機器人操作泛化能力不足的問題,近期研究將模仿學習與影片生成等生成模型結合,透過生成機器人 – 物體互動的演示影片來提升泛化能力。但是由於機器人資料難以採集,無法收集到大量的高質量資料,這類方法所提供的泛化能力仍然有限。鑑於人手操作影片資料量龐大且採集難度低,一種更具擴充套件性的方案是生成人手 – 物體互動的演示影片,以實現更優的泛化效果。此外,當前先進的策略模型已能夠有效彌合人手與機器人操作之間的差異,透過模仿人手互動動作控制機器人執行任務,並展現出良好的應用潛力,進一步驗證了該方案的可行性。然而,由於缺乏高質量的人手 – 物體互動影片及其詳細任務指令,當前通用影片生成模型在生成特定任務和環境下的互動影片時,仍然面臨挑戰。
為攻克現有挑戰,香港中文大學(深圳)的研究團隊推出 TASTE-Rob—— 首個面向任務的大規模人手 – 物互動資料集,其涵蓋 100,856 個匹配精準語言指令的第一視角互動影片。區別於 Ego4D,TASTE-Rob 透過固定機位,獨立拍攝單次的完整互動過程,確保了環境穩定、指令與影片精準對應等特性,為模仿學習等領域提供了高質量資料。此外,該團隊提出三階段影片生成流程:先基於指令和環境影像生成初步演示影片,再借助運動擴散模型最佳化手部姿態序列以解決抓取姿態不穩定的問題,最後再根據最佳化後的姿態重新生成影片,顯著提升了手物互動真實感。實驗證實,該資料集與三階段流程的結合,在影片生成質量和機器人操作準確度上均大幅超越現有生成模型。該資料集即將在專案主頁公開,歡迎大家一起探索!

論文:https://arxiv.org/abs/2503.11423
主頁:https://taste-rob.github.io/
https://github.com/GAP-LAB-CUHK-SZ/TASTE-Rob
資料集屬性
TASTE-Rob包含了 100,856 組影片及其對應的詳細語言任務指令。為滿足人手 – 物互動影片生成需求,TASTE-Rob 旨在實現以下目標:1)所有影片採用固定機位拍攝,每個影片僅記錄一段與任務指令高度匹配的動作;2)覆蓋多樣化的環境和任務型別;3)包含各類人手 – 物互動場景下的豐富手部姿態。
圖 1展示了資料集覆蓋的環境包括廚房、臥室、餐桌、辦公桌等場景;以及資料採集過程中,採集者需與各類常用物品進行互動,執行拿取、放置、推挪、傾倒等操作。
圖2展示了資料集中手部抓握姿態的分佈,主要關注拇指、食指和中指的指間夾角與彎曲度。由於被抓取物體和執行動作型別的多樣性,資料集覆蓋了豐富的抓握姿態。

圖1. TASTE-Rob場景及動作型別統計

圖2. TASTE-Rob手部抓握姿態統計
TASTE-Rob與現有HOI資料集的對比
表1展示了TASTE-Rob 資料集與現有的第一視角人手 – 物互動(HOI)影片資料集的對比情況,主要的區別體現在以下幾點:1)相機視角及動作 – 指令匹配程度:考慮到模仿學習中的影片演示一般從固定的攝像機視角進行錄製,並且僅包含一個與任務指令相匹配的單一動作,因此 TASTE-Rob 中用了同樣的設定條件;2)語言指令的詳細程度:為了進一步提升對語言指令的理解程度,TASTE-Rob在指令中融入了豐富多樣的物體限定詞,從而生成有效且準確的演示影片;3)資料量及資料質量:TASTE-Rob擁有最多的影片片段數量和1080p的影片解析度。

表1. TASTE-Rob與現有HOI資料集的對比
三階段影片生成流程
當給定一張環境影像和一個任務指令描述,所生成的人手 – 物互動影片需滿足:1)準確的任務理解:能正確理解要操作的物體以及操作方式;2)可行的手物互動:在整個操作過程中保持一致的手部抓握姿勢。如圖3的第一階段所示,在TASTE-Rob資料集上微調的影片生成模型所生成的影片雖然能準確理解任務,但在保持一致抓握姿勢方面表現一般。為了滿足這兩個要求,該研究團隊在第二階段從生成影片中提取手部姿態序列,並使用訓練得到的運動擴散模型對其進行最佳化,並在第三階段基於最佳化後的手部姿態序列,生成同時滿足上述兩個要求的高真實度人手 – 物互動影片。

圖3. 三階段影片生成流程
TASTE-Rob能帶來什麼?
TASTE-Rob資料集能帶來什麼?
研究團隊探索了TASTE-Rob對影片生成質量的幫助:對比了在TASTE-Rob資料集上微調(Coarse-TASTE-Rob)與在Ego4D資料集上微調( Ego4D-Gen)的影片生成效能,兩者間唯一的區別在於所使用的訓練資料集不同。如表 2和圖4所示,TASTE-Rob資料集帶來了更優的生成質量。

表2. 在Ego4D/TASTE-Rob上微調影片生成模型的數值結果

圖4. 在Ego4D/TASTE-Rob上微調影片生成模型的視覺化結果
三階段影片生成流程能帶來什麼?
研究團隊從三個評估維度上探索了三階段影片生成流程對影片生成質量的幫助:如表 3的影片生成指標和圖5所示,影片生成的宏觀表現上,該流程能夠生成更高質量的手物互動影片。影片生成的細節表現上,表 3 中的抓握姿態一致性指標和圖 5 的結果進一步驗證了,該流程有效解決了抓握姿態不穩定的問題,成功幫助機器人實現更準確的操作。此外,在機器人的模仿學習效果上,如圖 6和表 3中的成功率指標所示,該流程有助於策略模型更準確地完成任務,顯著提升了任務成功率。

表3. 使用/不使用三階段影片生成流程的數值結果

圖5. 使用/不使用三階段影片生成流程在真實場景測試集的視覺化結果

圖6. 使用/不使用三階段影片生成流程在機器人模擬平臺測試集的視覺化結果
展望
我們相信TASTE-Rob將會為整個具身智慧社群帶來很多諸多可能性與挑戰,期待與大家共同探索!
更多資料集與實驗細節請參閱原論文。
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
