對話王辰：MimicPlay&DexCap——如何利用人類影片和人體動捕資料進行機器人訓練

在機器人訓練資料方面，有一個數據金字塔，金字塔的低端是網際網路資料和合成資料，這類資料量最大、成本最低、但資料質量較差；金字塔的頂端是訓練某個機器人，人類遙操這個機器人本體產生的資料，雖然資料質量最高，但獲取難度大、資料量小；位於金字塔中間部分的，則是鑑於合成數據和機器人本身資料中間的人類動作捕捉資料。我們今天介紹的這兩篇工作MimicPlay: Long-Horizon Imitation Learning by Watching Human Play和DexCap：Scalable and Portable Mocap Data Collection System for Dexterous Manipulation，就分別利用金字塔的最底層人類資料和金字塔的中間層人類動作捕捉資料採集裝備，來為機器人訓練提供資料。

這裡我稍微對這兩個工作多做一些榮譽介紹，2023年11月，MimicPlay 被選為CoRL 2023年度最佳論文獎、最佳學生論文獎以及最佳系統論文獎的入圍獎，約等於包圓了CoRL 2023的所有Best Paper獎，大滿貫，不得不說，太牛了。2024年5月，DexCap 被機器人頂會RSS 2024接收。MimicPlay的作者包括Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar; DexCap的作者包括Chen Wang, Haochen Shi, Weizhuo Wang, Ruohan Zhang, Li Fei-Fei, C. Karen Liu。

我們很榮幸的邀請到MimicPlay和DexCap的一作王辰博士針對這兩個工作做一些交流。王辰博士目前是斯坦福大學計算機科學系的博士生，由李飛飛教授和Karen Liu教授指導。在加入斯坦福之前，王辰於2020年從上海交通大學獲得計算機科學學士學位。他的研究目標是構建具有類人靈巧和處理日常任務能力的機器人。為此，王辰專注於機器人靈巧操作的學習、從人類運動中進行模仿學習，以及長時程規劃與控制。

以下為本文目錄

👇

1. 具身智慧資料採集方式有哪些

2. MimicPlay：透過人類遊戲進行長時模仿學習

MimicPlay的核心思想

MimicPlay方法介紹

MimicPlay和LLM在任務規劃上的區別？

人類影片學習軌跡vs軌跡最佳化

如何從2D影片中學習到3D軌跡

Embodiment Gap怎麼解決？

毫米級精度怎麼解決？

3. DexCap：靈巧操作動作捕捉資料收集系統

DexCap結構介紹

為什麼DexCap動作慢一些？

什麼是inverse kinematic？

人手資料如何對映到機械手上？

策略部署效果如何？

DexCap還有哪些問題？

4. 一些補充問題

關於MimicPlay和DexCap的結合

DexCap和UMI比較

5. 一些想法

1. 具身智慧資料採集方式有哪些

資料可以看作是金字塔，最底層是最便宜、最大量的資料，例如網際網路資料和生成資料。這些資料量大，但缺點在於無法很好地復現物理世界，這些虛擬的資料無法很好的解決比如碰撞和摩擦力等這些物理世界運動學或動力學問題，也存在sim2real gap的問題，這些也是學界正在努力解決的難題。

金字塔的倒數第二層是人類動作捕捉資料，可能需要人穿一些東西，但可以獲得比較高精度的資料，這些精度可以實現不少機器人任務，比如pick 和place，但也不能解決所有問題，因為存在embodiment Gap，機器人無法像人類那樣自如地移動，只能處理特定任務。這一層的資料成本略高，需要購買裝置，資料量肯定不如網際網路或合成數據那麼多，但相對來說資料質量更高，因為它們是從現實生活中獲取的，不存在虛擬到現實的差距。

金字塔最頂層的資料搖操作資料，即透過手動操作機器人來採集資料。你需要親自操作機器人，告訴它如何行動，比如夾取物品等。因此，這種資料的量肯定比前兩種要少，因為操作速度較慢，並且需要有人專門負責操作機器人。這意味著你需要擁有這樣一臺機器人，並且有人員去訓練和操作它，這不僅增加了成本，還需要專門的資料採集員。這種方式的資料量少，成本高，但好處在於它直接採集自機器人，因此確保資料的可用性和準確性。總結來說，這三種資料採集方式各有其特點和優勢。

2. MimicPlay：透過觀察人類遊戲進行長時模仿學習

MimicPlay的核心思想

MimicPlay的想法是從人類行為資料中學習機器人的控制和策略。直接從人類行為中學習機器人的動作是不可能的，因為透過相機很難精確捕捉手在三維空間中的具體位置，這導致了最終的資料無法直接用於訓練機器人，因為機器人的運動方式會有所不同。

因此，我們的想法是退一步，不直接學習機器人的電機動作，而是學習策略。比如說，一個較長的任務是將某個食物放進碗裡，再放入微波爐加熱，最後取出。人在執行這個long task時，可以給出很多策略方面的提示，比如手應該先去哪兒，怎麼抓住微波爐的把手，如何開啟微波爐，如何抽出托盤，把碗放上托盤，再關上微波爐。雖然人類手部軌跡和機器人的軌跡會有所不同，但做這件事的先後策略，比如去哪裡找把手，去哪裡拉托盤，這些策略是可以共享給機器人的，這套策略我們稱之為高層次的規劃。低層次的控制器（low level controller）則是在拿到規劃後，控制機械臂的末端復現這些動作。

高層次和低層次分開之後的一個很大優勢是，高層次的規劃器（planner）可以直接從人類影片中學習。這種資料是比較便宜的，可以稱之為“play data”。你不需要對這些資料進行標註，比如標註你在做A還是B。只需要給定一個目標，比如某道菜，希望高層次的軌跡規劃能規劃出相應的策略。你可以想象在家裡的廚房放一個相機，它可以捕獲你每天在廚房裡的策略。比如，你做一道菜時，先開啟冰箱，從冰箱裡拿出某個菜，然後在切菜板上切開。這些都是可以用第三視角相機輕鬆獲取的資料。

低層次的控制器因為高層次有更多人類資料的支援，學習所需的資料量也會減少。它只需要按照規劃的軌跡去執行20個步驟即可，不需要再考慮高層次的規劃問題。這樣，低層次控制器的資料需求很少，可能只是學了一個抓取問題或移動問題。這些移動可能只需控制機器人向某個方向移動幾釐米，有時甚至不需要學習。

透過高層次軌跡規劃的資料，可以很好地幫助整個系統減少機器人資料的需求。將規劃問題和控制問題分開是我們當時的一個想法。高層次軌跡規劃的資料透過人類行為資料來實現泛化，可以很好地幫助系統減少對機器人資料的需求。這樣可以使整個系統更高效，資料需求更少。這是我們一直以來的核心思路。

MimicPlay方法介紹

MimicPlay是一種分層模仿學習演算法，它可以從廉價的人類演示資料中學習高層規劃，並從少量多工遙操作操作機器人演示中學習低層控制策略，

演算法大致可以分為三個階段，第一階段：使用人類操作影片資料訓練一個軌跡生成模型，可以針對不同任務目標形成高層規劃指導；第二階段：使用少量的遙操作資料訓練一個低層機器人控制器；第三階段：測試階段，給定一個長程任務的影片提示（可以是人類動作影片或機器人遙操作影片），MimicPlay生成運動軌跡並指導低層控制器完成任務。

MimicPlay和LLM在任務規劃上的區別？

這裡有一個非常大的區別，大語言模型（LLM）給你的規劃通常只是一些步驟，比如1、2、3，但它不會告訴你每一步具體怎麼做，也沒有提供任何具體的實現資訊。例如，我提到的高層次的規劃不僅僅是列出步驟1、2、3，而是詳細描述瞭如何實現這些步驟。它會給你一個三維軌跡，告訴你要以某個弧線到達把手的位置，然後在特定角度抓住把手並開啟它。

我剛才描述的這些具體軌跡和動作細節是大語言模型無法透過語言直接表達的。用語言描述這個過程非常困難，甚至無法準確傳達，而我們的高層次規劃的優勢在於它提供了這些具體的三維空間軌跡，並將其傳遞給低層次的控制器。

所以，高層次規劃提供的不是像說明書一樣的1、2、3步驟，也不是簡單的語言描述，而是具體的三維空間軌跡，明確指出具體位置、抓取角度等，這就是我們所說的"grounding"。當你有一個大語言模型規劃出1、2、3步驟後，需要進行"grounding"，也就是落實到具體操作上。比如說，大語言模型告訴你先去開啟冰箱，但它沒有具體說明如何開啟冰箱。那麼你需要找到冰箱把手，移動到把手位置，握住把手，並以某個軌跡開啟冰箱。這些具體的操作就是我們所說的"grounding"。

每個人的冰箱可能不一樣，有些冰箱門是另一個方向，這就需要具體的"grounding"。高階規劃需要具體到每個細節，而大語言模型在這個落實過程中存在困難。MimicPlay的高層次規劃實際上已經包含了具體的實施細節，明確指出瞭如何實現這些步驟。因此，它提供的是一個已經落地的高階規劃，詳細說明了如何操作。

從人類影片學習運動軌跡，是一個軌跡最佳化的過程嗎？

不能說是最佳化，因為人類的行為不一定是最優的。這其實是一個求解問題，而不是最佳化問題。比如說，大語言模型告訴你開啟冰箱，這是一個語義上的任務，那怎麼去解這個任務。這裡面解出來的結果是一些三維的軌跡和三維的抓取位置。這些是求解的過程，求出來的解不一定是最優解，但它可以是一個可行方案。

它不一定是最短路徑，因為人在操作時通常不會考慮這個問題。但這個路徑大機率是一個還不錯的路徑，因為人不會故意繞路，不會說我要開啟冰箱時在這裡摸摸、那裡摸摸再開啟。這樣做浪費時間，所以它是一個求解問題，但不一定是最優的。

網際網路上人類影片大多數是2D，那如何從2D影片中學習到3D軌跡呢？

MimicPlay我們當時使用了多目的RGB相機，用兩個RGB相機來捕獲人手的三維軌跡。網際網路影片不能直接用，因為它們沒有辦法提供三維資訊。不過你可以這樣想，即使不是三維軌跡，可能二維軌跡也很有幫助。你可以想象你看到的畫面雖然是二維的，但是你看到手在二維影像平面裡移動，其實也能告訴你先去哪再去哪。因為從二維影像中你也能看出來，你要移動到哪個把手，哪個把手在哪個二維畫素位置。這也是一個非常有資訊含量的規劃。

實際上，MimicPlay可以做一個改版，把高維度的三維軌跡降級到二維，也是可以的。這可能會開啟更多網際網路上影片資料集的可能性。但是我們在釋出這個工作時，並沒有驗證這方面的內容。你可以想象，網際網路上的影片還有一個難點是相機不一定固定。相機不固定的話，代表著機器人需要理解影片中的空間概念，因為畫面動了，對它來說，世界座標系就變了。我覺得從YouTube影片上學習還是有一定的學術難度。

人類和機器人的Embodiment Gap怎麼解決？

因為人用手的方式和機器人用夾子是挺不一樣的，而且我們也知道現在有很多不同的機器人夾子。有些夾子大，有些夾子小。同樣比如說從微波爐裡面抽出一塊鐵板，大夾子和小夾子的方案會有點區別。這一部分對資料的需求量其實可能沒有那麼高。為什麼呢？因為當你已經確定了你要去哪裡夾什麼，並且移動到什麼點位的時候，之後做的其實就是一個跟隨軌跡的機器人的action。而這個action是可以讓它overfit在這個機器人自身的Embodiment上。這裡的低維控制就是用遙操作的方法，去教這個機器人幾個簡單的pick和place，機器人就學會了如何把高維軌跡方案翻譯成機器人可以執行的電機方案。這個翻譯方案是可以複用的，你給我新的軌跡方案，我就繼續用這個低維的翻譯方案轉換到機器人的action，這就是低維controller在乾的事情。

從人類影片上無法獲得毫米級的精度，這個問題怎麼解決？

這就是為什麼他雖然提供的是高維度的規劃，但其精度並不高。他只是告訴你，把手大概在那樣一個3D位置，可能在五釐米的範圍內的一個3D空間位置。高精度的控制是交給低維度的controller來實現的。低維度的controller會獲取機器人自身的資料，即所謂的手腕相機（eye in hand），安裝在機器人的夾子上或夾子邊上，用於實現高精度的對齊和夾取。這種高精度控制也具有泛化能力，比如你高精度的抓三四個不同的把手，就有可能泛化到其他顏色或形狀不同的把手上。高精度的控制是透過低緯度的controller來實現的，高維度的規劃只是告訴你大概要去哪裡，在五釐米的範圍內，去那個地方，夾住把手的大致區域。而具體的抓握動作低維度的controller會利用手上的相機看到把手，對齊它，然後慢慢靠近並夾住它。

到了DexCap階段，可以透過動捕裝置（動作捕捉裝置）實現釐米級別以內的追蹤。這個追蹤精度很高具體到手指指尖的精度，不僅限於手腕的位置。這種高精度追蹤使機器人可以直接從資料中學習操作方案。比如MimicPlay，人類影片的精度只能到達五釐米或三釐米的範圍，而三釐米以內的精度需要透過機器人自身學習的低階控制器（low level controller）來補足，從而實現任務。到DexCap，透過這種可穿戴式的資料採集裝置，我直接把精度做到最好，這樣機器人就可以直接從資料中學習其方案。

3. DexCap：靈巧操作動作捕捉資料收集系統

DexCap結構介紹

DexCap中手上的相機是用來做SLAM的場景追蹤，所以它提供的手特別是手指的精度，都是在釐米級別的，都是在一釐米以內的左右級別。所以DexCap，我稱為它是一個“核武器”，它給你一個更高精度的資料。相比於第三方視角的MimicPlay的人類資料，它給的精度本來就更高。DexCap手上的相機是用來做追蹤（tracking），它的目的不是為了獲得影像。因為人的手和機器人的手還是長得不一樣，所以出現在畫面裡之後還是有domain gap。所以你並不能單純用人類手上相機的資料去直接學習機器人方案，我們試過了不太work。

DexCap手套是動作捕捉手套，每根手指上都有一個電磁場感測器，手上的相機用於定位手掌在六自由度空間裡的位置。相機下方有一個電磁發射器，每個手指的指尖都有一個電磁接收器。透過電磁場實現毫米級別精度的定位，確定每個手指指尖相對於手掌的三維空間位置。再加上手掌上的相機，可以給手掌相對於胸口的相對位置，那進一步就可以獲得手指指尖在相機畫面中的相對位置。這個精度由胸口和手腕上的相機，以及動捕手套這套裝置共同保證。

胸口相機用來定位人體相對於世界座標系在空間的位置，手腕上的相機用來定位手掌相對於胸口的空間位置，動捕手套來定位手指指尖相對於手掌的空間位置。所以你揹著這套東西走，胸口的攝像機可以告訴你人在哪裡，手腕上的攝像機可以告訴你手掌相對於胸口在哪裡，動捕手套可以告訴你手指相對於手掌在哪裡，最終可以獲得一個手指在空間中的絕對位置。這個絕對位置是高精度的，這直接保證了當你將機器人推入場景時，只需讓機器人進行inverse kinematic（逆向運動學）來完成操作動作。

什麼是inverse kinematic？

在機器人控制中，有兩種主要方法，稱為正向運動學（forward kinematics）和逆向運動學（inverse kinematics）。正向運動學是指，當我告訴你每個關節的角度時，你可以計算出機器人手指指尖最終在三維空間中的位置。逆向運動學則是相反的過程，當你告訴我手指指尖應該到達的位置時，我可以幫你計算出每個關節應該轉動的角度。

當你使用人類行為資料採集到釐米級別的手指指尖位置後，可以應用到任何一種機器人上，無論是人形機器人、機械臂或者其他形式的機器人。只需將機器人推到空間指定位置，控制策略會告訴它手指應該到達哪個點位，機器人可以直接使用inverse kinematic方法計算出每個關節應該轉動的角度，手指指尖就會移動到目標位置。這樣，機器人就能夠復現人類手指的行為。比如開門操作，人類會按照一定的軌跡，將每個手指放置在門把手的特定位置，然後握緊並向下按壓。這些動作軌跡會被動作捕捉裝置完整記錄下來。機器人隨後可以利用逆向運動學的方法復現這些軌跡，從而也能夠成功開啟門，這就是想要實現的目標。

為什麼戴了手套做動作也會比正常的稍微慢一些？

這背後涉及到一個有趣的點，不是所有的人類資料都能直接應用在機器人身上。一個簡單的例子是機器人無法像人類手那樣快速反應。人類可以迅速地變換方向，手指也能迅速停下來，比如說用0.1秒的時間劃過一個弧度而不產生慣性。但機器人不同，它的電機在高速運轉時，突然剎車會導致超調或者反應延遲，這是電機控制上的問題，也是機器人和人類肌肉之間差異的表現。

因此，有時候需要重新採集資料。一旦資料採集完成，我們會發現，儘管資料看似完整，但有些動作機器人無法學習或者表現不佳，因為機器人不能像人類那樣快速而靈活。因此，我會有意放慢人類的動作速度，以提高資料的質量和成功率，這樣轉化為機器人資料的過程會更加有效。

可以想象一下，人的手是非常靈活的，可以迅速變換方向，手指也可以急停，比如我可以用0.1秒的時間劃過一個弧度，而不產生任何慣性。但機器人不同，它的電機在高速執行時，突然剎車他會停不住，他會過去一點再回來。這其實也是另外一種形式的embodiment gap問題，也是機器人的電機和人類肌肉之間的差異。所以人類自如流暢的動作是沒有辦法讓目前的機器人復現的。這也是個難點，有些時候，DexCap的資料需要重新採集，資料採集看似不錯，但有些動作機器人就是學習不來，因為機器人不能像人類那樣快速而靈活。因此，我會故意放慢人類的動作速度，以提高資料的質量和成功率，這樣轉化為機器人資料的過程就會更加有效。

我們現在的機器人，包括電機的發展還沒有達到一個它的上限，我們還是沒有辦法去復現人類的肌肉組織，或者類似的這種控制的能力，所以這就是這種資料採集方案的一個缺點。

人手資料如何對映到機械手上？

在透過DexCap採集到人手操作資料後，需要透過觀測從定向和動作重定向將觀測資料和動作主體進行切換。觀測重定向（Oberservation Retargeting）：機器人使用與人類資料收集期間相同的觀測攝像機（RGB-D相機），透過從相機中觀測構建3D點雲並將其轉換到機器人操作空間，將DexCap資料重新定向到機器人實體。動作重定向（Action Retargeting）：為了將人類手指運動傳遞到機械手（LEAP HAND）上，我們使用指尖逆運動學（inverse kinematic，簡稱IK，上文有解釋），來計算機械手16維的關節位置，在透過IK進一步計算機器人手臂各關節的位置。

因為現階段機械手沒有辦法做到和人手一模一樣，所以Embodiment Gap問題不可避免的存在。為了進一步縮小人手和機器人手之間的視覺差距，我們使用正向運動學生成機器手的點雲網格，並將其新增到點雲觀測中。在這些資料基礎上訓練了一個Pointcloud-based Diffusion Policy（Diffusion Policy—基於擴散模型的機器人動作生成策略），這個Diffusion Policy以點雲作為輸入，以未來目標位置作為機器人動作作為輸出。

策略部署效果如何？

僅使用重新定向（Retargeted）的人類運動捕捉資料訓練Pointcloud-based Diffusion Policy，機器人就可以控制雙手（46維動作空間）執行任務，包括收集網球和包裝物品。所有策略均在沒有任何遠端操作資料的情況下學習完成，僅透過30分鐘人類運動捕捉資料學習完成。

0:00-0:11 收集雙手人類運動捕捉資料

0:11-0:28 完全自主的策略執行

然而，DexCap 還不能勝任需要施加力量的任務，因為僅有位置資料是不夠的。因此，我們在DexCap 模型中引入了策略執行過程中的人為糾正（Human-in-the-loop correction）。經過不超過30 次糾正，機器人能夠準備茶和使用剪刀。

雙手自主泡茶（還會擰瓶蓋！）

剪紙

DexCap支援兩種策略執行過程中的人類參與糾正方式：1. 殘餘糾正：測量人類手腕的3D位置變化，並將其作為殘餘動作加入到機器人手腕運動中，這種模式人類手部動作不需要太多，但需要更精確的控制；2. 遠端操作：根據逆運動學直接將完整的人類手部運動轉換為機器人末端執行器的動作。這種模式允許對機器人進行全面控制，但人類手部動作較多。

DexCap還有哪些問題？

還是有很多地方可以提高。首先，我覺得穿戴裝置的成本可以大幅降低，目前的成本還是太高了。其次，我一直在想，是否可以用更隱蔽的相機替代胸口的相機，比如整合在眼鏡上的小型攝像頭等，這樣的設計讓人們不需要額外攜帶裝置。手套也是如此，雖然它在很多工作中不會有太大影響，但你不能洗手或者洗碗，因為它不能接觸水。那麼，是否可以使用類似蘋果手錶的技術？比如，你只需做一個手勢就可以撥出選單，手錶透過肌肉識別知道你要做什麼。也許不需要手套，只需一些環狀裝置來偵測手指運動，這樣整個過程就會非常隱蔽。眼鏡上的相機加上沒有手套的手指定位，這種設計讓更多人願意佩戴這些裝置，因為它們可以完全融入生活中，別人甚至察覺不到你在採集資料。這是未來發展的一個方向，即開發更低成本、更隱蔽的可穿戴裝置。

另外一個重要的方面是在演算法層面上，我們如何讓新使用者明白機器人能處理哪些資料，不能處理哪些資料。是否有方法可以提示使用者，告訴他們：“我已記錄下你剛剛的動作，但要注意，機器人無法執行這個動作。可以給我一個你使用的某品牌機器人的模型，我可以計算並告訴你，這個動作對該機器人來說是不可行的，因為其電機結構速度不夠快。” 透過這種提示方法，可以提高演算法在這方面的表現。

4. 一些補充問題

關於MimicPlay和DexCap的結合

MimicPlay和DexCap可以結合，用動捕裝置採集的資料完全可以用來作為MimicPlay高層次軌跡規劃的訓練，而且這個訓練可以訓練到高精度的規劃，因為DexCap資料的質量更高。同時，對於底層的控制，也可以用DexCap的資料進行一定的預訓練。所以這兩個工作是可以結合的，用MimicPlay的方案在DexCap資料上來實現比較優的資料採集和最終的機器人實現效果。

DexCap和UMI比較

DexCap和UMI（對話遲宬、許臻佳：UMI——機器人訓練的物理API）都是透過便捷的裝置採集人手操作資料，他們的區別在於UMI藉助夾爪，而DexCap是手套。DexCap和UMI的核心想法都是在不需要藉助機器人的情況下采集資料。然而，人類的行為資料有一個問題是，如果不用高精度捕捉技術的情況下，是很難精確的獲得3D軌跡的。所以DexCap和UMI都引入了SLAM。DexCap的側重點是，透過可穿戴裝置在不影響人們自然使用的情況下，獲取行為資料，比如說，你是超市的收銀員，可以戴著手套繼續工作，而不需要手裡握著兩個夾子。握著夾子會影響部分工作，例如不能靈活地操作硬幣。

DexCap使用資料手套的好處是，它不會影響到日常生活。比如說，我可以戴著手套一整天寫程式或者彈鋼琴，但如果使用兩個夾子，可能就無法進行這些活動。我一直想讓機器人的資料採集能夠泛化，擴充套件到更多人的生活中，就像人們開車一樣每天都在創造大量資料，這樣可以更好地融入到日常生活中去。特斯拉的自動駕駛系統之所以能夠收集大量資料，是因為開車是人們生活中的一部分，而機器人的資料則很少有人會進行大量的操作採集，因為這並不是常規生活的一部分。我認為，讓資料採集變得更輕鬆、對生活影響更小是關鍵。這樣的話，像超市員工、質檢人員或者工廠的流水線工作者可以穿著這些裝置繼續日常工作，從而使資料逐步積累增多。

UMI這類方式額外增加輔助工具，需要重新定義工作方式，可能會面臨一些成本問題，因為需要對人們進行新的培訓。我更傾向於利用現有資料來訓練機器人，使其更像人類。我覺得這兩種方法的核心理念雖然在某些呈現方式上可能有相似之處，但在核心出發的角度上卻完全不同。UMI和DexCap最大的區別在於，UMI是從機器人的角度出發，而DexCap是從人的角度出發。DexCap的思路是希望未來機器人的手可以像人手，這樣資料就可以scale up，UMI的思路是如果人可以幫機器人採集資料，這些資料就可以直接給機器人，而不需要遙操作。

5. 一些想法

以上是Robot Data系列第四期。這個系列目前規劃第一季收錄10期關於機器人資料的訪談，周更，大概兩個月左右更新完。前面幾期都會聚焦在人類影片資料、動捕資料、和遙操資料，後面也會看看合成數據，資料處理，和資料集。歡迎大家推薦相關工作，或者希望我採訪哪個工作的作者，都可以給我留言。

References：

https://mimic-play.github.io/

https://dex-cap.github.io/