ChelseaFinn：RL是如何在RobotLearning領域創造價值的？

01.

機器人領域的強化學習

Lukas Biewald: 我看過你的研究影片，你們的機器人能完成各種高難度任務，但我感覺在現實世界中，其實很難讓機器人做真正有意義的事情，你能談談機器人技術的現狀嗎，哪些方面已經實現，哪些方面還在探索？

Chelsea Finn: 目前機器人在某些領域表現得確實很不錯，但在其他方面，要進入現實世界，還有很長的路要走。可能很多人都看過波士頓動力的影片，他們的機器人能完成後空翻、抓取物體等高難度動作。我們的機器人也能完成一些靈巧任務，比如用機械臂拿抹刀盛東西，或者撕膠帶等等。從這些影片來看，機器人的能力很強，已經可以在現實生活中應用了。但問題在於，只有在特定場景中，它們才能有好的表現。

比如波士頓動力的機器人就是專門為了特定配置和環境除錯的，我們的機器人也是在有限的環境下訓練的。一旦環境或者互動物件發生改變，機器人的表現就可能大打折扣。這與人類不同，我們一般會認為，如果一個人能完成某個高難度任務，那麼他應該也能完成其他類似的任務。比如，無論什麼樣的水瓶，都不影響人完成倒水這個動作。

但機器人和人類差別很大，所以我們除了要研究怎麼提升機器人的靈巧性，也在努力提高他們的泛化能力，讓機器人最終能勝任各種場景。

Lukas Biewald: 這讓我想起了 20 年前我在 NLP 領域做研究的時候，雖然當時能完成的任務看起來很厲害，但很難泛化，和現在機器人領域的情況很像。現在 NLP 的很多工都能很好地泛化，機器視覺領域也取得了顯著進步，甚至在某些方面超越了人類的表現。你認為機器人技術是否也會迎來類似的飛躍，還是說機器人領域有一些更底層的難題需要解決？

Chelsea Finn: 我相信我們能取得突破，而且我們的確已經取得了不小的進展，但機器人技術和 NLP 有一個很大的不同點是，網際網路上沒有現成的資料來教機器人怎麼控制電機來繫鞋帶，而在 NLP 領域，我們有 Wikipedia，在視覺領域，我們有 flicker 和大量的影像資料。

不過，網際網路上的影像和文字資料仍然能夠幫助機器人更好地理解世界。所以我們並不是從零開始起步的，但確實也面臨很多資料上的挑戰。我們正在建立更大的資料集，對資料集做整合。如果能收集足夠多的資料，我們就能訓出泛化能力更強的策略和行為。

我可以舉一些我們收集資料的例子。有些任務比較簡單，我們嘗試過把機器人放在某個地方讓它隨機擺動雙臂，它就可以在箱子裡推動物體。隨後，我們讓機器人夜以繼日不停歇地做這個做類似動作，這樣就能收集到大量資料。但後來我們發現，如果我們的設定是讓機器人隨機做動作，那麼它就只會一直推東西，而不是去做類似於倒水這樣的複雜任務。換句話說，雖然我們當時收集到了很多資料，但資料質量並不高。相比之下，Wikipedia 上的資料質量就很高，這是因為 Wikipedia 是人們圍繞特定話題撰寫出來的，內容質量很高，知識量也很豐富。

所以我們開始收集人類操作機器人的資料。比如，讓人透過 VR 或者直接操作機械臂，演示如何從水瓶裡倒水，如何拿起一個物體並移動到另一個位置等等。在 Google 工作的時候，我們收集了大約 10 萬到 20 萬條演示軌跡資料，包括影片和控制機器人的電機命令序列。雖然 10 萬條資料對於機器學習來說不算多，但這些資料已經能幫我們訓出更強的策略。

我們正在做的一個工作是，基於預訓練的視覺和語言模型來 fine-tuning 這些資料。這樣做的話，就能夠讓機器人實現語義層面的泛化（semic generalization），即使在之前的資料中它從沒見過某個物體或者名人，也能透過 pre-train 的模型正確識別並執行任務。比方說，我們讓機器人把物體遞給一張 Taylor Swift 的照片，即便它從沒見過 Taylor Swift，也能準確地把物體遞給正確的人，因為 pre-train 的模型能夠把網際網路上的知識轉移到機器人控制中。

我們還在一直嘗試去整合不同機器人 labs 和平臺的資料，基於這些資料，我們已經成功訓練出了一種策略，可以同時控制六種不同型別的機器人。

Physical Intelligence (π) 官網簡介

Lukas Biewald: 人體姿態估計（human pose estimation）領域有很多很有趣的研究和實踐，我們是不是也可以把人類的身體類比成某種機器人平臺？機器人研究能不能從人體姿態估計這裡獲得一些靈感？

💡

人體姿態估計（Human Pose Estimation）是計算機視覺中的一個重要任務，旨在從影像或影片中檢測和識別出人體的關鍵點位置，並根據這些關鍵點構建人體骨架以估計其姿態。

Chelsea Finn: 就像我我剛才提到的，我們可以訓練策略來控制各類機器人，人類在某種程度上也是一種系統，所以也可以把人類資料拿來訓練。不過，雖然我們可以用影片記錄人類行為，但還是不能瞭解人類在不同的任務和動作中是如何控制肌肉的。在機器人訓練中，正是這種資訊可以幫助機器人控制電機，作出相應的動作。所以，僅僅依賴於人體姿態估計是遠遠不夠的，尤其是在涉及更復雜的任務時，除了姿態估計，還需要考慮諸如力的作用等因素。但只要能準確地進行姿態估計，就能很好地把這類資料整合到訓練裡。

Lukas Biewald: 你關於 robot learning 的研究也很有趣，尤其是 learning through play 這個方向上的討論。我自己也有兩個孩子，當我觀察小孩子適應環境的過程時，會發現這個過程也很像一個強化學習的過程。你是怎麼看機器人領域的強化學習的？

Chelsea Finn: 我在 Berkeley 讀 PhD 的時候，我們 lab 裡有一個博士後，他的研究主題就是機器人的強化學習，機器人透過一系列試錯的過程來學習各種能力。其中有一個任務是讓機器人堆積木，機器人需要把一個很大的樂高 Duplo 積木塊堆到另外一個 Duplo 積木上，和孩子們玩積木一樣，機器人會先弄清楚這兩個積木是如何組合的，並且這個過程會越來越熟練，大概 10 到 15 分鐘就能學會這個任務，有時候甚至更快。親眼看到機器人學習和“玩耍”的過程，讓我感到非常神奇，這也是為什麼我選擇了這個研究方向。

我的第一個專案是機器人的 RL，這個研究本質上是對之前的系統進行拓展，讓機器人能夠直接從畫素級別中的資料中學習，之前的系統下，機器人拼積木的行為其實是“閉著眼睛”的，所以我們的目標是讓機器人學習“看”的能力，是第一個從畫素值到扭矩值的端到端的神經網路專案。當時是 2014 年、2015 年左右，我們讓機器人同步學會了感知和行動。

到今天，在 Robot Learning 領域，RL 依然很有價值。機器人透過試錯完成自主學習的過程是智慧的核心要素。只會模仿學習的機器人，它的智慧水平可能比試錯學習的機器人要低。而且，透過試錯學習讓機器人能夠自己收集學習大規模資料。

儘管目前的試錯過程還需要人類監督，但長期來看，這種學自主學習的能力可以幫助機器人實現落地。在學習過程中，資料收集的規模和實際部署都非常重要。在現實場景中，如果一個機器人出了錯，它需要迅速糾正錯誤，從錯誤中學習，嘗試不同的方法，這樣它就能越來越有用。

Lukas Biewald: 我看到過你們一個機器狗穿旱冰鞋、拉盒子的案例，當時定義這個任務的目標是什麼？機器狗是如何學習這些任務的？

Chelsea Finn: 我們是這麼想這件事的，機械狗其實已經具備了一定技能：它已經學會了走路，也學會了在某條腿殘疾的情況下走路，但是還沒有遇到過滑輪或者負重的場景。我們的目標是，它要能在測試時能即時得想出新的辦法來適應這些新場景和任務。

我們做了兩個方面的工作。第一，使用 RL 的 fine tuning 讓機械狗適應新場景，不過這隻會讓機械狗小幅、緩慢地改變自己的動作。第二，讓機械狗適應行為空間的 higher level，在不同的時間節點上，動態選擇不同的技能，以此來適應新的場景。比方說，如果現實場景需要它用左前腿向前滑動，它能夠選擇出相對應的技能。

Lukas Biewald: 機械狗在移動時，模型的 input 和 output 是什麼？fine tuning 在這裡的作用是什麼？

Chelsea Finn: 機械狗身上有各種感測器，可以不停地傳輸資料，這就是 input。我們也有外部感測器，不過一般會用機載感測器，比方說，電機上就有編碼器，能測量關節的角度。我們也會用 IMU 來記錄加速度。

💡

IMU：慣性測量單元（Inertial Measurement Unit），是一類對物理運動引數（包括加速度、旋轉或位置變化）作出反應或感知這些物理量的裝置。加速度計是 IMU 中的關鍵元件之一，主要功能是測量物體在各個軸向上的線性加速度。

我們也會用深度或者 RGB 攝像頭等方法去測量速度，然後把各種速度資料餵給機械狗，這也是 input。output 同樣是在關節上，可以透過控制位置、速度或是扭矩等不同方式控制關節。

Lukas Biewald: 那麼模型的目標是什麼？訓練模型時的損失函式是什麼？

Chelsea Finn: 在研究中，我們的訓練目標是讓機器人能往前走或往前跑，所以獎勵函式通常是前進速度，通常也可以是讓機器人執行更復雜的任務。我們發了一篇論文介紹怎麼訓練機械狗學習跑酷等等技能，雖然我們的目標還是讓它往前移動，但我們會設定一些障礙物，機械狗需要跳過障礙物、越過豁口、爬到箱子上，或者俯身透過障礙物。

Lukas Biewald: 在這種場景下，機械狗並不是一直在向前移動，怎麼讓它學會做一下當下沒有給到反饋的任務呢？

Chelsea Finn: 這就是我們需要強化學習這類工具的原因。在某些情況下，我們不能直接最佳化前向速度。無法直接從輸出關節命令的策略引數獲得關於前向笛卡爾速度的梯度。RL 為我們提供瞭解決這個問題的方法。我們通常會使用價值函式來估計未來折扣回報的總和，再在這個基礎上開始做最佳化。

Lukas Biewald: 也就是說你們會把給到機械狗的任務定義為一種 RL 問題？

Chelsea Finn: 是的，我們會把 RL 當作一種最佳化工具，來實現 fine-tuning。如果要適應 high-level 的不同行為，我們會用不同技能的價值函式，來確定哪種技能最適合某種特定場景。我們還加了一個正則化器，用來提高選擇的效率。所以說 RL 在我們的工作中其實是扮演了非常重要的角色。

很多情況下，我們沒辦法確定獎勵函式是什麼。

對於足式機器人（legged robot）來說，前進速度是一個非常可靠的獎勵函式，可以讓機器人學習有趣的行為，但並不適用於所有情況。比如，如果目標是從水瓶中倒水，由於無法透過感測器知道杯子裡的水量，所以沒辦法直接確定獎勵函式。理論上，我們可以使用秤和碗來測量，但即便如此，我們也無法直接測量是否有水溢位等情況。

所以今天還有有很多人就在研究獎勵函式，或者研究怎麼去激發機器人做出多樣化或探索性的行為，也透過這些過程來了解獎勵函式。

Lukas Biewald: 如果我讓一個機器人只是向前移動，能讓它持續在實驗室執行一整晚嗎？我一直覺得如果讓機器人單獨執行，在一段時間後一定會出問題，所以在實際中可以透過這樣的方式來做測試嗎？

Chelsea Finn: 我們實驗室對足式機器人的研究還處於初期，我們買足式機器人的時間還不到一年，所以還沒有做過這樣的實驗。我印象中，如果長時間進行實驗，需要有人在機器人卡住的時候做出干預。我們的機械臂已經可以在沒有人的情況下整夜進行實驗，它會自己收集資料，改善表現。

當然，機器人還是有可能會卡住。一個典型的例子是，它可能會把所有物品都掉到地上，這樣一來實驗就沒辦法繼續進行下去了。即使軟體棧能讓機器人長時間執行，它也不會收集到可以讓我們使用的資料。不過總的來說，在軟體棧出問題之前，機械臂已經能執行一整夜甚至一天半。

02.

模擬可能會是機器人發展的阻礙

Lukas Biewald: 有很多大公司或者研究專案在做關於機械臂的研究時，只專注於怎麼讓抓取任務更加可靠？抓取在機器人領域是一個很難的任務嗎？

Chelsea Finn: 是的，抓取和拾取物體確實是個很大的挑戰，但在倉儲和物流領域非常有價值，所以確實有一些公司專注於這個方向。抓取物品之所以很有挑戰性是因為有很多長尾任務，比如不同的場景、物體等都會影響任務的進行，也會遇到很多我們甚至從沒想到過的任務。

另一個原因是，針對不同的物體，需要採取不同的操作策略。物體的位置不同，處理的方式也完全不同，在拿取一個物品時，它在箱子裡、架子上還是冰箱裡都會是不同的操作流程，如果這個物品上面還有其他東西，就還得先把它拿開。這增加了問題的複雜性。

還有一個原因是，機器人領域過去並沒有廣泛使用 Machine Learning。我讀 PhD 研究機器人的端到端學習和 Deep Learning 的時候，還沒什麼人用 ML 來研究機器人控制。當時有一場大型的機器人與自動化會議，100 多個 session 裡，只有兩個和 ML 和自適應系統（adaptive system）有關，並且這兩場 session 裡有一半的論文都是我們實驗室的。當然現在情況已經很不一樣了，ML 越來越成為主流。

當時圍繞 ML 的路徑還是有很多人持懷疑態度，因為我們不能證明它一定是有效的。雖然傳統的控制方法已經能提供一定的保證，但在處理長尾場景和各種異形物體這些任務時，ML 變得非常重要。

Lukas Biewald: 你覺得今天機器人領域 ML 發展得怎麼樣？現在的機械臂在物體主體抓取的表現上足夠可靠了嗎？

Chelsea Finn: 有些我接觸過的初創公司認為他們已經解決了抓取問題，但其實並不是，他們之所以這麼想，是因為他們的物體數量足夠大，但是在實際的倉庫中，我們不會遇到類似箱子裡有一個巨大的南瓜的這樣的情況的，實際中，會有各種各樣的箱子和對應大小的物品。

在我看來，今天 top-down 的抓取任務至少是已經解決了。但如果是其他型別的抓取，比如從任意表面抓取任意物體，難度會大些。

Lukas Biewald: 有一些機器人領域的專家認為模擬（simulation）很重要，你怎麼看模擬對於機器人表現的重要性？和在真實環境中收集資料相比有什麼區別？

Chelsea Finn: 我的想法可能跟其他人的觀點不太一樣。首先，模擬技術確實已經取得了很大進展，特別是在原型開發階段，可以先訓出一個策略，然後直接應用到真實的足式機器人上，模擬的效率非常高。比方說，我們之前的跑酷就是先模擬，再在現實世界中零樣本部署。只是過程很不穩定，需要做 fine tuning。操作機械臂的一些任務也可以透過模擬完成。

但長期來看，要想打造一個能執行所有任務的機器人，模擬可能會成為阻礙，因為有很多工很難模擬，而且設定模擬環境也要耗費大量的精力和知識，尤其是操作類任務，我不認為模擬會是其中的關鍵。

另外，計算機視覺研究和語言研究的研究人員，他們用的也都是真實資料，我們能取得的最大的成果都是基於真實資料集獲得的。所以有很多工很難去模擬，即便可以模擬，也不會比即時更快，因為模擬對時頻要求非常高。

Lukas Biewald: 也有人提到說疊衣服這種任務物體很柔軟或者很鬆散的任務是很模擬的？

Chelsea Finn: 是的，這類物體通常被稱為可變形物體，模擬起來非常困難，如果想要模擬食物烹飪的過程也是很困難的，做飯類任務還會涉及到清理環節。不僅烹飪過程很難模擬，清理烹飪失敗品也同樣費時。

我們現在做做飯這類任務是是透過模仿學習（imitation learning）的方式，這樣機器人就不需要笨拙地一次次去嘗試。長遠來看，我希望機器人學習新任務的效率能像人類一樣高。如果讓小孩子學習做飯，即使他們會搞得一團糟，也不會像機器人從零開始學習那樣差。

Lukas Biewald: 你怎麼看家用機器人？我覺得光是抓取功能就物有所值，比如我可以讓它幫我疊衣服。你覺得要實現這些還需要多久？

Chelsea Finn: 我對於家庭機器人的落地其實有點悲觀。我不認為未來 5 年內就能實現，不過我也確實同意機器人技術確實取得了很大進展。我們現在處在這樣一個階段：只要我們給機器人系統提供的資料質量夠高，它的表現就會非常出色，不僅能在範例比較少的情況下學會複雜任務，還能夠實現泛化。無論我們給模型提供什麼資料，它都可以學習。這也是我對整個行業感到興奮的原因。

我覺得我們之所以能取得很大進展，很大程度上要歸結於資料，要想獲得涵蓋所有家庭場景的資料，不僅很具有挑戰性，成本也很高，需要大量的前期投資。雖然初始成本巨大，但一旦我們有了一個有點用處的機器人系統，它就可以收集更多資料。

資料只是我們面對的一部分挑戰。我還覺得，相比起 NLP 和 LM 開發，專注研究機器人技術的人並不多。雖然我們已經取得了很大進展，但其實和 AI 其他領域的發展相比還差很多。

我覺得另外一個關鍵是要讓人們能更好地接觸到機器人技術。LLM 開發領域之所以有那麼多人，是因為他們只需要一臺電腦和 GPU 就可以上手了。現在有的機器人的價格其實比 GPU 要便宜很多。5000 美元的機械臂就能完成相當靈巧的任務，我當時用的機器人要 40 萬美元，現在的價格差不多便宜了一百倍。

Lukas Biewald: 聽起來機器人領域也符合摩爾定律，這倒確實是個好跡象。

Chelsea Finn: 是的，就像手機一樣，當手機對人們有用的時候，人們就有了需求，一旦有了需求，製造過程就會使得價格大幅下降，變得更加親民。

Lukas Biewald: 有些人覺得人形機器人能更好融入現實世界、是更有效的形態，你怎麼看？

Chelsea Finn: 我覺得一方面，我們可能高估了人形機器人的價值，我覺得不需要腿的形態機器人也可以走很遠，實際上帶輪基座加兩條手臂就足夠了。不過，我最近也給實驗室訂購了一臺人形機器人，所以我也不能完全肯定。

Lukas Biewald: 機械狗的價值大嗎？

Chelsea Finn: 有人認為，機器人的尺寸要和人類相當，才能更好地完成任務。我們大概在一年前開始用一個手指更小的機器人，結果因為它的手指更小，其實反而可以執行更有意思的任務。所以說回機械狗，如果有陪伴需求，這個形態確實不錯。我覺得機器人的外形很重要，因為人們會把很多東西擬人化。如果機器人看起來很可愛，人們就會願意與它互動。

在討論機器人的形態時肯定會有恐怖谷效應。所以我並不是說機器人必須做得多逼真，而是說它應該設計成可愛的形態。它不需要有一個可愛的人形，只要具備可愛的特徵就行了。比方說，我們正在給四足機器人安裝夾爪，這樣它就可以一邊走一邊抓取物品。目前我們的夾爪是側著安裝的，機器人像個鉗子或蠍子一樣，有點嚇人。如果我們把夾具旋轉一下，它可能會可愛一點，像只鴨子什麼的。但出於實際考慮，我們還是得側著裝，這樣更容易抓取物體。雖然機器人並不擬人，也不像什麼動物，但也就是這樣微小的變化，也會影響機器人的外觀。

03.

基於 Meta-RL 的作業打分系統

Lukas Biewald: 你在做助理教授的時候做過哪些和今天的機器人研究相關的事情嗎？

Chelsea Finn: 我可以聊一個比較新的。CS 課程裡往往會要求學生編寫遊戲或者互動應用。比方說，斯坦福大學的基礎 CS 課就要求學生編寫一個越獄遊戲。在 code.org 上也有一個叫 Bounce 的彈跳遊戲，讓學生們去程式設計。這種作業對學生來說非常有吸引力，因為他們能構建東西並與之互動。但是對於教師來說，反饋或打分相當耗時，因為他們必須與系統互動。斯坦福的助教們透過玩遊戲找 bug 來給學生編寫的遊戲評分。一個很典型的 bug 是，如果球被擋板側面擊中，它不會反彈回來。

所以，我們想構建一個工具，讓它可以自動玩遊戲，找到其中的 bug，從而給學生反饋。它可以用來給學生即時反饋，指出程式中的問題，然後給出提示以便修復。也可以用它幫助教更快更準地進行評分。所以我們開發了一個系統，只要有資料，就可以訓練它對任一遊戲進行評分。我們在 code.org 和基礎 CS 上都做了訓練，還把系統部署到了斯坦福，整合到了助教的評分介面中。這個系統會預填評分表供助教參考。結果我們發現，使用這個系統後，評分更準確，速度也更快。

Lukas Biewald: 你們是怎麼訓練這個系統的？這個系統的 LAST（）函式和 output 是什麼？

Chelsea Finn: 我們用 Meta-RL 來訓它。RL 一般使用馬爾可夫決策過程，也就是在環境中最佳化獎勵函式，而 Meta-RL 涉及多個環境和獎勵函式。Meta-RL 非常適合用在學生程式設計的場合，因為每個學生編寫的遊戲都不一樣，每個遊戲都相當於 MDP 中不同的環境。

我們的目標是讓系統在面對新環境時，能夠迅速學習策略，透過玩遊戲來找到其中的 bug。我們沿用了之前開發的一種 Meta-RL 演算法，如果這個策略能提供評分的資訊，或者發現學生作業裡的 bug，它就會得到獎勵。如果不斷訓練策略，就能讓它儘可能多地提供這種資訊。

如果想找到“當球碰到地面時，遊戲是否正確地扣除一條生命值”的 bug，我們會訓一個策略，故意避免球碰到地面，這樣就能暴露出這個 bug。Meta-RL 也很適合用在機器人領域，因為機器人需要快速適應新環境。

💡

Meta-RL：元強化學習（meta-RL）是一類機器學習（ML）方法，使用樣本低效的 ML 來學習樣本高效的 RL 演算法或其元件。Meta-RL 最常在問題設定中進行研究，在給定任務分佈時，目標是學習一種能夠用盡可能少的資料從任務分佈中適應任何新任務的策略。

我們現在也正在準備開源這個越獄遊戲的自動評分器，這樣其他大學的教師也能在教學中用到這個遊戲。我們也在想在其他遊戲上進行訓練，如果教師用其他遊戲教學，他們也能得到相應的反饋。

我們還考慮用其他遊戲來繼續訓練這個系統，從而得出一套自動評分器和課程作業，供不同的教師使用。還可以用它找其他軟體的 bug，不侷限於學生的程式設計作業或者教育領域。不過現在還在頭腦風暴階段。

Lukas Biewald: 為什麼這個系統能像真正的老師那樣給學生提供反饋？這是怎麼做到的？

Chelsea Finn: 因為我們的系統可以玩遊戲、找 bug，理論上它也可以直接給學生評分。但因為成績對學生影響很大，所以在最終評分前，我們想進行一次人工稽核，所以我們設計了一個介面，讓助教能看到影片和各個 bug 的評分。在提交成績前，助教可以先檢查預評分、觀看影片，然後修改成績。總的來說，評分快了很多，也更加準確。

Lukas Biewald: 你最近有在做什麼有意思的研究嗎？

Chelsea Finn: 我還是專注機器人的研究。我們開發了一個低成本的雙臂作業系統，它有兩隻機械臂，可以執行非常靈巧的任務。它的第一個任務是做了一道蝦仁的菜。我們打算下週正式發表論文。播客上線時，論文已經就已經公佈了。（拾象注：這裡指 Mobile ALOHA 專案）

Lukas Biewald: 你們為什麼選擇用兩隻機械臂來做這個任務？

Chelsea Finn: 其實也可以只用一隻機械臂。不過其中一個步驟是給蝦仁翻面，這個過程要用到兩隻機械臂，一隻手臂拿鏟子，另一隻手臂握住鍋，然後這樣來翻蝦。用左手臂把鍋斜過來能幫它更好給菜品翻面。這個機器人很特殊，它設在一個移動底座上，所以它還可以拿著鍋，移動到廚房另一邊的一個碗邊，把做好的蝦仁倒進去。

Lukas Biewald: 你們用這個機器人煮了多少次蝦？

Chelsea Finn: 理論上我們傾向於每種方法做 20 次試驗來評估某個策略，因為測試次數越多，效果就越能體現出來。20 次就很不錯了，不過由於煮蝦還涉及烹飪等其他操作，測試的次數沒那麼多，可能只做了 5 次試驗。因每種方法的評估成本都會很高。尤其是要在不同機器人平臺、不同任務上進行測試的話，費用就會飆升。而且還不能寫一個指令碼就讓它自動完成，我們得參與進來，和機器人一起操作。

Lukas Biewald: 在這個過程中你們用了視覺來做操縱嗎？

Chelsea Finn: 是的，我們總共安裝了 4 個 RGB 攝像頭，分別安裝在機器人的每隻手腕上。手腕上的攝像頭在機器人操作中非常有用，讓我們能近距離觀察正在互動的物體物件。安裝在手腕上還有一個好處是，我們得到的資料是穩定的，比如不管從哪個角度去拿，手腕攝像頭看到的物體外觀都是一樣的，因此資料效率更高，只要學會從一個方向抓取，也能掌握從其他方向抓取的方法。