33億引數的VLA模型在大多數任務上可達 50%-100% 成功率。

作者丨王悅

編輯丨陳彩嫻

NLP 和 CV 領域，大模型的泛化能力可以讓資料量較大的通用模型超越垂直領域的專業模型，這一思路也在啟示著具身智慧的探索，機器人領域也看到了通用性的優勢。

在第六屆國際分散式人工智慧會議（Distributed Artificial Intelligence Conference，DAI 2024）上，關於具身智慧大模型前沿話題的討論尤為熱烈，碰撞出多個新鮮觀點。主辦方設定多個 Keynote 、學術沙龍深入探討具身智慧、博弈論、開放環境中的多智慧體強化學習以及大語言模型驅動的程式碼智慧體等議題，還有關於決策智慧體擴散模型和基座模型的專題講座。

UC Berkeley 的 Sergey Levine教授帶來了題為《Robotic Foundation Models》的主旨演講。在該演講中，Sergey Levine 教授介紹了一個整合視覺-語言-動作的33億引數通用機器人基礎模型。該模型透過預訓練(10,000小時資料、7種機器人、68種任務)和任務微調的兩個階段對策略進行訓練，實現了從簡單物體操作到複雜多階段任務(如疊衣服、組裝盒子等)的泛化能力，在大多數任務上達到 50%-100% 的成功率。

同時， Levine 教授指出讓視覺-語言-動作模型在採取行動前進行多步推理可以進一步提高機器人控制策略的泛化效能，在具有挑戰性的泛化任務中使 OpenVLA 的絕對成功率提高了28%。

最後，Levine 教授分享了 RLDG (Reinforcement Learning Distilled Generalist) 方法，透過使用強化學習生成的高質量訓練資料來微調機器人通用基礎模型，相比傳統的人類示範資料訓練方法可以獲得更好的效能和泛化能力。

AI 科技評論在不改變原意的前提下進行整理：

通用機器人基礎模型更具革命性

今天，我要談談機器人基礎模型。首先，讓我們從一個視角開始，過去我們在人工智慧的各個領域構建了專門的模型。如果我們回到大約 10 到 15 年前，你可以看到計算機視覺或自然語言處理的工作方式是這樣的：若想要解決影像分割問題，你會收集一個大型的標記好的分割影像資料集，然後訓練一個專門的影像分割模型。如果要進行分類，你會用一個密度標記的大型資料集來訓練一個分類模型。

對於影像描述、問題回答、摘要等任務也是一樣的道理，每個任務都需要收集一個大型資料集，這個資料集包含人類提供的高質量標籤，然後用來訓練一個大型神經網路模型。

如今，我們越來越多地轉向使用通用模型，我們可能會從網路上抓取包含文字和影像的文件，用它們來訓練一些非常大的自監督模型，有時被稱為基礎模型。然後我們可以用更少的任務特定資料來適應這個單一的通用模型，以適應特定的任務，甚至我們可能會提示它在零次或幾次嘗試中執行該任務。

這是一種更加通用和可擴充套件的方法，因為現在這個單一的大型基礎模型可以利用所有可用的資料，而不需要對單獨的任務（如影像描述或分割）進行細緻的人工標記。

這是一種非常強大的方法，我認為如果我們能夠將其帶入具身智慧和機器人的世界，這種強大的方法將變得更加強大。因為在機器人領域，現在的情況與10年前人工智慧其他領域的情況有些相似，如果你想讓機器人做翻煎餅或打包盒子之類的事情，你需要為那個特定任務收集特定的資料集，並將其與你選擇的機器人學習方法結合起來，以弄清楚如何完成那個任務。

我認為未來機器人學習將遵循在其他領域看到的趨勢，我們將擁有包含各種不同機器人執行各種不同任務所收集的機器人資料的資料集。然後這些資料將用來訓練一個通用的機器人基礎模型，該模型可以被提示或微調以適應個別下游問題。

在機器人領域，這種「配方」將更具變革性，因為目前要獲得足夠大的資料集以支援強大的機器學習系統在單一領域是非常困難的。但如果你能彙集所有不同領域的所有資料，那麼你可能會擁有非常大的資料量。

從長遠來看，只要機器人實際上被部署在現實世界中做有用的工作，這些資料集就會不斷增長，直到它們實際上比我們從網路上抓取的資料集還要大得多。所以我認為從長遠來看，這些機器人基礎模型實際上將取代其他各種任務的通用基礎模型，因為它們將擁有來自大量現實世界經驗的具身知識。

但我今天想要討論的是我們目前可以採取的一些步驟，這些步驟將使我們能夠實現這樣一個未來，即我們可以擁有通用模型，這些模型能夠捕捉到具身智慧。

我想首先討論的是資料集，因為構建基礎模型最重要的事情之一就是要擁有大型和多樣化的資料集。一年前，我們進行了一個實驗，試圖看看我們能否收集這種多機器人資料集，來開始研究機器人基礎模型。

當然，這是一個研究練習，這個資料集並不一定適合實際的現實世界任務，但在RTX專案中，我們去了世界各地的一些不同的研究實驗室，總共34個不同的研究實驗室。我們請他們為科學捐贈他們的資料，不管是哪種機器人的操作資料，我們都會收集到所有資料，並將它們彙總到一個基礎模型中。因此，我們獲得了來自 22 種不同型別的機器人、超過 500 種不同技能、不同場景的資料。

我可以詳細介紹這個資料集的統計資料，但透過觀看這個資料集中不同型別的試驗影片，你可以瞭解正在發生的事情，你可以看到不同型別的機器人被放置在許多不同的環境裡，執行著各種不同的任務。

這個資料集的作用是，我們想了解能否在這些資料上訓練通用模型，且這些通用模型是否真的能超越專門針對特定領域訓練的更專業模型——這非常重要。

因為在自然語言處理（NLP）和視覺等領域，我們已經看到通用模型實際上可以超越更專業的模型，因為它們可以利用更多的資料。那麼，我們是否也能在機器人領域看到同樣的通用性優勢呢？

我們採用了在34個不同研究實驗室的不同型別的機器人上訓練出的模型，並將該模型送回其中的七個實驗室，並要求他們將其與他們自己為任務開發的任何方法進行比較測試。這些影片顯示了一些用於評估的任務，你可以看到它們非常不同。其中一些涉及基本的拾取和放置任務，有些則涉及諸如佈線或操作傢俱之類的事情。機器人不同，場景不同，任務也非常不同。

結果顯示，每組中最左邊的條形圖顯示了每個實驗室擁有的特定於領域的方法是僅在他們自己的資料上訓練的，最右邊的彩虹色條形圖顯示了在跨體現資料集上訓練的RTX模型。中間的條形圖是一個基線模型，它也使用了特定於領域的資料，但它是不同場景中的統一模型。

所以重要的比較是在最左邊的條形圖和最右邊的條形圖之間。平均而言，RTX模型，即最右邊的條形圖顯示的平均值，比每個實驗室擁有的特定於領域的方法是大約50%更好，成功率達到了63對41。這是與實驗室為他們自己的任務開發的任何方法進行比較的，所以在某種意義上這是一個相當強的基線，因為那個實驗室已經結合他們的方法開發了那個任務。所以他們的方法對於所討論的任務來說應該是相當好的。

然而，這個通用模型平均而言超越了它大約50%。所以這非常令人興奮。這表明我們在自然語言處理（NLP）中看到的一些通用性優勢可能正在成為現實世界中物理機器人系統中的現實。

當然，機器人基礎模型不僅僅是資料集那麼簡單。近年來，另一個變得日益主流的板塊是將大型基礎模型適應於網際網路規模資料的預訓練，以用於機器人控制。在這方面最清晰的一步可能是 RT2 專案，該專案大約在兩年前在谷歌研究開發，目的是要弄清楚視覺語言模型如何能被適應於機器人控制。

在RT2專案中，我們採用了一個視覺語言模型，這個模型是透過將一個大型語言模型適應於處理視覺輸入，然後進一步微調以用於機器人控制而產生的。

這是很久以前的事了。現在，我們用一種相當簡單的方式完成了這項工作。當你為感知任務訓練一個視覺語言模型時，我們通常會使用像問題回答和影像描述這樣的資料集，這些任務中你會得到一張圖片，一個文字提示，然後模型應該產生一個文字答案。

我們只是將機器人資料以相同的方式框架化。機器人操作任務的一個單一時間步驟包括一張圖片，一個文字命令，比如機器人應該做什麼，然後得出一個答案，即機器人採取的行動以文字形式呈現，就像數值行動的文字表示。這不一定是表示機器人行動的好方法，但它足夠好，可以將這種資料打包成視覺語言模型可以微調的格式。

實際上，它產生了一個非常擅長遵循語言的模型。但當然，最有趣的事情發生在我們結合這種大型視覺模型與 RTX 資料集時，這使得這種跨機器人的泛化成為可能。

這是我們研究的RT2X模型，我們發現這個模型不僅擅長遵循語言指令，包含來自這些更多樣化平臺的資料實際上提高了資料中最具代表性的機器人平臺的語言遵循能力。這實際上是有點令人驚訝的。

我們可能會預期提高那些資料不足的機器人的效能，即那些沒有很多資料的機器人，但系統實際上甚至提高了我們擁有大量資料的機器人的效能。

實際上，當包含所有來自其他體現的資料（由紅色條形圖表示）在困難的語言泛化任務上的效能大約是僅使用這個機器人的資料的基線效能的三倍。

再次強調，當包含來自各種來源的通用資料時，實際上可以超越更專業的系統。該系統能夠執行各種基本的空間推理風格的任務，並且泛化得相當廣泛。

到目前為止描述的所有內容大致是2023年末的情況，那時機器人基礎模型的狀態如何？我們已經能夠從視覺語言模型（VLM）繼承網際網路規模的知識來提升機器人，這就是RQ2的概念。我們有了一個透過聚合許多不同機器人的資料來彌合數據差距的線索，但仍有許多不足之處。雖然有一些有趣的語言遵循和空間推理的開始，但它們仍然只是相當基礎的拾取和放置任務，當時還不清楚我們如何能夠向更靈巧和複雜的行為發展。

泛化和語言遵循仍然相當有限，比如，按照機器人的標準，將蘋果移動到罐頭和橙子之間是相當酷的，但與你可能要求一個人做的工作相比，它是非常基礎的。也就說明，架構根本沒有真正適應機器人，架構基本上就是為標準視覺語言模型建立的。

所以還有很多工作要做。我們需要了解如何使用這些視覺語言動作模型學習複雜任務，我們需要處理不同形態的多樣化機器人型別，而不僅僅是單臂機器人，我們需要為通用機器人策略開發正確的架構。在今天的討論中，我將描述我們為解決這些限制所採取的一些步驟，談論我們最近在開發的 π0 通用機器人策略。

基於 Difussion 的 π0 通用機器人模型

π0 模型現在是一個更適應機器人控制特定要求的模型，它實際上使用了像擴散這樣的連續控制。我將描述我們如何透過順序推理獲得更好的視覺語言動作（VLA），而不是直接輸出動作，機器人實際上可以思考執行任務的要求，並相應地調整其行為。

然後，我將以討論如何透過強化學習獲得更好的效能作為結束，透過微調 RL 向超人效能適應。但讓我們從 π0 開始，以及我們如何嘗試解決架構和多樣化形態的挑戰。

π0 是我們最近開發的新型 VLA，就在幾個月前，它使用大型和多樣化的資料集，但現在實際上能夠控制非常不同的機器人、有雙臂的機器人、單臂的機器人、有移動底座的機器人，並且它使用了一個更適應靈巧行為的架構，比如疊衣服和裝箱。

這裡是 π0 的構成：我們有來自各種不同機器人平臺的資料，並且自己收集了七個不同平臺的資料，這些資料真的是圍繞靈巧性設計的。我們還採用了 RTX 的全部開放 X 體現資料集，所以這些資料是從所有不同的研究實驗室彙總來的，以及來自 VLM 初始化的網際網路規模的再訓練。這些都被用來訓練VLA模型。

π0 模型有一個特定的架構，它結合了擴散來輸出高頻連續動作，這對於更復雜的任務來說非常重要。然後它可以在零次嘗試中被提示執行清理桌子等任務。對於特別複雜的任務，如疊衣服，它可以被高質量的後期訓練資料微調。這實際上非常有趣，因為在語言模型的世界裡，我們知道預訓練和後期訓練都非常重要。

我們還發現了一個類似的情況，對於真正複雜的任務，比如疊衣服，一個單獨的後期訓練階段實際上非常重要，以獲得出色的結果。所以讓我更詳細地逐一介紹這幅圖的各個部分，先從模型架構開始。

π0 模型架構接收一到三張圖片，這些圖片來自機器人的基座攝像頭以及安裝在機械臂上的風險攝像頭。如果機器人有一個機械臂，那麼它就有一個風險攝像頭。如果是兩個機械臂，它就有兩個風險攝像頭。它還接收一個語言命令，這個命令指定了模型應該執行的操作。然後它使用我們稱之為動作專家的變換器骨幹網路的獨立元件來將語言命令解碼成動作。

所以在專家混合模型中，任務的不同部分有不同的模型引數副本，這裡我們有兩個副本，一個用於視覺語言輸入，另一個用於連續動作輸出。動作專家的工作基本上是處理任務的所有連續部分，它仍然可以關注影像語言部分的所有內部啟用，但它專門用於連續輸出。它接收連續的關節角度，並且輸出一個由接下來的 50 個動作組成的連續動作塊。

這是透過流匹配完成的，流匹配是擴散的一種變體，這非常重要，因為流匹配允許我們捕捉更復雜的動作分佈。這些動作分佈可能是多模態的，因為人類在演示行為時會使用許多不同的策略。透過這種方式處理連續動作，我們還可以處理高頻控制，輸出高達 50 赫茲的控制，每個新輸出大約每半秒重新計算一次，輸出 50 個未來時間步的動作。

這就是模型。但當然，要讓這個模型工作，還有很多其他的事情要做。除了模型本身，我們當然需要正確的資料集。所以我們有預訓練資料，正如我之前描述的，它來自許多不同型別的機器人。它包含了大約 10,000 小時的資料。

所以這是一個非常大的資料集，而且極其異質、有數百種任務，但並非所有資料都是高質量的，有些資料並不那麼好，關鍵是它要足夠大。就像大型語言模型（LLM）的預訓練資料集可能包含豐富的知識一樣，包括好的和不那麼有用的，但非常多樣化。

後期訓練資料要小得多。我們為最複雜任務擁有的最大後期訓練資料集只有 20 小時的長度，有些甚至小到只有一個小時。它更加一致，旨在捕捉高質量但範圍狹窄的資料，說明機器人應該採取哪些策略來解決那些更復雜的任務，它應該說明執行任務所需的一致策略，僅在後期訓練資料上訓練結果並不奏效，因為這些後期訓練資料範圍狹窄，如果機器人犯了錯誤，它可能會發現自己處於後期訓練資料未覆蓋的狀態。

因此，預訓練資料基本上告訴它在奇怪的情況下該怎麼做，它告訴它如何修正錯誤，如何從失敗中恢復，而後期訓練資料則教會它為了在任務中表現良好應該採取哪種策略。所以後期訓練資料只有在與大規模預訓練結合時才有效。但如果我們能夠結合這兩件事，訓練這個大型的 π0 擴散模型，那麼我們就可以執行一些相當複雜的任務。

這裡有一個我們可以對模型進行微調的任務示例。從一個平放在桌子上的盒子開始，然後將其摺疊成完全摺疊的狀態。這是一個微調策略在行動中的影片，在這裡將盒子放在桌子上，機器人開始摺疊它。對於機器人來說，這是一個非常困難的任務，因為它有兩個平行的抽屜式夾爪，如果盒子完全組裝好，所有部分都容易散開。

所以你必須將它固定在一起，以正確的方式施加壓力，甚至要將其靠在桌子上，以保持它不散開。有些部分，比如這些翻蓋，可能不會完全進入。所以你必須測試它們是否完全進入，然後再次嘗試，更用力地捏它們，以便它們正確地進入。

你可以看到機器人會一直嘗試，直到做對為止。它可能還需要幾次嘗試來處理另一個翻蓋。所以你可以看到它試圖修復翻蓋，可能它的位置不太對，但一旦它進入正確的位置，盒子就組裝好了。這在一系列不同的試驗中相當一致地工作，即使盒子被放置在稍微不同的位置等情況下也是如此。

我們在這裡測試了各種其他任務，可以說是不同行為的抽樣。比如將食物打包進外賣盒，將雞蛋打包進蛋盒，這些都是預訓練中沒有的任務。這裡的條形圖顯示了實心條，即微調模型的結果，條紋條顯示瞭如果你僅在後期訓練資料上訓練會發生什麼，最右邊的條形圖顯示瞭如果你在零樣本學習試中提示模型會發生什麼。

當然，在零樣本學習中提示是不起作用的，因為在預訓練之前模型不知道如何執行這些測試。但最重要的是，在這三個案例中的兩個案例裡，微調的表現明顯優於僅在後期訓練資料上訓練的模型。因此，這表明在這個設定中，擁有預訓練對於持續的成功實際上是非常重要的。

我們在各種其他複雜任務上訓練了這個模型。這裡有一個桌面清理任務，機器人需要泛化並判斷每個物品是垃圾還是需要放入左側垃圾箱的盤子或杯子。所以所有垃圾都要扔進垃圾桶，所有盤子和杯子都應該放入左側的垃圾箱。這相當有趣，因為機器人必須弄清楚每個物品是什麼型別的，然後成功地操縱它。

我們還進行了疊衣服的任務，這是一個相當困難的任務，因為衣服最初是皺巴巴地放在籃子裡的，可能以各種不同的配置存在。所以機器人必須泛化到大量的配置，然後成功地將其疊好。我覺得這個任務非常迷人，因為觀察這種行為，它在疊布的方式上看起來非常像人類。

同樣，這在各種不同的設定中都能工作，適用於各種不同的洗衣物品，包括在不同的機器人上。所以你可以看到在右邊，機器人失敗了幾次，但它最終恢復過來，能夠疊好衣服。

它還可以執行其他洗衣風格的任務。例如，它可以從烘乾機中取出衣物。所以在右下角，你可以看到機器人把一個籃子移到烘乾機旁，然後取出衣物並將它們裝進籃子裡。

這些模型還能非常好地從干擾中恢復過來，我認為預訓練在這裡非常重要。在這些實驗中，機器人將會受到干擾，他將在桌子上額外放置一件襯衫，這實際上是非常分散注意力的。當有第二個物品擋道時，摺疊某物是非常困難的。而機器人實際上會將襯衫放回籃子裡，以將其移開。

這些恢復是自發出現的，它們實際上並不存在於後期訓練資料中。預訓練資料中可能有各種各樣的恢復行為，這使得它們能夠解決這個問題。

我們可以將這些技能組合成一個完整的任務執行。所以，在這裡你可以看到機器人執行了整個任務，它從烘乾機中取出衣物，將其放在桌子上，然後開始摺疊。它大約能在12分鐘內摺疊五件衣物。所以它的速度是合理的，顯然比人慢得多，但相當高效。它並不完美，你可以看到很多時候它在抓取時失敗，必須重試，但它確實能從這些失敗中恢復過來。

那麼從這項工作中我們能得到哪些主要結論？我們有一個通用模型的原型，它在許多不同型別的機器人上進行了訓練，它實際上能夠跨越不同數量的手臂和移動與靜態機器人進行泛化，在一系列非常複雜的任務中表現出色，但仍有不足之處。

對於最複雜的任務和新領域，微調仍然至關重要。高層次的策略有時有點基礎，所以有時疊衣服的策略實際上會展開襯衫然後重複摺疊，就像它沒有真正跟蹤任務的全域性結構一樣。它也是透過模仿學習進行訓練的，並沒有試圖最佳化任務成功、魯棒性或速度，所以還有很多工作要做。我們只是觸及了 LM 能力的表面，如果我們直接針對任務效能進行最佳化，而不僅僅是模仿，我們很可能會大幅提升效能。

推理+強化學習=更好的VLA模型

那麼我將在接下來的兩部分討論中談論這兩件事，首先會描述透過推理得到更好的視覺語言動作（VLA）模型，然後會討論強化學習。

在我接下來要討論的由 Mihai Zawoski、William Chen 及其合作者進行的研究工作中，他們提出了一個名為「Robotic Control via Embodiled Chain-of-Thought Reasoning」的專案，我們想要回答這個問題：推理能否增強或改善視覺語言動作（VLA）？我認為這個問題在當下非常熱門，我們已經看到測試時的計算能力能夠透過像 GPT-4o 這樣的工具顯著提升語言模型的效能。它是否也能提升機器人控制的效能呢？

一個常規的 VLA 被訓練為接收一個命令和一張圖片，然後輸出一個動作。如果我們接收一個命令和一張圖片，然後輸出一系列幫助我們推匯出正確動作的中間步驟會怎樣？比如與任務相關的物件的位置、可能有助於完成任務的中間步驟等，這仍然是一個端到端的系統，因為模型仍然輸出所有的中間步驟和動作，但這些中間步驟可以幫助它更好地泛化，更有效地從預訓練的VLMs轉移視覺和語義知識。

這個工作的運作方式是，我們將使用其他基礎模型，來為任務的中間步驟提供合成標籤，合成標籤如撕裂位置、分割等。我們將使用這些來構建包含原始命令、合成生成的中間推理步驟和機器人應採取的最終動作的合成思維鏈示例。

這些是一些中間步驟的簡要解釋，它們包括子任務推理、移動推理、夾爪位置、可見物體的位置等。所有這些中間步驟都應由模型在測試時生成，而在訓練時則由這些合成示例提供。

這些是我們訓練模型產生的中間資訊片段。我們使用稜鏡式VLM（視覺語言模型）來生成描述場景的合成標籤，然後我們使用另一個模型 dyno 來產生用於邊界框的合成標籤，它教會我們的模型去計算出這些物件的位置。接著我們使用一些人工標記程式碼將動作分解成語義描述，比如向上移動、向左移動，我們計算夾爪的位置。

所以現在這讓模型能夠在夾爪的相對位置、相對於其他物件的位置以及如何用語言描述它應該執行的下一步任務上進行一些語義推理。這些都是訓練模型的中間步驟，然後幫助它在測試時產生正確的低階動作。

這裡是一些場景和模型對應生成的例子。邊界框只是顯示出來供你視覺化的，模型實際上並沒有接收到這些邊界框，它產生了邊界框，並且它們被渲染在影像上只是為了這裡的視覺化。

這些是三個測試場景，左邊和中間的成功了，最右邊的一個失敗了，你可以看到底部模型認為發生了什麼。例如，在中間的場景中，模型被告知將最左邊的物體放在中間的物體上，然後模型推斷出最左邊的物體是一個粉紅色的毛絨玩具，中間的物體是一條藍色的毛巾，然後它計算出，鑑於夾爪已經抓住了毛絨玩具，應該向右移動，然後從那裡產生正確的動作併成功完成任務。

這是一些具身思維鏈解凍試驗的影片。你可以看到每個場景中左邊的機器人動畫，以及右邊即時生成的中間文字。評估包括超過300次試驗和14個不同的任務，這種方法實際上幫助很大。

這裡的特定視覺語言動作（VLA）是在 OpenVLA 的基礎上訓練的。OpenVLA 是一個傳統的VLA，它在 RTX 資料集上進行了訓練。具身思維鏈（Embodied Chain of Thought）僅僅是在OpenVLA的基礎上進一步微調，以執行這些思維鏈推理。

你可以看到，成功率提高了超過50%。RT2X（綠色條）是一個更大的VLA，擁有55億個引數，相比之下，OpenVLA只有7億個引數。雖然 OpenVLA 稍微差一些，但當它被增強了具身思維鏈之後，它實際上比這個大得多的模型表現得更好。

我們可以透過這個思維鏈過程做的一個很酷的事情是，我們還可以納入人類的糾正。

例如，機器人可能會因為錯誤的推理而失敗。它被要求拿起任何不是黃色的物體，但它沒有去拿黃色的物體。因此，使用者實際上可以介入並說這個茄子是正確的物體，因為它是紫色的，修改了思維鏈，然後機器人就可以正確地完成任務了。

這種糾正實際上可以應用於任何視覺語言動作（VLA）模型，所以你可以將任何VLA的中間步驟進行改進，具身思維鏈從這些糾正中獲益最多，因為它有更多的中間語義步驟，並且學會了關注它們。所以我們將這些糾正應用於Open VLA和RT2X，但在具身思維鏈中，這些糾正帶來的改進是最大的。

這相當有前景，因為現在我們可以得到這樣的模型：它們在執行復雜的操控行為時，會更多地思考它們應該採取的中間步驟。但我們能否更進一步？能否透過自主經驗實際上提高這些模型，並將其微調到超人的速度和魯棒性水平？為此，我們一直在研究如何使用強化學習來獲得更魯棒、更精確的技能。

這項工作開始已經有一段時間了。我們實際上釋出了一個名為SURL的強化學習包，這不是為機器人基礎模型設計的，而是用來訓練個別任務的較小模型，你可以將其視為培訓專家而不是通才。但SURL允許你用少量的示範來啟動強化學習過程，透過一些非常謹慎的設計決策，實際上可以讓這些強化學習演算法變得非常高效。

在這個影片中，可以看到的是一個機器人學習將晶片插入 PCB 電路板，整個訓練過程在這個案例中大約需要 20 分鐘才能進行第一次插入，而到了 30 分鐘時，它實際上可以一致地插入晶片。其他任務可能需要更長的時間，但這些訓練時間實際上是相當實用的，可以在現實世界中完成。

當策略正在訓練時，它實際上相當魯棒，因此我們可以干擾物體，我們可以移動PCB電路板，而機器人實際上可以恢復。我們還可以學習一些很難手動指定的其他任務，比如透過夾子佈線。使用強化學習進行此類任務的優勢在於，我們可以獲得更好的魯棒性和更快的速度。

因此，在SURL的評估中，我們將之與模仿學習進行了比較，對於模仿學習，我們實際上提供了更多的示範資料。因此，BC（模仿學習）的總資料集大小與RL（強化學習）相同。

從這個成功率的圖表中，可以看到RL的成功率在所有這三個測試任務中都達到了100%，儘管BC獲得了更多的示範資料以匹配總資料集大小，但其成功率要低得多。關於RL策略的另一點是，它們的週期時間要短得多，這意味著它們完成任務的速度要快得多，比模仿學習快兩到三倍，即使模仿學習成功了。這很酷，但當然這些都是非常專業的策略。

這裡的設定是什麼？這個演算法叫做RLPD。RLPD基本上是修改後「Soft Actor-Critic」，我不確定實際的演算法是否真的那麼關鍵，但我認為實際上很多演算法都可以被調整來做到這一點，而整個系統需要以正確的方式構建。

觀察由預訓練的視覺編碼器處理的影像組成，獎勵實際上是由影像分類器提供的，所以場景中沒有儀器，只有一個分類器，它觀察場景並判斷是成功還是失敗，這給機器人提供了稀疏的獎勵。然後還有可選的人工干預，我們用它來處理更復雜的任務，人類可以實際介入並使用遙控裝置來糾正機器人。

機器人不會嘗試簡單地匹配干預，它只是將其新增到回放緩衝區中，作為它可以用來利用的額外資料。所以在這段影片中，當影像被藍色圈出時，那是自動的，當被紅色圈出時，一個人正在使用3D滑鼠提供干預。這就是實際訓練展開的樣子，它部分是自動的，部分是基於干預的。

這是一些可以用這種方法學習的任務。這是一個雙手儀表盤裝配任務，機器人需要拿起這個儀表盤並將其插入這些金屬夾子中。這是一個相當困難的任務，因為你必須對齊所有的夾子才能成功插入。這是最終行為的即時表現，可以看到它拿起這個儀表盤，對齊夾子，並將所有的夾子插入正確的位置。

這裡有更多工。其中一些需要操縱可變形物體，比如左上角的正時皮帶裝配，有些需要動態行為，比如左下角的翻雞蛋，或者使用鞭子在右下角取出Jenga積木。

右上角展示了一個將三個控制器串聯起來組裝宜家傢俱的行為，機器人需要拿起每件傢俱的部件，並將其插入相應的插槽中，然後用螺絲固定，然後Charles用螺絲刀實際擰緊零件。

這實際上是三個不同的策略，最後一個部分當然是最難的，因為對於桌子的表面，它必須對齊兩個桌腿上的所有銷釘，所以這個相當難。你可以看到它對齊了銷釘，並且它學會了這種小擺動動作，這使得它能夠確保銷釘就位。所以這裡是那個擺動動作，你可以看到需要一點時間來做到這一點，但最終它將銷釘放入正確的位置，然後傢俱就組裝好了。

這些策略也對外部干擾具有魯棒性，因為在強化學習（RL）過程中，會注入噪聲，而機器人能夠恢復併成功完成任務。正如我所說，到目前為止，這種方法正在學習專門的策略。我們可以以各種方式使用這些策略，比如我們可以將多個策略串聯在一起，就像在這個主機板裝配任務中一樣。但稍後，我還將討論如何將它們整合到更大的基礎模型中。

所以目前，這些都是專門的策略，你可以看到有一個技能可以插入硬碟驅動器，還有另一個技能可以插入記憶體條。這實際上相當困難，因為對於記憶體條，你需要施加向下的力，但在其他維度上仍然保持柔順，以便它能夠正確地插入到位。然後它將插上USB電纜，並將USB電纜穿過一個夾子。

對於這個任務，在我們進行強化學習時，當然非常重要的一點是不要損壞部件，這需要一個特別的柔順控制器。實際上，在完成這項研究後，我讓Charles和Jean-Len向我證明機器人沒有損壞電腦。所以我讓他們確保電腦仍然可以開機，他們確實做到了。在佈線之後，機器人實際上會按下按鈕來開啟電腦，以測試確保在進行強化學習時沒有弄壞它，電腦成功啟動了。

現在，如果我們想要將這些專門的策略轉化為更通用的視覺語言動作（VLA）模型，我們實際上可以利用這些強化學習（RL）訓練執行來建立資料集，這些資料集可以用於VLA訓練，代替人類提供的例子，這就是我們在最近的方法RLDG中開發的。

在RLDG中，各個RL策略充當專家來建立資料集，然後將這些資料集整合到一個通用的VLA模型中。我們測試這種方法的一種方式是，為不同的聯結器插入（如VGA和USB）訓練單獨的RL策略，使用這些控制器產生的資料來訓練OpenVLA，然後在新的聯結器上執行OpenVLA，看它是否能夠泛化。

結果表明，它能夠很好地泛化到其他型別的聯結器上。這相當有趣，因為我們發現一些有趣的事情，我們發現RL產生的資料比人類示範更好。這也許並不令人驚訝，因為RL當然是直接試圖最佳化任務獎勵，但即使我們移除了所有失敗的示範，它仍然更好。

因此，人類示範和RL資料具有相同的成功率和相同的大小，但用RL資料訓練的策略最終表現得更好。我們當然發現，OpenVLA這個通用模型，在RL資料上微調後，實際上比監督它的RL策略泛化得更好。所以好處來自兩個來源，這可能是獲得通用策略的一個合理方法，但仍然超越了僅僅使用人類資料。

現在，也許我們也想有一種方法，可以自主地微調我們的機器人基礎模型，而不必依賴於人類指定的任務或人類指定的獎勵函式，我們也可以做到這一點。

最後一個專案叫做SOAR，這是由Paul Zell和Pranav Atreya及其合作者完成的。這裡的目標是在完全沒有人類監督的情況下使用自主資料，沒有人類的干預，沒有人類的獎勵函式，在這個設定中，我們實際上使用了一個視覺語言模型來觀察場景並提出機器人可以練習的任務。

例如，大型語言模型（LLM）可能會說機器人可以從銀色的鍋裡拿出香蕉，這是一個有效的練習任務，也許機器人會成功，也許不會。然後我們可以使用這個命令，使用影像生成模、擴散模型，基本上是微調穩定的擴散，來生成成功完成這個任務可能看起來的影像。然後我們將這個命令交給機器人的基礎模型。機器人嘗試這個任務，有時可能會成功，有時可能會失敗。無論成功還是失敗，這些資料隨後都可以用於額外的微調，以使機器人在這種場景中表現得更好。

這樣做的優點在於，因為它是完全自動化的，可以在沒有任何人類干預的情況下進行大規模執行。所以可以讓它在夜間執行，可以在沒有人在場的情況下執行它，它將提供額外的訓練資料，以使機器人適應新的場景和新的物件型別。

我們發現，當我們使用這種自主資料適應特定場景時，效能提高了50%以上，而當我們實際上添加了其他場景的資料時，效能會得到額外的提升。這與我們之前看到的通才相對於專家的好處是一樣的，這非常令人興奮，我們實際上可以透過練習讓這些基礎模型在具備一些基本能力後得到提升。

我們在多種不同的下游任務上測試了這一點，並看到了相當顯著的改進。

為了結束這次演講，我想以一點討論作為總結，討論我描述的一些想法與我們在其他領域看到的基礎模型之間有何關聯。因此，對於LLMs（大型語言模型）和BLMs（大型生物醫學模型）的基礎模型訓練的解剖，這些話題在機器人學之外的領域實際上已經相當成熟了。

所以如果你看像OpenAI和Google這樣的公司是如何訓練基礎模型的，方式通常是這樣的：從一個從網路抓取的大型且多樣化的預訓練資料集開始，設計一個非常有表現力的高容量架構，在這個資料集上訓練這個架構，那是預訓練階段。

然後有一個後訓練或對齊階段，我們可能會使用高質量的資料集，並透過監督學習進行微調，有時被稱為SFT（超級微調）或指令調整，我們還可能透過RLHF（透過人類反饋的強化學習）與人類偏好進行微調，與人類偏好的微調理想地超越了我們僅透過人類生成的例子所能得到的結果，那些微調程式實際上對於獲得真正好的模型非常重要。