Robot Data系列前六期聚焦在機器人操作資料相關的論文，這一期我們將第一次探討機器人移動問題。Robot Data這個話題下，大規模模擬+強化學習解決移動（Locomotion）可能是在當今機器人學習領域共識度最高的路線。從2020年開始，用強化學習在英偉達IssacGym上解決四足移動的論文持續獲得了很高的關注。來到2023年末，隨著硬體的突破，用強化學習解決雙足人形移動的問題逐漸獲得了更多的關注。

在Robot Data第七期，我非常榮幸能夠邀請到在四足和雙足人形移動方面非常有代表性的兩個工作Robot Parkour Learning和Humanoid Parkour Learning的指導老師趙行和一作莊子文來為大家介紹機器人移動相關問題。因為趙行老師在自動駕駛行業的深厚積累，我們也探討了自動駕駛作為初代具身智慧落地代表，在資料方面的歷史經驗。

Robot Parkour Learning：Ziwen Zhuang*, Zipeng Fu*, Jianren Wang, Christopher Atkeson, Sören Schwertfeger, Chelsea Finn, Hang Zhao；*共同一作

Humanoid Parkour Learning：Ziwen Zhuang, ShenZhe Yao, Hang Zhao。

趙行是清華大學交叉資訊研究院的助理教授，MARS實驗室的負責人，研究興趣包括多模態機器學習、自動駕駛和機器人技術。趙行曾在Waymo（即谷歌的自動駕駛專案）擔任研究科學家。在此之前，他在麻省理工學院（MIT）師從Antonio Torralba教授獲得了博士學位，在浙江大學竺可楨學院獲得了學士學位。

莊子文是清華大學交叉資訊研究院的一年級博士生，研究方向包括運動智慧、具身人工智慧和機器人技術。莊子文在上海期智研究院擔任研究助理，由趙行教授指導。在此之前，他曾是上海科技大學MARS實驗室的成員，師從Soeren Schwertfeger教授。

非常感謝兩位學者的細緻解讀，相信以下文字可以讓你對大規模模擬+強化學習對解決區域性移動問題，以及自動駕駛行業的資料經驗有新的認知，Enjoy！

以下為本文目錄

👇

第一部對話莊子文：大規模模擬下的機器人跑酷

1. Robot Parkour Learning方法介紹

2. 模擬+RL之於Locomotion

3. 模擬的Sim2Real Gap

4. 關於具身資料集

5. 控制理論 vs 強化學習

第二部對話趙行：機器人跑酷和自動駕駛—機器人資料從哪裡來

1. Robot Parkour解決的核心問題

2. RGB視覺之於未來機器人的感知

3. 自動駕駛行業在資料問題上的歷史經驗

4. 特斯拉怎麼做端到端模仿學習的呢？

5. 自動駕駛模擬—感知模擬vs行為模擬

6. 行為模擬資料—訓練or測試

7. 感知模擬—Real2Sim

8. 關於機器人學習的路線

一些想法

第一部對話莊子文：大規模模擬下的機器人跑酷

1. Robot Parkour Learning方法介紹

跑酷任務在機器人學習中的應用，特別是在四足機器人和人形機器人的不同實現中，通常分為三個階段：預訓練、微調、和蒸餾。

階段 1：帶有軟動力學（Soft Dynamics）約束的強化學習預訓練

在強化學習預訓練階段，我們引入Soft Dynamics約束。Soft Dynamics 的概念源於模擬器中物理碰撞的侷限性。在傳統的模擬器中，物體只能發生硬碰撞。例如，當機器人腿部遇到地形時，只能直接發生碰撞，無法實現逐步減少的穿透效果。而在 Soft Dynamics 中，當我們在系統中編寫程式碼時，我們知道某處有一個障礙物，但在實際的模擬環境中並不告知機器人這個障礙的存在。這樣一來，模擬器在進行物理模擬時，當機器狗接近該區域時，不會計算碰撞。然而，當它實際穿透這個障礙物時，我們透過獎勵函式給它一點懲罰，告訴它這種穿透是不正確的，從而降低其獎勵值。

Soft Dynamics

階段 2：帶有硬動力學（Hard Dynamics）約束的強化學習微調

在強化學習的微調階段，我們嚴格執行所有動力學約束，並在真實的動力學條件下對預訓練階段學到的行為進行微調。把障礙物實際放上去的時候，在模擬中允許機器人進行微調，因為在模擬環境中，輕微的穿透可能不會導致問題，但在現實環境中，如果真的有障礙物擋在那裡，輕微的穿透就行不通了。為了適應這種差異，機器人需要在模擬中進一步微調，以確保在實際環境中也能順利應對障礙物。

Hard Dynamics

階段 3：透過蒸餾學習基於視覺的跑酷策略

在學會每個單獨的跑酷技能後，我們使用 DAgger 演算法將這些技能蒸餾為一個基於視覺的跑酷策略。這個策略可以在只依賴機器人自身的感知和計算能力的情況下部署到四足機器人上。

Distill

關於蒸餾，它的初衷其實是為了解決幾年前 Isaacgym 渲染速度過慢的問題。在 Isaacgym上，用 3090 顯示卡進行渲染時，速度非常慢。比如，如果在不渲染的情況下，完成一次強化學習訓練可能只需要 3 個小時，但如果啟用渲染，可能需要長達三天的時間，差距非常明顯。因此，蒸餾的解決方案是先偽造一個感測器，讓它去感知地形資訊，然後透過蒸餾的方法讓模型學會如何在真實世界中使用感測器來應對地形，或是encode這個地形。其實，只要問題定義得足夠清晰，即使使用 4090 顯示卡直接進行訓練，也可以不用蒸餾。

蒸餾的另一個重要好處是可以更方便地更換感測器。例如，你可以先使用深度相機進行訓練，然後如果發現深度相機效果不佳，可以透過蒸餾將知識遷移到雷射雷達等其他感測器上。這樣，換感測器的成本就會降低，因為你不需要從頭開始重新訓練模型，這是蒸餾方法的一個顯著優勢。

2. 模擬+RL之於Locomotion

在2020年之前，強化學習領域的學者以及在做機器人移動（Locomotion）研究的學者都在努力提升演算法的效率。像 MuJoCo 和 PyBullet 這樣的模擬平臺主要依賴 CPU 進行模擬，每臺伺服器最多隻能同時執行 256 個模擬器。2020年，瑞士聯邦理工學院（ETH）的 Marco Hutter 團隊（RSL 實驗室）的一名成員在英偉達實習，決定嘗試透過增加資料量來提升效果，並利用英偉達的資源在 Isaac Gym 平臺上進行了大規模的模擬實驗，這可以說是最早的一次大規模模擬嘗試，結果一試就成功了。英偉達顯示卡的並行處理是其強項，一上來就能同時執行 4,096 個模擬器，這就是一個透過規模化實現突破的例子。自此之後，幾乎沒有人再提強化學習演算法的效率問題了。

3. 模擬的Sim2Real Gap

在Locomotion方面，Sim2Real Gap的問題目前已經有很好的解決，但操作方面還有很多挑戰。操作研究通常簡化了整個物理過程，導致很多操作模型的定義實際上違反了物理定律。例如，在操控一個物體時，需要施加足夠的力，但操作庫或模型輸出的指令可能忽略了物體的重量，可能導致無法實際搬起物體。因此，模型在實際應用中的表現總會存在與真實情況之間的差距，因為總會有一些被忽略的因素。

此外，在進行操作時，碰撞面和碰撞關係非常複雜。例如，當用手指操作物體時，涉及到大量的碰撞面，這使得模擬更加複雜。相較於機器人移動任務，操作的碰撞數量級更大，因此模擬器的實現也變得更加困難。當前許多通用模擬器採用的是迭代式的模擬方法，它們透過計算下一個時間點的系統狀態來進行模擬。這種方法雖然可以逐步逼近真實情況，但也存在模擬精度的問題，尤其是在處理複雜碰撞和物理互動時，這使得模擬過程更加複雜和計算更加密集，這種複雜性往往會導致模擬速度變慢。

4. 關於具身資料集

在整個具身智慧的研究中，以前做計算機視覺的很多研究人員習慣於使用大家公認的標準資料集和指標，這種慣性導致在新領域也希望有一個統一的資料集供大家訓練和測試，以便在公認的指標上進行競爭。例如，最早Imagenet出來後，成功率指標是非常直觀的指標，後來出現了一些基於Transformer的視覺化圖，大家也可以從中去分析問題。但在機器人領域，目前還沒有足夠直觀或者說被廣泛認可的資料集出來，這樣的標準還沒有完全形成。尤其是當資料集無法涵蓋所有可能的情況，或者是即使沒有真機的一些課題組也可以用的資料集，這種情況還沒到來。

此外，機器人領域的任務成功率通常較低，很多操作任務的成功率可能都在10%以下，甚至更低。因此，成功率的細微差異（比如從3%到4%）並沒有顯著的區別。這種低成功率和指標的不確定性，使得評估機器人效能更加複雜。為了提高成功率，機器人操作往往在簡化的場景下進行機器人系統的測試，但簡化場景下的問題也變得相對簡單，這樣的系統在真實世界中可能無法有效處理複雜的情況。我們可以看到，許多成功率較高的工作在展示時的影片都是經過加速的，有些甚至需要加速四倍、八倍，即使是稍微好一些的系統，可能也需要加速兩倍來顯示機械臂的動作。這是因為，在許多早期的機器人操作任務中，問題被簡化為所謂的準靜態動力學（Quasi-static Dynamics）。

這種簡化忽略了許多動態因素，比如一個物體突然掉落的情況。這也意味著，機器人無法完成需要動態處理的任務，比如鋪床單或抖動衣物。而在準靜態動力學設定中，這些複雜的動態操作從定義上就被排除了。因此，ALOHA在技術上產生了較大的影響力，因為它們幾乎全部都是即時的，它把控制問題引入到學術界的視野。最早引起這一關注的是宋舒然組的幾篇工作，包括Swingbot，他們明確指出，機器人在操作時必須考慮動力學因素，包括環境的高速移動和慣性等。

在人形機器人領域，直接將收集到的人類資料集對映到機器人上，並不符合物理定律。如果你看過一些早期計算機圖形學領域的工作，他們往往透過人類的影片資料訓練神經網路，然後讓神經網路生成一系列人的行為動作。然而，這種研究的一個問題在於，生成的動作經常不符合物理定律。例如，有些動畫中人會像走太空步一樣，在地面上滑動，這種現象就是典型的不符合物理定律的表現，這中間還是需要一層網路來將人類的動作對映為機器人能夠執行並滿足物理定律的動作。

5. 控制理論 vs 強化學習

從數學角度來看，強化學習和控制理論確實有很多相似之處。但強化學習涉及到大量的機率分析，比如對先驗和後驗分佈的分析。而在控制理論中的規劃和系統動力學通常是確定性的，系統的行為是可以精確預測的。相比之下，強化學習則是透過不確定性的方式來建模。這兩者的聯絡主要體現在這些方面。

對於強化學習來說，它的最大優點在於能夠應對突破邊界的意外場景。比如，Deep Tracking Control這篇文章中提到的，MPC（模型預測控制）和類似的演算法在應對這些意外情況時存在侷限。具體來說，MPC 在規劃過程中，面對小範圍的偏差，比如Atlas機器人在跳躍時目標平臺距離原計劃有0.1米時，只需稍微調整力道即可解決。然而，當情況變得更復雜，例如目標平臺距離為0.5米，超出了機器人的跳躍能力時，MPC可能無法及時調整並規劃出有效的保護動作。這種情況下，機器人可能會碰撞到平臺，導致損傷。而強化學習能夠處理這些突破邊界的意外情況，透過學習和適應，能夠在面對超出預期的挑戰時，規劃出新的應對策略。

第二部對話趙行：機器人跑酷和自動駕駛—機器人資料從哪裡來

1. Robot Parkour解決的核心問題

Robot Parkour Learning獲得了2023 CoRL最佳系統論文提名，這說明我們的整體系統設計比較完善，而不僅僅是某個單點技術的突破。關於跑酷工作，我認為核心問題主要有兩個方面：一是如何設計和調整一個有效的訓練策略，二是如何克服Sim2Real Gap。訓練策略的設計是一個複雜的任務，涉及不同動力學約束的強化學習訓練，以及技能模型的蒸餾。

過去，四足的工作不帶視覺，主要依賴本體感知，而現在，我們引入了視覺感知，特別是雙目深度相機，Sim2Real Gap問題在引入視覺系統後變得尤為重要。為了有效地克服Sim2Real Gap，我們需要在模擬中儘可能真實地模擬視覺感知中的深度，同時調整真實世界中的資料，使其儘量接近模擬器中的理想影像，將模擬資料和真實資料的分佈儘可能接近，從而縮小這兩者之間的差距。

在縮小Sim2Real Gap過程中，我們採用了多種方法進行嘗試，比如填洞、去噪等，深度圖在這方面表現尚可。在跑酷任務中，挑戰相對簡單，主要是克服地形，而克服地形的關鍵在於瞭解其深度。但是未來真正的實用機器人不應僅僅依賴深度圖，而需要能夠處理RGB影像。

此外，Multitask Learning（多工學習）在機器學習中一直是一個長期存在的問題。當一個模型同時學習多個任務時，不同任務的回傳梯度往往會發生衝突，會遇到每個技能的效能下降的問題。除錯單個技能其實比較容易，但同時除錯多個技能則很困難。因此，子文在嘗試了各種方法後發現了一個比較好的策略：先單獨訓練每個技能，將這些技能作為教師模型，然後共同訓練一個學生模型。這樣的方法可以最大限度地減少效能下降，最終的成果是一個系統化的解決方案，不只是單點創新，而是全面提升了能力。

2. RGB視覺之於未來機器人的感知

目前，利用強化學習訓練機器人處理RGB影像遇到的Domain Gap還是很難克服的。這也可能是今年或者明年大家研究裡非常想去解的一個問題：機器人不再依賴深度圖或者點雲圖，而是僅僅透過RGB圖來感知。RGB影像包含豐富的資訊，包括物體的材質、地面的特性以及周圍的環境。例如，它可以顯示一個標誌，指示某個區域不可進入。這些語義資訊在RGB影像中非常豐富，提供了深度圖無法提供的詳細上下文。

解釋：這裡提到的RGB是相對於點雲資訊，RGB影像由紅、綠、藍三種顏色通道組成，可以捕捉場景的彩色視覺資訊。每個畫素點記錄了顏色資訊，組合成我們肉眼可以看到的影像，目前網際網路上存在的大量圖片和影片資料也是RGB資料。點雲是一組三維空間中的點，每個點包含位置座標（X, Y, Z）和有時附帶的強度值等資訊。它通常由雷射雷達或深度相機生成。

首先RGB不一定只有二維感知能力，雙目RGB也可以提供深度資訊。我這裡強調RGB的意思是，從未來發展的角度來看，大機率不會使用雷射雷達或者深度相機的點雲，而是會選擇單目或者雙目的RGB，這不僅僅是出於成本的考量，更重要的是泛化性。單目或雙目的RGB在視覺感知模組中具有最好的泛化性，因為資料量最大。網際網路上有海量的透過相機和影片拍攝的RGB資料，它符合構建感知大模型（Foundation Model）對龐大資料量的需求。

我們需要參考現在網際網路上有多少文字資料量才能訓練出語言大模型，視覺或者影片是有機會訓出感知大模型的。但其他感測器的資料，比如雷射雷達、深度相機，甚至力學，觸覺，幾乎不可能成為感知大模型的基礎，主要原因是這些領域連標準都沒有。到目前為止，雷射雷達還沒有一個大家廣泛接受的標準，無論是資料格式、傳輸、壓縮方面都缺乏統一標準。在這種情況下，很難真正開發出感知大模型。

視覺資料之所以有如此大的優勢，是因為它依賴於已經非常成熟的相機行業，再加上網際網路在視覺資料的壓縮和傳輸方面也非常方便。因此，未來機器人感知大模型很可能是基於RGB資料的。現階段多感測器融合的三維重建是有用的。但從長期來看，IMU 加上雷射雷達的資料很難進入到感知大模型裡，可能還是會和機器人資料管道解耦。這些資料可以幫助生成更好的真值資料集，或者作為測試集的基準。

3. 自動駕駛行業在資料問題上的歷史經驗

在自動駕駛發展的初期，並沒有如今機器人行業面臨的資料短缺以及Scaling Up的問題。早期，自動駕駛都是依賴傳統的機器人學方法，這些方法就是透過建圖來識別靜態環境，用雷射來識別動態障礙物，利用規則結合搜尋最佳化演算法來規劃自動駕駛汽車的軌跡，從而解決導航和移動問題。因此，自動駕駛的移動問題在那之前幾乎都是透過傳統方案來解決的。當時大家並沒有深入考慮資料的重要性。

以Waymo為例，2009年開始涉足自動駕駛，為什麼選擇那個時間點呢？這是因為他們觀察到了2004年和2007年的DARPA Urban Challenge，在那些比賽中，各個高校參賽團隊已經能夠透過傳統的機器人學方法實現自動駕駛。這種傳統方法通常是模組化的，比如感知分為檢測與跟蹤，地圖包括高精度建圖和定位，規控包括軌跡預測、位置速度規劃等等。參賽團隊看到了這些傳統技術的可行性，因此Waymo在2009年開始投入自動駕駛，並且一直沿用了2007年DARPA Urban Challenge的技術路線。

實際上，到了2016年，自動駕駛真正火爆起來時，大多數人仍然沿著Waymo的路線在推進，包括百度阿波羅也在較早期進行探索，基本上也是遵循這套技術路線。我認為真正的轉折點是在2017年和2018年，特斯拉開始全面採用AI路線，從那個時間點開始，大家才逐漸意識到並開始探索用AI方法來解決自動駕駛問題。特斯拉開創了一個全新的方向，他們提出了完全透過AI、端到端地解決自動駕駛問題的理念。我認為這確實是特斯拉開了先河，改變了大家的思考方式。正是特斯拉的這種創新，使得大家對在機器人領域採用類似的模仿學習方法充滿了信心，認為這種方法也可以在機器人領域取得成功。

在自動駕駛行業，最初大家認為有些公司的強大演算法能力會帶來明顯的優勢，但現在來看，純靠演算法的公司優勢已經不明顯了。實際上，跑的快的公司不是這些有演算法優勢的公司，反而是主機廠，比如國內的新造車勢力和特斯拉，這些公司和專注於做自動駕駛演算法的創業公司比也許演算法不是最好的，但透過成功建立資料閉環，他們的實際自動駕駛體驗是很不錯的。這些主機廠之所以能跑得更快，核心原因是他們擁有大量的資料，他們需要做的事情就是對這些資料篩選和自動標註，然後再訓練模型，問題就解決了。

4. 特斯拉怎麼做端到端模仿學習的呢？

公開資訊雖然不多，但大家普遍認為特斯拉的方法是透過影像作為輸入，軌跡或控制訊號直接作為輸出，訓練了一個模型。不過，這個模型中還有一些中間輸出，比如佔用圖、車道線檢測和物體檢測的輸出。基本上，這是一個多頭（Multi-Head）模型，而其中最重要的Head是規劃出來的軌跡或控制訊號的。包括所有的中間輸出，整個模型是直接進行訓練的。

而他訓練的資料來源就是所有賣給車主在路上跑的Tesla車，這種方法非常巧妙。用現在機器人的資料視角來看，特斯拉的方法其實就是一個同構遙操作，類似於Mobile ALOHA。駕駛員操作與機器人本體相同的系統，不斷收集資料，收集後直接用來訓練模型。特斯拉給出了一個最佳示範，證明這條路徑可以達到非常高的上限，雖然還未完全達到L4水平，但已經非常接近。

5. 自動駕駛模擬—感知模擬vs行為模擬

模擬可以分為幾個部分：感知的模擬，比如雷射雷達和視覺影像的模擬；行為的模擬，比如模擬其他車輛的行駛軌跡。對於機器人來說，可能還有動力學模擬和物理引數的模擬，因機器人在操作時，需要與物體接觸。在自動駕駛領域，主要關注的就是感知的模擬和行為的模擬。Waymo在行為的模擬這方面做了很多工作。幾年前，Waymo的主要宣傳點就是他們擁有幾千萬英里的真實駕駛資料，再加上幾千萬英里乘以一千到一萬倍的模擬資料。

Waymo這裡提到的模擬指的是行為模擬。比如，在真實駕駛中遇到一個醉漢以一米每秒的速度穿過馬路，Waymo可以透過模擬將他的速度調整為兩米每秒或0.5米每秒，從而生成新的行為資料。類似地，在執行無保護掉頭時，可以模擬對方車輛是否讓行，從而模擬出各種不同的行為資料。

而像特斯拉這樣的公司，更傾向於做端到端的解決方案，因為他們的資料主要是影像資料，因此更傾向於做感知的模擬。感知的模擬在過去，包括特斯拉和英偉達在內的一些公司，會在遊戲引擎中渲染新的場景進行感知模擬。特斯拉之前在這方面做得很多，但最近由於他們擁有大量的真實資料，已經不再需要依賴模擬，所以他們現在可能不再進行模擬。總體來說，對於資料量足夠大的公司，大機率不會那麼需要模擬。

6. 行為模擬—訓練or測試

預測是用來預測其他車輛的行為，而規劃是用來規劃自己車輛的行為，當這兩者結合起來時，就形成了一個行為模擬器。這種行為模擬器生成的資料被廣泛的應用在了測試中，但沒有被廣泛應用在訓練中。原因在於，模擬資料的分佈與真實資料之間存在偏差。如果將模擬資料用於模型訓練，可能會把我的模型帶偏，特別是當模擬資料與真實環境差異較大時。

儘管如此，模擬資料在測試中仍然有價值。它可以用來驗證模型在處理各種邊界情況（Corner Cases）時的能力。我們可以將模擬資料視為這種邊界情況，就是他很假，但假也有用，假就是這個邊界情況。透過測試模型在這些情況下的表現，來評估模型是否能夠在超出其能力邊界時仍保持安全駕駛。

7. 感知模擬—Real2Sim

最近幾年計算機視覺領域最大的進展有兩個方面：一個是影片生成模型，另一個就是可微分渲染（NERF和3D GS）。我認為可微分渲染尤其值得關注。過去的感知模擬主要依靠數字資產的繪製和遊戲引擎的渲染，但無論我們如何繪製資產，都很難復刻真實環境中物體的多樣性分佈，所以我認為純模擬這條路很難走下去。現在可微渲染給我們提供了一個新的思路，那就是基於一條真實資料，利用3D GS渲染新的視角，合成出新的資料。具體來說，我們可以基於一條真實的路測影片，渲染出”我如果開在旁邊這條車道可能看到什麼樣的影像？” 這種方法我們把它稱為Real2Sim。

Real2Sim2Real的流程基本如下，透過採集機器人的真實資料，在模擬器中對這些真實資料進行增廣。接著，可以用這些合成數據來訓練模型，最終在實際環境中使用。3D GS 是純視覺的，主要關注物體的新視角渲染，但並不模擬物體的物理特性或動力學。

8. 關於機器人學習的路線

當下比較主流的機器人學習技術路線：在操作方面，主要依靠模仿學習；而運動控制方面，依靠強化學習；這種演算法組合是較為明確的。至於資料問題，強化學習的資料靠高度並行化的模擬器；模仿學習的真機資料透過遙操作採集，包括VR遙操作或同構遙操作等，採集到的真實資料可以做資料增強來提升模型訓練的泛化性。當下主流的技術路線差不多是這些，對於學術界來說，我們要持續探索資料效率更高的演算法，對於業界來說，要找到合適的商業場景並將資料閉環。

未來的資料利用確實可能會形成一個金字塔結構，包括真實機器人資料、模擬資料和影片資料。擁有更多真實資料會使模型的效能更強，這是確定的。模擬資料的效果則取決於模擬的質量，模擬資料的價值可以透過模擬質量的高低來衡量。高質量的模擬資料係數大，低質量的則係數小。讓機器人從影片資料中學習，尤其是開放世界中的影片資料，是未來的最終目標，但還需要進一步的科研探索。

一些想法

最近一段時間，國內外在機器人領域的創業公司每隔一陣子都會公佈最新的進展，持續刺激這個行業的熱度。與此同時，也有越來越多的人持續湧入機器人創業浪潮，作為關注這個領域的早期投資機構打工人，身在其中，每天都可以有驚喜，當然也充滿了遺憾。具身智慧的這波熱度已經持續了一年半，在肉眼可見的未來半年，隨著硬體demo的持續進化，熱度應該依然可以持續。

在持續的熱度和眼花繚亂的demo裡，我非常慶幸能夠以文字的形式記錄下和這些優秀學者的對談。把如今的困惑和突破透過一系列對最有代表性論文的探討記錄下來，也許在三年、五年或十年後，再回頭看這些文字的時候，會不禁感慨，原來當初的主流路徑並非最後work的路徑，感謝某些人在某些方向上的堅持不懈，通用機器人才得以實現。

References：

Robot Parkour Learning

Robot Parkour Learning, Ziwen Zhuang* Zipeng Fu* Jianren Wang Christopher Atkeson Sören Schwertfeger Chelsea Finn Hang Zhao

https://robot-parkour.github.io/