Genesis釋出：全新機器人物理引擎——它會變革機器人模擬嗎？

第一次聽到Genesis是一年前，一直非常期待這個全新的機器人模擬平臺的釋出，直到今天，歷時兩年開發的Genesis終於公開發布。Genesis具有變革目前機器人模擬生態的潛力，應該是目前速度最快、模擬最準確、且支援非剛體的物理引擎。看了Demo影片，非常驚豔：

在Genesis釋出前的一年，我也和這個工作的主要參與者淦創和周銜陸續交流，和他們請教了可微分物理引擎，RoboGen，以及Genesis相關的知識。關於可微分物理引擎和RoboGen之前的一期文章有非常詳細的整理EP8對話淦創、周銜：RoboGen如何透過生成模型和可微分模擬大規模合成機器人示教資料（附可微分物理引擎論文綜述）。Genesis是一個跨19個單位，彙集眾多機器人學以及計算機圖形學優秀華人學者的工作，非常不易，也給如今通用操作+模擬這條有點暗淡的路線上增添了一道曙光。

我第一次聽到淦創老師和周銜博士提到這個工作的時如同發現新大陸，也基於此看了和可微分物理引擎相關工作，為了更好的理解Genesis對於整個機器人模擬生態的影響，強烈建議讀者朋友也看下之前的兩個系列，一個是關於可微分物理引擎以及可以理解為Genesis一個模組的RoboGenEP8對話淦創、周銜：RoboGen如何透過生成模型和可微分模擬大規模合成機器人示教資料（附可微分物理引擎論文綜述），另一個是關於整個機器人模擬器生態聊一聊“Sim”（上）——一覽機器人模擬器生態。

在目前的機器人操作領域，大家的共識集中在真機，模擬對於操作來說是冷板凳，今天Genesis的釋出以及後續的關注可以讓冷板凳重新熱起來。關於Genesis，我結合目前官方公開的資訊和之前對淦創和周銜的訪談內容整理了一篇科普，希望可以更多人關注到這個工作。

以下為本文目錄

👇

1. 什麼是Genesis

2. Genesis與其他模擬平臺對比的核心特點

可微分性

真實的渲染能力

機器人資料生成

模擬加速

3. 關於Genesis的拓展應用

4. Sim2Real Gap的問題

5. 關於模擬與可微分模擬

可微分物理引擎原理簡介

6. 為什麼開源

7. 一些想法

1. 什麼是Genesis

Genesis 是一個用於通用機器人學習的生成式和可微分的物理引擎，提供了一個統一的模擬平臺，支援各種材料的模擬，能夠模擬廣泛的機器人任務，同時完全支援可微分特性。Genesis作為下一代模擬基礎設施，原生支援生成模擬：這一未來正規化結合了生成式人工智慧和基於物理的模擬，旨在為機器人代理解鎖無限且多樣化的資料，讓它們能夠在前所未有的各種環境中學習廣泛的技能。

Genesis包括一個從零開始重建的通用物理引擎，能夠模擬各種材料和物理現象；一個輕量級、超快速且易用的 Python 風格機器人模擬平臺；一款強大且高效的照片級真實感渲染系統；以及一個生成資料引擎，可以將使用者輸入的自然語言描述轉化為多種形式的資料，滿足不同應用場景的需求。

Genesis 是整個大的框架或平臺的統稱，他的核心可以分成兩個層次：首先是底層物理引擎，作為一個統一的框架，它能夠模擬各種物理材料，以支援不同任務的模擬。高速的物理引擎使得我們能夠更快地生成示範資料，從而提高整體的任務執行效率。

而上層則是一個生成式智慧體的框架，包含多個獨立開發的模組，我們將每一個環節都嵌入其中，包括複雜場景的生成、自動任務生成、策略學習等。此外，我們還支援人類角色的生成、機器人形態的生成等功能，目標是能夠生成幾乎所有需要的內容，構建一個全面的生成系統。我們將這些單獨開發的模組進行整合，形成一個統一的平臺，整個系統就叫做 Genesis。

每個模組都是獨立開發的，比如機器人策略生成、場景生成和運動生成等。這些模組各自有一套方法，用於生成不同的資料型別。上層有一個統一排程的代理（agent），它會接收輸入的請求，明確使用者需要什麼，並判斷需要生成哪些內容。然後，代理會排程相應的生成模組來完成這些任務。生成的內容會相互耦合，代理還會檢查生成的場景，進一步最佳化和提升最終效果。

比如，場景生成是透過擴散模型（diffusion model）來實現的，但擴散模型只是一個底層的網路結構，負責生成內容。在此基礎上，我們會有一套方法來決定在什麼樣的空間中進行生成，並確保生成的內容能夠轉化為一個可互動的場景。對於運動生成，我們同樣使用類似於Transformers的後臺模型，這些模型每一個都是獨立的網路，執行特定的任務。

目前，整個系統的上層尚未完全實現，如果完全實現，可能會大大推進整個機器人領域的突破。但在初期版本中，我們將這些模組統一整合，並且每個模組都會有很大的提升空間。

2. Genesis與其他模擬平臺對比的核心特點

可微分性

現有的大多數物理引擎實際上都不支援可微分性，這導致它的解法有侷限性，必須依賴於RL（Reinforcement Learning）或者一些motion planning來進行（關於物理引擎的科普可以參考聊一聊“Sim”（上）——一覽機器人模擬器生態）。從使用的工具角度來看，這非常受限制。

但是做機器人的人可能都知道，做trajectory optimization是一個非常高效的方法，比RL更高效，但因為支援可微分性門檻非常高，所以這個領域的發展進展緩慢。但一旦這個問題得到解決，對於機器人學習來說，是一個革命性的進步。雖然目前RL是在模擬環境中機器人學習技能很常用的方法，但實際上，絕大多數做Robotics Learning的人都不認為RL是一個非常高效的學習skill的方法，但是又沒有其他更好的方法。我們希望能夠構建這樣一個具有可微分性的高效系統，儘管這條路非常漫長，工程量非常大，但是我們認為這是一條必須走的道路。

真實的渲染能力

我們希望透過Genesis這整套系統，構建一個可以廣泛適用剛體、軟體，到各種型別的特殊物體的模擬器，同時還有好的渲染能力。這其實是回到了一個問題，就是怎麼構建一個模擬環境，使得機器人能夠在這個虛擬世界裡學習並將所學應用到現實世界中。將虛擬的轉化為真實的，這是我們的一個使命。因為機器人領域目前最大的問題就是缺乏資料，儘管很多人用遙操作採資料，但遙操作產生的資料很難scale，我更相信在模擬器裡採資料，但模擬的問題是，寫物理引擎的門檻比搭一個遙作業系統的門檻高很多。

很多機器人lab會傾向於遙操作，門檻更低，但這是不是最終的路徑是一個問題。現在的simulation有點像八十年代的Deep Learning，很多人都覺得這個門檻很高，不是那麼多人願意投入精力。我們願意沉下來做一些對這個領域有革命性意義的事情，儘管可能需要三五年甚至更長的時間。我們還是認為，透過模擬器和可微模擬來生成資料這條路線是真正能解決機器人領域資料從哪裡來的手段。

機器人資料生成

在過去半年裡，我們提出了一個更具廣泛性的願景。我們意識到，我們開發的這個Genesis平臺不僅僅是一個物理引擎，它的最終目的是為了自動生成各種資料。這個平臺的底層是一整套我們重新構建的引擎，上層則是一個生成式智慧體的框架。

在生成方面，我們做了大量工作，包括場景生成、任務生成、獎勵函式生成、以及多種如關節體和機器人物理形態的生成。我們現在正在構建一個統一的生成式智慧體框架，用來呼叫這些模組。這意味著使用者可以透過自然語言描述需求，平臺將生成靜態環境、物體，甚至動態的策略。

模擬加速

基於CPU的模擬引擎面臨一個問題，就是它的樣本效率較低，需要大量的資料才能產生有效的結果。而當NVIDIA推出了一套GPU加速方案後，能夠在數千個環境中同時進行模擬，這雖然沒有完全解決樣本效率問題，但顯著緩解了這個挑戰。隨著GPU加速技術的發展，最近各種高效技能的突破也隨之而來。與上一代技術相比，NVIDIA的方案在速度上提高了20到30倍。

然而，我們最新版本的引擎Genesis比NVIDIA的系統快了20到50倍，這個提升不僅僅體現在速度上，我們還支援各種材料的模擬，並且在應用層面，我們對底層框架進行了全新的設計。目前，很多內部使用者已經開始使用我們的系統，並且從舊有的方案遷移過來，發現我們的引擎在易用性上有了巨大的改進。

現有的一些模擬系統往往設計得非常複雜，功能的實現往往需要經過十幾層函式呼叫和大量的程式碼，而我們的系統則大大簡化了這一過程。基本上，一行程式碼就能實現一個功能，極大提升了開發效率和使用者體驗。Genesis專案主頁對和其他模擬器對比的特點也有明確描述：

3. 關於Genesis的拓展應用

我們最近意識到，我們的這個平臺不僅能用於解決機器人領域的問題，還能夠惠及更多領域。雖然我們的初衷是為機器人學提供資料，但實際上，這些資料形式具有普遍性和通用性。機器人學所需的資料包括靜態資料（如任務描述、環境特徵及其互動方式）和動態資料（如學習到的策略與世界的動態互動）。藉助物理引擎，透過前向模擬，由於物理的存在，可以生成各種動態資料。這些資料格式非常通用，能夠適用於廣泛的應用場景。

機器人策略和示範資料

（可參考RoboGen EP8對話淦創、周銜：RoboGen如何透過生成模型和可微分模擬大規模合成機器人示教資料（附可微分物理引擎論文綜述））

我們不必將這個統一的系統侷限於機器人領域。事實上，它可以應用於許多其他領域。一個容易理解的例子是影片生成。如果我們思考人類是如何拍攝影片的，通常不是像現有的基於擴散模型的學習方法那樣逐幀生成並串聯成影片，而是透過搭建一個三維場景，放入演員，由導演指導動作，設計攝影機的引數和軌跡，最終用攝影機捕捉這些場景。

生成 4D 動態與物理世界

如果我們擁有一個強大的物理引擎來模擬整個世界，再加上一套先進的渲染器（我們目前已經集成了一套），就可以在虛擬世界中重現這個過程。這不僅能用於機器人學，還可以用於影片生成等領域，極大地擴充套件了其應用範圍。

因此，我們不僅能夠生成機器人資料，還可以生成人類角色的動作、面部表情，以及各種引數，如光線強度、鏡頭焦距、軌跡設計和運動速度等。透過這種方式，我們能夠生成各種型別的資料。如果利用這些資料進行拍攝，就可以生成物理精確的影片資料。

角色運動生成

語音音訊、面部動畫與情感生成

我個人認為，這是一種全新的影片生成正規化。透過這種方法，不僅可以直接生成影片，還可以用生成的資料來反哺基於學習的模型。此外，這套系統可以透過自然語言描述來控制場景中的各種元素，例如在特定時間點讓某個角色從某處進入，或者讓攝像機以特定方式切入，從而確保生成的資料在非常細粒度的層面上對齊。

3D 和完全互動式場景生成

開放世界關節化物體生成

透過這種方法，語言描述與影片生成可以實現高度對齊，生成的成對資料質量遠超當前較為粗糙的語言與影片對齊資料。這種高質量的資料有很多潛在的應用，遠不止於當前的使用方式。雖然我們的初衷和主要目標是機器人學，但這種方法也能生成4D影片資料，特別是互動性場景資料，可以從不同角度渲染，生成多模態資料。我們認為，這些資料能夠廣泛應用於各個領域，帶來更多的可能性。

4. Sim2Real Gap問題

關於“gap”這個問題，我想從幾個層面來解釋。首先，我覺得很多人忽視了一個關鍵點：這個問題並不是本質上屬於科學的問題。例如，單靠模擬環境（sim）是無法解決機器人技術的挑戰的。模擬環境和現實世界（real）之間必須有結合。每一方都有自己的問題：模擬的物理特性與現實世界不可能完全匹配，現實世界也面臨著許多困難，比如缺乏可擴充套件性、資料模態不完整、難以收集閉環資料等。你只能獲得正確的軌跡，而不能全面反映整個過程。因此，最終要解決機器人技術問題，必須將模擬與現實相結合。

至於兩者的比例問題，我認為，最大的挑戰在於，現實世界資料的可擴充套件性非常有限。儘管現實資料是準確的，但它不具備無限擴充套件的能力。相比之下，模擬可以透過計算資源無限制地擴充套件，儘管它不能做到與現實完全一致，但能夠提供大量多樣的資料，幫助我們進行更廣泛的探索。

在未來，假如我們能擁有一個統一的基礎模型（foundation model），模擬資料將成為提供豐富、廣泛分佈的訓練資料的關鍵，幫助我們構建能夠與物理世界互動的基本常識。之後，再用更精確的現實資料來填補空白，最終形成完整的閉環。

我想從幾個角度來闡釋這個問題。首先，關於real data和模擬資料之間的“gap”，最大的挑戰是real data本身很難做到大規模收集和擴充套件。現實世界的資料可以提供90%以上的質量，但由於規模限制，難以覆蓋所有場景。相比之下，模擬資料能夠提供海量且多樣的資料，雖然它可能和現實世界存在差異，但它能為模型提供豐富的訓練資料。而real data更多的是起到“錦上添花”的作用，作為對模擬資料的補充和校正。

其次，如何縮小模擬資料與現實資料之間的差距是一個技術挑戰。一個關鍵的方向是透過提高模擬環境的逼真度，使得它在物理、感測器資料等方面儘可能接近現實世界。例如，在我們的系統中，基於物理原理的觸覺感測器是之前模擬環境中並不支援的，我們透過真實的反饋和最佳化演算法，使得感測器的形變觀測資料能夠幾乎與現實世界中的感測器匹配。這種逼真度的提升是我們不斷追求的目標。

然而，我們不一定需要完全精準的匹配。我們可以透過引入足夠的隨機性，生成多樣化的模擬世界。這就像模擬多個平行宇宙，每個宇宙的物理屬性可能不同，但透過這些不同的物理世界資料，可以形成一個廣泛且平滑的分佈。在這個分佈上，雖然每個資料點與現實世界的某個狀態不完全一致，但它們為訓練機器人提供了足夠的多樣性，使得機器人可以應對各種可能的情況。

另外，從哲學層面來看，模擬訓練和現實部署的gap並不是一個真正的“問題”，因為模擬環境與現實世界本身就存在差異。就像如果我今天教你如何抓一支筆，在一個模擬環境中學到的技能，不一定能完全適應你換一支筆或進入一個新場景的情況。這個“gap”並不是來源於模擬與現實的直接對比，而是來自於不同環境的根本差異。

這個問題可以從兩個層面來看。首先，當你從一個平行宇宙（比如模擬環境A）切換到另一個平行宇宙（比如現實世界B）時，肯定會有差距（gap）。但是，重要的是，我們要不斷縮小這個gap，讓它變得越來越小。第二個問題是：這個gap到底是不是問題？很多人沒有深入思考這個問題的本質。事實上，在擁有通用智慧體（或通用機器人）之後，即便從宇宙A轉移到宇宙B，這個gap是否依然存在，還是可以被適應和克服？這是一個值得探討的核心問題。

如果我們做一個思想實驗，假設你是一個擁有強大運動技能的人，今天我把你放到月球上，或者把你帶到一個完全不同的物理環境中，雖然這些環境的物理特性與現實世界有很大不同，但你依然能憑藉你對世界的基本理解進行快速適應。這就是人類基於物理世界的常識做出的快速調整。

如果我們有一個類似人類的AI，具備強大的物理理解能力，我們有理由相信，它可以透過少量的現實資料微調，在現實世界中快速掌握生存規律。現在我們沒有做到這一點，是因為當前的機器人策略通常是針對非常特定的任務而設計的，缺乏通用的物理理解。隨著模擬資料的不斷豐富和基礎模型的發展，未來的通用物理理解模型（generalist agent）將有可能在現實世界中快速適應並有效執行任務。

至於為什麼當前存在這個gap，可以從兩個技術層面解釋。第一，當前的物理引擎能力有限，很多複雜的物理現象無法被準確模擬。大多數物理引擎（如NVIDIA的物理引擎）只能模擬簡單的鋼鐵等物質，對於更復雜的物理現象（如柔性材料、液體動力學等）的支援相對薄弱。解決這個問題的關鍵在於提升物理引擎的能力，這也是我們當前努力解決的方向。第二，大多數模擬平臺例如SAPIEN等都被英偉達這套閉源的物理引擎bottleneck住，而這些引擎的物理引數無法進行定製和控制。

例如，假設我們想要模擬一個鋼鐵球的彈跳，調整球的屬性來控制其彈性或能量耗散。現有的物理引擎無法讓我們精確調節這些引數，導致模擬效果與現實有較大偏差。這種缺乏靈活性的控制是目前的一個限制。然而，我們的解決方案是：透過開發一個開放、可調的物理引擎，讓每個人都能夠貢獻和修改物理引數。透過這種方式，我們可以根據真實觀察到的資料，調整和最佳化物理模型，使模擬環境能夠更加接近現實。隨著物理引擎的可控性提升，這種gap也會進一步縮小。

總結來說，雖然目前模擬與現實之間存在gap，但隨著物理引擎的改進、開放性和可調性增加，我們能夠縮小這個gap，使得通用智慧體在模擬環境和現實世界之間的轉移變得更加順暢。

5. 關於模擬與可微分模擬

模擬（simulation，也可成為模擬）是圖形學的一個重要分支，圖形學可以分為渲染和模擬兩大塊。作為從事機器人研究的人，我能感受到，機器人領域的從業者往往對模擬技術存在一定的恐懼感。原因在於，這涉及到大量底層的數學和圖形學知識。很多人不熟悉這些底層原理，導致他們在使用現有工具時遇到困難，最終停滯不前。其實，問題的核心在於缺乏一個能有效連線圖形學和機器人領域的橋樑。因此，我們的目標是將這兩個領域的專家結合起來，促使他們相互溝通，發現彼此的需求，並透過不斷迭代和完善，共同發展這一生態系統。

但不得不承認的是，構建一套機器人模擬引擎非常難，並且知道如何構建這套系統的人是小眾群體。首先，模擬本身就是一個小眾領域，圖形學已經是一個相對小眾的領域，而模擬又是圖形學的一個子領域，而在模擬中，可微模擬又是其中的一個更小的子領域。因此，整個可微模擬的研究和應用範圍本身就非常有限。要在這個領域取得進展，往往需要大量底層演算法上的創新，這也是機器人領域的從業者可能缺乏的專門知識。

此外，當前在複雜材料互動方面的模擬研究（如流體、軟體等）一直是一個相對較新的方向。過去幾年，模擬領域的主流更多集中在與剛體的互動上。這種歷史的侷限性也進一步加劇了對新型複雜模擬技術的接受難度。

另外，可微模擬作為一個研究領域，其核心挑戰之一是如何從模擬中獲取有效的梯度資訊，並利用這些資訊加速策略最佳化。這個問題仍處於探索階段，目前尚未有一個成熟的研究正規化或公認的結論。因此，研究人員在這一方向上還在摸索，整個領域的發展仍面臨許多不確定性。

推動模擬（尤其是底層數學與演算法的開發）需要很多突破，這才是一個真正具有挑戰性的任務。我們每天都在為此思考新的演算法，但這個過程充滿了不確定性。在我們實現之前，根本無法確定這些演算法是否可行。

可微分物理引擎原理簡介

什麼是simulation，比如現在有一個物體的狀態（State），你對物體進行一個操作，機器人有了一個動作（Action），透過動作，物體的狀態發生變化，從一個狀態到另一個狀態，整個過程是forward（前向）的。這種給定狀態，機器人做動作，再預測下一步會發生什麼的過程叫physical dynamic或者forward simulation。這個過程中，對機器人task到最終的goal的距離可以算一個reward，和RL有點像，這一步做完之後離goal更近了還是更遠了，算出來一個reward。如果模擬器不可微，只能做search，這個非常低效，你可能需要幾千萬上億的資料去找到哪個trajectory是最好的。所以Forward simulation本質是search的問題。

可微分物理模擬的好處是，有梯度資訊，可以用梯度下降的方式找到最優解。從state到action到state，每一步都有導數，有導數之後可以用梯度下降的方法求解，讓reward的數值最大。對於不可微分的物理引擎只能用search或者近似的梯度，可微分物理模擬是每一步都用數學公式可以精確的算出每一步的梯度，用這個梯度來做最佳化，結果肯定是更好和更快地。

解釋：可微分物理引擎（Differentiable Physics Engine）是一種用於模擬物理系統的工具，其主要特點是可以對其輸入引數進行微分。傳統的物理引擎通常是基於數學模型和物理定律來模擬物體之間的相互作用和運動規律。然而，這些傳統的物理引擎在計算梯度方面通常是不可微的，這使得它們難以直接應用於需要梯度資訊的機器學習任務中。可微分物理引擎透過引入可微分的物理模型或數值計算技術，使得其在輸入引數上具有可微分性。

我們的系統最早是和胡淵明的Taichi合作，可微分模擬在計算圖形學（computational graphics）是一個很大的分支，但他們的側重是用可微分的方式讓模擬做的更準更快。在機器人領域，我們考慮的是怎麼讓skill learning更高效，用梯度的方式去做robot skill。

比如我們21年和胡淵明合作的PlastineLab，對於PPO或者RL他們的學習效率非常低，而我們的方法學習效率是RL幾個數量級的提升，這也是我們為什麼後面堅定的去建立這套可微模擬系統來做機器人skill learning。當我們有了這種很高效機器人skill learning的方法之後，可以在模擬器裡收集大量的robot demonstration的資料，再去學一些real world skill transfer。所以我們整體的邏輯是透過構建強大的可微分物理模擬系統，來生成和收集大量機器人操作的資料，有了資料之後，可以訓練機器人操作Skill Learning的基礎模型，然後再學習一個adaptive policy，將這個模型transfer到真實世界。

很多task，RL訓練不出來，很痛苦，policy訓練了很久也找不到，而用我們的可微引擎train個半小時就可以找到policy。所以可微分物理引擎是比RL更有效的尋找policy learning skill的方式。但現在有個問題，現在大多數的simulation不支援可微，這也是現在整個robotics領域的痛點。如果不支援可微，你就沒有其他解法，你就只能做RL或motion planning，沒有trajectory optimization的選擇。可微物理引擎門檻很高，全世界做機器人可微模擬的人沒多少，會寫可微物理引擎的不超過100人。這也是我們做Genesis的初衷，把會寫可微分物理引擎的華人都聚到一起去做這個事情。可微物理引擎對數學和程式設計的門檻很高，即使在計算機圖形學，可微模擬也是個出力不討好的事情。

目前機器人模擬器的兩大難題，一個是怎麼更快的在simulation裡學會skill，可微模擬可以迅速地找到對於一些task比較好的policy。另一個難題是怎麼減少sim2real gap，可微模擬整個概念也是將Sim和real更好的結合，它可以enable更好的sim2real alignment，這也是可微模擬和Pybullet這類物理引擎不同的一點。對於Pybullet這種物理引擎，解決Sim2Real gap的辦法就是domain randomization，但這個方法非常不可控。可微分模擬還有一個好處是，它可以用真實資料校正模擬資料，比如有一個現實世界的影片，可以利用現實世界的影片來校正這個可微模擬器。

我們整個一套東西是希望給機器人構建世界模型。人為什麼學skill快，人是有一個world model的。Robot Intelligence從哪裡來，我一直認為這個intelligence應該從world model來，這就需要給robot建立一個state-action-state的能力，包括需要給他建立一個非常有效的尋找action sequence做planning的能力。這個能力從哪來來，我一直比較堅持的認為需要建立一個強大的可微分物理引擎來作為robot的大腦，來支援他學習各種skill。當然這個world model也可以從現實世界裡學習，但共同的目的是怎麼給robot構建一個大腦，不一定是某個skill，而是更廣泛的對物理世界的理解，你只有真正的有了這麼一個大腦，真正的有個對物理世界的建模，你才能真正的generalize。

關於可微分模擬的論文綜述可以參考EP8對話淦創、周銜：RoboGen如何透過生成模型和可微分模擬大規模合成機器人示教資料（附可微分物理引擎論文綜述）。

6. 為什麼開源

第一代版本的重點是完全開源底層物理引擎。這個引擎已經遠遠領先於當前市面上所有的物理引擎，在各個方面都具備顯著的優勢。我們剛釋出的這個版本，已經在效能、可擴充套件性和靈活性上做出了許多突破。而在未來的版本中，我們計劃繼續最佳化和擴充套件，不僅提升物理引擎的能力，還將加強與其他模組的結合和支援更多複雜的應用場景。

我的動機之一是這樣的——如果你看看計算機圖形學領域，你會發現，過去他們取得了很多令人矚目的成就。每天都有新的論文釋出，今天可能是“我可以模擬這個場景了”，明天是“我可以模擬那個現象了”。比如，他們可能能夠模擬麵包在烤箱中膨脹的過程，或者牛排被切開的效果，甚至是紅燒肉切開的纖維變化。然而，這個領域的問題在於，它相對封閉。雖然他們注重製作炫酷的視覺演示，但許多研究成果僅停留在論文和展示層面，程式碼很少開源，且開源的程式碼通常難以理解，使用起來也不方便。因此，雖然技術不斷進步，但它們並沒有得到廣泛的應用。我認為需要做出一個大的努力，將這些令人印象深刻的技術整合到一個易於使用的框架中，讓更多的人受益。

在我們的長遠規劃中，我們將不斷向框架中新增最新的技術和複雜的物理效果，最終實現我們重建物理世界的目標。雖然在早期階段，系統還無法達到模擬像紅燒肉被切開這樣的高度，但它已經能夠做出一些相對完整的模擬，例如軟體物質、流體、衣物等多種物理效果。

7. 一些想法

關注Genesis有一年多的時間，我作為石麻筆記的小編，可能是robot learning學術圈以外最關注這個工作進展和釋出的人之一。所以今天Genesis釋出，我真的是非常激動！從最初聽到Genesis的概念，就會覺得這真的可能會顛覆目前機器人學習的正規化。

雖然當今端到端模仿學習和真機是非常有共識且主流的一個路線，但不可否認的是，在這個路線上，依然有著諸多不知道的答案的問題，比如多少的真機資料量才可以達到scaling law，比如這麼大量的真機資料應該如何獲得？我們是否可以有另外一條完全顛覆式的路線，比如模擬環境的變革？Genesis也許不是答案，但至少他有機會成為答案。

前幾天在播客：RL+Control 如何將機器人可靠性逼進99.9x%訪談中，羅劍嵐博士提到Moravec's Paradox（莫拉維克悖論），人工智慧系統在執行任務時的反常現象：對於人類而言簡單的任務，比如感知和運動控制，對機器卻極其困難；而複雜的任務，比如邏輯推理和數學計算，對機器來說卻相對容易。莫拉維克指出，這種悖論源於人類智慧的非對稱性：“低階”技能（如感知和運動控制）基於數百萬年的進化，深深嵌入了生物的感知運動系統中；而“高階”技能（如邏輯和數學）發展時間相對較短。

人類或者動物對物理世界的物理直覺是幾萬億年（如果追溯到恐龍時代）進化結果，這種物理直覺已經成為動物本能。對機器人這種矽基“生”物來說，現實環境數百萬、千萬或者上億條真機資料足以構建它對物理世界的本能嗎？僅僅這些資料就可以讓他擁有人類這種生物體透過億萬年的進化獲得的對於世界模型的物理直覺嗎？

如果是的話，那對真正的碳基生物來說也太不公平了。在我看來，矽基生命的物理直覺，應該透過一種非常強大且高效的運算機制，以人類無法理解的模式構建的吧！Genesis至少具備了這套運算機制的基本素質，接下來的是看是否有更多的人願意投入時間和精力到這條路線上來，一起突破。

References：

Genesis

https://genesis-embodied-ai.github.io/

https://genesis-world.readthedocs.io/en/latest/

zhouxian主頁

https://www.zhou-xian.com/

Ganchuang主頁

https://people.csail.mit.edu/ganchuang/

原創不易快來來個三連給些鼓勵吧！