機器人的「物理圖靈測試」，英偉達JimFan17分鐘演講揭秘具身ScalingLaw

機器之心報道

編輯：張倩、Panda

Jim Fan，英偉達機器人部門主管和傑出科學家、GEAR 實驗室聯合領導人、OpenAI 的首位實習生，最近在紅杉資本主辦的 AI Ascent 上做了一場 17 分鐘的演講，介紹了「解決通用機器人問題的第一性原理」，包括訓練機器人 AI 的資料策略、Scaling Law 以及基於物理 API 的美好未來。

其中尤其提到了「物理圖靈測試」，大意是說對於一個真實的物理場景和一個指令，會有人類或機器人根據該指令對這個場景進行相應的處理，然後看其他人能否分辨這個場景是人類處理的還是機器人處理的。

很顯然，Jim Fan 以及英偉達正在朝著讓機器人和 AI 透過這個物理圖靈測試而努力。在文字中，我們梳理了 Jim Fan 的主要演講內容，另外還在文末發起了一個投票，看你覺得物理圖靈測試會在什麼時候被攻克？

以下為經過梳理的演講內容。

幾天前，一篇部落格文章引起了我的注意。它說：「我們通過了圖靈測試，卻沒人注意到。」圖靈測試曾經是神聖的，堪稱計算機科學的聖盃，結果我們就這麼通過了。

Jim Fan 提到的部落格：https://signull.substack.com/p/we-passed-the-turing-test-and-nobody

當 o3 mini 多花幾秒鐘思考，或者 Claude 無法除錯你那些討厭的程式碼時，你會感到不滿，對吧？然後我們把每一個大語言模型的突破都當作只是又一個普通的星期二。在座的各位是最難打動的人。

所以我想提出一個非常簡單的東西，叫做「物理圖靈測試（Physical Turing Test）」。

物理圖靈測試

想象一下，你在週日晚上舉辦了一個駭客馬拉松派對，最後你的房子變成了這樣：

你的伴侶對你大喊大叫，你想：「哎呀，週一早上，我想告訴某人清理這個爛攤子，然後為我準備一頓很好的燭光晚餐，這樣我的伴侶就能開心了。」

然後你回到家，看到這一切（實現了），但你無法分辨是人還是機器幫你弄的。物理圖靈測試就是這麼簡單。

那我們現在進展到什麼程度了？接近了嗎？看看這個準備開始工作的機器人：

再看看機器狗遇到香蕉皮：

機器人為你準備燕麥早餐：

這就是我們的現狀。

那麼，為什麼解決物理圖靈測試如此困難呢？

你們知道大語言模型研究人員經常抱怨，對吧？最近有個叫 Ilya 的人抱怨說：大語言模型預訓練的資料快用完了。他甚至稱網際網路為「AI 的化石燃料」。他說我們快沒有資料來訓練大語言模型了。但是，如果你瞭解機器人模型，你就會知道大語言模型研究人員被寵壞了。我們甚至連化石燃料都沒有。

下圖是英偉達總部的一個數據收集環節。英偉達有一個咖啡廳，我們設定了這些人形機器人，我們操作它們並收集資料。

收集到的資料如下圖所示。這是機器人關節控制訊號，是隨時間變化的連續值。你在維基百科、YouTube、Reddit 或任何地方都找不到這種資料，所以你必須自己收集。

那我們是怎麼收集的呢？

我們有一種非常複雜但也非常昂貴的方法，叫做遙操作（teleoperation）。你可以讓人佩戴某種 VR 頭顯，它能識別你的手勢並將其傳輸給機器人。這樣你就可以教機器人技能，比如從烤麵包機中取出麵包，然後倒上蜂蜜。但可以想象，這是一個非常緩慢且痛苦的過程。

如果你把這個方法放到 scaling 圖上，你會發現它根本不能 scale。真實機器人資料的獲取是在拿人力當燃料，這比用化石燃料更糟糕。而且，一個機器人每天只有 24 小時的時間可以用。實際可利用的時間更少，因為人會疲勞，機器人比人類更容易疲勞。

那我們該怎麼辦呢？機器人的核能在哪裡？我們必須有清潔能源。不能永遠依靠化石燃料。

模擬很重要

接下來進入「模擬」。我們必須離開物理世界，進入模擬的世界。

我們訓練了一個機器手，能在模擬中完成超人般的靈巧任務，如轉筆。對我來說這是超人的，因為我不能轉筆，我很高興我的機器人至少在模擬中能做得比我好。

那麼如何訓練機器手來完成這樣複雜的任務呢？我們有兩個想法。一是你必須以比即時快 10000 倍的速度進行模擬。這意味著你應該在單個 GPU 上並行執行 10000 個環境進行物理模擬。

第二點，10000 個環境副本不能都相同。你必須改變一些引數，如重力、摩擦力和重量。我們稱之為域隨機化。

這給了我們模擬原則。

為什麼這種做法能 work？想象一下，如果一個神經網路能夠控制機器人掌握一百萬個不同的世界，那麼它很可能也能掌握第一百萬零一個世界 —— 即我們的物理現實。換句話說，我們的物理世界處於這種訓練的分佈之中。

接下來，我們如何應用這些模擬結果呢？你可以建立一個數字孿生（digital twin），即機器人和世界的一對一副本，然後你在模擬中訓練，直接在真實世界中測試，零樣本遷移。

機器手也是如此：

我們能做的最令人印象深刻的任務是讓狗站在瑜伽球上走，我們把它從虛擬遷移到現實世界。

我們的研究人員看起來超級奇怪，就像《黑鏡》的一集。

接下來，我們還可以將其應用於更復雜的機器人，如人形機器人。在短短兩小時的模擬時間內，這些人形機器人就經歷了 10 年的訓練，學習行走，然後你可以把它們遷移到現實世界。無論實體是什麼，只要你有機器人模型，你就可以模擬它，並且可以實現行走。

我們能做的不僅僅是行走。當你控制自己的身體時，你可以跟蹤任何你想要的姿勢，跟蹤任何關鍵點，遵循任何你想要的速度向量，這被稱為人形機器人的全身控制問題，是個非常困難的問題。

但我們可以訓練它，在 10000 個並行執行的模擬上，我們可以將其零樣本遷移到真實機器人上，無需任何微調。

這是在英偉達實驗室進行的一個演示。你可以看到它所做的動作的複雜性。它模仿人類所有這些敏捷的動作，同時保持平衡。

做這個需要多大的神經網路？它只需要 150 萬引數，不是 15 億。150 萬引數足以捕捉人體的潛意識處理。

所以，如果我們將其放在這個圖表上，縱軸是速度，橫軸是模擬的多樣性，我們稱之為模擬 1.0，數字孿生正規化，它是一個經典的向量化物理引擎，你可以執行到每秒 10000 幀甚至一百萬幀。但問題是你必須建立一個數字孿生。你需要有人建造機器人，建造環境和一切。這非常繁瑣，且需要手動完成。

用生成式 AI 生成模擬資料

那麼，我們能否用生成的方式獲得模擬環境的一部分？下圖這些 3D 資產都是由 3D 生成模型生成的：

這些紋理來自 Stable Diffusion 或任何你喜歡的擴散模型：

這些佈局也是可以用工具生成的：

將所有這些放在一起，我們構建了一個名為 RoboCasa 的框架，它是日常任務的一個組合模擬。這裡的一切，除了機器人，都是生成的。你可以組合不同的場景，但它仍然依賴於這個經典引擎來執行，但你已經可以從中獲得很多工。

接下來，同樣讓人類來操作。但這一次，人類是在模擬中進行操作。

基於這一個放杯子的演示，我們可以得到人類操作的軌跡，然後便可以在模擬中重放這一軌跡。

而在模擬中，我們可以透過各種技術修改場景，甚至還可以修改運動，比如可以透過 GR00T Mimic 等技術模擬出相似的動作。

也就是說，只需一個人類演示，就能透過環境生成得到 N 個演示，如果在執行動作生成，則能得到 N×M 個不同的模擬樣本。如此一樣，便實現了資料的倍增。

如下所示，第一和三列是真實的機器人，第二和四列是生成的模擬。看得出來，生成的影片的紋理真實感依然很差，但它們已經足夠接近了。

那麼，我們如何稱呼這些足夠接近的生成樣本呢？數字表親（digital cousin）。這與數字孿生不一樣，但也在一定程度上捕捉到了真實感。

這些模擬執行速度較慢，但目前存在一種混合生成物理引擎 —— 先生成部分內容，然後將剩餘部分委託給經典圖形管道。

現在，假如我們要模擬這個場景。可以看到，裡面有固體、有液體，各種東西。如果讓人類來建模，所需的時間會很長。

但現在，有計算機模擬了。

要知道，從左邊的視覺效果到右邊的視覺效果，可是足足花了 30 多年時間。但影片生成模型只用了一年時間從實現從左邊到右邊的跨越。

還記得我之前展示的這個影片嗎？我騙了你們。這個影片裡的畫素沒一個是真的。它完全是由一個自定義模型生成的。

我們是怎麼做的呢？我們會使用一個開源的通用 SOTA 影片生成模型，然後在真實收集的資料的資料域上進行微調。

然後，使用不同的語言命令，你可以讓模型想象不同的未來 —— 即便這個場景從未在真實世界中發生過。

這些也都是生成的。

其中有個例子是機器手彈奏尤克里裡，但實際上，這個機器手還完全做不到這一點，但 AI 依然可以生成這樣的影片。

這就是模擬 2.0。影片生成的多樣性大大增加，但目前執行起來速度很慢。我稱之為 Digital Nomad（數字遊民），可以說它已經進入了影片擴散模型的夢境空間。它是將數億個網際網路影片壓縮成這種多元宇宙的模擬，就像奇異博士一樣 —— 在夢境空間中例項化機器人，基本上機器人現在可以與任何地方的所有事物都同時互動。

具身 Scaling Law

下面來看具身 Scaling Law。

在模擬 1.x 時代，大規模模擬需要大規模的計算。問題是，隨著規模的擴大，物理 IQ 會撞牆，因為這個人工構建的系統的多樣性有限。

而在神經世界模型的模擬 2.0 時代，物理 IQ 會隨計算的擴充套件而指數級增長。圖中的交匯點便是神經網路超越傳統圖形工程的地方。

這兩者加在一起，將成為我們擴充套件下一代機器人系統的核能。

引用黃仁勳的話就是：「買得越多，省得越多。」

然後，我們把這些資料用來訓練「視覺-語言-動作模型」。它能接收畫素和指令輸入，然後輸出電機控制訊號。這就是三月份 GTC 上黃仁勳主題演講中開源的 GR00T N1 模型的訓練方式。

這裡展示了一個在實際機器人上執行它的案例。看起來很浪漫，但你無法想象我們在訓練期間做了多少清潔工作。在這個示例中，它能夠完美地抓起香檳。

不僅如此，它還可以執行一些工業任務，拿取一些工廠物件，還可以進行多機器人協調。

GR00T N1 模型是開源的，事實上這個系列的後續模型都將繼續開源。

展望未來：物理 API

那麼，下一步是什麼呢？我認為是物理 API（Physical API）。

想一想，5000 年來，雖然人類的生活整體好了很多，但做晚餐的方式可能與古埃及人沒有本質差別。

也許人類歷史的 99% 的時間裡，我們都保持著這樣的結構：用人力方式處理原材料，最終建立起文明。但在最近的 1% 時間裡，大概最近 50 年的時間裡，人工勞動量正在減少，我們擁有高度專業化、高度複雜的機器人系統，它們一次只能做一件事。而且它們的程式設計成本很高。目前，我們處於人類勞力與機器人共存的時代。