比Sora更瘋狂!英偉達AI讓機器人「做夢」修煉,無師自通直接上崗

文章轉載於新智元
如果機器人能做夢,會怎樣?
英偉達新研究專案DreamGen交出了答案。
論文連結:https://arxiv.org/abs/2505.12705
專案連結:https://research.nvidia.com/labs/gear/dreamgen/
DreamGen並非讓機器人「看影片」去學習,而是把它們扔進一個神經網路生成的畫素級「夢境世界」。
在「做夢」過程中,它們可以自主探索、學習,體驗各種場景動作。
透過生成數十萬條帶有馬達動作標籤的神經軌跡,DreamGen讓機器人能快速掌握新技能,泛化到全新的名詞、動詞和環境中。
無論是類人機器人(GR1)、工業機械臂(Franka),還是可愛的迷你機器人(HuggingFace SO-100),DreamGen都能讓它進入夢境世界。
圖1:機器人透過DREAMGEN實現泛化
相比傳統的圖形引擎,DreamGen根本不在意場景中是否有可變形物體、液體、半透明材質、複雜接觸或詭異光影。
手工的特徵工程,幾乎不可能實現這些效果。
而對DreamGen來說,每一個世界只不過是神經網路前向傳播的結果。
不管夢境多複雜,它的計算時間始終是恆定的。
DreamGen將其作為合成數據生成器,充分挖掘其在物理推理、自然運動和語言理解方面的先驗能力。
首先在已有遠端操控資料任務中,研究人員評估了DreamGen生成額外訓練資料的效果,涵蓋模擬環境和現實世界兩個方面。
在模擬環境中,研究者將DreamGen應用於RoboCasa基準測試,將合成數據規模擴充套件至原始人類演示資料的333倍。
結果顯示,隨著神經軌跡數量的增加,策略效能呈現對數線性增長(見下圖)。
在RoboCasa中擴充套件神經軌跡的數量
在現實環境中,研究人員在9個多樣化任務中進行了驗證,使用的機器人包括Fourier GR1、Franka Emika和SO-100。
不同型別的機器人
這些任務涵蓋了一些難以在模擬中實現的複雜操作,比如疊毛巾、擦液體、使用錘子以及舀取M&M豆。
在所有型別的機器人上,DreamGen都顯著提升了成功率:
GR1的4個任務平均從37%提升至46.4%;
Franka的3個任務平均從23%提升至37%;
SO-100的2個任務平均從21%提升至45.5%;
令人驚豔的是,只用10-13條真實軌跡/任務,類人機器人最終學會了22種新技能
比如倒水、疊衣服等——儘管它之前從未接觸過這些動作。
更厲害的是,他們還把機器人帶出了實驗室,放進NVIDIA總部的咖啡廳裡,DreamGen依然發揮出了神奇效果
英偉達團隊實現了真正的「從零到一」的泛化能力:對陌生動詞的成功率從0%提升到43%,在未見過的環境中從0%提升到28%
1
平行世界,夢中訓練
像Sora和Veo這樣的生成式影片模型,本質上是神經物理引擎
它們壓縮了網際網路上數十億段影片,學習出多種可能的未來——即從任意起始畫面推演出的各種可能發展。
DreamGen就是藉助了這項能力,包含下列四大流程:
1. 在目標機器人資料上,微調一個最先進的影片模型;
2. 用多樣化的語言提示詞,引導模型模擬不同的「平行世界」:讓機器人在全新場景中「夢見」自己會如何行動。然後篩掉那些沒按指令執行的「噩夢」;
3. 利用逆向動力學或潛動作模型,恢復出偽動作標籤;
4. 在這個大規模增強後的神經軌跡資料集上,訓練機器人基礎模型。
就是這樣:只是更多的資料,加上傳統的監督學習方法。
圖2:DREAMGEN概覽

影片世界模型微調
在第一階段,研究人員會在人類遠端操作的機器人軌跡上對影片世界模型進行微調。
這一步可以幫助模型適應目標機器人的物理限制和運動能力。
為了避免模型在微調過程中「遺忘」原本從網際網路上學到的豐富影片知識,預設使用LoRA(Low-Rank Adaptation,低秩適應)方法來對影片世界模型進行微調。
在微調這些模型時,主要關注兩個指標:是否能遵循指令以及是否符合物理規律,以此評估模型是否已經很好地適配了目標機器人的任務域。
在大多數下游機器人實驗中,研究者用WAN2.1作為基礎的影片世界模型。
對於像RoboCasa和DROID這類包含多個視角的資料集,他們會將不同視角拼接成一個2×2的網格(其中一格可能是黑色畫素),再對影片世界模型進行微調。

影片世界模型展開(Rollout)
在模型完成對目標機器人形態的微調後,研究人員就可以使用不同的初始畫面和語言指令生成合成機器人影片。
模擬實驗:他們從模擬器中採集新的初始畫面,並隨機設定目標物體或環境的位置。
現實世界實驗中:他們手動拍攝新的初始畫面,同樣隨機化目標物體的位置。
環境泛化實驗中:他們採集了來自全新環境的初始畫面,而影片世界模型的訓練資料仍僅來自一個環境。
行為泛化實驗中:他們手動設計了新穎的行為提示詞,同時將所有候選提示詞納入影片基準測試。

偽動作標籤生成

提取偽動作標籤的模型有兩種架構,如圖3所示,其中(a)用於訓練逆向動力學模型(IDM)的架構;(b)用於訓練潛動作模型(LAPA)的架構。
這兩種方法都可用於從生成的影片中提取出相應的偽動作標籤,為後續的策略訓練提供監督訊號。
圖3:提取偽動作。(a)逆動力學模型(IDM)的架構,(b)潛動作模型的架構
IDM動作生成
對於逆向動力學模型(Inverse Dynamics Model,IDM)的架構,研究人員採用了帶有SigLIP-2視覺編碼器的擴散Transformer,並使用「流匹配」目標進行訓練。
IDM的輸入是兩幀影像,訓練目標是在這兩幀之間預測一段連續的動作(見圖3)。
他們引入語言或本體感知資料作為輸入,因為目標是讓IDM模型專注於學習機器人自身的動力學規律。
IDM的訓練資料與對應影片世界模型所使用的資料集一致(除非另有說明)。
在訓練完成後,使用滑動視窗的方法來進行偽動作標籤預測:
  • IDM每次預測H個動作,
  • 然後視窗向前滑動一個時間步,再預測接下來的動作;
  • 如此反覆進行,直到整個影片都被偽標註完成。
潛動作生成
對於潛動作標籤的生成,他們採用了LAPA潛動作模型。
論文連結:https://openreview.net/forum?id=VYOe2eBQeh
LAPA使用VQ-VAE(向量量化-變分自編碼器)目標進行訓練。
在從生成影片中提取潛動作時,將當前幀和1秒之後的未來幀作為條件輸入給LAPA模型。
訓練潛動作模型時不需要目標機器人的真實動作標籤,這使得該方法特別適合跨機器人泛化或資料稀缺場景。
訓練該潛動作模型所用的混合資料集詳見下表3。

基於神經軌跡的策略訓練

最後一步,在由DREAMGEN生成的神經軌跡上,研究人員訓練視覺-動作策略模型。
這些策略模型以語言指令和影像觀測作為條件輸入。由於神經軌跡中不包含狀態資訊,他們將狀態輸入部分用全零值填充。
研究團隊提出了兩種基於神經軌跡進行訓練的方式.
1. 與真實軌跡聯合訓練(co-training)
將神經軌跡與真實機器人資料以1:1的取樣比例進行聯合訓練。
在GR00T N1中,將兩類軌跡視為不同的機器人形態,並使用不同的動作編碼器和解碼器分別處理。
2. 僅使用IDM標籤的神經軌跡訓練
完全不使用真實資料,只使用由IDM模型標註的神經軌跡進行訓練。
在行為泛化與環境泛化實驗中,僅使用神經軌跡進行策略訓練,進一步驗證DREAMGEN在缺乏真實資料情況下的策略泛化能力。
1
詳細結果
研究團隊展示新方法在三個方面的核心應用能力:
1. 用於現有任務的資料增強 
2. 泛化到新行為的能力
3. 泛化到新環境的能力

訓練資料增強
在模擬實驗中,在RoboCasa基準任務上,團隊對DREAMGEN的流程進行評估,遵循其原始論文中設定的訓練和評估協議。
在現實世界實驗中,選取了9個真實任務進行評估,涵蓋3種不同形態的機器人:類人機器人GR1、機械臂機器人Franka、低成本的機器人臂SO-100。
下圖4展示了在不同數量的神經軌跡下,訓練的機器人策略效能,分別對應三種真實資料規模:
  • 低資料量(720條演示)
  • 中等資料量(2.4k條演示)
  • 高資料量(7.2k條演示)
主要觀察結果
1. 聯合訓練帶來一致性提升
由於兩者效果相近,但IDM可以支援僅使用神經軌跡進行訓練和評估
2. 神經軌跡數量與策略效能呈對數線性關係
機器人策略的效能與神經軌跡的數量之間呈現出一致的對數線性斜率。
這說明:透過神經軌跡進行合成數據生成相比傳統模仿學習中的人工演示採集方式,具有更強的可擴充套件性和成本效益
3. 僅用IDM神經軌跡也可獲得非凡效能
即便完全不使用真實軌跡,只使用IDM標籤的神經軌跡訓練策略模型,在24個任務中仍可達到平均20.6%的成功率
這進一步證明了神經軌跡本身的高質量和有效性(具體實驗結果如下表4。)

現實世界實驗

在現實世界實驗中,研究團隊為每個任務採集如下數量的真實軌跡:
  • GR1類人機器人的4個任務:每個任務採集100條軌跡
  • Franka機械臂的3個任務:每個任務採集100條軌跡
  • SO-100機器人臂的2個任務:分別為「草莓抓取-放置」任務採集40條軌跡,以及「井字棋」任務採集50條軌跡
如下圖5所示,無論是哪種視覺-動作策略模型(Diffusion Policy、π₀或GR00T N1),在所有機器人形態上,神經軌跡都能持續性地提升在複雜任務中的表現。
這些任務包括:工具操作、操作可變形物體、基礎的抓取與放置任務。
這些任務的一個共同特點是:它們在模擬中極難實現
因為涉及複雜的物理互動(如工具與柔性物體的接觸),而目前的模擬技術很難真實復現這些場景,因此傳統方法難以透過模擬資料生成有效的訓練資料
進一步觀察還發現,在GR00T N1模型上的效能提升幅度高於Diffusion Policy和π₀。
研究人員推測原因是:
GR00T N1為IDM動作使用了獨立的動作編碼器和解碼器引數 ,這有助於緩解神經軌跡中狀態始終為0的影響;
這樣的設計增強了模型對神經軌跡結構的適應能力,從而在學習中更好地利用偽動作資料。

解鎖泛化能力
為了展示DREAMGEN如何在機器人學習中實現強泛化能力,首先使用2,884條GR1類人機器人在多樣化抓取-放置任務中的軌跡,對目標影片世界模型進行訓練。
接著,用兩個型別的提示詞對該模型進行引導:
1. 在已知環境中提示全新行為
2. 在全新環境中提示已知與未知行為
然後生成對應的神經軌跡用於策略訓練。
目標物體在環境中的隨機化程度如圖11所示。該實驗中使用的基礎策略模型為GR00T N1
行為泛化
DREAMGEN是否能讓機器人僅透過神經軌跡學習新的行為動作,完全不依賴人工遠端操作資料
在這裡,「新的行為動作」指的是之前未見過的、全新的動作動詞,而不僅是對已有動作的簡單變化。
令人驚喜的是:僅依靠一幀初始影像和一句語言指令,影片世界模型就能生成表現出完全未見行為的影片(示例見圖12)。
基於這種能力,為14個全新行為任務每個生成50條神經軌跡,並僅用這些軌跡訓練下游視覺-動作策略模型。
如表1所示,使用GR00T N1僅在原始2,885條「抓取-放置」軌跡上微調的策略模型,在新行為任務中表現有限(平均成功率為11.8%),主要因為部分任務允許對「拾起動作」打部分分(比如在「倒水」任務中,僅拾起水瓶可得0.5分)。
然而,加入神經軌跡後,策略成功率從11.2%提升至43.2%,這表明DREAMGEN確實可以讓機器人學會完全陌生的動詞行為
環境泛化
更令人驚訝的是,當將模型輸入來自全新環境的初始畫面時,影片世界模型依然能夠生成高度真實、合理的機器人影片,這些影片在遵循微調期間學到的運動學規律的同時,還保留了預訓練階段從網際網路上學習到的世界知識。
研究人員沿用同樣的訓練流程,僅使用神經軌跡來訓練視覺-動作策略,發現無論是在已知行為(如抓取-放置的變化形式)還是全新行為(如澆花、關盒子、攪拌打蛋器等)上,都能獲得不錯的成功率(見上表1)。
值得注意的是,與此前研究透過增加環境數量來實現泛化的做法不同,新方法完全不需要額外採集任何物理環境資料
新研究僅透過採集初始幀來實現泛化,相當於達成了零樣本環境遷移(zero-shot transfer)
最後,作為對比,基線模型僅在一個環境中學習「抓取-放置」任務,對新環境的成功率為0%,完全無法泛化到訓練之外的環境。
1
DreamGen Bench  機器人的影片生成基準
同時,這次研究還引入了DreamGen Bench,用於機器人的影片生成基準,它與下游機器人策略呈正相關。
因此,影片模型研究人員無需實際設定自己的物理機器人系統,即可幫助實現機器人技術。
此外,他們在RoboCasa的模擬實驗中分析了一個關鍵問題:增加神經軌跡的數量是否會提升策略效能
他們透過調整神經軌跡的總數(從0到24萬條),在不同真實資料規模(低、中、高)下進行實驗評估,並觀測其對下游策略表現的影。
他們嘗試使用兩種方式獲取偽動作標籤:潛動作模型(LAPA)、逆向動力學模型(IDM)。
主要發現如下:
1. 無論使用LAPA還是IDM,神經軌跡都能在所有資料量場景中顯著提升策略效能。
2. 策略效能與神經軌跡總數之間呈現出「對數-線性」增長趨勢——即每新增一倍的神經軌跡數量,都會帶來穩定的效能提升。
這表明:神經軌跡是一種強大的資料擴充套件方式,併為機器人學習的可擴充套件性提供了新的增長維度——
相比依賴大量人工採集的傳統模仿學習方法,DREAMGEN所生成的合成數據在價效比與規模化上具有巨大優勢。
參考資料:
https://research.nvidia.com/labs/gear/dreamgen/
https://arxiv.org/abs/2505.12705
https://x.com/DrJimFan/status/1924819887139987855

點個愛心,再走


相關文章