英偉達開源自適應多模態「世界生成」模型!開啟機器人、自動駕駛訓練革命


新智元報道  

編輯:定慧
【新智元導讀】Nvidia剛剛釋出了「世界生成」模型Cosmos-Transfer1,可以根據多種模態的空間控制輸入(如分割、深度和邊緣)生成世界模擬,使得世界生成具有高度可控性。開發者使用模型能夠建立高度逼真的模擬環境,用於訓練機器人和自動駕駛車輛。
Nvidia帶著最新「黑科技」模型Cosmos-Transfer1震撼登場,可以建立高度逼真的模擬環境,反向生成「真實世界」!
Cosmos-Transfer1,是一種自適應多模態世界生成模型。可以根據多種模態的空間控制輸入(如分割、深度和邊緣)生成真實世界模擬。

注意!右邊的場景並非「真實場景」,而透過

HD Map

高畫質地圖和

Lidar

雷達圖即時「生成」的!

這種生成能力給未來數字世界帶來太多想象力和可能性!
也有望解決物理AI開發中的一個長期挑戰:縮小模擬訓練環境與實際應用之間的差距。
真實物理世界就是以多種模態被感知的,比如上圖中的四個模態:RGB Camera、Lidar雷達圖、Depth深度圖和HD Map高畫質地圖。
Cosmos Transfer使得高度可控的「世界生成」成為可能,並在各種世界到世界的轉換用例中找到應用,包括Sim2Real(虛擬模擬世界向現實世界轉換)。
Cosmos Transfer強大的「世界生成」能力

首先透過基於真實物理的引擎,如Nvidia Omniverse、Genesis等,生成遵循現實物理規律的模擬影片資料。

透過Cosmos Transfer來提升模擬資料的真實性和多樣性。
Cosmos Transfer不僅可以透過單一模態控制生成,也允許在不同的空間位置對不同的條件輸入進行不同的加權。

單一模態控制生成

Cosmos Transfer透過單一模態可以生成逼真的現實場景。
下圖展示了透過輸入Edge邊緣圖、Depth深度圖、Segmentation分塊圖來生成諸如腳踏車維修車間、自動駕駛場景和真實機械臂場景。
下圖展示了透過輸入Blur Visual模糊場景圖HMap高畫質地圖Lidar雷達圖來生成諸如機械臂操作、自動駕駛場景。

多模態控制生成

在Cosmos-Transfer1模型設計中,空間條件方案是自適應和可定製的。它允許在不同的空間位置對不同的條件輸入進行不同的加權。
透過輸入HD Map和Lidar雷達圖,可以生成應用於自動駕駛訓練的真實影片。
在多模態的基礎上,Cosmos Transfer1還引入了Spatiotemporal Control Maps時空控制權重圖,控制權重圖在黑色畫素區域為0.0,在白色區域為0.5,所以在右側生成的影片中,權重高的部分效果更加明顯。

一種輸入,多種可能

除了可以單模態和多模態控制生成影片,Cosmos Transfer1也能生成多種現實風格的內容。

比如下圖輸入高畫質地圖HD Map,可以生成5種不同風格的影片:Night夜景、Foggy大霧天氣、Daytime白天、Snow雪天和Night,Rainy夜晚下雨天。

輸入Lidar雷達圖,同樣可以生成5種不同風格的影片內容

風格變換

同時,Cosmos Transfer可以將生成的影片內容進行風格變換

對生成的影片風格可變換為Modern現代風格、Simplistic簡約風和Warm風格。

以下是Modern現代風格、Bakery風和Sci-Fi科幻風格。
機械臂的模擬影片可生成Factory工廠風格、Construction Site建築場景風格和Living Room起居風等
不論是單一模態、多模態還是生成各種風格的影片,Cosmos Transfer都表現出不俗的能力。
「世界生成器」Cosmos Transfer1技術路線
多模態可控世界生成是指基於分割、深度和邊緣等多模態影片輸入生成世界模擬影片的問題。
Cosmos-Transfer1是一個具有自適應多模態控制的世界生成器。它包含多個控制分支,用於從不同的模態輸入(如分割、深度和邊緣)中提取控制資訊。
應用時空控制圖w={w1,w2,…,wN}來加權由控制分支計算出的輸出,然後再將其反饋到主生成分支。
時空控制圖使模型能夠利用不同區域中最相關的模態以獲得最佳輸出質量。
Cosmos-Transfer1訓練成果展示
Nvidia第一個Cosmos-Transfer1的實現被稱為Cosmos-Transfer1-7B。
使用1024個NVIDIA H100 GPU對每個控制分支進行2到4周的訓練,具體時間取決於模態。
以上展示使用相同提示在各個單獨模態(Vis、Edge、Depth、Seg)設定下,Cosmos-Transfer1-7B的生成影片效果。
  • Cosmos-Transfer1-7B [Vis] 在保持顏色和整體構圖的同時,改變了紋理細節。
  • Cosmos-Transfer1-7B [Edge]在改變顏色的同時保持了物體邊界。
  • Cosmos-Transfer1-7B [Depth]保持了場景幾何結構。
  • Cosmos-Transfer1-7B [Seg]保持了場景語義。
Cosmos-Transfer1-7B-Sample-AV是特別為自動駕駛設計的模型。
  • Cosmos-Transfer1-7B-Sample-AV [HDMap] 保留了駕駛場景的原始道路佈局。
  • Cosmos-Transfer1-7B-Sample-AV [LiDAR] 保留了輸入的語義細節。
最後,Nvidia還訓練了一個Upscale ControlNet,將生成的影片從 720p 提升到 4k 解析度。
在下圖中展示了4K Upscaler的例子,4K Upscaler版本稱為Cosmos-Transfer1-7B-4KUpscaler。
Cosmos-Transfer1-7B-4KUpscaler將影片從720p提升到4k解析度!
效果評估
為了評估Cosmos-Transfer1的特性,Nvidia精心策劃了TransferBench——一個包含600個示例的評估資料集。
首先是單模態和多模態的對比。
對各種Cosmos-Transfer1配置在TransferBench上的定量評估,考慮所有模態的模型獲得了最高的Quality Score。
其次,對不同模式(Vis、Edge、Depth 和Seg)的考慮不同的權重進行研究。
控制權重在黑色畫素區域為 0.0 ,在白色區域為 0.5 。
注意到,雖然標題大致指定了一個腳踏車修理店的場景,但由於這些畫素受到 Vis 和 Edge 的控制,藍色襯衫上的白色標誌和男子的膚色保持不變。
另一方面,對於由 Depth 和分割控制的背景,物體在場景中的位置保持一致,但其顏色和紋理被隨機化(例如紅色工具箱、黃色三腳架、白色修理架)。模型還在右側牆上添加了一個新的工具架。
另一個例子是Cosmos-Transfer1在機器人資料生成中的示例結果。
左列顯示由NVIDIA Lab生成的基於物理引擎的虛擬輸入影片,而右邊三列則展示了使用不同提示詞在單模態和多模態控制下的Cosmos-Transfer1-7B生成結果。
Nivdia Cosmos平臺
NVIDIA Cosmos 是一個以開發者為先的世界基礎模型平臺,旨在幫助物理人工智慧開發者更快更好地構建他們的物理人工智慧系統。Cosmos 包含:
  1. 預訓練模型(可透過Hugging Face獲取),這些模型在 NVIDIA 開放模型許可下允許免費商業使用。
  2. 在Apache 2許可下的訓練指令碼,用於對各種下游物理 AI 應用的模型進行後訓練。
Cosmos-Transfer1模型可透過Hugging Face獲取。
參考資料:
https://github.com/nvidia-cosmos/cosmos-transfer1
https://x.com/_akhaliq/status/1902187161841000938
https://huggingface.co/papers/2503.14492

相關文章