前有李飛飛，後有谷歌DeepMind。就在今天凌晨，DeepMind最新推出的基礎世界模型Genie 2，以其革命性的能力，從單張影像生成長達一分鐘的動態遊戲世界，為具身智慧體的訓練提供了無限可能。這一技術不僅解鎖了下一代智慧體的潛能，更讓人聯想到科幻電影中的“駭客帝國”場景，預示著我們可能正邁向一個全新的虛擬與現實交織的時代。

Genie 2的誕生，標誌著AI在模擬複雜環境方面邁出了一大步。它能夠根據一張提示影像，創造出一個可透過鍵盤和滑鼠操作的一致性環境，無論是第一人稱的真實世界場景還是第三人稱的駕駛環境，都能以720p的清晰度呈現。這不僅為研究人員提供了一個測試和評估具身智慧體的新平臺，也為遊戲開發者和創意工作者開闢了新的工作流程，使得快速建立和測試新環境成為可能。

此外，Genie 2的湧現能力令人印象深刻。它能夠模擬物體互動、角色動畫、物理效果等多種複雜場景，展現出了前所未有的通用性和靈活性。這項技術的發展為AI的研究和應用帶來了新的視角，它會是通向通用人工智慧（AGI）的道路鋪下了一塊重要的基石嗎？以下，Enjoy：

來源：新智元

編輯：Aeneas 好睏

谷歌DeepMind最新基礎世界模型Genie 2登場！只要一張圖，就能生成長達1分鐘的遊戲世界。從此，我們將擁有無限的具身智慧體訓練資料。更有人驚呼：駭客帝國來了。

就在剛剛，谷歌DeepMind的第二代大規模基礎世界模型Genie 2誕生了！

從此，AI可以生成各種一致性的世界，最長可玩1分鐘。

谷歌研究人員表示，相信Genie 2可以解鎖具身智慧體的下一波能力。

剛剛，DeepMind最強「基礎世界模型」誕生！單圖生1分鐘遊戲世界，解鎖下一代智慧體。從第一人稱的真實世界場景，到第三人稱的駕駛環境，Genie 2生成了一個720p的世界。

給定一幅影像，它就能模擬出世界動態，建立一個可透過鍵盤和滑鼠輸入的、可操作的一致環境。

具身智慧體的潛力有多大？

在以下這個Imagen 3生成的世界中，研究者測試出最新的智慧體是否可以遵循語言指令，走到紅門或藍門。

結果令人驚喜！

就這樣，現在我們擁有了一條通往無限環境的道路，來訓練和評估具身智慧體了。

研究者創造了一個有3個拱門的世界後，Genie 2再次模擬了這個世界，讓團隊解決了任務。

對此，網友們紛紛表示讚歎：“這項工作實在是太棒了！今後，我們終於可以將開放式智慧體與開放世界模型結合起來。我們正在朝著近乎無限的訓練資料體系邁進。”

還有網友表示：「駭客帝國」的世界，要來了！

為未來的通用智慧體，生成無限多樣的訓練環境

作為一種基礎世界生成模型，Genie 2能生成無限多樣的、可操控且可玩的3D環境，用於訓練和評估具身智慧體。

基於一張提示詞影像，它就可被人類或AI智慧體操作了！方式是使用鍵盤和滑鼠輸入。

在AI研究中，遊戲一直扮演著至關重要的角色。因為具有以引人入勝的特性、獨特的挑戰組合以及可衡量的進展，遊戲成為了安全測試和提升AI能力的理想環境。

自Google DeepMind成立以來，遊戲一直都是研究的核心——從早期的Atari遊戲研究，到AlphaGo和AlphaStar等突破性成果，再到與遊戲開發者合作研究通用智慧體。

然而，訓練更通用的具身智慧體，卻因缺乏足夠豐富和多樣化的訓練環境而受到限制。

但現在，Genie 2的誕生改變了一切。

從此，未來的智慧體可以在無限的新世界場景中進行訓練和評估了。

互動式體驗原型設計的新型創意工作流程，也有了全新的可能性。

基礎世界模型的湧現能力

迄今為止，世界模型在很大程度上都受限於對狹窄領域的建模。

在Genie 1中，研究人員引入了一種生成多樣化二維世界的方法。

而到了Genie 2這一代，在通用性上實現了重大突破——它能生成豐富多樣的3D世界了。

Genie 2是一種世界模型，這就意味著，它可以模擬虛擬世界，包括採取任何行動（如跳躍、游泳等）的後果。

基於大規模影片資料集進行訓練後，它像其他生成式AI模型一樣，展現出了各種規模的湧現能力，例如物體互動、複雜的角色動畫、物理效果、建模、預測其他智慧體行為的能力等等。

對於每個人類與Genie 2互動的demo，模型都以由Imagen 3生成的單張圖片作為提示詞輸入。

這就意味著，任何人都可以用文字描述自己想要的世界，選擇自己喜歡的渲染效果，然後進入這個新建立的世界，並且與之互動（或者，也可以讓AI智慧體在其中被訓練或評估）。

每一步，人或智慧體都能透過鍵盤和滑鼠提供動作，而Genie 2會模擬下一步的觀察結果。

在長達一分鐘的時間裡，Genie 2可以生成一個一致的世界，持續時間直接長達10-20秒！

動作控制

Genie 2能夠智慧響應透過鍵盤按鍵採取的動作，識別角色並正確移動。

例如，模型必須計算出，箭頭鍵應該移動機器人，而不是移動樹木或雲朵。

一個在樹林中的可愛的人形機器人

一個在古埃及的人形機器人

在紫色的星球上，以機器人第一人稱視角觀察

在現代都市的公寓中，以機器人第一人稱視角觀察

生成反事實

Genie 2能夠基於同一個開始畫面，創造出多個不同的發展。

這意味著我們可以為AI訓練提供各種「如果這樣做會怎樣」的場景。

在下面的這兩行demo中，每個影片都會從完全相同的畫面開始，但人類玩家會選擇不同行動。

長時間記憶

Genie 2能夠記住那些暫時離開畫面的場景，並在它們重新進入視野時，精確地還原出來。

持續生成新場景

Genie 2能在過程中即時創造出符合邏輯的新場景內容，並且可以在長達一分鐘的時間內保持整個世界的一致性。

Genie 2能夠生成多種不同的觀察視角，比如第一人稱視角、等距視角（45度俯視角）或第三人稱駕駛視角。

‍

3D結構

Genie 2能夠建立複雜的3D視覺場景。

物體屬性與互動

Genie 2能夠建模各種物體互動，例如氣球爆裂、開門和射擊炸藥桶。

角色動畫

Genie 2能夠為不同型別的角色，製作各種動作的動畫。

NPC

Genie 2能夠為其他智慧體建模，甚至與它們進行復雜互動。

‍

物理效果

Genie 2能夠模擬出水面的動效。

煙霧

Genie 2能夠模擬煙霧的效果。

重力

Genie 2能夠模擬重力。

光照

Genie 2能夠模擬點光源和方向光。

反射

Genie 2能夠模擬反射、泛光和彩色光照。

基於真實影像的模擬

Genie 2還可以將真實世界的影像作為提示詞輸入，並模擬出草葉在風中搖曳或河水流動等場景。

快速建立測試原型

有了Genie 2，製作多樣化的互動場景就變得簡單了。

研究人員可以快速嘗試新環境，來訓練和測試具身AI智慧體。

例如，下面就是研究人員向Genie 2輸入Imagen 3生成的不同影像，來模擬操控紙飛機、飛龍、獵鷹或降落傘等不同的飛行方式。

在這個過程中，也同時測試了Genie處理不同控制物件動作時的表現。

憑藉強大的離散泛化能力，Genie 2可以將概念設計圖和手繪草圖轉化為可實際互動的場景。

從而讓藝術家和設計師能夠快速驗證創意，提升場景設計的效率，並加快相關研究的進度。

以下是由概念設計師創作出的一些虛擬場景示例。

AI智慧體在世界模型中行動

藉助Genie 2，研究人員能夠快速構建出豐富多樣的虛擬環境，並創造全新的評估任務，來測試AI智慧體在從未接觸過的場景中的表現。

下面這個demo，就是由谷歌DeepMind與遊戲開發者共同開發的SIMA智慧體，它能夠在Genie 2僅透過一張圖片生成的全新環境中，準確理解並完成各種指令。

prompt：一張第三人稱開放世界探索遊戲的截圖。畫面中的玩家是一名在森林中探索的冒險者。左邊有一座紅門的房子，右邊有一座藍門的房子。鏡頭正對著玩家的身後。#寫實風格 #身臨其境

SIMA智慧體的目標是，能夠在多樣化的3D遊戲環境中，透過自然語言指令完成各種任務。

在這裡，團隊使用Genie 2生成了一個包含兩扇門（藍色和紅色）的3D環境，並向SIMA智慧體提供了開啟每扇門的指令。

過程中，SIMA透過鍵盤和滑鼠來控制遊戲角色，而Genie 2負責即時生成遊戲畫面。

開啟藍色的門

開啟紅色的門

不僅如此，我們還可以藉助SIMA來評估Genie 2的各項能力。

比如，透過讓SIMA在場景中四處檢視並探索房屋背後的區域，測試Genie 2是否能夠生成一致性的環境。

轉身

去房子後面

儘管這項研究還處於起步階段，無論是AI智慧體的表現，還是環境的生成都還有待提升。

但研究人員認為，Genie 2是解決安全訓練具身智慧體這一結構性問題的路徑，同時也能夠實現通向通用人工智慧（AGI）所需的廣度和通用性。

prompt：一個電腦遊戲場景，展示了一座粗獷的石洞或礦洞內部。畫面採用第三人稱視角，鏡頭在主角上方俯視著。主角是一位手持長劍的騎士。騎士面前矗立著三座石砌的拱門，他可以選擇進入任一道門。透過第一扇門，可以看到隧道內生長著散發熒光的奇異綠色植物。第二扇門後是一條長廊，洞壁上佈滿了鉚接的鐵板，遠處隱約透出令人不安的光芒。第三扇門內則是一段粗糙的石階，蜿蜒通向未知的高處。