駭客帝國要來!只要一張圖,就能生成長達1分鐘的遊戲影片,谷歌最新AI模型相當驚豔…

你好,我是郭震!
今日谷歌DeepMind釋出Genie2,下面是我對此模型的一個基本分析。
這個模型如何玩呢?比較簡單,我們只需要輸入:
下面一張圖+下面一段提示詞:
提示詞:一個電腦遊戲場景,展示了一個粗獷的石洞或礦洞內部。畫面採用第三人稱視角,鏡頭從主角後方稍高處俯視。主角是一名手持長劍的騎士,站在三座石砌的拱門前。第一座拱門後,可以看到隧道內生長著散發著熒光的綠色奇異植物,給人一種夢幻的感覺。第二座拱門通向一條長廊,洞壁上佈滿鉚接的鐵板,遠處隱約透出一種不安的光芒。第三座拱門內是一段粗糙的石階,蜿蜒向上通往未知的高處,增添了探索的神秘感。
然後模型就會輸出下面三段互動影片,注意看:
很有意思!
透過鍵盤和滑鼠我們可以操控遊戲玩家通往哪個門:

比如通往

第三座拱門

操控玩家進入第一座拱門:
操控玩家進入第二座拱門:

是的,太神奇了,要知道,只需要輸入一張圖+一段提示詞,就能玩到這個高度!

不得不驚歎,這樣多種互動效果。

那麼,Genie2是個啥樣子模型呢?
Genie2 是 Google DeepMind 開發的先進AI模型,能夠根據文字或影像提示生成可互動的 3D 虛擬世界

接下來初步總結Genie2的最大三個特點:

第一,Genie2作為世界模型,能夠多視角模擬物理世界。
證明它能夠模擬物理世界,幾個影片:

1)模擬不同角色、不同姿態的飛行:

2)模擬物理世界的重力效果,仔細看,這效果確實夠逼真:

再看這個影片,模擬馬起跳又受到重力下降的畫面,真的足夠逼真了:

模擬物理世界的光源,注意看右下角,代表不同視角看世界:

第二,Genie2不光能夠生成影片,更加激動人心的是,它可以和人類互動,這個簡直不能再友好了!
再上證據。如下所示,輸入:開啟每扇門的指令,使用Genie 2生成了一個包含兩扇門(藍色和紅色)的3D環境。
接下來它就開始表演了,我們能透過鍵盤和滑鼠來控制遊戲角色,而Genie 2負責即時生成遊戲畫面:
哪些影片可以證明其互動能力?
接著看。
能夠透過箭頭鍵,控制移動機器人,這個看起來容易,但是背後實現難度不小,模型需要計算出移動角色,而不是金字塔,
也不是移動樹木,而是透過箭頭鍵移動角色:
第三個最大特點,推斷並生成一致的潛在動作,具備自主學習和環境理解能力
看看下面的風吹草動:
看看智慧體間的相互建模和學習:

以上,對於每個人類與Genie 2互動的demo,模型僅需要單張圖片+提示詞輸入,
然後就生成了上面的互動影片。
在長達一分鐘的時間裡,Genie 2可以生成一個一致的世界,持續時間直接長達10-20秒!
生成一個一致的世界長達10-20秒,是很有挑戰的。
接下來,任何人都可以用文字描述自己想要的世界,選擇自己喜歡的圖片,
然後進入這個新建立的世界,並且可以使用鍵盤和滑鼠與之互動,
哇,真的amazing!
難怪有網友留言,直呼:駭客帝國要來:

AGI的到來,看來已經並不遙遠了。

Genie 2 已經學了超過 20 萬小時的未標註網際網路影片,這是一個什麼概念?
如果一個人每天堅持觀看3小時的影片,完成20萬小時的觀看量,需要約:
183年
183年,我的天呢!Genie 2還真是個機器。

大家要想更好進入這些公司,可以多積累技能,對AI感興趣的,可以去「AI免費學習網」 ,訪問地址如下,160門相關教程,算是比較全面了,全部免費:
https://zglg.work

網站最近上新《大模型開發LangChain》的教程,下面其中一個截圖:

我還寫了一個40+頁的《普通人學AI》.PDF,只需在下面我的公眾號回覆:

AI

,即可免費領取:


希望這些教程和資料,能幫助到你!如果覺得對你有用,可以點贊、轉發和在看。謝謝你看我的文章,我們下篇再見!


相關文章