不必再期待Sora!谷歌炸出大世界模型,AI無限月讀誕生了

還記得火影忍者中大筒木輝夜的"無限月讀"嗎?透過瞳術創造出無數個虛擬世界,讓人陷入幻境沉浸其中。

現在,這個魔幻的能力逐漸成為現實。
我這裡先給大家貼一個demo:
大夥第一眼看過去,估計都會認為,這就是一個AI生成的影片吧。
是,也不是。再看一下右下角的操控按鍵呢?
影片中的人物的行為,完全是由人類,透過鍵盤滑鼠操控的。
我知道這很難接受,但事實就是:這是一個AI生成的,可人為操控的,3D世界。
而生成這個demo的模型,就是谷歌DeepMind剛剛釋出的世界模型,Genie 2.
簡單說一下世界模型。在通往AGI的道路上,人們一直在追求一個能理解現實世界,複製現實世界基本動態的模型,這是通往AGI的必不可少的核心。
“貌似能實現這種追求”的多模態語言模型(圖片、影片生成模型,比如Sora)出現後,在大家的實際體驗中,此類模型能呈現出一些物理世界的元素,但其經常違反物理世界規律,生成的畫面無厘頭又好笑,所以,多模態語言模型是否真的就是世界模型,依然要打一個問號。於是,人們又加劇了對世界模型的討論。
如何定義世界模型?Yann Lecun在2022年的一篇論文 “A Path Towards Autonomous Machine Intelligence” 中提到了一種自主智慧代理框架,在非確定性的神經模型中引入確定性的規則演繹系統,能夠讓模型像人類和動物一樣學習,具有推理和規劃能力,行為由內在目標驅動,而非硬編碼程式或外部獎勵。
論文地址:https://openreview.net/pdf?id=BZ5a1r-kVsf
這個框架的核心機制就是,首先給定一個觀測值x(t),利用編碼器Enc,從感測器訊號中估計當前世界的狀態,將觀測值x(t)轉換為內部表示s(t)或h(t)。
然後利用預測器Pred預測可能的未來世界狀態,作為想象中行動序列的結果,根據當前的世界狀態s(t)、行動建議a(t)以及潛在變數z(t),來預測下一時刻的世界狀態s(t+1)。
通俗一點講,世界模型預測未來的機制相當於模擬未來世界演變,類似於反事實推理(Counterfactual Reasoning)。喜歡看網文小說的小夥伴可能更容易理解一點,就是無限推演。
反事實推理,解答的是what…if(如果……會怎麼樣)的問題,基於已經發生的事實,假設某一條件發生改變,事實是否會不同。
(例如:你朋友今天中彩票了,如果你早就知道中獎的號碼,中彩票的還會是Ta嗎?)
而世界模型的核心就是學會了反事實推理,也就意味著模型學會了反思。透過不斷地反思試錯,利用世界模型都能找到最優決策。
這次的Genie 2就做到了,能感知世界和預測未來。

感知世界

能感知世界,所以Genie 2可以對人類世界進行超高階的模仿,包括模仿人的任何行動(移動、跳躍、游泳等)都惟妙惟肖。
甚至,主體不是人也行。
至於模模擬實世界物理規則,例如模擬重力、模擬草搖曳、河水流淌什麼的,更是不在話下。牛頓的棺材板終於壓住了。

預測未來

能預測未來,所以Genie 2能對人為輸入做出合理互動(例如按WASD移動、滑鼠移動旋轉視角等)。
而且,不只是主角能動起來,它還能模擬出NPC,或者其他元素的行為;
包括各種物體間的互動,例如打氣球、開門什麼的,都非常“真實”。
至少,此前的AI影片生成模型很難達到這樣的效果。
prompt:開藍色的門
我只能說,這完完全全就像是用AI做了個開放世界動作遊戲。
現在再想想11月初出的3D可互動AI專案Oasis,那個可即時互動的AI生成的Minecraft(《我的世界》),根本沒得比。
當時試玩的時候,就感覺真的很難受。把視角移開、再移回來,世界就完全不一樣了。
而Genie 2就透過長期記憶克服了這個問題,不會說因為轉個身就大變個樣。
更恐怖的是,Genie 2生成的世界甚至能做到一分鐘的穩定時長。請看VCR:
如果將世界模型歸為影片生成模型,那它與當下耳熟能詳的Sora、Runway、國產的可靈、海螺、清影等,都不屬於同一個流派:
世界模型就像在一個對於AI來說“非常真實”的3D世界裡,生成影片。
在這個世界裡,AI透過各種湧現能力來完成你希望的結果,物體互動、模擬真實物理引擎、建模、模擬反饋。
拿出現在市面上的AI影片模型,單純比較時空連貫性,恐怕不見得有幾家能復現出來上述demo的效果。
引用AI教母李飛飛的解讀,空間智慧,是指AI在三維空間+一維時間中感知、推理和行動。空間智慧AI能理解物體和事件在三維空間和時間中的位置,以及互動如何影響這些三維位置,真正的將AI從一維升到三維,進入現實世界。
世界模型正是如此,它就像突破了一維,利用語言推理和規則主導的空間,往三維層次,也就是我們當前世界的維度邁進的空間智慧。
所以世界模型能理解和掌握物理世界規律,模擬出與物理世界相同的互動。
個人認為有點元宇宙那味兒了,只不過世界模型確確實實已經存在,還在非常快速地實現技術突破。
還有一件事,上面的每一個demo,都是用文生圖模型生成一張圖,就只用這一張圖餵給Genie 2實現的。
意思就是,任何人,都可以用文字描述出一個理想的世界,再用AI模擬出真實的 情況。你只需要拿起鍵盤和滑鼠操作,就像打遊戲一樣,控制主角移動,就可以了。
我在Sora剛預告時,就幻想了一個未來,希望透過AI影片,模擬出一些我做不到的事。
但很遺憾,我至今都未找到足夠實現這個夢想的AI影片模型。
而今天出現的Genie 2,雖然還是美中不足,它至少證實了:世界模型是一條可行的方向, 我又看到了我的夢想得以實現的可能。
也許不久,也許將來,也許,就是現在。

參考資料


 https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/


相關文章