不必再期待Sora！谷歌炸出大世界模型，AI無限月讀誕生了

2025-08-06 15:38 夕小瑤科技說

還記得火影忍者中大筒木輝夜的"無限月讀"嗎？透過瞳術創造出無數個虛擬世界，讓人陷入幻境沉浸其中。

現在，這個魔幻的能力逐漸成為現實。

我這裡先給大家貼一個demo：

大夥第一眼看過去，估計都會認為，這就是一個AI生成的影片吧。

是，也不是。再看一下右下角的操控按鍵呢？

影片中的人物的行為，完全是由人類，透過鍵盤滑鼠操控的。

我知道這很難接受，但事實就是：這是一個AI生成的，可人為操控的，3D世界。

而生成這個demo的模型，就是谷歌DeepMind剛剛釋出的世界模型，Genie 2.

簡單說一下世界模型。在通往AGI的道路上，人們一直在追求一個能理解現實世界，複製現實世界基本動態的模型，這是通往AGI的必不可少的核心。

“貌似能實現這種追求”的多模態語言模型（圖片、影片生成模型，比如Sora）出現後，在大家的實際體驗中，此類模型能呈現出一些物理世界的元素，但其經常違反物理世界規律，生成的畫面無厘頭又好笑，所以，多模態語言模型是否真的就是世界模型，依然要打一個問號。於是，人們又加劇了對世界模型的討論。

如何定義世界模型？Yann Lecun在2022年的一篇論文 “A Path Towards Autonomous Machine Intelligence” 中提到了一種自主智慧代理框架，在非確定性的神經模型中引入確定性的規則演繹系統，能夠讓模型像人類和動物一樣學習，具有推理和規劃能力，行為由內在目標驅動，而非硬編碼程式或外部獎勵。

論文地址：https://openreview.net/pdf?id=BZ5a1r-kVsf

這個框架的核心機制就是，首先給定一個觀測值x(t)，利用編碼器Enc，從感測器訊號中估計當前世界的狀態，將觀測值x(t)轉換為內部表示s(t)或h(t)。

然後利用預測器Pred預測可能的未來世界狀態，作為想象中行動序列的結果，根據當前的世界狀態s(t)、行動建議a(t)以及潛在變數z(t)，來預測下一時刻的世界狀態s(t+1)。

通俗一點講，世界模型預測未來的機制相當於模擬未來世界演變，類似於反事實推理（Counterfactual Reasoning）。喜歡看網文小說的小夥伴可能更容易理解一點，就是無限推演。

反事實推理，解答的是what…if（如果……會怎麼樣）的問題，基於已經發生的事實，假設某一條件發生改變，事實是否會不同。

（例如：你朋友今天中彩票了，如果你早就知道中獎的號碼，中彩票的還會是Ta嗎？）

而世界模型的核心就是學會了反事實推理，也就意味著模型學會了反思。透過不斷地反思試錯，利用世界模型都能找到最優決策。

這次的Genie 2就做到了，能感知世界和預測未來。

感知世界

能感知世界，所以Genie 2可以對人類世界進行超高階的模仿，包括模仿人的任何行動（移動、跳躍、游泳等）都惟妙惟肖。

甚至，主體不是人也行。

至於模模擬實世界物理規則，例如模擬重力、模擬草搖曳、河水流淌什麼的，更是不在話下。牛頓的棺材板終於壓住了。

預測未來

能預測未來，所以Genie 2能對人為輸入做出合理互動（例如按WASD移動、滑鼠移動旋轉視角等）。

而且，不只是主角能動起來，它還能模擬出NPC，或者其他元素的行為；

包括各種物體間的互動，例如打氣球、開門什麼的，都非常“真實”。

至少，此前的AI影片生成模型很難達到這樣的效果。

prompt：開藍色的門

我只能說，這完完全全就像是用AI做了個開放世界動作遊戲。

現在再想想11月初出的3D可互動AI專案Oasis，那個可即時互動的AI生成的Minecraft（《我的世界》），根本沒得比。

當時試玩的時候，就感覺真的很難受。把視角移開、再移回來，世界就完全不一樣了。

而Genie 2就透過長期記憶克服了這個問題，不會說因為轉個身就大變個樣。

更恐怖的是，Genie 2生成的世界甚至能做到一分鐘的穩定時長。請看VCR：

如果將世界模型歸為影片生成模型，那它與當下耳熟能詳的Sora、Runway、國產的可靈、海螺、清影等，都不屬於同一個流派：

世界模型就像在一個對於AI來說“非常真實”的3D世界裡，生成影片。

在這個世界裡，AI透過各種湧現能力來完成你希望的結果，物體互動、模擬真實物理引擎、建模、模擬反饋。

拿出現在市面上的AI影片模型，單純比較時空連貫性，恐怕不見得有幾家能復現出來上述demo的效果。

引用AI教母李飛飛的解讀，空間智慧，是指AI在三維空間+一維時間中感知、推理和行動。空間智慧AI能理解物體和事件在三維空間和時間中的位置，以及互動如何影響這些三維位置，真正的將AI從一維升到三維，進入現實世界。

而世界模型正是如此，它就像突破了一維，利用語言推理和規則主導的空間，往三維層次，也就是我們當前世界的維度邁進的空間智慧。

所以世界模型能理解和掌握物理世界規律，模擬出與物理世界相同的互動。

個人認為有點元宇宙那味兒了，只不過世界模型確確實實已經存在，還在非常快速地實現技術突破。

還有一件事，上面的每一個demo，都是用文生圖模型生成一張圖，就只用這一張圖餵給Genie 2實現的。

意思就是，任何人，都可以用文字描述出一個理想的世界，再用AI模擬出真實的 情況。你只需要拿起鍵盤和滑鼠操作，就像打遊戲一樣，控制主角移動，就可以了。

我在Sora剛預告時，就幻想了一個未來，希望透過AI影片，模擬出一些我做不到的事。

但很遺憾，我至今都未找到足夠實現這個夢想的AI影片模型。

而今天出現的Genie 2，雖然還是美中不足，它至少證實了：世界模型是一條可行的方向， 我又看到了我的夢想得以實現的可能。

也許不久，也許將來，也許，就是現在。

參考資料

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

相關文章

機器人視覺控制新正規化！ByteDanceResearch新演算法實現透過效能SOTA

機器人視覺控制新正規化！ByteDanceResearch新演算法實現透過效能SOTA

智源學者仉尚航：具身基礎模型最終狀態可能是「4D世界模型」丨具身先鋒十人談

智源學者仉尚航：具身基礎模型最終狀態可能是「4D世界模型」丨具身先鋒十人談

英偉達團隊釋出最新具身模型Cosmos-Reason1，在物理世界推理中碾壓Qwen、GPT-4o等多個VLM模型

英偉達團隊釋出最新具身模型Cosmos-Reason1，在物理世界推理中碾壓Qwen、GPT-4o等多個VLM模型

JHU陳杰能：世界模型+心智模型，讓具身智慧體擁有「想象力」

JHU陳杰能：世界模型+心智模型，讓具身智慧體擁有「想象力」

DeepMind閉關修煉「我的世界」，自學成才挖鑽登Nature！人類玩家瑟瑟發抖

DeepMind閉關修煉「我的世界」，自學成才挖鑽登Nature！人類玩家瑟瑟發抖

超越人類！DeepMind強化學習新突破：AI在「我的世界」中封神！

超越人類！DeepMind強化學習新突破：AI在「我的世界」中封神！

李飛飛團隊提出世界模型基準：“世界生成”能力迎來統一評測，3D/4D/影片模型同臺PK

李飛飛團隊提出世界模型基準：“世界生成”能力迎來統一評測，3D/4D/影片模型同臺PK

谷歌世界模型爆發：單張圖生成可玩3D世界，還要和馬斯克一起做AI遊戲

谷歌世界模型爆發：單張圖生成可玩3D世界，還要和馬斯克一起做AI遊戲

英偉達開源自適應多模態「世界生成」模型！開啟機器人、自動駕駛訓練革命

英偉達開源自適應多模態「世界生成」模型！開啟機器人、自動駕駛訓練革命

機器人與模型深度融合開啟智慧升級下半場，智慧終端的未來終局是物理AI

機器人與模型深度融合開啟智慧升級下半場，智慧終端的未來終局是物理AI

Copyright © 2025 | WordPress Theme by MH Themes