
本文一作為肖澤琪,本科畢業於浙江大學,現為南洋理工大學博士生,研究方向是基於影片生成模型的世界生成和模擬,導師為潘新鋼。個人主頁:
https://xizaoqu.github.io
近年來,基於影片生成模型的可互動世界生成引發了廣泛關注。儘管現有方法在生成質量和互動能力上取得了顯著進展,但由於上下文時間視窗受限,生成的世界在長時序下嚴重缺乏一致性。
針對這一問題,南洋理工大學 S-Lab、北京大學與上海 AI Lab 的研究者提出了創新性的世界生成模型——WorldMem,透過引入記憶機制,實現了長時序一致的世界生成。
WorldMem 在 Minecraft 資料集上進行了大規模訓練,支援在多樣化場景中自由探索和動態變化,並在真實資料集上驗證了方法的可行性。

-
論文名稱:WorldMem: Long-term Consistent World Simulation with Memory
-
專案主頁: https://xizaoqu.github.io/worldmem
-
論文程式碼:https://github.com/xizaoqu/WorldMem
-
Demo:https://huggingface.co/spaces/yslan/worldmem
研究背景
世界生成模型在近期受到了廣泛關注,如谷歌的 Genie 2 [1]、阿里的 The Matrix [2]、Meta 的 Navigation World Models [4] 等。這些方法在生成質量與互動性方面取得了顯著進展,但長時一致性問題仍未得到有效解決。
舉例:當我們控制視角先向右轉,再向左轉。
在傳統方法中,回看時場景內容會發生顯著變化。

在 WorldMem 中,我們在世界生成模型中引入記憶機制,實現了一致的世界生成。

方法效果
WorldMem 透過引入記憶機制,實現了長時序下世界生成的一致性。智慧體可在廣闊的動作空間中探索多樣場景,生成結果在視角和位置變化後仍保持良好的幾何一致性。

同時,WorldMem 還支援時間一致性建模。比如在雪地中放置南瓜燈,隨著時間推移,模型不僅保留該物體,還能生成其逐漸融化周圍積雪的細節,體現真實的事件演化過程。

方法
WorldMem 模型的主要結構如下圖所示,包含三大核心模組:
-
條件生成模組
-
記憶讀寫模組
-
記憶融合模組

條件生成模組——支援互動與持續生成的條件影片生成主幹
我們基於 Oasis [5] 和 Conditional DiT [6] 構建了世界生成基模型,並採用 Diffusion Forcing [3] 訓練策略,使模型能在有限上下文下實現自迴歸式長時生成。
儘管擴散模型結合自迴歸訓練具備一定的長時生成能力,但仍受限於上下文視窗,易出現遺忘問題,導致生成內容逐漸失真。為此,我們引入記憶機制,以增強模型的長期一致性。
記憶讀寫模組——負責歷史資訊的存取與精準檢索
-
記憶庫(Memory Bank):構建生成的長期記憶
為緩解上下文視窗帶來的遺忘問題,我們引入了記憶機制,作為一個持續更新的外部緩衝區,幫助模型回顧過去,保持場景在時間上的連續性。
我們設計的記憶庫用於儲存生成過程中的關鍵歷史資訊。每個記憶單元包含影像幀及其對應的狀態(視角位姿與時間戳)。隨著生成推進,記憶庫不斷積累,構建起一套可檢索的時間記錄。
-
記憶檢索(Memory Retrieve):高效選出最相關的歷史幀
由於每次生成僅能參考少量歷史幀,我們設計了一種貪心匹配演算法,從龐大的記憶庫中高效篩選關鍵資訊:
-
計算相似度(基於視野重疊與時間差異);
-
選取與當前場景最接近的記憶單元;
-
過濾冗餘,確保選出的記憶代表性強、資訊多樣。
這一過程不僅提升了生成效率,也保障了歷史資訊的有效利用。
記憶融合模組——融合關鍵歷史幀,引導當前生成
在長時序影片生成中,僅依賴當前幀難以維持場景一致性。我們引入記憶融合模組,透過融合關鍵歷史幀,引導當前生成,使模型在視角或場景變化後,仍能還原先前內容。
不同於 StreamingT2V [7]、SlowFast [8] 等方法主要依賴高層語義特徵,我們更關注細節重建與空間一致性,因此需要更精細的歷史關聯機制。
-
Memory Attention:連線過去與現在
我們採用跨注意力機制,實現當前幀與歷史幀的動態互動:
-
為當前幀和記憶幀新增狀態嵌入(位姿 + 時間);
-
透過注意力計算,提取與當前場景最相關的記憶資訊,生成融合特徵用於引導生成。
這種方式實現了歷史資訊的高效利用與精準檢索,顯著增強生成的一致性。
-
狀態嵌入設計:精細表達空間與時間
為提升融合效果,我們設計了兩類嵌入:
-
位姿嵌入:採用 Plücker 座標表達空間位置;
-
時間嵌入:使用 MLP 對映時間戳。
二者相加構成最終狀態特徵。此外,我們引入相對嵌入機制:
-
查詢幀使用零向量,僅依賴記憶幀的相對狀態;
-
並採用幀獨立檢索策略,確保每幀都能單獨提取最相關歷史資訊。
整體上,記憶融合模組顯著提升了模型的空間理解與細節保持能力,是實現穩定、連貫世界生成的關鍵組成部分。
實驗
在 Minecraft 上的結果
我們在 Minecraft 基準測試中評估了所提方法,結果顯示:
-
在短時生成中,傳統方法易出現一致性問題,而引入記憶機制後,生成質量與一致性明顯提升;
-
在長時推理中,傳統方法效能顯著下降,而我們的方法在各項指標上保持優勢,展現出良好的長期穩定性。

-
長時序生成對比
下圖展示了不同消融設定下,模型在 300 幀序列上的 PSNR 變化。結果表明:
-
缺少記憶模組或採用隨機檢索的方法,在短時間內即出現一致性下降;
-
缺少相對位置編碼的模型,在 100 幀後效能明顯退化;
-
完整方法在 300 幀以上仍保持穩定一致性,展現出優越的長期建模能力。

-
視覺化結果
與模擬資料(Ground Truth)相比,WorldMem 能夠基於記憶條件輸入,準確建模世界場景,同時支援動態變化(如降雨),並保持良好的時間一致性。
WorldMem 支援與生成世界的互動,例如在沙漠中放置乾草堆或在草原上種植作物。這些事件會被寫入記憶庫,並影響後續生成。當用戶回到曾種植作物的位置時,不僅能看到作物仍在,還能觀察其從發芽到生長的過程,體現出模型對時間動態的建模能力。

-
在真實場景上的結果
我們同時也將我們的方法在真實場景資料上做了驗證,結果顯示,加入記憶機制後,我們的方法能夠增強真實世界生成的一致性。

更多定製軌跡的結果:

更多細節請參考我們的論文與專案主頁。
展望
近年來,影片生成模型(如 WAN 2.1 [9]、Hunyuan [10] 等)展現出驚人的世界生成與模擬能力,驗證了其在理解與生成複雜環境中的潛力。
我們相信,未來互動式影片生成模型將在虛擬模擬、互動智慧等領域發揮越來越重要的作用。
WorldMem 為世界一致性建模邁出了關鍵一步,隨著技術發展,影片生成模型有望成為構建真實、持久、互動式虛擬世界的核心引擎。
歡迎對該方向感興趣的研究者、開發者與我們交流探討!
參考文獻
[1] Genie 2: A large-scale foundation world model. 2024.
[2] The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control. arXiv 2024.
[3] Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion. NeurIPS 2024.
[4] Navigation World Models. CVPR 2025.
[5] Oasis: A universe in a transformer. 2024.
[6] Scalable Diffusion Models with Transformers. ICCV 2023.
[7] StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text. arXiv 2024.
[8] Slow-Fast Learning for Action-Conditioned Long Video Generation. arXiv 2024.
[9] Wan: Open and Advanced Large-Scale Video Generative Models. arXiv 2025.
[10] HunyuanVideo: A Systematic Framework For Large Video Generative Models. arXiv 2024.
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]