MaaG：邁向世界模型，解決生成式遊戲中的數值與時空一致性難題

（本文閱讀時間：8分鐘）

編者按：世界模型（world models）是人工智慧領域的重要概念之一。作為構建世界模型的關鍵途徑，生成式遊戲（generative games）近年來受到了廣泛關注。近日，微軟亞洲研究院聯合香港科技大學、中國科學院大學提出了一種名為 MaaG（Model as a Game）的新框架，透過引入數值模組和空間模組，成功解決了生成式遊戲中數值波動與場景錯亂的核心難題。這一突破不僅讓遊戲畫面更加逼真，也讓遊戲機制變得邏輯自洽。

世界模型（world models）是人工智慧領域的一個重要概念，旨在透過模擬虛擬世界中主體行為的演變，實現高度逼真的互動體驗。這種模型不僅可以為遊戲和互動媒體的生成帶來革命性的變化，也將為人工智慧在複雜環境中的應用提供新的可能性。其中，生成式遊戲（generative games）作為構建世界模型的關鍵途徑，備受關注。例如，微軟提出的 MUSE 能夠用神經網路生成遊戲《嗜血邊緣（Bleeding Edge）》的畫面[1]。

圖1：微軟提出的 MUSE 模型利用神經網路生成遊戲《嗜血邊緣（Bleeding Edge）》的畫面

然而，儘管畫面表現越來越精美，但玩家在實際操作時仍會察覺到一些不協調之處，例如，遊戲中的人物在簡單變換動作之後，有些背景畫面會消失或移位等變化，彷彿“短時記憶喪失”一般。這正是當前生成式遊戲面臨的核心挑戰之一——一致性（Consistency）問題。

對此，來自微軟亞洲研究院、香港科技大學以及中國科學院大學的研究員們提出了一個名為 MaaG (Model as a Game) 的新正規化，主要關注兩類關鍵的一致性問題，分別是數值一致性（Numerical Consistency）和空間一致性（Spatial Consistency）。

數值一致性，指的是遊戲中出現的數值變化應當與玩家所觀測到的畫面和互動邏輯相符，避免出現數值變化不合理的情況。空間一致性，則要求當玩家再次觀察已探索過的區域時，所見內容應與之前的記憶保持一致。

Model as a Game: On Numerical and Spatial Consistency for Generative Games

論文連結：

https://arxiv.org/pdf/2503.21172

為了更清晰地研究這些問題，研究員們自制了一個極簡的 2D 小遊戲《旅行者（Traveler）》：一個小黑塊左右移動，穿過空地時會隨機生成一個彩色建築並得分+1。這個簡單的遊戲環境足以暴露現有生成模型在一致性上的短板。值得一提的是，得益於大語言模型的發展，研究員們所使用的遊戲環境是由大語言模型生成並基於 Pygame 實現的。這一環境支援遊戲過程中的每一幀畫面與對應的數值狀態同步匯出，為後續的分析和研究提供了良好的資料基礎。

圖2：研究員自制了極簡的2D遊戲《旅行者（Traveler）》，透過小黑塊穿越空地、生成建築得分，可直觀暴露生成模型在一致性上的不足。

MaaG框架：雙模組革新重塑遊戲一致性，開啟AI生成遊戲新正規化

MaaG 的目標是讓生成式模型在繪製遊戲畫面的同時，也能真正理解遊戲機制。在 Diffusion Transformer（DiT）基礎上，MaaG 框架引入了兩個關鍵的增強模組：數值模組（Numerical Module）和空間模組（Spatial Module）。

圖3：MaaG 框架。包含數值模組與空間模組以解決生成式遊戲中的一致性問題。其中數值模組用紅色線條與模組表示，空間模組用藍色線條與模組表示。

數值模組（Numerical Module）：引入了 LogicNet。這是一個專門設計的小型可訓練網路，用於根據當前遊戲狀態和玩家的動作，判斷是否觸發遊戲內的特定事件（如《旅行者》中的得分事件）。LogicNet 僅負責判斷是否得分，具體的得分計算（例如 93 + 1 = 94）在模型外部完成。計算得到的數值會被轉化為特殊的數字 token，採用 TextDiffuser-2 的正規化作為條件重新注入到 DiT 模型，以引導其在影像中繪製出正確的分數。透過這一設計，模型無需承擔複雜的數值計算任務，只需按照準確的指令完成數值的視覺化，從而顯著提升了數值一致性。

空間模組（Spatial Module）：引入了 External Map。模型不再僅依賴隱狀態（hidden state）作為短期記憶，而是顯式維護一張全域性地圖，用於記錄所有玩家探索過的場景資訊（例如 Traveler 中各位置的建築顏色）。在生成新畫面之前，模型會基於玩家的當前位置，從外部地圖中檢索周邊（包括部分視野外）區域的環境資訊，作為額外條件輸入 DiT，以確保新生成的場景與歷史場景連貫一致。在生成新畫面後，模型會透過滑動視窗匹配（Sliding Window Matching）演算法，將新觀測到的區域性環境精準對齊並融合到外部地圖，即時更新世界資訊。類似於為 AI 配備了 GPS 與地圖冊，玩家無論如何移動，AI 都能確保世界環境保持一致，避免出現場景錯亂問題。

生成式遊戲不同於傳統依賴遊戲引擎渲染的方式，其每一幀畫面均由神經網路直接生成。以上影片依次展示了《旅行者（Traveler）》、《乒乓（Pong）》與《吃豆人（Pac-Man）》（從上到下）三個遊戲的生成示例。

在實際實驗中，MaaG 在《旅行者（Traveler）》、《乒乓（Pong）》和《吃豆人（Pac-Man）》這三個風格各異的遊戲環境中，均顯著提升了數值一致性與空間一致性，使生成的遊戲過程更加可信、可玩。

圖4：MaaG 在多種遊戲中顯著提升了一致性，解決了基線分數波動和場景突變問題，並具備良好的靈活性與通用性。

定性的實驗結果（如表1所示）同樣直觀地展示了，MaaG 能有效緩解基線模型常見的分數異常波動和場景突變等問題。此外，得益於模組化的設計，MaaG 具有良好的靈活性與通用性，能夠輕鬆適配各類 1D 或 2D 遊戲，僅需針對具體任務對 LogicNet 的事件判定規則和空間地圖的維度進行簡單調整即可。更重要的是，MaaG 支援開發者在遊戲開始前直接預設外部地圖，或在遊戲過程中動態修改環境資訊，為 AI 生成式遊戲提供了更高的可控性，突破了 GameGAN 等依賴隱式表示方法的侷限。儘管引入了 LogicNet 和空間模組，但 MaaG 在推理階段的計算開銷極低（僅約0.015秒），對整體生成速度影響甚微，能夠充分保障遊戲的流暢性與可玩性。

表1：MaaG 在《旅行者（Traveler）》、《乒乓（Pong）》和《吃豆人（Pac-Man）》三個遊戲上的一致性提升效果。引入一致性模組後，數值一致性（NumCon）、空間一致性（SpaCon）以及動作識別準確率（ActAcc）均有顯著提升，同時 FID 和 FVD 等生成質

從侷限邁向更智慧的遊戲生成

儘管取得了顯著的進展，MaaG 框架仍存在一定的侷限性。研究員們指出，當遊戲環境中存在大量高度重複的背景元素時，空間匹配演算法可能會出現失效的情況。儘管如此，MaaG 仍為生成式遊戲中一致性問題的解決提供了關鍵突破。實驗結果充分驗證了：透過將遊戲中的數值邏輯與空間記憶從傳統的純畫素生成任務中解耦，並以顯式條件的形式注入模型，AI 確實有能力生成不僅視覺逼真，且在機制上更合理、可互動的動態遊戲世界。

面向未來，研究團隊計劃將 MaaG 框架進一步拓展至更復雜的 2D 和 3D 場景，並探索更具魯棒性的空間一致性機制。可以預見，依託於這一思路，AI 驅動的高一致性、強可玩性的自動化遊戲生成體系正加速走向現實，為構建複雜、動態的虛擬世界模型奠定了堅實基礎。

參考文獻：

[1] World and Human Action Models towards gameplay ideation, Anssi Kanervisto et al.

你也許還想看：