

此前麻省理工科技評論曾預測,繼 2023 年生成影像、2024 年生成影片之後,2025 年將是生成式虛擬世界的元年。從去年 DeepMind 的 Genie 系列、人工智慧創業公司 Decart 和 Etched 的《我的世界》即時生成專案,到 ImageNet 創始人李飛飛參與創立的 World Labs,各路玩家都在推進這一領域的發展。
如今,科技巨頭微軟也正式加入這一競爭。2 月 19 日,微軟宣佈推出遊戲領域新一代生成式 AI 模型 Muse,相關成果刊登在 Nature 上。
Muse 的核心是一個名為“世界與人類行為模型”(World and Human Action Model, WHAM)的生成式架構。該模型透過觀察《Bleeding Edge》遊戲中超過 7 年的人類玩家資料進行學習,具體包括:約 50 萬場匿名化的遊戲對局錄影,總計 27.89TB(相當於超過 7 年的持續遊戲時間)。
這些資料被降取樣至每秒 10 幀,最終得到約 14 億幀訓練樣本。研究團隊還專門篩選出了一個較小的資料集,僅包含“Skygarden”地圖上約 1 年的遊戲資料(3.1 億幀),用於快速實驗和驗證。
在這些資料的基礎上,Muse 形成了對 3D 空間中物體、角色和環境互動方式的“實踐性理解”。包括遊戲物理和遊戲如何對玩家的控制器動作做出反應。這使得模型能夠創造出由 AI 渲染的一致且多樣的遊戲玩法,展示了朝著能夠賦能遊戲創作者的生成式 AI 模型邁出的重要一步。
從技術架構來看,該模型採用了目前主流的 Transformer 架構,包含 16 億引數,每次可處理 1 秒長度(約 10 幀)的遊戲畫面和控制器輸入序列。在資料編碼方面,模型使用了 VQGAN(Vector Quantized Generative Adversarial Network)將每幀 300×180 解析度的遊戲畫面壓縮為 540 個離散標記,詞表大小為 16,384。對於 Xbox 手柄的輸入,模型將左右搖桿的 x、y 座標離散化為 11 個區間,同時處理按鍵的離散狀態。

圖丨將人類遊戲行為表述為離散 token 的序列,在影像觀察和控制器操作之間交替(來源:Nature)
WHAM 的訓練採用了兩階段策略。首先是 VQGAN 編碼器/解碼器的訓練,使用重建損失和感知損失來保證壓縮後的影像質量,並透過 GAN 損失來提升生成效果。第二階段是 Transformer 的因果預測訓練,使用交叉熵損失來預測下一個標記。最大規模的模型使用了 AdamW 最佳化器,學習率在訓練過程中從 0.0008 按餘弦退火到 0.00008,β1=0.9,β2=0.95,權重衰減為 0.1。
Muse 的突出效能表現在三個方面:一致性(Consistency)、多樣性 (Diversity)和永續性(Persistency)。
具體來說,一致性使用 Fréchet 影片距離衡量,透過比較模型生成的 10 秒影片序列與真實遊戲錄影的差異來評估。在實驗中,給定 1 秒的遊戲畫面和後續 10 秒的控制器輸入,要求模型生成相應的遊戲畫面。結果顯示影片距離隨著計算量的增加而持續改善,16 億引數的模型甚至能生成長達 2 分鐘的連貫序列。

圖丨三種模型能力表現(來源:Nature)
多樣性評估採用 Wasserstein 距離,比較模型生成的控制器操作序列與真實玩家行為的分佈差異。實驗從 1024 段遊戲序列中各取樣 10,000 個操作進行對比,重複 10 次取平均。結果表明,增大動作預測損失的權重能顯著改善多樣性表現。在定性分析中,模型展現出了行為多樣性(如不同的移動路線選擇)和視覺多樣性(如角色外觀變化)。
永續性測試則關注模型對使用者編輯的保持能力。研究人員在遊戲場景中手動添加了三類元素:遊戲物品(能量電池)、其他玩家角色和地圖元素(垂直跳板),分別放置在 8 個新位置。結果顯示,當輸入 5 幀或以上的編輯畫面時,模型能以 85% 以上的成功率在後續生成的畫面中保持這些編輯內容。
微軟表示,Muse 的應用場景非常廣泛。首先是遊戲原型開發,開發者可以快速生成和測試不同的遊戲場景和玩法。其次是經典遊戲的現代化改造,模型可以透過學習老遊戲的機制,幫助將其最佳化適配到現代硬體平臺上。此外,該技術還可能應用於遊戲資產生成、NPC 行為模擬等領域。

圖丨 Muse 效果演示(來源:Microsoft)
微軟遊戲 AI 部門副總裁 Fatima Kardar 表示:“想象一下,那些因為硬體更迭而失傳的經典遊戲,有朝一日可以在任何搭載 Xbox 的螢幕上重現,這對我們來說是一個激動人心的可能性。”
據悉,在開發 Muse 的過程中,微軟團隊訪談了來自全球的 27 位遊戲創作者,以確保研究方向符合行業實際需求。
但似乎,開發者們並不像微軟宣稱的那樣認可這項技術。甚至可以說,Muse 的釋出在開發者群體中引發了強烈的反彈。
資深遊戲開發者、The Outsiders 工作室創始人 David Goldfarb 在社交媒體上直言:“狗屁玩意。”在接受 WIRED 採訪時,他表示不認為生成式 AI 對遊戲行業有益,“因為推廣這項技術的人是為了減少資本支出,無論他們是否有意,實際上都在貶低和剝奪遊戲開發者和藝術家們數百萬年的美學積累。”

圖丨相關推文(來源:X)
“最根本的問題是我們正在失去工藝。”Goldfarb 說,“當我們依賴這些技術時,實際上是在賦權給那些擁有這些工具卻根本不關心它們如何重塑我們生活的人。”
一位要求匿名的 AAA 遊戲工作室開發者指出:“這是 Xbox 人才流失但又在生成式 AI 上投入巨資的典型案例。他們看不到沒人想要這個。他們根本不在乎沒人想要這個… 由於行業動盪,所有人都害怕因為反對 AI 而失去工作,所以內部討論都很安靜。”
這種擔憂並非空穴來風。據 WIRED 此前的調查報道,在遊戲行業經歷大規模裁員的同時,AI 正在逐步取代人工開發者的工作。僅 2023 年至今,遊戲行業就已裁員數千人,這一趨勢在 2025 年仍在持續。最新的例子是 Unity 引擎開發商剛剛宣佈新一輪裁員計劃。

圖丨相關新聞(來源:WIRED)
另一位匿名開發者表示:“令人不適的是,在遊戲行業現狀下,我不得不保持匿名。因為我們仍需要向他們申請 Game Pass 合作,署名批評會降低我的機會。在我看來,這個模型的真正目標不是遊戲開發者,而是股東——向他們展示微軟在 AI 領域的全面投入,儘管 AI 還沒有交付出任何人真正想要的產品。”
對於 AI 在遊戲開發中的應用,業內觀點也並非完全否定。Creative Assembly 的開發總監 Marc Burrage 承認,在原型設計階段,也就是開發者建立初步版本以完善想法的階段,AI 確實可能提供幫助。但他強調:“原型設計既重視過程也重視結果,你必須親歷這個過程才能獲得所有的學習。快速原型設計是一項無法簡單繞過的寶貴技能,否則你就不會做好充分準備。”
Kardar 在這項技術的釋出公告中寫道:“我們認為透過合作和負責任的方式,引導這些生成式 AI 突破支援我們的行業和遊戲創作社群非常重要。”但從開發者們的反應來看,要說服他們接受這項技術,微軟還有很長的路要走。
這場爭議折射出的實際上是遊戲行業一個更深層的問題:隨著 AI 技術在創意產業的滲透,如何在提升效率與保護創作者利益之間取得平衡?在遊戲這樣高度依賴人類創造力的領域,AI 究竟應該扮演什麼樣的角色?這些問題的答案,可能將決定遊戲行業的未來發展方向。
參考資料:
1.https://www.nature.com/articles/s41586-025-08600-3
2.https://www.wired.com/story/xbox-muse-generative-ai-developers-say-nobody-will-want-this/
3.https://www.wired.com/story/ai-is-already-taking-jobs-in-the-video-game-industry/#:~:text=A%20WIRED%20investigation%20finds%20that,generative%20AI%20for%20game%20development.&text=When%20Noah%20saw%20the%20email%2C%20a%20wave%20of%20anxiety%20hit.
運營/排版:何晨龍


