崑崙萬維開源互動世界模型Matrix-Game:AI一鍵生成《我的世界》,這次真能上手玩

作者週一笑郵箱[email protected]
我們身處一個對數字娛樂體驗的期待被無限拔高的時代。每當一款像《GTA6》預告片那樣的重磅內容釋出,引發全球玩家對虛擬世界真實感、互動性與自由度的熱烈討論時,一個更深層次的渴望便浮出水面:我們對未來遊戲的終極幻想,究竟是什麼模樣?

《GTA6》預告片截圖
或許,它不再僅僅是開發者預設好一切的精緻沙盒,也不是傳統意義上AI扮演的NPC(非玩家角色)或陪玩夥伴。想象一下,如果AI本身就是“創世神”,能夠即時理解你的意圖,動態生成一個鮮活、演進、遵循內在物理邏輯,並且可以被你隨心所欲探索、操控乃至重塑的互動宇宙?在這個世界裡,每一次日出、每一片落葉、每一個NPC的反應,都不是預設指令碼的重複,而是AI基於對“世界規則”的理解與你的互動而湧現的獨一無二的體驗。
這聽起來像是遙不可及的科幻片段嗎?在過去,或許是的。但今天,隨著人工智慧技術的飛速發展,尤其是“世界模型”這一前沿概念的興起,這種由AI主導構建互動式世界的願景,已吸引了全球眾多前瞻者的目光和投入。
從科技巨頭如英偉達憑藉其Cosmos平臺在推動物理AI的普及,谷歌DeepMind集結頂尖人才專攻能夠模擬真實物理環境的世界模型,微軟MineWorld、Oasis專案等專案探索特定場景下的即時互動生成,李飛飛的World Labs聚焦空間智慧大型世界模型LWM,都在不斷拓展“世界模型”的邊界。
在這場全球性的技術浪潮中,中國的科技力量同樣在積極佈局。崑崙萬維便是其中之一,持續在AGI與AIGC領域進行投入。繼此前推出的Matrix Zero初步探索了AI基於單張圖片生成虛擬世界的能力之後,其最新發布的Matrix-Game,成為首個10B+引數的開源互動式世界模型。對MatrixGame V1的技術細節、開原始碼或線上演示感興趣的讀者,可以透過以下連結獲取更多資訊:
  1. 專案主頁:https://matrix-game-homepage.github.io
  2. 技術報告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
  3. GitHub開源地址:https://github.com/SkyworkAI/Matrix-Game
  4. HuggingFace開源地址:https://huggingface.co/Skywork/Matrix-Game
1
Matrix-Game:構建可互動的“真實”
在對AI驅動的互動式世界充滿期待的背景下,崑崙萬維Matrix系列在空間智慧領域的探索再進一步,推出了其在互動式世界生成方向的首次正式落地成果——Matrix-Game,不僅僅是一個全新的模型,背後也是一種面向未來的技術正規化和應用潛力。在Demo演示中我們可以直觀的看到Matrix-Game的能力:
在多個經典的《我的世界》風格場景中,Matrix-Game都能夠精確響應使用者的鍵盤與滑鼠指令。角色流暢地執行著前進、後退、跳躍、攻擊等基礎動作,視角也隨著使用者的操控自由切換:
Matrix-Game支援自迴歸方式生成,在長影片中,場景依然能夠保持高度的時序一致性和視覺連貫性:
Matrix-Game還初步展示了場景泛化的潛力,能夠生成不同型別虛擬世界:
直觀的演示之後,Matrix-Game的互動生成能力已初見端倪,但其技術基底才是決定能力邊界的關鍵。
Matrix-Game 是什麼?
Matrix-Game 被定義為一款面向遊戲世界建模的互動式世界基礎模型。其核心設計目標,是在可自由探索的開放環境中,實現高質量的內容生成與使用者輸入的精確控制 。通俗地講,Matrix-Game 透過融合影片生成技術與使用者互動體驗,目標是讓使用者能夠透過簡單直觀的指令(如鍵盤按鍵、滑鼠移動),自由地探索、操控,乃至即時創造出細節豐富、且遵循合理物理規則的虛擬世界。這就好比,以前AI可能只是給我們放一段動畫片,我們只能“被動”觀看;現在AI則是給了我們一個巨大的互動遊樂場,我們不僅能進去玩,還能動手與AI共同搭建新的遊樂設施。
三大技術基石
Matrix-Game構建於其三大核心技術基石之上。首先是Matrix-Game-MC資料集,崑崙萬維為此自主構建了大規模的互動世界資料集,其中包含兩大類關鍵資料:一是大規模的無標籤Minecraft遊戲影片;二是帶有精確鍵盤與滑鼠控制訊號的Minecraft及Unreal可控影片資料,這些資料均具備精細的動作註釋 。為保證預訓練資料質量,團隊從高達6000小時的MineDojo(基於《Minecraft》的開源 AI 研究框架)原始資料中,透過畫質與美學、非遊戲內容剔除、動態與視角穩定性等多階段過濾機制,篩選出近千小時的高質量720p影片片段。

而在有標籤的可控監督資料生成上,則混合採用了兩種策略:一方面利用VPT Agent在MineRL環境中進行自動探索,生成包含精確控制訊號的大規模Minecraft影片;另一方面,基於Unreal Engine手動構建結構清晰、標籤精確的模擬互動場景,以獲取高精度、無噪聲的可控標註資料,為高保真的動作-響應建模提供支援 。
系統的核心引擎是 Matrix-Game 主模型。這是一個基於先進擴散模型技術開發的“影像到世界”(Image-to-World)生成框架 。它強調空間智慧能力,不依賴複雜的語言提示,僅基於視覺訊號來建模空間幾何、物體運動及其物理互動,並以單張參考影像作為生成互動式影片的起點 。
該模型能夠根據使用者的鍵盤指令(如上下左右跳躍攻擊,以離散token表達)和滑鼠移動(如視角變化,以連續token表達)等輸入,融合GameFactory的控制模組與多模態Diffusion Transformer架構,並運用CFG技術提升控制魯棒性,直接生成虛擬遊戲世界的影片內容 。

為實現長影片的連貫生成,模型還支援自迴歸方式擴充套件長度,每次以前一影片片段的最後5幀作為運動上下文,逐段遞進,同時採用多種策略(如隨機擾動、刪除、CFG引導)緩解時序漂移 。這一17B引數規模的世界基座模型,在空間理解、使用者指令響應及物理互動建模上均取得了明顯的進步 。
最後,為了科學、客觀地評估一個“世界模型”的互動能力和真實性這一行業難題,崑崙萬維提出了 GameWorld Score 評測體系,這是專為Minecraft世界建模設計的統一評測框架 ,旨在為互動式世界模型建立一個統一的評估標準,從視覺質量、時間連貫性、動作可控性以及物理規則理解等四個關鍵維度,對模型的綜合性能進行量化評估,這不僅有助於Matrix-Game自身的迭代最佳化,也為該領域內缺乏系統性評測基準的現狀提供了一個有益的補充。
不只是“又一個”世界模型
審視Matrix-Game的技術細節及其展現出的特性,我們不難發現崑崙萬維在互動式AI世界生成這一前沿賽道上,尋求技術突破與獨特市場定位的努力。
一個核心的亮點是它在讓你和AI世界互動時的控制感,以及這個世界本身的真實感(尤其是物理規律方面)有了很大提升。有些AI可能主要就是把畫面做得漂亮,但Matrix-Game不太一樣,它著力確保其生成的世界具備內在的合理性與連貫性,避免出現違背基本規律與常識的場景。比如,在這個AI世界裡,東西真的會往下掉,你操作的角色跳起來、撞到障礙物,都會有比較真實的反應。你能精細地控制角色往前走、跳起來、轉頭看風景,而且AI反應很快,操作起來更順手,這樣體驗起來就感覺更真實,也更容易上手。我們可以把它與其他一些類似的開源方案做一個對比。比如說Decart的公司的Oasis模型,它能做到即時互動,但目前看,Oasis生成的畫面還比較模糊,有時候邏輯也不太連貫,有網友評論說就像是在噩夢一樣,微軟也推出了Mineworld模型,但主要是給研究人員做實驗用的,畫面也比較粗糙,離真正的商業應用還有距離。

油管博主CygnusMC體驗Oasis後評價其為“劣質品AI ”
相較之下,Matrix-Game不僅在細粒度的使用者互動控制上表現出色,模型支援前進、跳躍、攻擊、視角移動等多種細節操作,並能根據使用者輸入做出準確自然的響應。Matrix-Game努力的方向是既要讓使用者能跟它順暢互動,又要保證畫面儘量真實、物理效果靠譜、整個世界也不能bug或者前後矛盾層出不窮。從崑崙萬維的測試的結果來看,MatrixGame在Minecraft世界生成任務的各項指標上(包括視覺質量、時間一致性、動作可控性與物理規則理解)均超越了這兩個模型 。例如,其影像質量達到0.72,鍵盤控制準確率為0.95,滑鼠控制準確率為0.95,3D一致性為0.76,均高於對比組 。在雙盲使用者評估中,Matrix-Game生成的影片在總體偏好率上達到了96.3%,動作控制偏好達93.76% 。這些資料直觀地反映了其在互動體驗和生成質量上的提升。

更重要的是,因為MatrixGame還學習了Unreal Engine中的內容,所以它能幹的活兒更多,更有潛力去搭建各種各樣更復雜、更開放的大世界,而不僅僅是方塊風格的世界。這一點讓它有了面向更廣闊、更多樣化開放世界去發展的潛力。根據其釋出的技術報告和演示,模型已初步展示了在多種Minecraft地形、天氣和生物群系中的泛化能力,以及向一些非Minecraft遊戲環境遷移的初步效果 。
此外,崑崙萬維還做了 GameWorld Score評分系統,本身是一個挺新的想法,以前大家評價這種AI世界好不好,可能比較模糊,現在有了個更清楚的尺子,來量一量這個世界到底有多“好用”、多“真實”。
繼GameWorld Score評測體系之後,崑崙萬維也將Matrix-Game模型在 Github 和 Hugging Face 上開源 。此舉主要面向遊戲行業,同時也保留了其作為通用模型的潛力。對於一家中國企業而言,在互動式AI世界生成這一前沿技術領域選擇開源,體現了其開放的行業姿態與推動生態發展的意願。透過開放核心技術,Matrix-Game有望降低行業應用門檻,吸引更廣泛的開發者參與共建,從而激發更多創新應用場景的湧現。
1
AI生成世界,然後呢?
當AI真正開始理解並能構建可互動的“真實”,最直接的影響是在遊戲行業。傳統的遊戲開發流程漫長且成本高昂,而隨著Matrix-Game這樣的互動式世界模型的發展。想象一下,開發者可以藉助AI快速生成多樣化的遊戲世界原型,甚至讓AI根據預設規則動態生成新的任務、場景和挑戰,極大地豐富遊戲內容,降低開發門檻。
玩家也將從被動接受預設內容,轉變為與AI共同創造獨一無二遊戲體驗的參與者。AI驅動的NPC不再是隻會重複固定對話的“背景板”,而是能夠進行有意義互動、甚至擁有“個性”的智慧夥伴。

在教育與模擬領域,這種技術也能催生出高度可控、互動豐富的虛擬學習與訓練平臺,無論是模擬複雜的科學實驗,還是進行高風險的職業技能培訓,都能在安全且低成本的環境下實現。
Matrix-Game的潛力還將輻射到具身智慧的訓練與測試。要讓機器人或虛擬智慧體在複雜物理世界中高效工作,需要海量、多樣化且可控的訓練環境。Matrix-Game所構建的遵循物理規則、支援細粒度互動的虛擬世界,為智慧體的動作規劃、任務執行和環境適應性學習提供了理想的“健身房”。

對於元宇宙內容生產和影視創作而言,Matrix-Game也打開了新的想象空間。無論是快速搭建沉浸式的虛擬社交空間,還是高效生成影視劇中所需的複雜動態場景,AI都將成為強大的生產力工具,讓創作者能更專注於創意本身,而非繁瑣的技術實現。正如Decart聯合創始人Dean Leitersdorf所言,生成式AI有潛力從根本上改變人與計算機互動的方式,創造全新的數字遊樂場。
這次Matrix-Game的釋出可以看到,崑崙萬維除了在AI應用層面(如AI搜尋、AI短劇、AI音樂、AI遊戲、AI社交等)的佈局,在底層技術(“天工”系列大模型、AI晶片研發)上也在進行持續投入。
世界模型,因其對現實世界的模擬與理解能力,被許多研究者視為通往通用人工智慧(AGI)的關鍵路徑之一。當前AI研究者對世界模型的追求,是試圖超越資料,進行反事實推理,回答“what if”問題的能力。一旦世界模型產生突破,AI的決策能力將大幅提升。
儘管世界模型技術仍面臨算力需求、模型幻覺、資料版權等多重挑戰,距離理想中能完美模擬現實的“超級模擬器”也還有漫長的道路要走。但Matrix-Game的釋出,像是向未來投下的一顆石子,連同全球範圍內其他先行者的探索,清晰地揭示了這一趨勢:當AI不僅能生成我們眼前的景象,更能賦予這個景象內在的邏輯、鮮活的互動,甚至在其中展現出一定的“創造性”時,數字世界便開始擁有了某種意義上的“靈魂”。
這樣的世界不再僅僅是被動體驗的物件,而是成為我們思想的延伸、創造力的畫布,以及與AI共同書寫未來敘事的廣闊場域。

點個愛心,再走


相關文章