超越人類！DeepMind強化學習新突破：AI在「我的世界」中封神！

新智元報道

編輯：犀牛

【新智元導讀】DeepMind再放大招！繼AlphaGo之後，他們利用改進的強化學習技術，讓AI在《我的世界》類遊戲Craftax中超越了人類專家水平。AI僅需少量資料就能高效學習。本文將深入解讀DeepMind的最新研究，揭秘AI如何“腦補”世界，實現超越SOTA的效能，甚至讓我們看到了通往AGI的曙光。

DeepSeek R1與OpenAI o系列模型的爆發，掀起了人工智慧領域的新一輪浪潮。

甚至讓我們看到了通往AGI的曙光。

這些效能強大模型的背後都離不開一個關鍵技術——強化學習（Reinforcement Learning）。

谷歌的DeepMind團隊在這方面一直很強，轟動全球的「人機大戰」（李世石對戰AlphaGo）就出自他們團隊之手。

近日，DeepMind研究團隊又整了個大的！

他們使用改進的強化學習技術，在類似Minecraft（我的世界）遊戲中，使智慧體的遊戲水平甚至超過了人類專家！

論文地址：https://arxiv.org/pdf/2502.01591

強化學習透過讓AI不斷嘗試和犯錯來學習，就像人在學習新技能一樣。

AI在環境中行動，根據結果的好壞來調整自己的策略。

那些在環境中一邊嘗試，一邊學習，收集資料（觀察和獎勵），然後更新自己策略的強化學習演算法被稱作線上強化學習。

線上強化學習演算法通常不預先「建模」，AI看到什麼就做什麼，這種方法稱為無模型強化學習（MFRL）。

但這種方法需要收集大量環境資料。

因此，有人提出了基於模型的強化學習（MBRL），很顯然它試圖減少訓練所需的資料量。

MBRL會先學習一個「世界模型」（WM），就像在腦海中模擬出一個世界，然後在這個模擬的世界裡進行「想象」和「規劃」。好比AI自己先在腦子裡模擬一下，然後再行動。

為了評估強化學習演算法的效率，大家通常使用Atari-100k基準測試，檢視演算法在Atari遊戲中使用不超過10萬幀訓練資料時的表現。

但是，Atari遊戲的確定性比較高，AI很容易記住一些操作，而不是真正學會泛化。而且，Atari遊戲往往只側重於一兩種技能，不能很好地考察AI的綜合能力。

為了訓練出能力更全面的AI，谷歌DeepMind的研究團隊選擇了Crafter這個環境。

Crafter是一個2D版的《我的世界》，具體來說，他們用的是Craftax-classic環境，它是Crafter的快速復刻版。

Craftax-classic環境有幾個很好的特點：

每次遊戲的環境都是隨機生成的，AI需要應對不同的挑戰。
AI只能看到區域性視野，就好像只能看到螢幕的一部分，而不是整個地圖。
這是一個以成就層級來設定獎勵訊號的體系，需要進行深入且廣泛的探索才能達成。

DeepMind研究團隊的這篇論文主要研究瞭如何在Craftax-classic環境中改進基於Transformer世界模型（TWM）的強化學習方法。

研究人員主要從三個方面入手：如何使用TWM、如何將影像轉換成TWM的輸入以及如何訓練TWM。

結果讓人驚喜！

研究團隊的方法讓智慧體在僅用100萬步環境互動的情況下，就取得了Craftax-classic 67.42%的獎勵和 27.91%的得分，這比之前的最佳研究成果（SOTA）——53.20%的獎勵和19.4%的得分——都有了顯著提升。

智慧體的表現甚至超越了人類專家！相當炸裂。

下圖1展示了論文中提出的MBRL方法在Craftax-classic環境中的效能，其中左圖展示了不同演算法隨著環境互動步驟的增加所獲得的獎勵。

中間圖展示了Craftax-classic的畫面，即一個63×63畫素的影像，包含智慧體周圍的地圖以及智慧體的生命值和物品欄。右圖顯示了NNT（最近鄰標記器）提取的 64 個不同的影像塊，這些影像塊用於TWM（Transformer 世界模型）的輸入。

相關工作

基於模型的強化學習（MBRL）一般分為背景規劃和決策時規劃兩種。

背景規劃在模型外部（即決策發生之前）使用世界模型（WM）生成想象軌跡，進而訓練策略。而決策時規劃在做決策的時刻利用WM進行前瞻搜尋。

由於決策時規劃速度較慢，特別是使用大型世界模型如Transformer模型時。所以，論文側重於背景規劃。

另一個需要關心的問題是世界模型（WM）。世界模型分為生成式世界模型和非生成式世界模型。

生成式世界模型可以生成（或想象）未來的觀察結果，並以此輔助策略學習，從而提高強化學習的效率，而非生成式世界模型則僅使用自預測損失進行訓練。

相對之下，生成式世界模型更適合背景規劃，因為它能方便地將真實和想象資料結合進行策略學習。

訓練方法

研究團隊首先建立了一個基線模型。

這個基線模型在環境中訓練了100萬步後，達到了46.91%的獎勵和15.60%的分數。

研究團隊在此基礎上進行了兩方面的改進：一是增大模型規模，二是在策略中加入RNN（具體來說是GRU）來提供記憶能力。

有趣的是，他們發現如果只是單純增大模型規模，反而會降低效能。但當更大的模型與精心設計的RNN相結合時，效能會有所提升。

對於RNN，研究團隊認為保持隱藏狀態的維度足夠小至關重要，這樣才能讓記憶只關注當前影像無法提取的、真正重要的歷史資訊。

透過這些結構上的改動，模型的獎勵指標提升到了55.49%，得分則達到了16.77%。效能上超過了更為複雜、執行也更慢的DreamerV3（其獎勵為53.20%，得分為 14.5%）。

在效能提升的同時，成本也降低了。模型在一張A100 GPU上對環境進行100萬步訓練僅需約15分鐘。

使用Dyna方法進行預熱

接下來就是論文提出的核心改進之一，即如何有效地利用真實環境資料和世界模型（WM）生成的虛擬資料來訓練智慧體。

與通常只使用世界模型生成的軌跡進行策略訓練不同，研究者受到Dyna演算法的啟發，改進之後以適應深度強化學習。

Dyna方法將真實環境中的軌跡資料和TWM生成的想象軌跡資料混合起來訓練智慧體。將世界模型視為一種生成式資料增強

智慧體首先與環境互動，收集真實的軌跡資料，並立即用這些資料來更新策略。之後，智慧體使用世界模型在想象中生成軌跡，並用這些想象資料來進一步更新策略。

這種混合使用真實資料和虛擬資料的機制，可以被看作是一種生成式資料增強的方式。

論文強調，世界模型的準確性對於策略學習至關重要。

為了確保世界模型足夠準確，避免其不準確的預測「汙染」訓練資料，研究者提出在開始使用想象軌跡訓練策略之前，先讓智慧體與環境互動一段時間。

這個過程被稱為「預熱（warmup）」。具體來說，就是隻有在智慧體與環境互動達到一定步數之後，才開始使用世界模型生成的軌跡來訓練。

實驗表明，移除預熱步驟會導致獎勵大幅下降，從67.42%降至33.54%。此外，僅僅使用想象資料訓練策略也會導致效能下降到55.02%。

影像塊最近鄰分詞器

不同於常規的使用VQ-VAE方法來在影像和tokens之間進行轉換。

在論文中，研究團隊提出了一種新的影像標記化（tokenization）方法。用於將影像轉換為Transformer世界模型（TWM）可以處理的token輸入。

研究團隊利用Craftax-classic環境的一個特點，即每個觀察影像都是由9×9個7×7大小的影像塊組成。

因此，他們首先將影像分解為這些不重疊的影像塊(patches)。然後，獨立地將每個影像塊編碼為token。

在將影像塊分解的基礎上，論文使用一個更簡單的最近鄰標記器（Nearest-Neighbor Tokenizer，NNT）來代替傳統的VQ-VAE3。

NNT的編碼過程類似於最近鄰分類器，它將每個影像塊與一個程式碼本中的條目進行比較。

如果影像塊與程式碼本中最近的條目之間的距離小於一個閾值，則將該條目的索引作為token；否則，將該影像塊作為一個新的程式碼新增到程式碼本中。

與VQ-VAE 不同，NNT的程式碼本一旦新增條目，就不再更新。這意味著程式碼本是靜態的，但可以不斷增長。

解碼時，NNT只是簡單地返回程式碼本中與token索引相對應的程式碼 (影像塊)。

這種靜態但不斷增長的程式碼本使得TWM的目標分佈更加穩定，大大簡化了TWM的線上學習過程。

實驗結果顯示，在影像塊分解的基礎上，用NNT替換VQ-VAE可以顯著提高智慧體的獎勵，從58.92%提升到64.96%。

不過，NNT對影像塊的大小比較敏感，如果影像塊的大小不合適，可能會影響效能。而且如果影像塊內部的視覺變化很大，NNT可能會生成一個非常大的程式碼本。

塊狀教師強制

在通常的做法中，TWM通常採用教師強制來訓練，論文的研究團隊則提出了一種更有效的替代方案，稱為塊狀教師強制（block teacher forcing, BTF）。

這個方案同時修改了TWM的監督方式和注意力機制：當給定前面的全部token後，BTF會並行預測下一時間步中的所有潛在token，從而不再依賴當前時間步已生成的token。

下圖2清晰地展示了BTF如何透過改變注意力模式和監督方式來改進TWM的訓練。

傳統的教師強制自迴歸地預測每個token，而BTF則並行預測同一時間步的所有token，從而提高了訓練速度和模型準確性。

實驗表明，與完全自迴歸（AR）的方法相比，BTF能得到更準確的TWM。

在本實驗中，BTF將獎勵從64.96%提升到了67.42%，從而獲得了表現最優的基於模型的強化學習（MBRL）智慧體。

一舉超越了人類專家的表現！（見表1）

實驗結果

效能階梯

在論文中，智慧體按照研究者所採用的改進措施進行排序，形成了一個「MBRL 階梯」，具體如下：

M1: Baseline：基準MBRL智慧體，使用了VQ-VAE進行tokenization，其獎勵為31.93%，優於IRIS的25.0%。

M2: M1+Dyna：在M1的基礎上，使用Dyna方法，即混合使用真實環境資料和TWM生成的想象資料來訓練策略，獎勵提升至43.36%。

M3: M2+patches：在M2的基礎上，將VQ-VAE的tokenization過程分解到各個影像塊 (patches) 上，獎勵進一步提升至 58.92%。

M4: M3 + NNT：在M3的基礎上，用最近鄰標記器 (NNT) 替換VQ-VAE，獎勵提升至 64.96%。

M5: M4 + BTF：在M4的基礎上，引入塊教師強制 (BTF)，最終的獎勵達到67.42%(±0.55)，成為論文中最佳的 MBRL智慧體。

下圖3清晰地展示了每一步改進帶來的效能提升。

與現有方法比較

研究團隊這次效能最優的模型M5創造了新的SOTA成績，獎勵達到67.42%，得分達到27.91%。

這是首次超過人類專家的平均獎勵水平（該人類水平基於5名專家玩家玩了100局所測得）。

需要指出的是，儘管模型在獎勵上已超越了人類專家，但得分仍明顯低於人類專家水平。

消融實驗

實驗表明，當NNT使用7×7大小的影像塊時效果最佳，使用較小 (5×5) 或較大 (9×9) 的影像塊時，效能會有所下降，但仍然具有競爭力。

如果不使用量化，而是讓TWM重建連續的7×7影像塊，效能會大幅下降。

研究者發現，移除「MBRL 階梯」中的任何一個步驟，都會導致模型效能下降，這表明論文提出的每個改進都至關重要。

下圖5視覺化地展示消融研究的結果，驗證了論文提出的各個改進措施的重要性。

模型如果過早地開始在想象資料上訓練，效能會因TWM的不準確而崩潰。只有在智慧體與環境互動足夠長時間，並獲得足夠資料來訓練可靠的WM後，使用想象資料進行訓練才是有效的。

去除MFRL智慧體中的RNN或使用較小的模型都會導致模型效能下降。

比較TWM的生成序列

研究者比較了三種不同的世界模型 (TWM) 的生成軌跡質量，這些模型分別是M1（基線模型）、M3（加入了Dyna和影像塊分解的模型）以及M5（最佳模型，包含了所有改進）。

為了進行評估，研究者首先構建了一個包含160條軌跡的評估資料集，每條軌跡長度為20。然後，他們使用每個TWM模型，從相同的起始狀態和動作序列出發，生成對應的想象軌跡。

評估的關鍵指標是透過訓練一個CNN符號提取器，來預測真實軌跡和TWM生成軌跡中的符號，並計算預測的符號準確率。

這種方法能夠深入瞭解模型在多大程度上捕捉到了遊戲的核心動態。

定量評估

透過定量評估，研究團隊發現符號準確率隨著TWM生成軌跡步數的增加而下降，這種下降是由於誤差的累積導致的。

M5模型由於其採用了最近鄰標記器（NNT），保持了所有時間步中最高的符號準確率，表明其能夠更好地捕捉遊戲動態，並且NNT使用的靜態程式碼本簡化了TWM的學習過程。

定性評估與分析

除了定量評估外，研究團隊還對TWM生成的軌跡進行了定性分析。

透過視覺檢查，他們觀察到了三種現象：地圖不一致性、符合遊戲規則的幻覺以及不符合遊戲規則的幻覺。

M1模型在地圖和遊戲動態方面都存在明顯的錯誤，而M3和M5模型能夠生成一些符合遊戲規則的幻覺，例如出現怪物和生命值變化。

M3模型仍然會產生一些不符合遊戲規則的幻覺，例如怪物突然消失或生成的動物外觀錯誤，而M5模型則很少出現這種不合理的幻覺。

定性分析表明，儘管所有模型都存在一定的誤差，但M5模型在保持遊戲動態一致性方面明顯優於其他模型，體現了其學習到的世界模型質量的提升。

下圖6表明，NNT和BTF等改進措施對於提高TWM學習效果的重要性，最終促進了MBRL智慧體效能的提升。

Craftax完整版本測試結果

研究團隊還比較了多種智慧體在Craftax的完整版本（Craftax Full）上的效能。相比 Craftax-classic，這個完整版在關卡數量和成就設定上都有顯著提升，難度更高。

此前的最佳智慧體只能達到2.3%的獎勵，而DeepMind團隊的MFRL智慧體取得了4.63%的獎勵，MBRL智慧體則更是將獎勵提高到5.44%，再次重新整理了SOTA紀錄。

這些結果表明，DeepMind團隊所採用的訓練方法能夠推廣到更具挑戰性的環境。

結論與下一步工作

在本論文，DeepMind研究團隊提出了三項針對基於Transformer世界模型 (TWM) 的視覺MBRL智慧體的改進措施。

這些改進應用於背景規劃：帶有預熱的 Dyna 方法、影像塊最近鄰標記化 (NNT)以及塊教師強制 (BTF)。

這些改進措施結合起來，使得MBRL智慧體在Craftax-classic基準測試中取得了顯著更高的獎勵和分數，首次超越了人類專家的獎勵水平。

論文提出的技術也成功地推廣到了更具挑戰性的Craftax(full) 環境中，取得了新的SOTA結果。

下一步工作

DeepMind研究團隊未來將研究如何將這些技術推廣到Craftax之外的其他環境，以驗證其通用性。探索使用優先經驗回放來加速TWM的訓練，以提高資料利用效率。

團隊還考慮將大型預訓練模型 (如SAM和Dino-V2) 的能力與當前的標記器結合起來，從而獲得更穩定的程式碼本，並減少對影像塊大小和表觀變化的敏感性。

為探究無法生成未來畫素的非重構型世界模型，團隊還計劃改造策略網路，使其能夠直接接收TWM生成的潛變數 token，而不是畫素。

參考資料：

https://arxiv.org/pdf/2502.01591

dignews.cc

超越人類！DeepMind強化學習新突破：AI在「我的世界」中封神！

新智元報道

相關文章

一鍵部署，輕鬆上手！DeepSeek-R1本地部署指南，開啟你的AI探索之旅！

谷歌重磅推出全新ScalingLaw，搶救Transformer！3萬億美元AI面臨岔路

AI也可以腦補畫面了嗎？

谷歌重磅推出全新ScalingLaw，搶救Transformer！

兩臺蘋果跑滿血DeepSeek！512G大記憶體真AIPC來了

“鵬城·腦海”大模型多語言版：打破中文與低資源語言藩籬，引領多語言智慧新時代

DeepSeek-R1671B滿血版完整本地部署教程，來了！！！

DeepSeek玩家能提前拿蘋果新品！只要15萬元，在家跑滿血版R1

[電腦]跨越不止一點——M4升級M4Pro

不僅有能用國補的MacBookAir，還有模型訓練神器MacStudio