新智元報道
新智元報道
編輯:犀牛
【新智元導讀】DeepMind再放大招!繼AlphaGo之後,他們利用改進的強化學習技術,讓AI在《我的世界》類遊戲Craftax中超越了人類專家水平。AI僅需少量資料就能高效學習。本文將深入解讀DeepMind的最新研究,揭秘AI如何“腦補”世界,實現超越SOTA的效能,甚至讓我們看到了通往AGI的曙光。
DeepSeek R1與OpenAI o系列模型的爆發,掀起了人工智慧領域的新一輪浪潮。
甚至讓我們看到了通往AGI的曙光。
這些效能強大模型的背後都離不開一個關鍵技術——強化學習(Reinforcement Learning)。
谷歌的DeepMind團隊在這方面一直很強,轟動全球的「人機大戰」(李世石對戰AlphaGo)就出自他們團隊之手。
近日,DeepMind研究團隊又整了個大的!
他們使用改進的強化學習技術,在類似Minecraft(我的世界)遊戲中,使智慧體的遊戲水平甚至超過了人類專家!

論文地址:https://arxiv.org/pdf/2502.01591
強化學習透過讓AI不斷嘗試和犯錯來學習,就像人在學習新技能一樣。
AI在環境中行動,根據結果的好壞來調整自己的策略。
那些在環境中一邊嘗試,一邊學習,收集資料(觀察和獎勵),然後更新自己策略的強化學習演算法被稱作線上強化學習。
線上強化學習演算法通常不預先「建模」,AI看到什麼就做什麼,這種方法稱為無模型強化學習(MFRL)。
但這種方法需要收集大量環境資料。
因此,有人提出了基於模型的強化學習(MBRL),很顯然它試圖減少訓練所需的資料量。
MBRL會先學習一個「世界模型」(WM),就像在腦海中模擬出一個世界,然後在這個模擬的世界裡進行「想象」和「規劃」。好比AI自己先在腦子裡模擬一下,然後再行動。
為了評估強化學習演算法的效率,大家通常使用Atari-100k基準測試,檢視演算法在Atari遊戲中使用不超過10萬幀訓練資料時的表現。
但是,Atari遊戲的確定性比較高,AI很容易記住一些操作,而不是真正學會泛化。而且,Atari遊戲往往只側重於一兩種技能,不能很好地考察AI的綜合能力。
為了訓練出能力更全面的AI,谷歌DeepMind的研究團隊選擇了Crafter這個環境。
Crafter是一個2D版的《我的世界》,具體來說,他們用的是Craftax-classic環境,它是Crafter的快速復刻版。
Craftax-classic環境有幾個很好的特點:
-
每次遊戲的環境都是隨機生成的,AI需要應對不同的挑戰。 -
AI只能看到區域性視野,就好像只能看到螢幕的一部分,而不是整個地圖。 -
這是一個以成就層級來設定獎勵訊號的體系,需要進行深入且廣泛的探索才能達成。
DeepMind研究團隊的這篇論文主要研究瞭如何在Craftax-classic環境中改進基於Transformer世界模型(TWM)的強化學習方法。
研究人員主要從三個方面入手:如何使用TWM、如何將影像轉換成TWM的輸入以及如何訓練TWM。
結果讓人驚喜!
研究團隊的方法讓智慧體在僅用100萬步環境互動的情況下,就取得了Craftax-classic 67.42%的獎勵和 27.91%的得分,這比之前的最佳研究成果(SOTA)——53.20%的獎勵和19.4%的得分——都有了顯著提升。
智慧體的表現甚至超越了人類專家!相當炸裂。
下圖1展示了論文中提出的MBRL方法在Craftax-classic環境中的效能,其中左圖展示了不同演算法隨著環境互動步驟的增加所獲得的獎勵。
中間圖展示了Craftax-classic的畫面,即一個63×63畫素的影像,包含智慧體周圍的地圖以及智慧體的生命值和物品欄。右圖顯示了NNT(最近鄰標記器)提取的 64 個不同的影像塊,這些影像塊用於TWM(Transformer 世界模型)的輸入。

相關工作
基於模型的強化學習(MBRL)一般分為背景規劃和決策時規劃兩種。
背景規劃在模型外部(即決策發生之前)使用世界模型(WM)生成想象軌跡,進而訓練策略。而決策時規劃在做決策的時刻利用WM進行前瞻搜尋。
由於決策時規劃速度較慢,特別是使用大型世界模型如Transformer模型時。所以,論文側重於背景規劃。
另一個需要關心的問題是世界模型(WM)。世界模型分為生成式世界模型和非生成式世界模型。
生成式世界模型可以生成(或想象)未來的觀察結果,並以此輔助策略學習,從而提高強化學習的效率,而非生成式世界模型則僅使用自預測損失進行訓練。
相對之下,生成式世界模型更適合背景規劃,因為它能方便地將真實和想象資料結合進行策略學習。
訓練方法
研究團隊首先建立了一個基線模型。
這個基線模型在環境中訓練了100萬步後,達到了46.91%的獎勵和15.60%的分數。
研究團隊在此基礎上進行了兩方面的改進:一是增大模型規模,二是在策略中加入RNN(具體來說是GRU)來提供記憶能力。
有趣的是,他們發現如果只是單純增大模型規模,反而會降低效能。但當更大的模型與精心設計的RNN相結合時,效能會有所提升。
對於RNN,研究團隊認為保持隱藏狀態的維度足夠小至關重要,這樣才能讓記憶只關注當前影像無法提取的、真正重要的歷史資訊。
透過這些結構上的改動,模型的獎勵指標提升到了55.49%,得分則達到了16.77%。效能上超過了更為複雜、執行也更慢的DreamerV3(其獎勵為53.20%,得分為 14.5%)。
在效能提升的同時,成本也降低了。模型在一張A100 GPU上對環境進行100萬步訓練僅需約15分鐘。
使用Dyna方法進行預熱
接下來就是論文提出的核心改進之一,即如何有效地利用真實環境資料和世界模型(WM)生成的虛擬資料來訓練智慧體。
與通常只使用世界模型生成的軌跡進行策略訓練不同,研究者受到Dyna演算法的啟發,改進之後以適應深度強化學習。
Dyna方法將真實環境中的軌跡資料和TWM生成的想象軌跡資料混合起來訓練智慧體。將世界模型視為一種生成式資料增強
智慧體首先與環境互動,收集真實的軌跡資料,並立即用這些資料來更新策略。之後,智慧體使用世界模型在想象中生成軌跡,並用這些想象資料來進一步更新策略。
這種混合使用真實資料和虛擬資料的機制,可以被看作是一種生成式資料增強的方式。
論文強調,世界模型的準確性對於策略學習至關重要。
為了確保世界模型足夠準確,避免其不準確的預測「汙染」訓練資料,研究者提出在開始使用想象軌跡訓練策略之前,先讓智慧體與環境互動一段時間。
這個過程被稱為「預熱(warmup)」。具體來說,就是隻有在智慧體與環境互動達到一定步數之後,才開始使用世界模型生成的軌跡來訓練。
實驗表明,移除預熱步驟會導致獎勵大幅下降,從67.42%降至33.54%。此外,僅僅使用想象資料訓練策略也會導致效能下降到55.02%。
影像塊最近鄰分詞器
不同於常規的使用VQ-VAE方法來在影像和tokens之間進行轉換。
在論文中,研究團隊提出了一種新的影像標記化(tokenization)方法。用於將影像轉換為Transformer世界模型(TWM)可以處理的token輸入。
研究團隊利用Craftax-classic環境的一個特點,即每個觀察影像都是由9×9個7×7大小的影像塊組成。
因此,他們首先將影像分解為這些不重疊的影像塊(patches)。然後,獨立地將每個影像塊編碼為token。
在將影像塊分解的基礎上,論文使用一個更簡單的最近鄰標記器(Nearest-Neighbor Tokenizer,NNT)來代替傳統的VQ-VAE3。
NNT的編碼過程類似於最近鄰分類器,它將每個影像塊與一個程式碼本中的條目進行比較。
如果影像塊與程式碼本中最近的條目之間的距離小於一個閾值,則將該條目的索引作為token;否則,將該影像塊作為一個新的程式碼新增到程式碼本中。
與VQ-VAE 不同,NNT的程式碼本一旦新增條目,就不再更新。這意味著程式碼本是靜態的,但可以不斷增長。
解碼時,NNT只是簡單地返回程式碼本中與token索引相對應的程式碼 (影像塊)。
這種靜態但不斷增長的程式碼本使得TWM的目標分佈更加穩定,大大簡化了TWM的線上學習過程。
實驗結果顯示,在影像塊分解的基礎上,用NNT替換VQ-VAE可以顯著提高智慧體的獎勵,從58.92%提升到64.96%。
不過,NNT對影像塊的大小比較敏感,如果影像塊的大小不合適,可能會影響效能。而且如果影像塊內部的視覺變化很大,NNT可能會生成一個非常大的程式碼本。
塊狀教師強制
在通常的做法中,TWM通常採用教師強制來訓練,論文的研究團隊則提出了一種更有效的替代方案,稱為塊狀教師強制(block teacher forcing, BTF)。
這個方案同時修改了TWM的監督方式和注意力機制:當給定前面的全部token後,BTF會並行預測下一時間步中的所有潛在token,從而不再依賴當前時間步已生成的token。
下圖2清晰地展示了BTF如何透過改變注意力模式和監督方式來改進TWM的訓練。
傳統的教師強制自迴歸地預測每個token,而BTF則並行預測同一時間步的所有token,從而提高了訓練速度和模型準確性。

實驗表明,與完全自迴歸(AR)的方法相比,BTF能得到更準確的TWM。
在本實驗中,BTF將獎勵從64.96%提升到了67.42%,從而獲得了表現最優的基於模型的強化學習(MBRL)智慧體。
一舉超越了人類專家的表現!(見表1)

實驗結果
效能階梯
在論文中,智慧體按照研究者所採用的改進措施進行排序,形成了一個「MBRL 階梯」,具體如下:
M1: Baseline:基準MBRL智慧體,使用了VQ-VAE進行tokenization,其獎勵為31.93%,優於IRIS的25.0%。
M2: M1+Dyna:在M1的基礎上,使用Dyna方法,即混合使用真實環境資料和TWM生成的想象資料來訓練策略,獎勵提升至43.36%。
M3: M2+patches:在M2的基礎上,將VQ-VAE的tokenization過程分解到各個影像塊 (patches) 上,獎勵進一步提升至 58.92%。
M4: M3 + NNT:在M3的基礎上,用最近鄰標記器 (NNT) 替換VQ-VAE,獎勵提升至 64.96%。
M5: M4 + BTF:在M4的基礎上,引入塊教師強制 (BTF),最終的獎勵達到67.42%(±0.55),成為論文中最佳的 MBRL智慧體。
下圖3清晰地展示了每一步改進帶來的效能提升。

與現有方法比較
研究團隊這次效能最優的模型M5創造了新的SOTA成績,獎勵達到67.42%,得分達到27.91%。
這是首次超過人類專家的平均獎勵水平(該人類水平基於5名專家玩家玩了100局所測得)。
需要指出的是,儘管模型在獎勵上已超越了人類專家,但得分仍明顯低於人類專家水平。
消融實驗
實驗表明,當NNT使用7×7大小的影像塊時效果最佳,使用較小 (5×5) 或較大 (9×9) 的影像塊時,效能會有所下降,但仍然具有競爭力。
如果不使用量化,而是讓TWM重建連續的7×7影像塊,效能會大幅下降。
研究者發現,移除「MBRL 階梯」中的任何一個步驟,都會導致模型效能下降,這表明論文提出的每個改進都至關重要。
下圖5視覺化地展示消融研究的結果,驗證了論文提出的各個改進措施的重要性。

模型如果過早地開始在想象資料上訓練,效能會因TWM的不準確而崩潰。只有在智慧體與環境互動足夠長時間,並獲得足夠資料來訓練可靠的WM後,使用想象資料進行訓練才是有效的。
去除MFRL智慧體中的RNN或使用較小的模型都會導致模型效能下降。
比較TWM的生成序列
研究者比較了三種不同的世界模型 (TWM) 的生成軌跡質量,這些模型分別是M1(基線模型)、M3(加入了Dyna和影像塊分解的模型)以及M5(最佳模型,包含了所有改進)。
為了進行評估,研究者首先構建了一個包含160條軌跡的評估資料集,每條軌跡長度為20。然後,他們使用每個TWM模型,從相同的起始狀態和動作序列出發,生成對應的想象軌跡。
評估的關鍵指標是透過訓練一個CNN符號提取器,來預測真實軌跡和TWM生成軌跡中的符號,並計算預測的符號準確率。
這種方法能夠深入瞭解模型在多大程度上捕捉到了遊戲的核心動態。
定量評估
透過定量評估,研究團隊發現符號準確率隨著TWM生成軌跡步數的增加而下降,這種下降是由於誤差的累積導致的。
M5模型由於其採用了最近鄰標記器(NNT),保持了所有時間步中最高的符號準確率,表明其能夠更好地捕捉遊戲動態,並且NNT使用的靜態程式碼本簡化了TWM的學習過程。
定性評估與分析
除了定量評估外,研究團隊還對TWM生成的軌跡進行了定性分析。
透過視覺檢查,他們觀察到了三種現象:地圖不一致性、符合遊戲規則的幻覺以及不符合遊戲規則的幻覺。
M1模型在地圖和遊戲動態方面都存在明顯的錯誤,而M3和M5模型能夠生成一些符合遊戲規則的幻覺,例如出現怪物和生命值變化。
M3模型仍然會產生一些不符合遊戲規則的幻覺,例如怪物突然消失或生成的動物外觀錯誤,而M5模型則很少出現這種不合理的幻覺。
定性分析表明,儘管所有模型都存在一定的誤差,但M5模型在保持遊戲動態一致性方面明顯優於其他模型,體現了其學習到的世界模型質量的提升。
下圖6表明,NNT和BTF等改進措施對於提高TWM學習效果的重要性,最終促進了MBRL智慧體效能的提升。

Craftax完整版本測試結果
研究團隊還比較了多種智慧體在Craftax的完整版本(Craftax Full)上的效能。相比 Craftax-classic,這個完整版在關卡數量和成就設定上都有顯著提升,難度更高。
此前的最佳智慧體只能達到2.3%的獎勵,而DeepMind團隊的MFRL智慧體取得了4.63%的獎勵,MBRL智慧體則更是將獎勵提高到5.44%,再次重新整理了SOTA紀錄。
這些結果表明,DeepMind團隊所採用的訓練方法能夠推廣到更具挑戰性的環境。
結論與下一步工作
在本論文,DeepMind研究團隊提出了三項針對基於Transformer世界模型 (TWM) 的視覺MBRL智慧體的改進措施。
這些改進應用於背景規劃:帶有預熱的 Dyna 方法、影像塊最近鄰標記化 (NNT)以及塊教師強制 (BTF)。
這些改進措施結合起來,使得MBRL智慧體在Craftax-classic基準測試中取得了顯著更高的獎勵和分數,首次超越了人類專家的獎勵水平。
論文提出的技術也成功地推廣到了更具挑戰性的Craftax(full) 環境中,取得了新的SOTA結果。
下一步工作
DeepMind研究團隊未來將研究如何將這些技術推廣到Craftax之外的其他環境,以驗證其通用性。探索使用優先經驗回放來加速TWM的訓練,以提高資料利用效率。
團隊還考慮將大型預訓練模型 (如SAM和Dino-V2) 的能力與當前的標記器結合起來,從而獲得更穩定的程式碼本,並減少對影像塊大小和表觀變化的敏感性。
為探究無法生成未來畫素的非重構型世界模型,團隊還計劃改造策略網路,使其能夠直接接收TWM生成的潛變數 token,而不是畫素。
參考資料:
https://arxiv.org/pdf/2502.01591


