DeepMind閉關修煉「我的世界」,自學成才挖鑽登Nature!人類玩家瑟瑟發抖

DeepMind閉關修煉「我的世界」,自學成才挖鑽登Nature!人類玩家瑟瑟發抖


新智元報道  

編輯:定慧 英智
【新智元導讀】谷歌DeepMind研發的DreamerV3實現重大突破:無需任何人類資料,透過強化學習與「世界模型」,自主完成《我的世界》中極具挑戰的鑽石收集任務。該成果被視為通往AGI的一大步,並已登上Nature。
AI又進化了,在沒有任何人類資料的參與下,自己玩《我的世界》還能找到鑽石!
在剛剛登上Nature的論文中,谷歌DeepMind的智慧體透過純·自我學習,順利完成了收集鑽石的任務。
論文連結:https://www.nature.com/articles/s41586-025-08744-2
對此,DeepMind的計算機科學家Danijar Hafner表示:「Dreamer是一個重要的里程碑,標誌著AI又朝著通用人工智慧前進了一大步。」
又是AI和《我的世界》,為何這次就成了邁向AGI的一大步
用AI來挑戰《我的世界》早已是AI界「喜聞樂見」的專案了。
作為世界上排名第一且月活超過1億的遊戲,《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。
早在兩三年前,包括OpenAI在內的各個模型都有挑戰《我的世界》的嘗試。
更早在2019年,研究人員就認為《我的世界》的開放式遊戲環境可能非常適合AI研究。
比如一個七歲的小孩在觀看了10分鐘演示影片後就能學會如何在遊戲中找到稀有的鑽石,而當年的AI還遠遠做不到這一點。
AI從《我的世界》中的一個隨機位置開始,必須完成某些任務來找到鑽石
為何這次DeepMind就敢說是「通向AGI的一大步」呢?
這次的任務——在遊戲內尋找鑽石——聽起來容易,但其實非常困難,「高玩」們也要花20-30分鐘才能找到一個鑽石。
給不熟悉遊戲的朋友解釋下這個任務為什麼這麼困難:
1. 每一次的遊戲場景都是隨機世界,包含各種地形的虛擬 3D 世界,包括森林、山脈、沙漠和沼澤,這讓AI無法只記住一種特定策略來作弊;
2. 想要獲得鑽石需要經過一系列複雜的前置流程,並不是隨機在地圖尋找,比如你需要:
  • 先找到樹木
  • 然後將樹木分解為木材,木材也僅僅是用來製作一個工作臺
  • 有了工作臺再加上更多的木材你才可以製作一個木頭鎬頭
  • 然後才能開始挖掘以尋找鑽石
  • ……

鑽石恆久遠,AI不疲倦

AI研究人員專注於在《我的世界》中尋找鑽石,Hafner說因為這需要一系列複雜的步驟,是一個很長的里程碑鏈條,因此它需要非常深入的探索。

DeepMind的Dreamer AI在《我的世界》中進行了多次遊戲學習如何收集鑽石
之前的嘗試讓AI系統收集鑽石依賴於使用人類遊戲的影片或研究人員引導系統完成各個步驟。
相比之下,Dreamer透過強化學習的試錯技術自行探索遊戲的所有內容——它識別出可能帶來獎勵的動作,重複這些動作並放棄其他動作。
強化學習是一些重大AI進展的基礎,但之前的程式都是專家型的——它們無法從零開始在新領域應用知識。

成功的關鍵是構建「世界模型」

Dreamer成功的關鍵在於它構建了周圍環境的模型,並使用這個世界模型來「想象」未來的情景並指導決策。
就像我們自己的抽象思維一樣,世界模型並不是周圍環境的精確複製品。
世界模型允許Dreamer嘗試不同的事情,「世界模型真正賦予了人工智慧系統想象未來的能力」Hafner 說。
這種能力還可能有助於創造能夠在現實世界中學習互動的機器人——在現實世界中,試錯的成本要比在影片遊戲中高得多。
研究團隊一開始並不是奔著「鑽石測試」去研究的,測試Dreamer在鑽石挑戰上的表現是一個事後的想法。
「在構建整個演算法時並沒有考慮到這一點」,Hafner 說,但團隊意識到,這是測試其演算法是否能夠開箱即用、處理不熟悉任務的理想方式。
在《我的世界》中,團隊使用了一種協議,每當Dreamer完成鑽石收集過程中涉及的12個逐步步驟之一時,就會獲得一個「+1」的獎勵——這些步驟包括製作木板和熔爐、開採鐵礦並鍛造鐵鎬。
這些中間獎勵促使 Dreamer 選擇了更有可能獲得鑽石的動作。團隊每 30 分鐘重置一次遊戲,這樣Dreamer就不會適應某個特定的配置——而是學會了獲得更多獎勵的一般規則。
在這種設定下,Dreamer需要連續玩大約九天才能找到至少一顆鑽石。
而高手玩家找到一顆鑽石需要20到30分鐘,新手則需要更長的時間。

在Minecraft中進行鑽石挑戰

遊戲中的每一次都設定在一個獨特的隨機生成且無限的三維世界中。

每一次持續到玩家死亡或達到36,000步(相當於30分鐘),根據MineRL競賽提供的動作形成了一個分類動作空間,其中包括抽象的製作動作。

據DeepMind宣稱,Dreamer是第一個在不使用人類資料的情況下從零開始在《我的世界》中收集鑽石的演算法。
所有的Dreamer智慧體都在一億次步驟內發現了鑽石。所有物品的成功率顯示在圖右擴充套件資料中。
儘管其他幾個強大的演算法(例子中的PPO、Rainbow和IMPALA)進展到了諸如鐵鎬等高階物品,但沒有一個發現鑽石。
Dreamer演算法核心原理

Dreamer演算法的核心是學習一個世界模型。

這就像是智慧體的大腦,讓智慧體具備豐富的感知能力,透過想象未來場景來規劃行動。

演算法由三個關鍵的神經網路組成:世界模型、評論家網路和行動者網路。

世界模型透過自動編碼學習感官輸入的表示,並透過預測潛在動作的未來表示和獎勵來實現規劃。

將世界模型實現為遞迴狀態空間模型,如圖所示。

評論家網路則對世界模型預測的每個結果進行價值判斷,評估這個結果對實現目標的幫助有多大。
行動者網路根據評論家的判斷,選擇能達到最佳結果的行動。
這三個網路相互協作,在智慧體與環境互動的過程中,透過重放經驗同時進行訓練。
在訓練過程中,世界模型的學習至關重要。它要學習從感官輸入中提取有用資訊,還要預測未來的狀態和獎勵。
為實現這一目標,世界模型需要最小化預測損失、動態損失和表示損失。
預測損失用於訓練解碼器和獎勵預測器,動態損失訓練序列模型預測下一個表示,表示損失則讓表示更具可預測性。
圖中可視化了世界模型的長期影片預測。
實驗結果

DeepMind團隊在8個領域的150多個任務中評估Dreamer演算法的通用性,包括連續和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同的獎勵尺度、二維和三維世界以及程式生成。

圖中展示了基準測試結果,Dreamer在所有測試中均有更好的表現。
在Atari基準測試中,它能在使用少量計算資源的情況下,超越MuZero演算法,也優於Rainbow和IQN演算法。
在ProcGen基準測試中,面對隨機生成的關卡和視覺干擾,Dreamer演算法在5000萬幀的預算內,超過了經過調優的PPG和Rainbow演算法。
在DMLab基準測試裡,它在1億幀訓練後,效能超過了IMPALA和R2D2+智慧體,資料效率大幅提升。
在Atari100k基準測試中,儘管訓練預算僅為40萬幀,Dreamer演算法依然能超越其他方法。
在BSuite基準測試中,它同樣表現出色,在尺度穩健性方面有很大改進。
研究人員進行了消融實驗,結果表明,所有的穩健性技術都有助於提高演算法效能。
研究人員還對Dreamer演算法的縮放屬性進行了研究。
他們訓練了不同規模的模型,引數從12M到4M。結果發現,擴大模型規模不僅能提高任務效能,還能減少資料需求。
更多的梯度步數也能減少學習成功行為所需的互動次數。這表明Dreamer演算法在計算資源增加時,能夠穩健地提升效能,為實際應用提供了更靈活的選擇。
這篇論文是關於訓練一個單一演算法,期望其能在多樣化的強化學習任務中表現出色。
在《我的遊戲》中尋找鑽石也許僅僅通向AGI之路的第一關。
AI的下一個更大目標是《我的世界》玩家面臨的終極挑戰:擊殺末影龍,這個虛擬世界中最可怕的生物。
參考資料:
https://www.nature.com/articles/d41586-025-01019-w#ref-CR1
https://www.nature.com/articles/s41586-025-08744-2
https://x.com/danijarh/status/1907511182598222095