
新智元報道
新智元報道
編輯:定慧
【新智元導讀】還在用搜索和規則訓練AI遊戲?現在直接「看回放」學打寶可夢了!德州大學奧斯汀分校的研究團隊用Transformer和離線強化學習打造出一個智慧體,不靠規則、沒用啟發式演算法,純靠47.5萬場人類對戰回放訓練出來,居然打上了Pokémon Showdown全球前10%!
AI 又有「新活」了!
德州大學奧斯汀分校的研究團隊用Transformers和離線強化學習訓練出了一個寶可夢對戰AI智慧體,不但打法像人,還能在全球排名中殺進前 10%。

論文地址:https://metamon.tech/
是的,你沒看錯,這不是那種靠搜尋和規則的AI,而是靠人類歷史對戰資料「喂出來」的智慧體,能自己學著打。
這個寶可夢遊戲(全稱Competitive Pokémon Singles)有多複雜呢?
在對戰平臺https://pokemonshowdown.com/上可以看到,即使不考慮策略,光是精靈、動作和物品的數量已經多到了非常誇張的程度(根本翻不完)。

這意味著,AI要在資訊不完全、策略博弈的環境中,把每一步出招、每一次換人,都當成下圍棋一樣來算。
寶可夢對戰融合了國際象棋般的長遠策略規劃、撲克牌那樣充滿未知資訊和隨機性,再加上足以填滿一本百科全書的寶可夢、招式、特性和規則。玩家需要精心設計和操控自己的寶可夢隊伍,擊敗對手的所有寶可夢才能獲勝。這樣一個充滿不確定性、狀態空間極其龐大的遊戲,對AI來說是絕佳又極具挑戰性的研究課題。
這種硬核程度,更像是寶可夢版的《星際爭霸》。

把「回放」餵給 AI,教它打寶可夢
研究團隊開發了一個名為Metamon的平臺,它使用來自Pokémon Showdown(以下簡稱PS)的人類遊戲資料集來啟用離線RL工作流。

PS會建立一個日誌(過程「回放」),記錄每場戰鬥。
玩家儲存日誌以供日後研究、與朋友分享有趣的結果,或作為記錄官方錦標賽結果的證明。
PS的回放資料已經超過十年——足夠的時間積累數百萬個重放,比如下面的是10年前2014年的戰鬥回放。

PS回放資料集是一個完全的、自然發生的人類資料集合,但這個資料集有個問題——這些資料是以第三方角度收集的,而不是第一人稱,訓練智慧體需要用第一人稱視角。
研究團隊透過將觀眾視角分別轉換為每個玩家的視角來解鎖PS回放資料集。
最終,研究團隊搞出一個47.5萬局真實人類對戰組成的離線強化學習資料集,而且每天還在持續增長中。


在序列資料上使用離線強化學習演算法訓練
寶可夢擁有一個非常複雜的狀態空間,因此在使用離線強化學習(offline RL)進行訓練時,策略模型可能需要具備較大的規模和複雜的結構。
為了使訓練過程更加穩定,將這個問題轉化為行為克隆(Behavior Cloning, BC)的角度來理解:預測一個人類玩家的動作,實際上是在嘗試推理模仿的這個玩家的策略,以及他們對對手的理解。
為了實現準確的預測,模型往往需要較長的上下文輸入。
強化學習(RL)在這種場景下的作用,是幫助我們從包含了不同水平玩家(包括競技和休閒玩家)決策的大規模資料中,篩選出有效資訊。
採用的解決方案是actor-critic架構,其中critic的訓練方式是使用標準的一步時序差分(temporal difference, TD)更新來輸出Q值。至於actor的損失函式,其一般形式如下:


接下來,需要為CPS(Competitive Pokémon Simulator)定義觀測空間、動作空間和獎勵函式。
智慧體需要獲取足夠的資訊,以便能夠模擬人類玩家的決策,而PS網站的使用者介面是一個顯而易見的參考點。
不過,由於模型具備記憶能力,因此無需在每一個時間步都提供全部資訊。
最終達成了一個折中方案:輸入由87個文字詞語和48個數值特徵組成。
下圖展示了資料集中一場回放中的示例。觀測只包含對手當前上場的寶可夢。


僅僅依靠強化學習能打贏人類嗎?
傳統做法教AI玩遊戲,通常會設計規則、模擬狀態、設計算法。
但這篇論文反其道而行之:直接喂資料,讓它「模仿」人類怎麼打。
他們訓練了多個大小不同的智慧體,從1500萬引數的小模型,到2億引數的大模型。
其中有的透過模仿學習訓練(IL),有的則用離線強化學習(RL)進一步最佳化,還有的則加上「自我對戰」的資料做微調。

可以在Pokémon Showdown上觀看各個模型的遊戲重播。

最強AI打上全球天梯前 10%
說了這麼多,這AI真的能打嗎?
研究者將多個版本的模型送上Pokémon Showdown的天梯伺服器——這是全世界寶可夢高玩集中的地方。
結果模型居然排進了全球活躍玩家的前10%,併成功登上了排行榜。
在圖中展示了Glicko-1階梯分數及其評分偏差。柱狀圖標籤標註的是GXE(勝率期望)統計資料。

階梯分位數(Ladder Percentiles),在 2025年2月至3月期間下載的回放資料中,共識別出14,022個在第1到第4世代活躍的使用者名稱。
以第1世代(Gen1)為例,在這些使用者名稱中,有5,095個參與了 Gen1OU(標準對戰規則),其中有2,661個活躍度較高,達到了在最終結果統計時擁有有效 GXE(勝率期望)資料的標準。

這可能是你第一次聽說有人用Transformer打寶可夢,還打贏了人類。
但從技術視角看,這背後是強化學習、模仿學習、大模型訓練和資料重構的完整鏈路。
它不只是一個「有趣的實驗」,更像是一次對資料驅動遊戲 AI 的深度演練。
下一步,或許可以不是打遊戲,而是讓AI玩轉更復雜的現實任務。
此外,不同的訓練策略以及大規模自我對戰(self-play)技術,或許能夠讓智慧體帶來超越人類表現的突破。
參考資料:
https://x.com/yukez/status/1909993963848622206
https://metamon.tech/
https://arxiv.org/abs/2504.04395
