魔改AlphaZero後，《我的世界》AI老玩家問世，幹活不用下指令

機器之心報道

編輯：澤南、楊文

人和智慧體共享獎勵引數，這才是強化學習正確的方向？

大模型驅動的 AI 助手又升級了。本週五，科技圈正在圍觀一個陪你一起玩《我的世界》的 AI。

它話不多說，就是埋頭幹活。一起蓋房子的時候，你不需要給 AI 一張藍圖，或是不斷告訴它該怎麼做，你只需要蓋自己的，它就能一邊觀察一遍配合，並觀察你的意圖隨時改變計劃。

現在，AI 可以不斷主動學習、糾正錯誤，展現出了此前大模型智慧體無法實現的一系列能力。

看起來，新版的 AI 在與我們共同遊戲時不再是催一下動一下了，它已經是一個有「主觀能動性」的玩家，就像個和你共同玩過幾百局遊戲的老友一樣。

這項技術名為 AssistanceZero，出自加州大學伯克利分校（UC Berkeley）。值得注意的是，它並未接受大模型常見的 RLHF 訓練。相反，它是由「assistance games」強化學習驅動的，研究人員認為，這是構建 AI 助手的更好途徑。

AI 在這個框架中並不會被動地接受人類反饋，而是尋求主動與人合作，透過推斷目標而不斷最佳化行為，這避免了 RLHF 中 AI 可能會出現的作弊行為，讓 AI 可以採取更加協作的策略。

論文：AssistanceZero: Scalably Solving Assistance Games

論文連結：https://arxiv.org/abs/2504.07091

專案連結：https://github.com/cassidylaidlaw/minecraft-building-assistance-game

目標：把 RLHF 革命掉

最近，AI 領域裡很多研究都在嘗試改進或替代 RLHF。

我們知道，預訓練、監督微調（SFT）以及基於人類反饋的強化學習（RLHF）或其變體已經成為訓練通用 AI 助手的主要正規化。RLHF 涉及對預訓練的基礎模型進行微調，使其根據人類標註者對諸如「幫助性」和「無害性」等標準的偏好來採取行動（即生成響應）。然而，透過 RLHF 訓練的助手存在一些缺點：

1. 標註者可能會被誤導，對無幫助的行動給予積極的反饋，從而激勵助手產生欺騙性或操縱性的行為。

2.RLHF 並不鼓勵模型保持對使用者目標的不確定性，生成高評分單輪響應的目標使得助手不願提出澄清問題或對其響應進行保留，像 GitHub Copilot 這樣的非聊天型人工智慧助手也存在類似的問題，當編碼任務不明確時，Copilot 無法要求澄清。

3. 像 Copilot 這樣的自動完成助手也並未充分考慮助手行為的協作性 ——AI 助手的行動應補充使用者的行為，而不是簡單地預測或取代它們。

ChatGPT 傾向於用一個回覆來解決你的所有問題。如果你要求 ChatGPT「清理一些磁碟空間」，它會給你一個程式執行，而不會詢問哪些檔案可以刪除。

訓練 AI 助手的另一種正規化是 Assistance Games。它透過明確考慮協助的互動性和使用者目標的不確定性，避免了 RLHF 的上述缺點。

具體來說，Assistance Games 是一個雙人遊戲，助手和使用者在一個共享環境中採取行動（圖 3b）。兩個 Agent 共享一個獎勵函式，但關鍵是助手最初對這個獎勵函式是不確定的，assistance games 消除了欺騙的動機，因為助手的表現取決於真實的潛在獎勵函式，而不是人類的反饋。此外，assistance games 還激勵助手與使用者互動以解決其不確定性。最後，解決 assistance games 的結果是助手的行動能夠補充使用者的行動，以實現最優的聯合效能。而且，研究人員還設想了一種將 assistance games 應用於大語言模型後訓練的方法，以替代 RLHF。

儘管 Assistance Games 具有諸多優勢，但它們為何仍然是一個研究較少的訓練 AI 助手的方法呢？Assistance Games 過去僅被用於解決非常簡單的問題，但在複雜環境中卻被廣泛忽視，主要是由於以下看似不可克服的挑戰：

1. 計算上的難題：AI 助手需要在獎勵函式的不確定性下保持決策能力，而這被認為是計算上不可行。

2. 人類模型的準確性：與 RLHF 不同，解決 Assistance Games 需要一個能夠準確預測人類對 AI 行動反應的模型。如果 AI 無法理解人類的溝通策略，可能會在與真實人類互動時表現不佳。過去關於 Assistance Games 的研究使用了基於強化學習或規劃的人類模型，但這些模型可能與真實人類行為有顯著差異。

該研究團隊成功應對了這些挑戰，並證明了複雜的 Assistance Games 是可以被有效解決的。為此，他們引入了一個新基準測試 ——Minecraft Building Assistance Game (MBAG)。

在這個測試中，AI 助手需要在《我的世界》遊戲環境中幫助人類建造目標結構，但助手對目標一無所知（圖 1）。MBAG 的挑戰在於目標結構的分佈非常複雜，可能的目標數量超過 10^400 個，遠遠超過以往研究中的數量，同時狀態和動作空間也更大。

研究人員透過 MBAG 研究了深度強化學習演算法是否能夠解決 Assistance Games。研究發現，PPO（一種流行的無模型強化學習演算法）可以輕鬆地在 MBAG 中建造已知目標房屋，但在目標結構未知時表現不佳。他們認為這是因為 PPO 需要同時從高方差的反饋中學習如何預測目標並根據預測採取行動，這增加了其難度。

因此，為更好地解決 Assistance Games 問題，他們提出了一種名為 AssistanceZero 的新演算法，該演算法透過擴充套件 AlphaZero 來分離預測和行動。與 AlphaZero 類似，AssistanceZero 結合了蒙特卡洛樹搜尋（MCTS）和神經網路來選擇行動。AssistanceZero 採用了一種具有額外輸出層的神經網路，這些輸出層用於預測獎勵和人類行為，MCTS 利用這些預測在不確定性下有效規劃（圖 4）。

AssistanceZero 的效果遠勝於 PPO（表 1）。

此外，他們還透過探索如何開發出能產生有效助手的人類模型來應對解決 Assistance Games 的第二個挑戰。有趣的是，他們發現 MBAG 中最佳的人類模型也結合了 MCTS 和模仿學習，這種方法被稱為 piKL。

研究人員將透過 Assistance Games 訓練的策略與其他方法（如類似預訓練和 SFT 的流程）訓練的策略進行了比較。

在 MBAG 中，他們發現透過 AssistanceZero 訓練的助手在最佳人類模型（表 3）和真實人類（圖 2）方面都大大優於透過預訓練 + SFT 或其他方法訓練的助手。AssistanceZero 助手展現了許多有用的自發行為，例如根據修正進行適應（圖 1）。

表3

圖2

總的來說，結果表明，Assistance Games 是可擴充套件的，並且可以成為在具有挑戰性的環境中訓練有用助手的優越框架。

什麼是MBAG

在設計 MBAG 時，研究人員設定了幾個目標，以使其成為一個更廣泛研究協助遊戲的有用環境。

其設計目標包括複雜的獎勵引數分佈、多樣的助手幫助方式，以及適合學術實驗室訓練 RL agent 的環境。

MBAG 是由一個三維方塊網格、網格內的玩家位置以及玩家的物品欄組成。網格中的每個位置可以是十種方塊型別之一，包括空氣，實驗中使用了一個 11×10×10 的網格。

動作空間包括無操作、移動、放置方塊和破壞方塊。放置和破壞動作由位置引數化，放置動作還由方塊型別引數化，這意味著在 11×10×10 的環境中，有超過 20000 種可能的動作。

玩家只能到達有限的距離來破壞或放置方塊，而且在當前狀態下，許多動作是無效的（例如，不可能破壞空氣方塊）。因此，通常只有一小部分動作是有效的。

提出 AssistanceZero 新演算法

研究人員使用 MBAG 來研究如何解決協助遊戲中的複雜序貫決策問題，並嘗試了 PPO（一種無模型強化學習演算法）訓練助手策略。

然而，他們發現 PPO 在 MBAG 中表現不佳。使用迴圈 PPO 訓練的助手根本無法幫助人類模型（見表 1 的第一行），而非迴圈 PPO 的表現略優於迴圈 PPO（見第二行）。他們認為，這是因為高方差的獎勵訊號使得 PPO 難以有效學習。

表1

此外，由於助手對目標結構不確定，即使根據觀察歷史，採取一個在期望中有幫助的動作有時也會導致負面獎勵。任務的序貫性和長期性加劇了這些問題，進一步增加了 PPO 試圖最佳化的獎勵訊號的噪聲。

在訓練初期，PPO 接收到的最明顯的訊號是放置和破壞動作往往是錯誤的，導致負面獎勵。因此，助手策略收斂到幾乎不建造任何東西。為了減少獎勵訊號中的噪聲，並激勵助手更多地採取行動，他們探索了僅根據助手自身動作的獎勵來訓練助手，還嘗試新增一個輔助損失項，以鼓勵放置正確的方塊。

這些方法略微提高了助手 – 人類模型組合完成的目標百分比，同時減少了人類模型的動作數量或保持其不變（見表 1 的第三和第四行）。然而，它們仍然只是勉強有幫助。

為了解決 PPO 的侷限性，他們設計了 AssistanceZero 來分離目標預測和行動選擇，透過學習一個目標預測器，然後將其用於規劃。

具體來說，AssistanceZero 是 AlphaZero 的擴充套件，AlphaZero 是一種在圍棋和國際象棋等複雜競爭性遊戲中取得超人表現的深度強化學習演算法。

和 AlphaZero 一樣，AssistanceZero 使用蒙特卡洛樹搜尋（MCTS）的一個變體來選擇動作。MCTS 透過模擬從當前狀態採取不同動作序列的結果來構建搜尋樹。然而，它需要知道獎勵和動作導致的下一個狀態，這兩者在協助 POMDP 中都是未知的。

雖然作者已經證明 AssistanceZero 可以訓練出與固定人類模型配合良好的助手，但如何先獲得一個好的人類模型仍然不清楚。理想情況下，助手策略不僅應該與訓練時使用的人類模型表現良好，還應該與真實人類配合時表現良好。他們探索了人類 AI 互動文獻中開發 MBAG 人類模型的幾種方法，包括基於獎勵和基於資料的模型。

基於獎勵的人類模型假設人類選擇動作近似於最優，以最大化其獎勵函式。他們使用深度強化學習訓練了兩個基於獎勵的模型來獨自建造目標結構。

對於其中一個模型，他們使用了帶有熵係數的 PPO，近似於 Boltzmann 理性，這是一種常見的人類行為的噪聲最優模型；另一個模型則使用了 AlphaZero 訓練。

接下來，他們使用行為克隆（BC）訓練了一系列基於資料的人類模型，行為克隆使用監督學習從狀態預測動作。對於訓練資料集，他們記錄了五個受試者在 MBAG 中建造房屋的 18 個片段。

在一半的片段中人類獨自建造，另一半則由一位有經驗的《我的世界》玩家作為助手。他們將目標結構顯示為受試者的一個半透明藍圖，覆蓋在正常的遊戲上，同時對人類助手隱藏目標結構。使用 BC，他們訓練了三種人類模型：一種基於受試者獨自遊戲的資料（BC-alone），一種基於與助手一起遊戲的子集（BC-with-assistant），以及一種基於整個資料集（BC-combined）。

雖然研究人員對 Assistance Games 的正式定義假設人類模型是馬爾可夫的，但他們發現基於迴圈、歷史的 BC 模型比馬爾可夫策略更能預測人類動作。除了捕捉個別非馬爾可夫行為外，迴圈人類模型還可以隱式地模擬多種人類策略的混合。這使得一個單一的迴圈模型有可能捕捉到真實人類技能水平的差異。

有望提升大模型後訓練

在該研究中，研究人員實現了透過 Assistance Games 在 MBAG 中訓練助手的完整方案，然後使用 AssistanceZero 求解生成的輔助 POMDP。如果將 Assistance Games 與其他 AI 助手訓練正規化進行比較會如何？

具體而言，作者開發了用於訓練 MBAG 助手的流程，類似於 GitHub Copilot/OpenAI Codex 和 RLHF 的監督微調 (SFT) 階段所使用的流程，這也是當前訓練 AI 助手的兩個主要正規化。研究人員將生成的策略與使用 AssistanceZero 訓練的助手進行比較。

RLHF 和 Codex 都以預訓練語言模型為起點，這使得它們能夠學習有用的表徵並預測人類行為。在 MBAG 中，作者生成了一個預訓練語料庫，使用結合 BC 的人類模型生成 1 萬個回合，該回合會從訓練集 Dtrain 中隨機選擇目標結構進行構建。然後從觀測值中刪除目標結構資訊，並在生成的資料集上訓練一個迴圈神經網路（即預訓練模型）。與語言或程式碼模型類似，該模型可以在沒有目標資訊的情況下預測人類行為，並學習到了能夠理解人類目標結構的表徵。

透過在低熱狀態下從預訓練模型中取樣動作，我們就獲得了一個類似於 GitHub Copilot 的助手：當它對人類將採取的動作高度自信時，它會構建目標結構，缺乏自信時則不會採取行動。

進一步使用 SFT 訓練預訓練模型，其中使用人類專家作為助手的資料，對預訓練模型進行微調以模仿人類助手，類似於在 RLHF 的 SFT 階段訓練 LLM 模仿人類書寫的助手回覆的方式。研究使用網格搜尋對 540 個超引數組合進行搜尋，以找到適合 SFT 策略的學習率、訓練週期、資料增強和 dropout 的最佳組合。

表 3 比較了預訓練模型和 SFT 模型以及基於 Assistance Games 的策略。作者使用結合 piKL 的人類模型對每個模型進行了超過 1000 輪評估，並報告了與表 1 相同的指標。預訓練策略和 SFT 策略均略微減少了實現相似目標完成率所需的人類運算元量（約 4-5 個）。SFT 策略平均構建了約 3% 的目標結構。相比之下，使用 AssistanceZero 訓練的策略將人類運算元量減少了約 65 個，同時提高了目標完成率；它構建了約 26% 的目標。

作者還比較了 AI 助手與真人的表現。比較四種條件下的人類玩家：獨自一人（無助手）、使用 SFT 策略、使用 AssistanceZero 訓練的助手以及與專家人類助手一起進行遊戲，每個參與者連續五次建造同一棟房屋。第一次用於練習，幫助受試者熟悉《我的世界》的操作和目標結構，隨後受試者在四種條件下以隨機順序建造房屋。

在每次互動結束後，受試者對其整體實用性進行評分，結果顯示經過 AssistanceZero 訓練的助手錶現明顯優於 SFT 助手，並接近人類基準。其中，參與者對 AssistanceZero 能夠從糾正中有效學習的能力印象深刻。例如，在人類破壞一兩個錯誤方塊後，AssistantZero 也能破壞多個錯誤方塊，相比之下 SFT 助手則完全沒有幫助。

伯克利的研究人員希望，基於 Assistance Games 的工作最終可以幫助大語言模型實現解決複雜問題的能力。

參考內容：

https://x.com/cassidy_laidlaw/status/1910708807258534008