單卡3090純視覺玩MineCraft!LS-Imagine在開放世界中基於長短期想象進行強化學習

©PaperWeekly 原創·作者 | 王琦、李佳鍵
單位 | 上海交大、寧波東方理工大學
研究方向 |強化學習、世界模型
LS-Imagine 透過純視覺觀測來玩 Minecraft,仿照人類玩家的做法來學習 RL 控制策略,不開外掛,不使用特權資訊。
在高維開放世界中訓練視覺強化學習智慧體面臨諸多挑戰。儘管有模型的強化學習方法(MBRL)透過學習互動式世界模型提高了樣本效率,但這些智慧體往往具有“短視”問題,因為它們通常僅在短暫的想象經驗片段上進行訓練。
我們認為,開放世界決策的主要挑戰在於如何提高在龐大狀態空間中的探索效率,特別是對於那些需要考慮長期回報的任務
所以,我們提出了一種新的強化學習方法:LS-Imagine,透過構建一個長短期世界模型(Long Short-Term World Model),在目標驅動的情況下模擬跳躍式狀態轉換,並透過放大單張影像中的特定區域計算相應的功用性圖(Affordance Map)來實現在有限的狀態轉移步數內擴充套件智慧體的想象範圍,使其能夠探索可能帶來有利長期回報的行為。
論文標題:
Open-World Reinforcement Learning over Long Short-Term Imagination
論文作者:
李佳鍵*,王琦*,王韞博(通訊作者),金鑫,李洋,曾文軍,楊小康(* 共同一作)
專案網址:
https://qiwang067.github.io/ls-imagine
論文連結:
https://openreview.net/pdf?id=vzItLaEoDa
程式碼連結:
https://github.com/qiwang067/LS-Imagine
簡介
在強化學習背景下,開放世界中的決策具有以下特徵: 
1. 廣闊的狀態空間智慧體在一個具有巨大狀態空間的互動式環境中執行; 
2. 高度靈活的策略所學習的策略具有較高的靈活性,使智慧體能夠與環境中的各種物件進行互動; 
3. 環境感知的不確定性智慧體無法完全觀測外部世界的內部狀態和物理動力學,即其對環境的感知(例如,原始影像)通常具有較大的不確定性。 
例如,Minecraft 是一個典型的開放世界遊戲,符合上述特性。
基於最近在視覺控制領域的進展,開放世界決策的目標是訓練智慧體僅基於高維視覺觀測來接近人類級別的智慧。然而,這也帶來了諸多挑戰。例如在 Minecraft 任務中:
  • 基於高層 API 的方法(如 Voyager)由特定環境的 API 進行高層控制,不符合標準的視覺控制設定,限制了泛化能力和適用範圍。 
  • 無模型強化學習方法(如 DECKARD)缺乏對環境底層機制的理解,主要依賴高成本的試錯探索,導致樣本利用率低,探索效率不佳。
  • 有模型的強化學習方法(如 DreamerV3)儘管提高了樣本效率,但由於僅依賴短期經驗最佳化策略,智慧體表現出“短視”問題,難以進行有效的長期探索。
為了提高有模型強化學習過程中行為學習的效率,我們提出了一種新方法——LS-Imagine。該方法的核心在於使世界模型能夠高效模擬特定行為的長期影響,而無需反覆進行逐步預測
▲ 圖1:LS-Imagine 的整體框架
圖 1 所示,LS-Imagine 的核心在於訓練一個長短期世界模型(Long Short-Term World Model),在表徵學習階段融合任務特定的指導資訊。
經過訓練後,世界模型可以執行即時狀態轉換跳躍式狀態轉換,同時生成相應的內在獎勵,從而在短期與長期想象的聯合空間中最佳化策略。跳躍式狀態轉換使智慧體能夠繞過中間狀態,直接在一步想象中模擬任務相關的未來狀態 ,促使智慧體探索可能帶來有利長期回報的行為。
然而,這種方法引發了一個經典的“先有雞還是先有蛋”的問題:
如果沒有真實資料表示智慧體已經達成目標,我們如何有效訓練模型以模擬從當前狀態跳躍式轉換到未來和目標高度相關的狀態?
為了解決這個問題,我們在觀察影像上針對特定區域不斷執行放大(Zoom in)操作以模擬智慧體在接近該區域過程中的連續觀察影片幀,並將這段影片幀與任務的文字描述進行相關性評估,從而生成功用性圖用於突出觀察中與任務相關的潛在關鍵區域。
在此基礎上,我們透過與環境互動收集來自相鄰時間步長的影像觀察對以及跨越較長時間間隔的影像對作為資料集,對世界模型的特定分支進行訓練,使其能夠執行即時狀態轉換跳躍式狀態轉換
世界模型訓練完成後,我們基於世界模型生成一系列想象的隱狀態序列,最佳化智慧體的策略。在決策的過程中,可以藉助跳躍式狀態轉換直接估計長期回報,從而增強智慧體的決策能力。
主要創新點和貢獻
我們提出了一種新穎的有模型強化學習方法,能夠同時執行即時狀態轉換和跳躍式狀態轉換,並將其應用於行為學習,以提高智慧體在開放世界中的探索效率。
LS-Imagine 帶來了以下四點具體貢獻:
1. 長短期結合的世界模型架構;
2. 一種透過影像放大模擬探索過程以生成功用性圖的方法;
3. 基於功用性圖的新型內在獎勵機制;
4. 一種改進的行為學習方法,該方法結合了長期價值估計,並在混合的長短期想象序列上執行。
方法
LS-Imgaine 包含以下的關鍵的演算法步驟:
3.1 功用性圖計算
如圖 2 所示,為了生成功用性圖,我們在不依賴真實成功軌跡的情況下擬並評估智慧體的探索過程
▲ 圖2:功用性圖計算過程
具體而言,對於單幀觀察影像,我們使用一個滑動邊界框從左至右、從上至下遍歷掃描整張觀察影像。對於滑動邊界框所在的每個位置,我們從原始影像開始裁剪出 16 張影像,以縮小視野來聚焦於邊界框所在的區域,並調整回原始影像的大小,得到連續的 16 幀影像用於模擬智慧體向邊界框所示區域移動時的視覺變化。
隨後,我們使用預訓練的 MineCLIP 模型來評估模擬探索影片和任務文字描述之間的相關性,以此作為該區域的潛在探索價值。當滑動邊界框掃描完整個影像後,我們融合所有邊界框位置的相關性值,從而生成一張完整的功用性圖,為智慧體的探索提供指導。
2.2 快速功用性圖生成
上述步驟 1 中的功用性圖計算過程涉及廣泛的視窗遍歷,並對每個視窗位置使用預訓練的影片-文字對齊模型進行計算。這種方法計算量大、時間開銷高,使其難以應用於即時任務。
為此,我們設計了一套基於 Swin-Unet 的多模態 U-Net 架構,並透過上述的基於虛擬探索的功用性圖計算方法來標註資料作為監督訊號,訓練該多模態 U-Net 架構,使其可以如圖 3 所示在每個時間步利用視覺觀察與語言指令,高效地生成功用性圖。
▲ 圖3:利用多模態 U-Net 高效生成功用性圖
2.3 根據功用性圖計算內在獎勵以及評估跳躍式狀態轉換的必要性
如圖 4 所示,為了利用功用性圖所提供的任務相關先驗知識,我們計算功用性圖與同尺寸的二維高斯矩陣逐元素相乘的均值,並將其作為功用性驅動的內在獎勵(affordance-driven intrinsic reward)。該獎勵能激勵智慧體不斷靠近目標並將目標對齊在視角中心。
▲ 圖4:功用性驅動的內在獎勵計算方法
此外,為了評估想象過程中跳躍式轉換的必要性,我們引入了一個跳躍標誌(jumping flag)。
如圖 5 所示,當智慧體的觀察中出現遠距離的任務相關目標時,會在功用性圖上體現為高價值區域高度集中,這也會導致功用性圖的峰度(kurtosis)顯著升高。在這種情況下,智慧體應採用跳躍式狀態轉換(也稱作長期轉換),以高效抵達目標區域。
▲ 圖5:跳躍式狀態轉換必要性評估
2.4 長短期世界模型
在 LS-Imagine 中,世界模型需要能夠同時支援即時狀態轉換(短期狀態轉換)和跳躍式狀態轉換(長期狀態轉換)。所以,如圖 6(a)所示,我們在狀態轉換模型中設計了短期和長期兩個分支,短期狀態轉換模型將結合當前時刻的狀態和動作來執行單步的即時狀態轉換以預測下一相鄰時間步的狀態。
長期轉換模型則模擬目標導向的跳躍式狀態轉換,引導智慧體快速想象向目標探索。智慧體可以根據當前的狀態決定採用哪種型別的轉換,並透過所選的轉換分支預測下一狀態。
▲ 圖6:長短期世界模型架構以及基於長短期想象的行為學習
區別於傳統的世界模型架構,我們特別設計了跳躍預測器(Jump predictor)以根據當前的狀態判斷應該執行哪種型別的轉換。
同時,對於跳躍式的狀態轉換,我們設計了間隔預測器(Interval predictor)以估計跳轉前後的狀態所間隔的環境時間步數  以及期間的累積折扣獎勵 ,它們將用於在後續的行為學習中估計長期回報。
此外,我們還將功用性圖  作為編碼器(encoder)的輸入,它可以為智慧體提供基於目標的先驗引導,以提升決策過程的有效性。
在此架構基礎上,智慧體與環境互動並收集新資料,得到對應於短期狀態轉換的相鄰時間步長的樣本對,並根據功用性圖建模出對應於長期狀態轉移的跨越較長時間間隔的樣本對。我們將使用這些資料來更新重放緩衝區(replay buffer)並從中取樣資料對長短期世界模型進行訓練。
2.5 在長短期想象序列上進行行為學習
圖 6(b)所示,LS-Imagine 採用演員-評論家(actor-critic)演算法,透過世界模型預測的潛在狀態序列來學習行為。其中,演員(actor)的目標是最佳化策略,以最大化折扣累積獎勵 ,而評論家(critic)的作用則是基於當前策略估算每個狀態的折扣累積獎勵。
▲ 圖7:動態選擇使用長期轉移模型或短期轉移模型預測長短期想象序列
圖 7 所示,從取樣的觀測和功用性圖編碼的初始狀態出發,我們根據跳躍預測器預測的跳躍標誌  動態選擇使用長期或短期的狀態轉換模型,以預測後續狀態。
在具有想象範圍 的長短期想象序列中,我們透過世界模型中的各類預測器預測狀態對應的獎勵 、繼續標誌 ,以及相鄰狀態所間隔的環境時間步數  以及期間的累積折扣獎勵  等資訊,並採用改進的 bootstrap -returns 結合長期與短期想象以計算每個狀態的折扣累積獎勵:
並採用演員-評論家演算法進行行為學習。
實驗結果
我們在 Minecraft 遊戲環境中進行實驗來測試 LS-Imagine 智慧體。我們設定瞭如表 1 所示的 5 個開放式任務來進行實驗:
▲ 表1:Minecraft 任務描述
我們將 LS-Imagine 和 VPT、STEVE-1、PTGM、Director、DreamerV3 等多種方法進行了比對,評估的指標包括在指定步數內完成任務的成功率以及平均完成任務所需要的互動步數。實驗的結果如圖 8、圖 9 和表 2 所示。
▲ 圖8:各項任務上成功率的對比
▲ 圖9:完成各項任務所需互動步數的對比
▲ 表2:成功率和完成任務所需互動步數的數值結果
我們發現,LS-Imagine 在對比模型中表現顯著優越,尤其是在目標稀疏分佈的任務場景下,其優勢更加明顯。
同時,我們在圖 10 中展示了基於長短期想象狀態序列重建的觀測影像和功用性圖的視覺化結果。
其中第一行顯示了跳躍式狀態轉換前後的潛在狀態,並將其解碼回畫素空間,以直觀呈現狀態變化;
第二行可視化了由潛在狀態重建的功用性圖,以更清晰地理解功用性圖如何促進跳躍式狀態轉換,以及它們是否能夠提供有效的目標導向指導;
最後一行透過透明疊加的方式將功用性圖覆蓋在重建的觀測影像上,從而更直觀的凸顯出智慧體關注的區域。
▲ 圖10:長短期想象序列視覺化
這些視覺化結果表明,LS-Imagine 的長短期世界模型能夠根據當前視覺觀測自適應地決定何時進行長期想象。此外,生成的功用性圖能夠有效對齊與最終目標高度相關的區域,從而促進智慧體執行更高效的策略探索。
此外,鑑於我們的方法依賴功用性圖來識別高價值的探索區域,從而實現長期狀態跳躍,有人可能會認為,如果目標被遮擋或不可見,我們的方法將失效。為了證明我們的功用性圖生成方法並不僅僅是一個目標識別演算法,並不會僅在目標可見時才高亮相關區域,我們在圖 11 中展示了當目標被遮擋或不可見的情況下生成的功用性圖的例子。
▲ 圖11:目標被遮擋或不可見情形下的功用性圖
得益於 MineCLIP 模型在大量專家示範影片上的預訓練,我們的功用性圖生成方法能夠在即使目標完全被遮擋或不可見的情況下生成為探索提供有效指導的功用性圖例如,如圖 11(a)所示,在尋找村莊的任務中,儘管村莊在當前觀測中不可見,功用性圖依然能夠提供清晰的探索方向,建議智慧體向右側的森林或左側山坡的開闊區域進行探索。
類似地,在圖 11(b)所示的挖礦任務中,儘管礦石通常位於地下,在當前觀測中被遮擋,功用性圖仍然能指引智慧體向右側的山體內部或前方的地面下挖掘。這些例子能夠充分證明,即便目標被遮擋,功用性圖依然可以幫助智慧體有效地進行探索
總結
我們的工作提出了一種新穎的方法——LS-Imagine,旨在克服在高維開放世界中訓練視覺強化學習智慧體所面臨的挑戰。透過擴充套件想象範圍並利用長短期世界模型,LS-Imagine 能夠在龐大的狀態空間中高效進行策略探索。
此外,引入基於目標的跳躍式狀態轉換和功用性圖,使得智慧體能夠更好地理解長期價值,從而提升其決策能力。
實驗結果表明,在 Minecraft 環境中,LS-Imagine 相比現有的方法取得了顯著效能提升。這不僅凸顯了 LS-Imagine 在開放世界強化學習中的潛力,同時也為該領域的未來研究提供了新的啟發。
論文的程式碼、checkpoint、環境配置文件均有提供,歡迎大家 GitHub star、引用。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·1


相關文章