密室逃脫成AI新考場,通關率不足50%,暴露空間推理短板丨清華ICCV25

清華大學團隊 投稿量子位 | 公眾號 QbitAI
近年來,多模態大模型(MLLMs)發展迅猛,從看圖說話到影片理解,似乎無所不能。
但你是否想過:它們真的“看懂”並“想通”了嗎?
模型在面對複雜的、多步驟的視覺推理任務時,能否像人類一樣推理和決策?
為評估多模態大模型在視覺環境中,完成複雜任務推理的能力。清華大學團隊受密室逃脫遊戲啟發,提出EscapeCraft:一個3D密室逃脫環境,讓大模型在3D密室中透過自由探索尋找道具,解鎖出口。
該論文目前已入選ICCV 2025。

EscapeCraft 環境

沉浸式互動環境,靈感源自密室逃脫

研究團隊打造了可自動生成、靈活配置的 3D 場景 EscapeCraft,模型在裡面自由行動:找鑰匙、開箱子、解密碼、逃出房間……其中每一步都需整合視覺、空間、邏輯等多模態資訊。

任務可擴充套件,應用無限可能

EscapeCraft以逃出房間為最終目的,重點評測逃脫過程中的探索和決策行為、推理路徑等。支援不同房間風格、道具鏈長度與難度組合,還可擴充套件到問答、邏輯推理、敘述重建等任務。它是一個高度靈活、可持續迭代的通用評測平臺,也可以為未來的智慧體、多模態推理、強化學習等方向研究提供基礎環境、資料和獎勵設定方面的支援。
EscapeCraft支援自由定製和擴充套件想要的難度等級。不同難度等級下所需的逃脫步驟有所不同。
為了提高任務的難度,我們將線索放置在了牆上而不是箱子中,考驗模型對於環境資訊的接收和處理能力,除此之外線索在房間的擺放位置也可自由選擇。
在第一個場景中,線索位於靠近出口的牆上,此時GPT-4o的表現更加出色,可以對線索進行正確利用。
不過,當我們把線索移動到距離出口較遠的牆上,GPT-4o開始不斷重複歷史路徑,無法對正確理解和利用線索,導致逃脫失敗。

模型推理和過程評測

Gemini-1.5-Pro 密室逃脫第一視角

這張圖展示了 Gemini-1.5-pro 模型成功逃脫一個房間的全過程。
開始的0到4步,模型原地不動,透過旋轉視角來觀察房間的環境。
它先從右側開始旋轉,一步步檢視房間的不同區域,試圖找到可互動的物體或線索,比如電視、桌子和椅子。
到了第五步,模型將視角對準電視方向,繼續尋找可操作的元素,這時我們可以看到桌上有一把鑰匙。
第六步時,模型前進並拾取了這把鑰匙。拿到鑰匙後,模型表示自己準備轉身面對門,嘗試使用鑰匙。
接下來的步驟中,模型開始朝門的方向移動,意圖解鎖房門。在移動過程中,它多次調整視角,尤其是向上看,試圖確認門的位置。
由於視角偏低,模型一開始沒能看到門,於是不斷微調視角方向來定位門的位置。

從“答對”到“會想”

與傳統只看最終任務結果的評測不同,EscapeCraft 關注整個任務完成過程:模型是否自主探索?有沒有重複犯錯?道具用得對不對?從而真正測試模型的“類人推理過程”。
論文重點彌補以結果為導向的評估缺陷,強調中間推理過程。為此設計了多個衡量視覺感知、多模態推理、環境探索和工具獲取和利用的過程的創新指標:
Intent-Outcome Consistency(意圖與結果一致性):衡量模型與環境的互動結果是否和的模型的互動意圖一致,即模型是否“在正確的位置做正確的事”。
Prop Gain / Grab Ratio / GSR:刻畫模型在探索和推理過程中的行為模式,反映模型的互動質量、推理效率、和智慧程度。
評測結果顯示:GPT-4o 在 Difficulty-3 中僅有 26.5% 的子目標達成是“真正理解後完成的”,其餘大多為偶然成功(比如想拿電視卻誤抓到關鍵道具)。
研究還發現大量有趣失敗案例。例如:
模型面對不可互動的沙發,仍試圖抓取,並在“理由”中解釋“沙發下可能藏著鑰匙”;
模型原本已經看見了關鍵道具,卻在移動過程中將其“逐步移出視野”,隨後繼續提及該道具卻操作失敗……
團隊據此將錯誤拆分為兩類:
視覺感知錯誤:誤判目標是否可互動,視角控制失敗;
推理邏輯錯誤:目標設定錯誤,或動作與意圖不符。
其中 Claude 3.5 的錯誤中,61.1% 屬於推理問題,38.9% 屬於視覺問題。這說明即便模型“看到了”,不代表它“想清楚了”。
誰能逃離“密室”?模型表現結果對比
單房間逃脫結果統計,包括3個不同難度級別(數值越大越難)。

研究評測了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等熱門模型,發現:
在任務評價指標方面:
GPT-4o 逃脫成功率(ER)最佳,但在任務複雜度提升後仍頻頻出錯;
國產大模型Doubao 1.5 Pro在最簡單的關卡中,逃脫成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet;並且其互動成功率(Grab SR)超越GPT-4o和Claude 3.5 Sonnet;
即使模型逃脫成功率相同,EscapeCraft依然能利用道具獲取率(Prop)、使用步數(Step),互動成功率(Grab SR)和互動率(Grab Ratio)對模型進行比較。
比如,在“Difficult-2”中,Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脫成功率和道具獲取率,但是Gemini 1.5 Pro憑藉較高的互動率,即使它的互動成功率較低,也能透過相對較少的步數成功逃脫;而Claude 3.5 Sonnet雖然互動率低,但每一步互動的成功率較高,體現出該模型完成任務時的“深思熟慮”。
在推理和探索行為方面:
Gemini 和 Claude 常在房間角落“卡住”,空間方向等判斷失誤,空轉失敗;
多數模型容易“反覆抓錯”或“認錯道具”,他們的失敗方式也各有特色:有的不會動、有的亂動、有的只移動不採取互動行動、有的動作對了但“目的不清”……;
子目標達成率雖高,但意圖-結果一致性普遍低下,即“想要和沙發互動,但是意外地拿到鑰匙”;
在多房間設定下,模型能從第一個房間學習到的逃脫經驗有限,僅在兩個房間關卡設定相似的條件下有輔助作用。
專案主頁:https://thunlp-mt.github.io/EscapeCraftGitHub 地址:https://github.com/THUNLP-MT/EscapeCraft論文原文:https://arxiv.org/abs/2503.10042v4
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
專屬AI產品從業者的實名社群,只聊AI產品最落地的真問題

掃碼新增小助手,傳送「姓名+公司+職位」申請入群~

進群后,你將直接獲得:
 👉 最新最專業的AI產品資訊及分析 🔍 
 👉不定期發放的熱門產品內測碼 🔥
 👉內部專屬內容與專業討論 👂
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章