MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | PaperWeekly

作者 | 陳翰揚@伊利諾伊大學香檳分校

研究方向 | 多模態大語言模型

▲ EmbodiedBench | 從刷題到搬磚，通用多模態大模型離具身智慧還有多遠？

多模態大語言模型（MLLM）的快速發展，為具身智慧體（Embodied Agent）的實現開闢了新路徑。這類模型不僅能理解複雜的語言指令，還能結合視覺感知進行推理與規劃，展現出解決真實世界任務的潛力。然而，現有研究多聚焦於語言驅動的智慧體設計，對MLLM在具身任務中的能力邊界仍缺乏系統性評估。

我們想要回答：

1. 未來的具身智慧體能否僅依賴通用多模態大模型（MLLM），而不需要任務專用模型？MLLM 是否能夠端到端地完成從高層語義規劃（如“把書放在桌上”）到底層原子動作（如機械臂的移動和旋轉）的全層次任務？這取決於 MLLM 是否具備足夠的通用性和靈活性。

2. 如果無法實現，瓶頸在哪裡？如果現有 MLLM 無法勝任，問題可能出在常識推理、空間認知、長期規劃等關鍵能力上。如何量化這些能力的差距，將是揭示 MLLM 侷限性和改進方向的關鍵。

伊利諾伊大學香檳分校聯合西北大學，多倫多大學，構建了致力於為 MLLM 驅動的具身智慧體提供標準化、多維度評測的框架—— EmbodiedBench：

文章連結：

https://arxiv.org/abs/2502.09560

專案網站：

https://embodiedbench.github.io/

程式碼倉庫：

https://github.com/EmbodiedBench/EmbodiedBench

測試資料：

https://huggingface.co/EmbodiedBench

為了具身任務，我們為什麼需要新的評測基準？

學術界和工業界不乏為優質的，為測試具身任務開發的 benchmark。這些 benchmark 在各自的目標領域給我們提供了精細的測評，但展現了類似的共同點：

1. 任務層次較為單一：

如 LotaBench、VisualAgentBench 等僅支援高層語義任務（如家庭場景規劃），無法評估低層控制能力。
如 VLMBench、GOAT-bench 等專注於低層操作或導航，但缺乏高層任務理解和分解。

2. 多模態支援不足：如 AgentBench、Embodied Agent Interface 等依賴純文字輸入，未充分利用視覺感知。

3. 評估維度單一：多數工作僅關注總成功率，忽視模型在推理、規劃等細分能力上的差異。

4. 現有資料集的質量問題及其改進：當前部分常用資料集存在低質量現象。例如，在 ALFRED 資料集中，標準任務要求操作 “Tomato”（番茄），但語言指令卻指向 “Potato”（土豆）；此外，相似概念（如 “Bottle” 和 “Cup”）的指令描述模糊不清，導致任務失敗並非源於模型能力，而是資料本身。

此外，LotaBench 提供的模擬器也存在侷限性，例如不支援多物品操作，以及正確動作無法成功執行（如將物品放入水槽卻只能放置到邊緣），這些模擬器的問題同樣影響了任務的完成。針對這些缺陷，我們在設計新資料集和模擬器時，透過人工檢查與修復，提升了資料質量與模擬環境的可靠性。

▲ 不同 Embodied-driven Benchmark 在各維度的特點

EmbodiedBench設計：任務維度多樣性，能力維度多樣性

▲ EmbodiedBench 在兩個正交的維度進行分類：（左）任務多樣性；（右）能力多樣性

2.1 同時覆蓋高&低層次任務：

EmbodiedBench 覆蓋了 4 大環境（EB-ALFRED、EB-Habitat、EB-Navigation、EB-Manipulation），共 1128 個測試任務。

高層次任務環境：1. EB-ALFRED & 2. EB-Habitat 環境包含高層次語義任務，強調任務分解與規劃。例如，“把一本書放到桌子上”這樣的家庭場景任務，需要模型理解語義指令並規劃一系列子步驟去完成
低層次任務環境：1. EB-Navigation & 2. EB-Manipulation 環境包含低層次操作任務，要求模型透過原子動作來完成目標。例如導航任務需要透過連續的前進、轉向等底層動作在空間中移動，操作任務需要精確控制機械臂的平移/旋轉來抓取或操作物體。這類任務對模型的感知精度和空間推理能力提出了更高要求。

層次化的動作粒度：透過上述環境的設計，EmbodiedBench 囊括了高層次動作（如拾起/放下物體這樣的宏動作）和低層次控制（如機器人逐步移動和操縱）的任務型別。這樣的多層次任務設定使我們能夠同時評估模型在“大局規劃”和“細節執行”兩個層面上的表現。

2.2 分為六種能力評估：

基礎任務解決：完成基本任務的能力，衡量模型對指令的基本執行力（相當於總體任務成功率的基礎部分）。
常識推理：常識性理解能力。透過將物體名稱替換為常識性描述，考察模型根據常識進行推斷的能力：比如將 cup（水杯）替換為 “a small container to hold water or coffee”。
複雜指令理解：考察當指令中包含複雜和不相關的資訊時，模型提取關鍵指令的能力
空間認知：理解和推理空間關係的能力，包括導航路徑規劃、方位朝向理解，以及對“三維空間中物體位置”的把握。
視覺感知：透過物品的外觀，顏色或者形狀資訊正確識別目標物體的能力。
長期規劃：面向長時間跨度任務的規劃能力。這涉及在需要很多步驟才能完成的任務中保持合理的計劃和順序，不遺漏關鍵步驟。

透過以上六個維度的評估，EmbodiedBench 能夠識別出模型的長處和短板。例如，如果一個模型常識推理得分低，可能意味著它缺乏對日常物理知識的理解；空間認知差則意味著它可能在導航或定位物體方面表現不佳。

視覺驅動的智慧體框架，有效提升低層級任務執行

▲ EmbodiedBench 中提出的視覺驅動的智慧體框架

3.1 輸入什麼

3.1.1 多模態輸入融合

語言指令：使用者或系統透過自然語言發出任務需求（例如“去廚房拿一個蘋果”），提供高層次意圖。

當前幀影像：從視覺感測器或攝像頭獲取的即時畫面，用於識別場景、定位目標和理解環境狀態。

歷史互動：記錄機器人過去的動作執行情況、已經做過的嘗試以及與使用者或環境的互動資訊，幫助機器人保持上下文連續性。

環境反饋：例如動作是否執行成功、是否被阻擋、物體是否可達等。這些反饋讓機器人瞭解執行效果，進而進行動態調整。

3.1.2 視覺增強設計

檢測框標註（EB-Manipulation）

透過 YOLO 等檢測演算法為影像中的物體生成帶有索引的邊界框，幫助機器人精準地識別與定位目標。這樣做能減少對文字描述定位的依賴，成功率可提升 10%-12%。

解析度最佳化

將影像解析度固定在 500×500 畫素，兼顧清晰度和處理速度。如果解析度過低（如 300×300），可能遺漏關鍵細節；如果過高（如 700×700），則會帶來不必要的噪聲和算力開銷。

3.2 如何規劃

3.2.1 Embodied-Aware CoT Prompting

透過“思考鏈（Chain of Thought）”的方式，讓系統依次完成以下四個步驟，實現更符合實際環境的決策。在具體實現中，我們使用 “Structured Json Output” 來規範模型的輸出格式，來保證按順序完成下列推理軌跡：

Visual State Description：描述當前場景中重要的視覺元素，如物體位置、環境佈局等。

Reasoning and Reflection：根據視覺資訊和任務目標進行推理和反思，思考可能的方案以及可行性。

Language Plan：以語言或符號的形式輸出具體的執行計劃，方便後續轉化成可執行命令。

Executable Plan：將上一步的計劃進一步拆分成機器人可執行的動作指令（如移動、抓取、旋轉等）。

3.2.2 多步規劃

一次性生成多步動作序列（例如先移動 5 步，再檢測目標），相比單步更快，減少 API cost，實驗發現還能提高成功率，相比完整 plan 更加靈活，是一種介於兩者之間的一種方案，更適合當前 MLLM agent。

透過各部分的配合（輸入融合、規劃決策、反饋調整），該框架能夠在實際環境中高效地完成多模態指令下的各類操作任務。

GPT-4o 在 EB-Manipulation 上的成功示例：

GPT-4o 在 EB-Navigation 上的成功示例：

實驗：有哪些有意思的發現

4.1 主實驗

在 EmbodiedBench 上，我們對 19 個業界領先的 MLLM 模型進行了系統評測。

這些模型包括知名的閉源大模型（如 OpenAI 的 GPT-4、Google 的 Gemini、Anthropic 的 Claude，阿里巴巴的 Qwen-VL-Max 等）以及引數規模從 7 億到 90 億不等的開源多模態模型（如 Meta 的 LLaMA2-Vision、上海 AI 實驗室的 InternVL 2.5，internVL 2.5 MPO，阿里巴巴的 Qwen-2 VL等）。

經過對這 19 個模型的大量實驗，我們展示以下發現：

▲ 高層次任務（EB-Alfred & EB-Habitat）上的總體表現

4.1.1 高層次任務表現優異，低層次抓取仍是短板：

總體而言，MLLM 模型在高層語義任務上表現出色。例如，給模型一個需要規劃步驟的家庭場景指令，大多數模型都能合理地分解任務並給出接近正確的行動序列。

然而，在低層次物體操作等精細任務上，它們的表現遠不如高層次任務。尤其是涉及機械臂精確操作、連續控制的任務，當前模型的成功率很低。例如，即便是表現最好的 GPT-4 模型，在這些低層次操作任務上的平均成功率也不到 30%。這表明雖然大模型“懂”要做什麼，但在“如何動手做”上依然面臨巨大挑戰。

▲ 低層次任務（EB-Navigation & EB-Manipulation）上的總體表現

4.1.2 長程規劃任務表現不佳，是當前瓶頸：

在所有任務型別中，需要長遠規劃的任務對模型來說最具挑戰。EmbodiedBench 專門設計了需要十幾步乃至數十步行動才能完成的複雜任務來測試模型的長程規劃能力。結果顯示，幾乎所有模型在這類任務上的成功率都大幅下降，遠低於短程任務。這意味著讓模型在較長的時間跨度內保持連貫的計劃仍然是難點。

模型常常在執行一系列步驟後出現策略混亂或遺漏關鍵步驟的情況，難以可靠地完成長鏈條任務。這一發現揭示了當前 MLLMs 在處理長序列決策時的侷限，需要進一步的模型最佳化來提升其“全域性思維”能力。

4.1.3 視覺輸入對低層任務至關重要，對高層任務影響較小：

多模態模型的一個顯著特點是能利用視覺資訊。那麼視覺感知究竟對任務有多大幫助？

實驗透過對比“有無視覺輸入”兩種條件下模型效能，得到的答案是：對於低層次操作任務，視覺資訊幾乎是不可或缺的；但對於高層次語義任務，有無影像輸入影響不大。具體來說，當移除視覺輸入時，模型在導航和操作類任務上的成功率顯著下滑——失去對環境畫面的感知後，它們幾乎無法正確執行動作。

這表明在此類任務中，模型需要從視覺中獲取物件位置、環境狀態等關鍵資訊，才能制定正確的低層行動決策。相比之下，在高層次任務（如家庭場景的指令執行）中，即使不給模型實際的環境影像，模型僅憑藉常識和對指令的理解也能較好地規劃步驟，視覺資訊對成績提升相對有限。

這一發現很有趣地表明：當前大模型解決高層抽象任務時受限於認知和推理能力，而解決低層具體任務時受限於對視覺世界的感知和操作能力。

4.2 視覺資訊的作用

在低層次任務上，我們測試了不同視覺維度對於任務表現的影響，總結為下列發現：

▲ 在 EB-Manipulation 上不同視覺資訊對於任務成功率的影響

最後，基於 EmbodiedBench，我們能做些什麼？

在 EmbodiedBench 中，我們看到了 MLLM 在具身智慧中的很多挑戰：如，高層任務受限於推理與規劃能力，低層任務受限於視覺感知與精細控制，等。期待大家可以在下面的方向繼續推進領域研究：

提升低階任務執行和空間推理能力：現有模型在空間推理和低階控制方面存在不足，未來研究可結合 3D 視覺定位和對齊技術，提升智慧體的精細操作能力。
強化長遠規劃能力：現有智慧體在執行復雜的長步驟任務時表現不佳，未來可研究分層規劃、記憶增強方法和世界模型，以提升長遠規劃和執行能力。
最佳化多步/多視角影像理解：當前模型難以處理多步、多視角的視覺資訊，未來研究可藉助影片預訓練技術提升時間推理和空間理解能力。
改進視覺上下文學習（ICL）：視覺ICL有助於提高智慧體的適應性，無需額外訓練即可增強決策能力，未來研究可探索更高效的方法，使其在具體任務中的應用更廣泛。
訓練多模態智慧體：當前研究主要關注評估，未來可研究如何針對具體任務最佳化 MLLMs，包括預訓練、模仿學習、強化學習等，從而提高其決策能力，並實現端到端學習，使感知、推理和行動自然結合。
提升模型的魯棒性和泛化能力：為了確保在現實世界中的可靠性，未來研究可引入對抗訓練、動態環境生成和領域遷移等方法，以增強智慧體在不同環境下的穩定性和適應性。