AllinVLM！華為諾亞推出記憶增強的VLM決策方案Mem2Ego，重新整理具身導航SOTA記錄

隨著 LLMs 和 VLMs 的快速發展，它們在具身任務中的應用獲得更多重視。在具身導航任務中，已有的基於 LLM 的方法通常將語義地圖等全域性資訊轉換為語言描述來協助導航，但是這種基於語言描述的方法會導致環境空間資訊的缺失，限制了智慧體在複雜空間環境中的表現。

基於 VLMs 的導航策略直接將第一視角影像作為輸入，依賴 VLMs 的空間感知和推理能力進行導航決策，但是此類方案往往缺乏對全域性資訊的感知能力，影響導航效率。

華為諾亞方舟實驗室的研究人員們提出了一種基於視覺語言模型（VLMs）的導航框架 Mem2Ego，透過自適應檢索全域性記憶模組中的任務相關線索，並將這些線索對映到智慧體的第一視角影像中，從而增強智慧體的環境感知和決策能力。該方法能夠動態地對齊全域性語義資訊與區域性感知，從而最佳化導航路徑並提升長序列任務的執行效率。

實驗結果顯示，該框架在效能方面優於現有的長序列導航 SOTA 基線方法。透過消融實驗，研究人員們驗證了各個元件的必要性。此外，論文提出了自動化資料採集方法，透過監督微調可以大幅提高 Llama3.2-11B 模型的能力，在物品導航任務上的表現超過了原始 Llama 模型和 GPT-4o。

論文標題：

Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation

論文地址：

https://arxiv.org/pdf/2502.14254

Mem2Ego 框架描述

此研究專注於目標導航（Object Navigation）任務。在該任務中，智慧體需要從一個未知環境中的隨機位置出發，找到並導航至目標物體（記作）。智慧體在初始狀態沒有地圖資訊，必須完全依賴自身的感知輸入進行導航。

上圖展示了 Mem2Ego 方法的整體流程。基於 VLM 的導航依賴於一個記憶模組，該模組由三種不同型別的記憶組成：

邊界地圖（frontier map）：記作，邊界（frontier）為已探索過區域與未探索過區域的界線。邊界地圖已被證明在目標導航任務中對環境探索具有重要作用。該邊界地圖將在整個導航過程中持續維護。

地標語義記憶（Landmark Semantic Memory）：記作，地標語義記憶用於儲存智慧體過去見過的地標資訊。每條記錄包括地標的世界座標以及地標附近的語義資訊（例如周邊物體或環境裝飾紋理等）。這些地標描述由 VLMs 自動生成。

訪問記憶（Visitation Memory）：記作，訪問記憶用於記錄智慧體已訪問的地標。透過維護已訪問位置的記錄，該模組能夠防止重複探索並提升整體探索效率。

在每個時間步，基於影像觀察和上述三種記憶資訊，Mem2Ego 導航過程可表示為：，其中為 VLM 選擇出的下一移動目標點。具體流程如下：

全景圖生成：在環境初始化或智慧體到達新位置後，它透過旋轉視角獲得前後左右四張 RGB-D 影像，並拼接成 360 度全景影像。相較於依賴單視角影像的導航方法，全景觀察能更好地利用智慧體的空間認知和場景理解能力。

邊界點和訪問點投影：基於智慧體的位置和當前深度影像（depth image），透過聚類邊界區域（frontier）樣本點，生成候選點集合。同時從訪問記憶中提取已訪問位置。候選點和已訪問點的世界座標被投影到第一視角影像，生成帶有標註資訊的全景觀察影像。

全域性記憶檢索：智慧體可以從地標語義記憶中檢索和任務最相關的前k個地標，作為備選目標點。如果帶有標註資訊的全景影像中缺少合適的導航目標，智慧體可以從這些視野之外的地標中選取目標位置。

記憶增強的決策：VLM 使用帶有標註資訊的全景影像和檢索出的視野外地標來選擇下一個目標位置。VLMs 透過 Chain-of-Thought（CoT）推理策略進行思考，並最終輸出選定的目標點：。

動作執行：選取的目標位置點被轉換回世界座標系，智慧體利用最短路徑演算法導航至目標位置，並在每次移動或調整視角時執行目標檢測。如果目標物體被檢測到並且智慧體成功抵達目標物體，任務判定成功，否則繼續探索直到達到最大步數。

記憶更新：在導航過程中，智慧體會更新記憶資訊：1）地標語義記憶更新：VLM 生成全景影像中所有標記的描述，並將其與對應的世界座標存入地標語義記憶；2）訪問記憶更新：智慧體的最新位置被新增到訪問記憶，以避免重複探索；3）邊界地圖更新：利用沿途捕獲的 RGB-D 影像持續更新邊界地圖。

SFT監督微調資料採集

為了最大限度地提升 VLMs 在物品導航任務中的表現，研究者們設計了自動化訓練資料採集流程，用於 VLM 模型 SFT 監督微調。

目標類別擴充套件：研究者們從 HSSD 場景中收集 40 個新的目標物品類別，而非原始 HSSD 資料評測集的 6 類目標物品，以提升模型的泛化能力。

資料自動化標註：研究者透過 A* 演算法計算出智慧體初始位置到目標物品的軌跡真值，用 Bézier 將曲線平滑處理之後，將目標點畫素位置標註到當前視野圖片中。同時根據當前視野圖片的地板邊緣生成其他候選點。

VLM 微調資料生成：1）標記描述資料：使用 GPT-4o 生成地標周邊的環境描述；2）目標點選擇資料：基於 GPT-4o 以及真值標註，生成合理的推理資訊，並使用兩階段 Prompt 策略確保推理的準確性。

最終，研究者們從 104 個場景和 5678 個目標導航任務中生成了 30352 組視覺問答（VQA）資料，並使用該資料對 Llama3.2-11B-Vision 進行微調。模型訓練 3 個 Epoch，學習率設為 1e-5，Batch Size 為 128。

實驗效果&分析

3.1 實驗設定

不同方法都在 Habitat 3.0 模擬環境中進行評估，智慧體的動作空間包括：前進、左轉、右轉和停止，其中每步前進 0.25 米，轉向角度為 30 度。運動控制使用了 Habitat 內建的 Shortest-Path Follower。預設情況下，每個任務的最大步數限制為 500 步。

由於 Habitat 模擬環境中的影像質量有限，當前先進的感知模組（如 GroundingDINO）在此模擬圖片中效能不佳，本研究選擇使用 Habitat 內建的語義真值，並結合物體尺寸條件作為感知模組。在此設定下，可以假設感知模組的效果足夠可靠。本研究使用的 VLM 為 GPT-4o 和 Llama3.2-11B。

本研究的方法在以下兩個目標導航資料集上進行了評估：

Habitat Synthetic Scenes Dataset（HSSD）：使用 HSSD 驗證集來評估方法效能。HSSD 包含 41 個場景和 6 類目標物體：椅子、沙發、盆栽、床、馬桶和電視。為了保證任務的多樣性，選擇每個場景-目標物品組合中的一個初始位置。在篩除錯誤實驗集（例如智慧體的初始位置在空中）後，最終評估的實驗集數量為 213 個任務。

HSSD-Hard：由於部分 HSSD 任務較為簡單，智慧體可以在短時間內找到目標物體，研究者們建立了更具挑戰性的 HSSD-Hard 資料集。該資料集是從 HSSD 任務中篩選出搜尋距離較長的任務構成的。具體而言，研究者們計算了每個任務中智慧體起始位置到目標物體的距離，並選取搜尋距離最長的前任務，最終構成 HSSD-Hard 資料集，總計包含 102 個任務。

3.2 與SOTA基線比較

本研究與下列 SOTA 基線進行比較：PIVOT、LFG、VLFM、InstructNav 和 VLMNav。為了確保公平比較，所有實驗均在相同條件下進行。評估各方法的效能的指標為：成功率（Success Rate, SR）和路徑長度加權成功率（Success Weighted by Path Length, SPL）。

其中，SR 反映了智慧體找到目標物體的總體能力，而 SPL 衡量導航過程的效率。需要注意的是，這兩個指標並不完全相關，因為某些方法可能透過犧牲導航效率來提高成功率。如上表所示，在 HSSD 資料集上，本文方法達到了0.8685 的 SR 和 0.5788 的 SPL，均超越其他基線方法。

相比 HSSD，HSSD-Hard 資料集中的任務更具挑戰性，因為目標物體的搜尋距離較長，需要智慧體執行更多步驟。如上表所示，所有方法在 HSSD-Hard 上的效能均有所下降，但不同方法受影響的程度不同。

值得注意的是，本文的方法在這些更困難的場景中優勢更加明顯，其 SR 比次優的基線方法（PIVOT）高出 12.75。此外，本文方法在 SPL 指標上也優於所有其他方法，進一步凸顯了其導航效率。這些結果充分驗證了此方法在應對複雜導航任務中的有效性和魯棒性。

在本文的方法中，大多數失敗的案例是由於達到最大允許步數。這種情況可能由 VLM 選擇了次優位置或任務本身極具挑戰性導致。此外，研究者們還觀察到，即使是最先進的 VLM（如 GPT-4o），偶爾也會出現視覺幻覺（visual hallucinations），例如會選擇一個影像或 Prompt 中不存在的目標點 ID。

3.3 監督微調後模型效果

為了評估所使用的 VLM 的影響，本文在測試了不同 VLM 在 Mem2Ego 框架下的表現。如上表所示，原始 Llama3.2-11B 模型的表現遠不及 GPT-4o。鑑於兩者在模型規模和訓練資料上的巨大差異，較小的開源 VLM 在效能上遜色於 GPT-4o 這樣的閉源模型並不令人意外。

失敗案例分析顯示，Llama3.2-11B 更容易產生視覺幻覺，並且在指令遵循方面存在困難，尤其是在導航目標點的選擇和周邊環境描述上。這可能是因為 Llama3.2-11B 缺乏相關的訓練資料，限制了它在這些場景下的泛化能力。

為了提升 VLM 的效能，研究者們使用論文中提出的資料採集方法收集到 30352 組視覺問答（VQA）資料，並對 Llama3.2-11B 進行監督微調。如上表所示，Llama3.2-11B 經過微調後，其效能有了顯著提升，在 HSSD 和 HSSD-Hard 資料集上，成功率和 SPL 均超越了GPT-4o。

這一結果尤為值得關注，因為 Llama3.2-11B 的模型規模遠小於 GPT-4o（11B vs. 約 175B），且訓練和部署成本更低。這凸顯了文中提出的資料收集策略和微調方法的有效性。案例分析表明效能提升主要歸因於增強了模型的指令遵循能力（instruction following）以及提升了基於環境資訊的推理能力。