機器人泛化能力大幅提升：HAMSTER層次化方法和VLA尺度軌跡預測，顯著提升開放世界任務成功率

近年來，人工智慧在視覺和自然語言處理方面取得了驚人的泛化能力，但在機器人操作領域，端到端方法往往需要大量昂貴的本域資料，且難以在不同硬體平臺與開放場景下推廣。為此，HAMSTER（Hierarchical Action Models with Separated Path Representations）透過層次化架構，在高層利用域外資料微調的大模型（VLM）生成二維路徑，中間表示解耦了任務規劃與具體執行，讓低層控制模組專注於實際動作控制。實驗表明，HAMSTER 在多種操作任務中都體現出更高的任務成功率與更好的跨平臺泛化效能，並顯著降低了對昂貴機器人演示資料的依賴。

論文標題：HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation
論文主頁：https://hamster-robot.github.io/
論文連結：https://arxiv.org/abs/2502.05485
Demo: http://hamster.a.pinggy.link

HAMSTER 這一研究成果獲得了業界專家的高度評價。谷歌 DeepMind 高階研究科學家 Ted Xiao 在社交媒體上表示：「在構建機器人基礎模型時，超越簡單的自然語言具有巨大的潛力。軌跡是一種很好的實現方式，而HAMSTER已經將軌跡條件策略擴充套件到了VLA模型的規模！祝賀整個HAMSTER團隊。」

1. 背景與挑戰

在機器人操作中，收集真實環境下的演示資料成本往往極高，且對環境設定和硬體平臺有很強依賴性。因此，若要實現開箱即用、跨平臺的機器人操作能力，僅僅依靠本域資料遠遠不夠。另一方面，近年快速發展的多模態大模型（VLM）在視覺與語言理解方面已展現較好泛化能力，可透過微調來適應機器人任務。然而，若讓大模型直接輸出低層動作訊號，通常仍需海量且昂貴的機器人資料，並且在即時控制與不同硬體遷移上存在諸多難點。

HAMSTER 針對上述問題提出了一種層次化思路：讓大模型只負責高層語義推斷與大體軌跡生成，而將精細的動作控制交給低層模組來完成。這不僅能充分利用外部（域外）資料的豐富性，也能在跨平臺環境下保持較強的可遷移性。

2. HAMSTER 的層次化方法

2.1 高層規劃：VLM 生成二維路徑

HAMSTER 的高層使用一個視覺 – 語言模型（VLM）來理解環境影像和語言指令，並輸出 “二維路徑” 這一中間表示。具體來說，二維路徑記錄了末端執行器在影像平面上的運動軌跡以及抓取器的開合狀態。由於該表示與機器人具體關節、動力學特性無關，因而具備以下優勢：

低歧義性、易標註：可以從影片、模擬或其他資料來源中自動提取手部或末端執行器在影像中的運動軌跡。
跨平臺適用性：二維路徑不涉及具體硬體細節，高層模型在不同機械臂或移動平臺上都能保持一致的輸出形式。
豐富表達能力：二維路徑不僅適用於簡單的pick and place任務，還能擴充套件到諸如擦桌子、開抽屜、折毛巾、避障等更復雜的操作場景。

高層模型透過在大量 “域外” 資料上進行微調，學會將視覺與語言資訊轉化為合理的操作軌跡。域外資料包括可從網際網路上獲取的影片、模擬環境裡機器人演示、以及其他機器人平臺的歷史資料等。這樣一來，系統對真實機器人資料的需求量顯著減少，卻能在新環境和新任務中保持較好的泛化能力。

2.2 低層執行：基於路徑的精細控制

得到高層輸出的二維路徑後，低層控制模組才會將其轉化為實際的動作命令，包括抓取、放置等操作。低層通常結合少量本域機器人資料進行訓練，學習如何在真實環境中根據三維資訊即時調整，讓執行軌跡與高層給出的二維路徑對齊並完成任務目標。

這種 “高層規劃 + 低層執行” 的分工，避免了端到端方案對昂貴資料的極度依賴，也利用了大模型的強泛化能力來處理更抽象和複雜的視覺與語言推理問題。

3. 實驗設計與主要結果

研究團隊在模擬環境與真實機器人平臺上對 HAMSTER 進行了多組測試，涵蓋多種型別的操作任務（如抓取、放置、推、按壓等），並在不同的視覺和指令變化條件下，驗證其泛化效能。

泛化能力：由於二維路徑與硬體無關，同一高層 VLM 可以直接遷移到新的環境和硬體設定上，僅需對低層控制做少量適配；在視覺背景、光照條件以及語言指令多樣化的測試中，HAMSTER 依然能夠輸出合理的路徑規劃。由於低層控制只需跟隨高層 VLM 輸出的二維軌跡，所以能將技能泛化到新的任務，對於各類環境變化的魯棒性也更強。
資料效率：高層在海量域外資料上完成微調，而低層只需少量真實機器人演示資料，即可學到足夠的執行能力，顯著降低了對昂貴本域資料的需求。
任務成功率提升：與端到端大模型或傳統模仿學習方法相比，HAMSTER 在多個複雜操作任務上的成功率平均提升約 20%～30%。在一些高難度場景如涉及新物體時，傳統端到端模型成功率不到 20%，HAMSTER 可達 80% 左右。
推理速度與靈活度：高層只需在任務開始時或關鍵節點呼叫一次大模型來生成路徑，避免了在每一步動作都呼叫大模型所帶來的計算開銷。在不犧牲精度的前提下，顯著提升了系統執行效率和靈活性。

4. 未來展望

HAMSTER 在泛化能力和執行效率上展現出顯著優勢，但仍有進一步最佳化的空間，以提升其在複雜環境中的適應性和任務執行能力：

1. 增強軌跡表示與高低層互動

目前的二維路徑難以表達深度、速度、力控制和旋轉角度等資訊，低層模型需依賴額外推斷。未來可探索更豐富的軌跡表示，同時最佳化高低層互動方式，提高資訊傳遞的精度與效率。

2. 實現動態路徑更新

現有高層模型通常在任務開始時生成路徑，缺乏對環境變化（如障礙物、目標位置偏移等）的即時調整能力。未來可引入線上重規劃機制，使系統具備更強的自適應性與魯棒性。

3. 利用大規模人類影片資料

當前高層模型訓練主要依賴機器人資料，而人類演示資料涵蓋更豐富的操作模式和任務型別。未來可探索直接從大規模人類影片訓練 VLM，以提升其對多樣化任務的理解與泛化能力。

隨著機器人基礎模型的發展，HAMSTER 的持續最佳化將進一步提升其在開放世界任務中的泛化能力，並增強跨環境、跨任務的穩定性和擴充套件性。

5. 結語

HAMSTER 透過引入一種易標註且跨平臺友好的二維路徑作為中間表示，成功地將大模型的高層語義推理與底層的精細控制解耦開來，不僅減輕了對昂貴機器人操作資料的依賴，也在開放環境中展現了更強的泛化能力。實驗結果證實，HAMSTER 在任務成功率、資料效率和跨平臺適用性方面都具有顯著優勢。

隨著多模態資料與模型能力的進一步提升，類似 HAMSTER 的層次化架構有望成為未來機器人系統的關鍵思路，在更多真實場景中實現跨平臺、跨任務的通用操作。透過讓高層專注於對任務語義和大致軌跡的推理，而低層則關注具體的運動與執行細節，機器人在可解釋性、可擴充套件性與可靠性上都將邁出堅實一步，為邁向真正的開放世界機器人操作奠定基礎。

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]