

作者簡介:由來自北京大學、香港中文大學、北京智源研究院、智平方的老師同學聯合研究,作者包括博士生陳浩、劉家銘、顧晨陽、劉卓洋,通訊作者為北京大學仉尚航。北京大學 HMI 實驗室長期致力於具身智慧和多模態學習領域的研究,歡迎關注。
快執行與慢思考:
在機器人操控領域,實現高頻響應與複雜推理的統一,一直是一個重大技術挑戰。近期,北京大學與香港中文大學的研究團隊聯合釋出了名為 Fast-in-Slow(FiS-VLA) 的全新雙系統視覺 – 語言 – 動作模型。不同之前的快慢系統 VLA 方法需要初始化 / 引入一個全新的快速執行模組,該方法透過將快速執行模組嵌入預訓練視覺 – 語言模型(VLM)中,實現快慢系統一體化的設計。同時,針對雙系統設計了異構模態輸入與非同步執行頻率的策略,使得 FiS-VLA 既能實現快速動作生成,也具備慢思考能力。該方法在多個模擬與真機平臺上取得了優異表現。最令人矚目的是,FiS-VLA-7B 可以實現高達 117.7Hz 的控制頻率,大幅領先於現有主流方案,展示了其廣闊的實際應用潛力。

-
論文連結:https://arxiv.org/pdf/2506.01953
-
專案主頁:https://fast-in-slow.github.io/
-
程式碼連結:https://github.com/CHEN-H01/Fast-in-Slow
-
PKU HMI 實驗室主頁:https://pku-hmi-lab.github.io/HMI-Web/index.html
研究背景與挑戰:
機器人作業系統的目標是在複雜環境中,依據感測器輸入和語言指令,生成精確有效的控制訊號。雖然近年來大規模的視覺 – 語言模型(VLMs)因其強大的預訓練能力被引入到機器人領域,但其龐大的模型引數和較慢的推理速度,限制了其在高頻控制任務中的實用性。
為此,一些研究引入 Kahneman 的 “雙系統理論”:系統 1 代表快速、直覺式的決策系統,系統 2 代表緩慢但深度推理的系統。在這一理論的啟發下,已有方法嘗試構建雙系統結構,即使用 VLM 作為系統 2 進行任務級理解,再使用額外的策略頭(系統 1)進行動作預測。但現有設計中兩個系統相對獨立,無法充分共享系統 2 的預訓練知識,導致協同效率低下,系統 1 缺乏對系統 2 語義推理結果的充分利用。
Fast-in-slow VLA (如何在慢系統中分化出執行模組)
FiS-VLA 提出一種創新結構,將 VLM 的末端幾層 Transformer 模組直接重構為系統 1 執行模組,嵌入原有系統 2 內部,形成一個統一的高效推理與控制模型。系統 2 以低頻率處理 2D 影像和語言指令,輸出指導特徵;系統 1 以高頻率響應即時感知輸入(狀態、影像和點雲),實現高效動作生成。
此外,FiS-VLA 採用雙系統感知協同訓練策略,一方面利用擴散建模增強系統 1 的動作生成能力,另一方面保留系統 2 的高維語義推理能力,確保整體推理執行的互補性。模型在超 86 萬條軌跡的大規模機器人資料集上預訓練,並在多個現實任務中微調最佳化,顯著提升了任務完成率和控制頻率。

1. 架構設計:FiS-VLA 基於 Prismatic VLM 架構,主要包括以下模組:視覺編碼器(結合 SigLIP 與 DINOv2 兩種視覺編碼器)、輕量級 3D tokenizer(處理點雲並共享視覺編碼器提取空間特徵)、大語言模型(使用 LLaMA2-7B,並將其最後 n 層 Transformer 模組重用於系統 1),以及若干 MLP 模組(用於模態融合和擴散建模)。系統 1 直接嵌入系統 2 中的高維表示空間,使其能繼承預訓練知識並實現高頻執行,整個系統構成 “快中有慢、慢中有快” 的協同結構。
2. 雙系統協作:FiS-VLA 的結構由兩個組成部分構成:一個慢速的系統 2 和一個快速的系統 1,這一設計靈感來源於 Kahneman 提出的雙系統理論。在 FiS-VLA 中,系統 2 會處理與任務相關的視覺觀測(如影像)和語言指令,並將其轉化為高維特徵,這些特徵來自大語言模型(LLM)的中間層。借鑑 “動作塊化” 的方法,FiS-VLA 認識到在時間步 t 的輸入可以為未來若干步的動作生成提供指導,因此 FiS-VLA 將系統 2 的中間層輸出作為一個潛在的條件訊號,為接下來的 H 步系統 1 的動作生成提供約束。相較而言,系統 1 專注於即時動作生成,它在每一個時間步上執行,接收當前的感知輸入並輸出動作,同時也利用週期性更新的來自系統 2 的高維語義理解結果。這樣的行為模式類似於人類的直覺反應,使得系統 1 成為一個高頻率的動作生成模組。為了使兩個系統協同工作,FiS-VLA 研究了它們之間的執行頻率比例,並在消融實驗中測試了不同的動作預測視野,實質上是在探索系統 2 每執行一次,系統 1 應連續執行多少步。在訓練階段,FiS-VLA 採用非同步取樣的方式控制系統 2 的執行頻率,使得系統 1 能夠保持動作生成過程的時間一致性。
另外,FiS-VLA 採用異構模態輸入設計。由於系統 1 與系統 2 在職責上存在根本差異,FiS-VLA 為其設計了異構的輸入模態。系統 2 主要承擔任務理解與語義推理的工作,作為一個在網際網路上以圖文資料大規模預訓練而來的模型,它最適合接收語言指令與 2D 影像,以充分激發其語義建模能力。系統 1 則用於即時生成機器人動作,因此必須接收全面、低延遲的感知資訊輸入,包括當前時刻的 2D 影像、機器人的自身狀態(如關節、位置等),以及透過相機引數從深度圖還原出的 3D 點雲資訊。特別是 3D 資訊對於識別空間關係與實現精細操作至關重要。最終,系統 1 會將這些輸入模態與系統 2 輸出的高維特徵共同融合,作為條件輸入進行動作生成。
3.FiS-VLA 雙系統協同訓練:系統 1 以擴散建模為核心,注入帶譟動作作為訓練變數,實現連續性動作生成;系統 2 則採用自迴歸預測保留推理能力,這兩個訓練目標聯合最佳化 FiS-VLA。訓練採用跨平臺大規模軌跡資料(約 860K 條軌跡),並在微調階段引入子任務語言指令增強任務適應性。
精度、速度、泛化!
1. 模擬測試: FiS-VLA 在 RLBench 模擬任務中平均成功率為 69%,顯著優於 CogACT(61%)與 π0(55%),在 10 項任務中 8 項居首。在控制頻率上,其在動作塊大小為 1 時達到 21.9Hz,是 CogACT 的 2 倍以上。

2. 真機測試:在真實機器人平臺(Agilex 與 AlphaBot)中,FiS-VLA 在 8 項任務中平均成功率分別為 68% 與 74%,遠超 π0 基線。在高精度操控任務如 “倒水”、“擦黑板”、“折毛巾” 等場景下展現顯著優勢。

3. 泛化能力:在泛化測試中,面對未見物體、複雜背景與光照變化,FiS-VLA 準確率下降幅度遠小於 π0,驗證其雙系統架構對視覺擾動的魯棒性。

4. 消融實驗:消融實驗表明,並非共享 Transformer 層數越多,系統 1 效能越強,在共享 Transformer 層數為 2 的時候,FiS-VLA 實現最佳效能;系統 1 接收機器人狀態、影像與點雲三種輸入模態效果最佳;系統 1 和系統 2 協作的最佳頻率比為 1:4;FiS-VLA 在不同 action chunk 值下效能穩定,而控制頻率呈比例提升。特別當單步預測 8 個動作時,理論控制頻率高達 117.7Hz;同時最後作者還研究了 FiS-VLA 的一系列變體(模型輸入的變體)。


5. 真機實驗視覺化


總結與展望:
FiS-VLA 透過在統一 VLM 中嵌入執行模組,創新性地融合推理與控制,實現了高頻、高精度、強泛化的機器人操控能力。作者討論到,未來若引入動態調整共享結構與協同頻率策略,將進一步提升其在實際任務中的自適應性與魯棒性。

© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]