推理與操控能力雙提升!具身機器人雙系統VLA模型新突破

FiS-VLA團隊 投稿量子位 | 公眾號 QbitAI
讓機器人學會聰明且快速精準執行,一直是機器人操控領域的難題。
為了解決這個問題,香港中文大學、北京大學、智平方和北京智源研究院聯合創新性地提出了Fast-in-Slow(FiS-VLA),即一個統一的雙系統VLA模型
它透過將慢系統2最後幾層的Transformer模組重新構建為一個高效的執行模組,用作快系統1,從而在一個模型中實現了快慢系統融合。
這種創新正規化首次在單一預訓練模型內實現慢速推理與快速執行的協同,突破了傳統雙系統分離瓶頸
從此,系統1不再是“門外漢”,它直接繼承了VLM的預訓練知識,能無縫理解系統2的“思考結果”(中間層特徵),同時自身設計保證其能高速執行。
在真機測試中,研究團隊在AgileX和AlphaBot兩個雙臂機器人平臺上分別設計了8項任務,如“擦黑板”、“倒水”、“摺疊毛巾”等。FiS-VLA成功率分別達到68%和74%,比Pi0模型提升超過10個百分點
此外,FiS-VLA在泛化任務中表現也十分穩健。無論是未見過的新物體、複雜背景干擾,還是光照條件變化,它都能保持50%以上的成功率,而其他模型則普遍出現效能大幅下滑。

方法:首個“ 異構輸入+非同步頻率”雙系統VLA模型

儘管近年來的視覺-語言-動作模型(VLA)開始藉助網際網路規模預訓練的視覺-語言模型(VLMs)提升常識推理能力,但這類模型動輒數十億引數,以及基於自迴歸生成動作的策略,導致在執行速度上往往表現不佳。
受心理學家丹尼爾•卡尼曼大腦快慢雙系統理論的啟發,業界把“雙系統”設計引入VLA大模型,利用基於VLM的慢系統2模組處理高階推理,並使用獨立的快系統1動作模組負責即時控制。
但是,現有的設計是將兩個系統保持為獨立模組,限制了快系統1充分利用慢系統2的豐富預訓練知識,即系統1這個“運動員”很難充分吸收系統2“學霸”的淵博知識。
團隊提出的Fast-in-Slow(FiS-VLA),實現了在一個模型中快慢系統融合。
考慮到FiS-VLA中兩個系統在角色上的根本差異,研究者引入異構模態輸入與非同步執行頻率策略,使得模型既能實現快速反應,也具備精細操控能力。
此外,為提升兩個系統之間的協調性,研究者提出了一種雙系統感知協同訓練策略(dual-aware co-training strategy):一方面為系統1注入動作生成能力,另一方面保留系統2的上下文推理能力。
這樣就有效解決了傳統VLA模型執行頻率低、推理與動作割裂的問題,真正做到“謀動並行”。

在模型評估中,相比於現有的SOTA VLA方法,FiS-VLA在模擬任務中提升了8%的平均成功率,在真實環境下提升了11%,並實現了117.7 Hz 的控制頻率(動作塊大小為8)。
由於系統2與系統1在職責上存在根本差異:系統2負責理解,它處理語言指令和2D影像,提取任務語義,節奏偏慢;系統1負責執行,它讀取機器人狀態、3D點雲和當前影像,生成高頻控制動作,節奏極快。
因此,FiS-VLA對這兩個系統進行了專門設計:它們接收不同模態的輸入,並以非同步的頻率執行
兩套系統雖任務不同,但執行邏輯連貫、資料互通。系統1使用系統2的中間語義表示作為指導,同時結合自身輸入,實現高速精準的動作生成。
為了處理點雲資料,研究者設計了一個輕量級的3D tokenizer。它可以把複雜的空間資訊壓縮成高維token,並透過視覺編碼器提取區域性幾何特徵。這一做法不僅高效,還讓系統1擁有敏銳的空間感知能力。
在系統執行節奏上,FiS-VLA採用非同步頻率設計。系統2慢慢思考,系統1快快執行。比如系統2每跑一次,系統1可以連續執行4次。這種機制讓推理不會成為瓶頸,而動作響應也足夠及時。
值得一提的是,快慢雙系統融合正在成為VLA大模型領域的共識,但在非同步架構的突破設計上,FiS-VLA目前仍是領跑同行。

訓練:“雙系統”協同訓練,相輔相成

訓練過程也很有講究。
FiS-VLA的核心目標是生成精確且可執行的動作,因此特地採用了“雙系統感知協同訓練”策略:
對於執行模組(系統1)使用了擴散建模(diffusion modeling)中機率性與連續性的特點,透過向系統1的嵌入空間注入帶譟動作作為潛在變數,來學習動作生成,具體如下:
給定初始動作序列ãτ,研究者在隨機時間步τ ∼ U(1, T)(其中τ ∈ Z,T = 100)注入高斯噪聲η ∼ N(0, I)。前向過程以閉式新增噪聲:
其中βτ為預定義排程表的噪聲縮放因子。為訓練系統1(π_{θ_f}),將學習過程建模為以下目標的最佳化問題:
其中c表示條件源,包含系統2提取的低頻潛在特徵和系統1的高頻輸入。由於系統1執行模組嵌入在系統2的VLM中,若僅針對擴散動作生成訓練模型,可能導致其自迴歸推理能力災難性遺忘。
因此,研究者提出聯合訓練目標,對於推理模組(系統2)保留其高維推理能力,採用自迴歸逐token預測的正規化作為訓練目標,生成離散的語言或動作,避免慢系統發生災難性遺忘。
以離散動作為例:
其中D_t為離散動作詞元總長度,â_i為第i個真實動作詞元,P(â_i | context, θ)為LLM在輸入上下文和引數θ(θ_f ⊆ θ)下的預測機率。最終整體訓練目標為:
從上面可以看出,兩個系統的目標不同,但訓練是同步進行的。系統1學“怎麼動”,系統2學“想清楚再動”。這種策略避免了模型遺忘系統2的推理能力,也讓兩個系統在統一模型中共同最佳化。
此外,在預訓練階段,研究者用到了超過86萬條機器人任務軌跡,涵蓋多個機器人平臺。FiS-VLA主幹採用的是引數量7B的LLaMA2大語言模型,視覺部分採用了SigLIP和DINOv2編碼器,兼顧語義和空間表達。

效果:模擬&真機成功率提升顯著

在RLBench模擬任務中,FiS-VLA在10個任務上取得了69%的平均成功率,明顯優於CogACT(61%)和Pi0(55%)。尤其值得注意的是,FiS-VLA在10個任務中有8個任務表現優越,突顯了其在動作生成方面的魯棒性。
同時,在控制頻率方面,FiS-VLA在動作塊大小設為1的情況下達到了21.9 Hz的控制頻率,執行速度是CogACT(9.8 Hz)的2倍以上,也比Pi0(13.8 Hz)快超過1.6倍。
消融實驗
為了更細緻地驗證模型設計,研究者進行了多輪消融實驗。
首先測試了系統1在系統2中共享的Transformer塊數量。結果顯示,隨著共享塊數量的增加,操控效能逐步提升,並在使用兩個塊時趨於飽和。
然後考察系統1的輸入模態。實驗表明,機器人狀態、2D影像、3D點雲缺一不可。尤其是3D點雲,在精細動作控制中發揮了關鍵作用。
他們還研究了系統執行頻率的配比。系統2與系統1之間的非同步執行頻率比為1:4時,FiS-VLA取得了最佳效能,在慢速推理與快速動作生成之間達到了理想平衡。這驗證了非同步協調頻率設計不僅提升了動作生成速率,同時也增加了傳遞給執行模組的觀察資訊的豐富度。
為了進一步提升控制效率,FiS-VLA還引入了“動作分塊”機制。即每次預測多個連續動作,而不是逐步推理。這樣做能降低誤差積累風險,同時提升動作連續性。
結果表明,在動作塊設定為8的情況下,模型成功率保持穩定,而控制頻率則飆升至117.7Hz。機器人行為更加流暢,決策更少、執行更穩。
泛化能力
更難得的是,FiS-VLA在泛化任務中表現依舊穩健。無論是未見過的新物體、複雜背景干擾,還是光照條件變化,它都能保持50%以上的成功率。而其他模型則普遍出現效能大幅下滑。

這背後正是快慢系統融合帶來的好處:系統2能夠理解語義,找到任務核心;系統1能夠根據感知迅速反應。二者結合,使模型具備強泛化能力與魯棒性。
目前FiS-VLA的結構仍是靜態配置:Transformer共享層數、系統頻率比都需提前設定。研究者計劃在未來探索動態調參機制,讓模型能根據任務複雜度和環境自動調整執行策略。
這種自適應機制將進一步釋放FiS-VLA的潛力,讓它更接近通用智慧機器人的核心大腦。
總結來看,FiS-VLA不是對已有模型的簡單最佳化,而是一種全新的架構思路。它打通了思考與行動、語義與物理、計劃與執行之間的壁壘。
它不僅讓機器人“會想”,更讓它“快動”;不僅理解複雜任務,還能高頻率完成。
這或許就是未來通用智慧機器人的基礎形態——既有認知大腦,又有靈巧身體,統一於同一個神經系統中。
論文連結: https://arxiv.org/pdf/2506.01953專案主頁: https://fast-in-slow.github.io/程式碼連結:https://github.com/CHEN-H01/Fast-in-Slow
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章