來源丨新智元(ID:AI_era)
與OpenAI分手之後,Figure自研首個模型終於交卷了!
不用ChatGPT,Figure直接把視覺-語言-動作模型(VLA)——Helix裝入人形機器人大腦。
它可以讓機器人感知、語言理解、學習控制,是一個端到端的通用模型。
果然,Figure的一大目標,就是發展家庭機器人。為此,其內部的AI需要像人一樣推理,需要處理任何家庭用品。
「機器人若不實現能力上的飛躍,將無法進入家庭領域」
目前,Helix還主要用於Figure上半身控制,包括手腕、頭、單個手指、甚至軀幹,能以高速率執行復雜任務。
只需一句話,機器人便可以拿起任何物品。
當被要求「撿起沙漠物品」時,Helix會識別出玩具仙人掌,選擇最近的手,並執行精確的電機指令以牢固地抓住它。

還有生活中各種小物件,比如金屬鏈、帽子、玩具等等,它皆精準「拿捏」。

快看,它還會將物品放置在冰箱,而且是兩個Figure協作完成。

這是因為Helix是首個同時操控兩臺機器人的VLA,使他它們能夠解決共同的、長序列操作任務,即使是處理從未見過的物品。
有網友表示,這一刻讓我瞬間不寒而慄。

另有網友表示,「這非常令人印象深刻」,甚至有人馬上想要買兩臺體驗一下。



值得一提的是,新款模型採用單一神經網路權重學習所有行為,無需任何特定的微調。
而且,它還是首款完全在嵌入式低功耗GPU上執行的VLA,未來商業部署,甚至走入家庭近在咫尺。
Helix:通用視覺-語言-動作模型
家庭環境是機器人技術面臨的最大挑戰。
與可控的工業環境不同,家庭中充滿了無數物品——易碎的玻璃器皿、褶皺的衣物、散落的玩具——每個物品都有著不可預測的形狀、尺寸、顏色和質地。
要想讓機器人在家庭中發揮作用,它們需要能夠生成智慧化的新行為來應對各種情況,特別是對於那些此前從未見過的物品。
如果沒有質的飛躍,當前的機器人技術將無法適應家庭環境。
目前,僅僅教會機器人一個新行為就需要大量人力投入:要麼需要博士級專家花費數小時進行手動程式設計,要麼需要數千次示教。
考慮到家庭環境問題的龐大性,這兩種方法的成本都高得難以承受。

圖1:不同機器人技能獲取方法的擴充套件曲線。在傳統啟發式控制中,技能的增長取決於博士研究人員的手動程式設計。在傳統機器人模仿學習中,技能隨資料採集量擴充套件。而採用Helix技術,只需透過自然語言即可即時定義新技能
但在人工智慧的其他領域已經掌握了即時泛化的能力。
如果我們能夠將視覺語言模型(Vision Language Models,VLM)中捕獲的豐富語義知識直接轉化為機器人動作,將會帶來什麼改變?
這種新能力將從根本上改變機器人技術的發展軌跡(圖1)。
突然間,那些曾經需要數百次示教才能掌握的新技能,現在只需透過自然語言與機器人對話就能立即獲得。
關鍵問題在於:我們如何從VLM中提取所有這些常識知識,並將其轉化為可泛化的機器人控制?Helix的構建正是為了跨越這一鴻溝。

首創「系統1,系統2」VLA
團隊表示,Helix是首個由「系統1,系統2」組成的VLA,可以實現人形機器人上半身的高速精確控制。
先前的VLM主幹網路具有通用性但速度不快,機器人視覺運動策略速度快但缺乏通用性。而Helix透過兩個系統解決了這個難題,兩個系統經過端到端訓練,並可以相互通訊:
-
系統2(S2):VLM主幹網路,經網際網路規模資料預訓練,工作頻率7-9Hz,用於場景和語言理解,可對不同的物體和場景進行泛化。
-
系統1(S1):80M引數交叉注意力Transformer,依靠一個全卷積的多尺度視覺主幹網路進行視覺處理,該網路在模擬環境中完成預訓練初始化。
這種解耦架構讓每個系統都能在最佳時間尺度上執行,S2可以「慢思考」高層目標,S1透過「快思考」來即時執行和調整動作。
例如,在協作中,S1能快速適應夥伴機器人的動作變化,同時維持S2設定的語義目標。

Helix的設計相較現有方法具有以下幾個關鍵優勢:
-
速度和泛化能力:Helix不僅達到了專門針對單任務行為克隆(behavioral cloning)策略的執行速度,還能夠對數千個全新測試物件實現零樣本學習。
-
可擴充套件性:Helix能夠直接輸出高維動作空間的連續控制,避免了先前VLA方法中使用的複雜動作token化方案。這些方案雖然在低維控制設定(如二指夾爪)中取得了一定成功,但在高維人形機器人控制中面臨擴充套件性挑戰。
-
架構簡單:Helix採用標準架構——系統2使用開源、開放權重的視覺語言模型,系統1則採用簡單的基於Transformer的視覺運動策略。
-
職責分離:透過S1和S2的「解耦」,能夠獨立迭代最佳化每個系統,無需受限於尋找統一的觀察空間或動作表示。
模型和訓練細節
資料
研究人員收集了一個高質量的、多機器人、多操作員的多樣化遙操作行為資料集,總計約500小時。
為了生成自然語言條件下的訓練對,他們使用自動標註VLM來生成回顧性指令。
VLM會處理來自機器人板載攝像頭的分段影片片段,提示詞是這樣的:「如果要實現影片中看到的動作,你會給機器人什麼指令?」
為了防止資料干擾,所有訓練中使用的物品都被排除在評估之外。
架構
這個系統主要包括兩個主要元件,S2(VLM主幹網路)和S1(基於潛層條件的視覺運動Transformer)。
S2建立在一個經過網際網路規模資料預訓練的7B引數開源開放權重VLM之上。它處理單目機器人影像和機器人狀態資訊(包括手腕姿態和手指位置),將這些資訊投影到視覺-語言嵌入空間中。
結合指定期望行為的自然語言命令,S2會將所有與任務相關的語義資訊提煉為單個連續潛層向量,傳遞給S1用於條件化其低層動作。
其中S1是一個80M引數的交叉注意力(cross-attention)編碼器-解碼器Transformer,負責低層控制。它依賴於一個全卷積的多尺度視覺主幹網路進行視覺處理,該網路完全在模擬環境中預訓練初始化。
雖然S1接收與S2相同的影像和狀態輸入,但它以更高的頻率處理這些資訊,以實現更快速的閉環控制。來自S2的潛層向量被投影到S1的token空間,並在序列維度上與S1視覺主幹網路的視覺特徵連線,提供任務條件。
S1以200Hz的頻率輸出完整的上半身人形機器人控制訊號,包括期望的手腕姿態、手指彎曲和外展控制,以及軀幹和頭部方向目標。
另外,團隊還在動作空間中,附加了一個合成的「任務完成百分比」動作,讓Helix能預測自己的終止條件。這樣,多個學習行為的序列化就更容易了。
訓練
Helix採用完全端到端(end-to-end)的訓練方式,將原始畫素和文字命令對映到連續動作,使用標準迴歸損失。
梯度透過用於條件化S1行為的潛在通訊向量從S1反向傳播到S2,實現兩個元件的聯合最佳化。
Helix不需要任務特定的適配;它保持單一訓練階段和單一神經網路權重集,無需獨立的動作輸出頭或每個任務的微調階段。
在訓練過程中,研究中還在S1和S2輸入之間添加了時間延遲。這個延遲經過校準,以匹配S1和S2在部署推理延遲之間的差距,確保部署期間的即時控制要求在訓練中得到準確反映。
最佳化的流式推理
因為這種訓練設計,Helix就能在Figure機器人上進行高效的模型並行部署了,每個機器人都配備了雙低功耗嵌入式GPU。
其中,推理流程在S2(高層潛規劃)和S1(低層控制)模型之間分割,各自在專用GPU上執行。
S2作為非同步後臺程序執行,處理最新的觀察資料(機載相機和機器人狀態)和自然語言命令。它會持續更新共享記憶體中的潛在向量,用於編碼高層行為意圖。
而S1作為獨立的即時程序執行,能維持平滑的整體上半身動作所需的關鍵200Hz控制迴圈。它會同時接收最新的觀察資料和最近的S2潛在向量。
S2和S1推理之間固有的速度差異,自然會導致S1以更高的時間解析度處理機器人觀察資料,為響應式控制建立更緊密的反饋迴圈。
這種部署策略有意模仿訓練中引入的時間延遲,最小化訓練和推理之間的分佈差異。非同步執行模型允許兩個程序以其最優頻率執行,因此能以與最快的單任務模仿學習策略相當的速度執行Helix。
結果
精細化VLA全上半身控制
Helix以200Hz的頻率協調35個自由度的動作空間,控制從單個手指運動到末端執行器(end-effector)軌跡、頭部注視和軀幹姿態的所有動作。
頭部和軀幹控制帶來獨特的挑戰——當它們移動時,既會改變機器人的可達範圍,也會改變它的可視範圍,形成傳統上容易導致系統不穩定的反饋迴圈。
機器人在調整軀幹以獲得最佳可達範圍的同時,用頭部平滑地跟蹤其手部動作,並保持精確的手指控制以進行抓取。
從傳統角度來看,即使對於單個已知任務,在如此高維(high-dimensional)的動作空間中實現這種精度一直被認為是極具挑戰性的。
目前,還沒有VLA系統能夠在保持通用泛化能力(適用於不同任務和物體)的同時,展示出這種程度的即時協調控制。

零樣本學習多機器人協調
研究人員在一個具有挑戰性的多智慧體(multi-agent)操作場景中將Helix推向極限:兩臺Figure機器人之間的協作式零樣本學習雜貨儲存任務。
結果顯示,機器人成功操作了在訓練中從未見過的雜貨,展示了對不同形狀、尺寸和材料的強大通用泛化能力。

此外,兩個機器人使用完全相同的Helix模型權重(model weights)執行,無需針對特定機器人的訓練或明確的角色分配。
它們透過自然語言提示詞來實現協調配合,比如「把餅乾袋遞給你右邊的機器人」或「從你左邊的機器人那裡接過餅乾袋並放入開啟的抽屜中」。
這是首次使用VLA實現多機器人之間的靈活、持續性協作任務,而且機器人能夠成功處理完全陌生的物體,這一成就具有重要的里程碑意義。

「任意物品拾取」能力湧現
研究人員發現配備Helix的Figure機器人只需一個簡單的「拾取[X]」指令就能拾取幾乎任何小型家居物品。
即使在雜亂的環境下,機器人也能成功處理從玻璃器皿和玩具到工具和衣物等數千件前所未見的物品,而這一切無需任何事先示範或定製程式設計。
值得注意的是,Helix成功地連線了大規模語言理解能力與精確的機器人控制系統。
例如,當接收到「拾取沙漠物品」這樣的提示詞時,Helix不僅能識別出玩具仙人掌符合這個抽象概念,還能選擇最近的機械手臂並執行精確的運動指令(motor commands)來穩固抓取它。
這種通用的「語言到動作」抓取能力為類人機器人在複雜且不確定的非結構化環境中的部署開創了激動人心的可能性。

討論
Helix的訓練極其高效
Helix僅需極少的資源就實現了強大的物體識別和適應能力(物體泛化能力)。
研究人員總共使用了約500小時的高質量監督資料(supervised data)來訓練Helix,這僅佔此前收集的VLA資料集規模的一小部分(<5%),而且無需依賴多機器人實體資料收集或多階段訓練。
值得注意的是,這種資料收集規模更接近現代單任務模仿學習(imitation learning)資料集。儘管資料需求相對較小,Helix仍然可以擴充套件到更具挑戰性的完整上肢人形機器人控制動作空間,成功實現高頻率、高維度的輸出控制。
統一的模型權重系統
現有的VLA系統通常需要專門的微調或專用的動作輸出層來最佳化不同複雜行為的效能。
然而,Helix卻能使用單一統一模型就實現了各種任務的出色表現。
僅使用一組神經網路權重(System 2使用70億引數,System 1使用8千萬引數),Helix就能夠完成將物品放入各種容器、操作抽屜和冰箱、協調精確的多機器人交接,以及操作數千種全新物體等多樣化任務。
結論
Helix是首個能夠透過自然語言直接控制整個人形機器人上半身的視覺-語言-動作模型(Vision-Language-Action model)。
與早期的機器人系統相比,Helix能夠即時完成持續性、需要配合的精密操作,而無需任何特定任務示範或大量手動程式設計。
Helix展現出卓越的物體適應能力,只需透過自然語言指令,就能拾取數千種在訓練中從未接觸過的家居物品,這些物品具有各種不同的形狀、尺寸、顏色和材料特性。
這標誌著Figure在拓展人形機器人行為能力方面取得了突破性進展——研究人員相信,隨著機器人在日常家居環境中的應用日益廣泛,這一進展將發揮重要的推動作用。
儘管這些初步成果令人振奮,但這僅僅是揭開了可能性的冰山一角。研究人員熱切期待著將Helix的規模擴大至現有規模的千倍乃至更多時會帶來怎樣的突破。
參考資料:HNYZs
https://www.figure.ai/news/helix


