與OpenAI分手後,Figure推出具身模型Helix,多個機器人一同做家務

Figure 首個 VLA 模型,有效實現人形機器人上半身高效控制。
作者丨吳華秀
編輯丨陳彩嫻
兩週前,Figure 宣佈停止與 Open AI 的聯姻,並丟下一個預告,將會未來 30 天內推出“人形機器人上從未見過的東西”。
勾起不少人好奇心的 Figure,這回終於丟出了一個重磅:將首個自研具身模型 Helix 裝入機器人Figure。Figure 創始人兼 CEO Brett Adcock 表示,有了大腦 Helix 的加持,機器人能夠拾取任何家庭物品。
影片畫面中,一臺桌子,一臺冰箱,兩個機器人合夥一同整理物品,將它們從未見過的物品挨個分門別類放好。動作全程行雲流水,無比絲滑。
尤其是兩機器人傳遞物品時抬頭的那一對望,讓不少網友直呼機器人彷彿有了意識,“原來這就是心電感應”。
這得益於 Helix 對機器人上半身的全控制,其中涵蓋手腕、軀幹、頭部和各個手指,能夠對機器人上半身進行高速率的連續控制。
同時,影片中還罕見地展示了多個機器人間的協作與配合。“多機協作是一個亮點,不過這次 Figure 機器人之間的協作任務還比較簡單。”一位從業者告訴 AI 科技評論,多機協作的互動和規劃會是一個重要課題,但目前優先順序還是讓單一機器人能真正落地幹活,這也是當下機器人廠商普遍的發力點。
在具體任務的執行上,Figure 表示,只要向機器人發話,機器人便能拾取各種各樣從未見過的家庭用品。比如拾取生活中的各種物品,玩具、杯子等等。
不過,正和其他機器人廠商一樣,目前 Helix 仍還處在比較早期的階段。
1
實現高速上半身控制,達到多機器人協作
Helix 是一個通用的“視覺-語言-感知”(VLA)模型,將感知、語言理解和學習控制統一起來,取得一系列首創:
  • 整個上身控制:首次對人形機器人上半身(包括手腕、軀幹、頭部和各個手指)進行高速率連續控制的VLA。
  • 多機器人協作:首個同時在兩個機器人上執行的VLA,能夠使用從未見過的物品解決共享的遠端操作任務。
  • 拿起任何東西:只需按照自然語言提示,就能拿起幾乎任何小型家居物品,包括數千種它們從未遇到過的物品。
  • 一個神經網路:與之前的方法不同,使用一組神經網路權重來學習所有行為(挑選和放置物品、使用抽屜和冰箱以及跨機器人互動),而無需任何針對特定任務的微調。
  • 已做好商業準備:首款完全在嵌入式低功耗 GPU 上執行的 VLA,可立即進行商業部署。
在對機器人上半身的控制上,Helix 能以 200Hz 頻率協調 35 自由度動作空間,讓機器人的上半身從手指、手腕到頭部的動作流暢高效。頭部與軀幹控制存在獨特挑戰——當頭部移動時,將會改變機器人的接觸距離和視線範圍,以往這種變化會導致機器人不穩定。
影片中,機器人用頭部平穩地跟蹤雙手,同時調整軀幹以獲得最佳範圍,同時保持精確的手指控制以抓握物品。Figure 表示,此前還沒有 VLA 能展示這種程度的實施協調,同時保持多工泛化能力。
Figure 還嘗試了將 Helix 運用在一個高難度多智慧體操作場景中:兩臺 Figure 機器人之間協作實現零樣本雜貨存放。這兩臺機器人都採用了相同的 Helix 模型權重進行操作,不再需要對機器人進行訓練或分配角色,它們之間能透過自然語言進行合作。
如下面影片中所展示的,“將一袋餅乾遞給你右邊的機器人”或“從你左邊的機器人那裡接過一袋餅乾並將餅乾放在開啟的抽屜裡”,兩臺機器人能靈活協同處理問題。
搭載 Helix 的機器人還展現出了強大的泛化能力。只要一個簡單的“拿起 [X]”命令,機器人幾乎能拿起所有的小型家庭用品。在系統測試中,機器人成功處理了雜亂無章的數千件新物品),不需要任何事先演示或自定義程式設計。
更難得的是,Helix 能彌合語言理解與機器控制之間的距離。例如,當指示機器人“撿起沙漠物品”時,Helix 不僅能識別出玩具仙人掌,還能選擇最近的手去抓住物品。這種通用的“語言到動作”的掌握能力,讓機器人部署在非結構化環境中有了新可能。
Figure 創始人 Brett Adcock 表示,團隊花了一年多的時間研發出了 Helix,讓人形機器人無需經過任何訓練、程式碼,就能抓取幾乎任何家庭用品。
2
首創“系統 1、系統 2” VLA,慢思考與快思考
Helix 是首創的“系統 1、系統 2”VLA 模型,可對人形機器人的整個上半身進行高速、靈巧的控制。
先前的方法面臨著一個取捨:VLM主幹網路具有通用性但速度不快,機器人視覺運動策略速度快但通用不足。而 Helix 透過兩個互補的系統解決了這一權衡,這兩個系統經過端到端的訓練,可以實現通訊:
  • 系統 2 (S2):一個機載網際網路預訓練的 VLM,以 7-9 Hz 的頻率執行,用於場景理解和語言理解,從而實現跨物件和上下文的廣泛概括。
  • 系統 1 (S1):一種快速反應的視覺運動策略,將 S2 產生的潛在語義表徵轉化為 200 Hz 的精確連續機器人動作。
這種解耦架構允許每個系統在其最佳時間尺度上執行。S2 可以“慢慢思考”高階目標,而 S1 可以“快速思考”以即時執行和調整動作。
Figure 所採用的分層式的架構具備分而治之的優勢,能對不同任務模組進行獨立最佳化和迭代。目前業內分層式架構和一體式架構並存,後者有 1X Technologies、星動紀元等機器人廠商代表。這兩種方案並無顯著優劣之分,都還在探索階段。
與現有方法相比,Helix 的設計有幾個主要優勢:
  • 速度和泛化:Helix 匹配專門的單任務行為克隆策略的速度,同時將零樣本推廣到數千個新穎的測試物件。
  • 可擴充套件性:Helix 直接輸出高維動作空間的連續控制,避免了先前 VLA 方法中使用的複雜動作標記方案,這些方案在低維控制設定(例如二值化並行夾持器)中已取得一些成功,但在高維人形控制中面臨擴充套件挑戰。
  • 架構簡單:Helix 使用標準架構 – 用於系統 2 的開源、開放權重 VLM 和用於 S1 的簡單的基於變壓器的視覺運動策略。
  • 關注點分離:將 S1 和 S2 解耦,我們可以分別在每個系統上進行迭代,而不受尋找統一的觀察空間或動作表示的限制。
Figure表示,Helix 以極少的資源實現了強大的泛化能力,一共使用了約 500 小時的高質量監督資料來訓練 Helix,僅佔此前採集的VLA資料集的一小部分(<5%),而且不依賴機器人實體收集資料或多階段訓練。
儘管資料要求相對較小,但 Helix 可以擴充套件到更具挑戰性的動作空間,即完整的上半身人形控制,具有高速率、高維度的輸出。
參考連結:https://www.figure.ai/news/helix
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
近期熱門文章

相關文章