
稚暉君(本名彭志輝)曾是“華為天才少年”,以硬核科技影片走紅 B 站,被譽為“野生鋼鐵俠”。2022 年,他放棄百萬年薪,創立智元機器人公司。
創業之後,這位 90 後極客將實驗室的奇思妙想化為現實,先後推出遠征、靈犀兩大系列人形機器人,能倒水、能烤麵包甚至能搬動 40 公斤重物。

圖 | 稚暉君(來源:https://bkimg.cdn.bcebos.com/pic/500fd9f9d72a6059252d4b90b064239b033b5ab50ca2?x-bce-process=image/format,f_auto)
而在最近,他和團隊在機器人軟體方面迎來新進展。其推出 AgiBot World Colosseo,這是一個全棧大規模機器人學習平臺,專門為研發具身系統的雙手操作能力而打造。

(來源:https://agibot-world.com/blog/agibot_go1.pdf)
AgiBot World 和 GO-1,是 AgiBot World Colosseo 的其中兩個主要組成部分。
AgiBot World,是一款機器人學習資料集。最新版的 AgiBot World 包含 1001552 條軌跡,總持續時間為 2976.4 小時,涵蓋 217 項具體任務、87 項技能和 106 個場景。AgiBot World 採用了從場景配置、任務設計、資料收集到人機驗證的全面最佳化流程,資料質量能夠得到一定保證。
GO-1(Genie Operator-1)是一種通用具身基座模型,它利用潛在的動作表示來最大化資料利用率,並能隨著資料量的增加來實現可預測的效能擴充套件。
無論是在域內還是在分佈外場景中,在 AgiBot World 資料集上預先訓練的策略,比在 Open X-Embodiment 上訓練的策略的平均效能提高 30%。同時,GO-1 在真實世界的靈巧操作和長時域任務中也表現不俗,其在複雜任務上的成功率超過 60%,並且比先前的 RDT 方法效能高出 32%。

AgiBot World:包含 3000 多個不同的物件
AgiBot World 是透過一個佔地 4000 多平方米的大型資料收集設施開發而來。該資料集涵蓋了廣泛的場景種類和場景佈局,確保在追求通用機器人策略時既具備規模又具有多樣性。

(來源:https://agibot-world.com/blog/agibot_go1.pdf)
AgiBot World 覆蓋五個關鍵領域:家庭、零售、工業、餐廳和辦公環境。其包含 3000 多個不同的物件,並按不同場景進行系統分類。這些物體涵蓋了各種日常用品,包括食物、傢俱、衣服、電子裝置等。在每個領域內,稚暉君團隊都定義了具體的場景類別。例如,家庭領域包括臥室、廚房、客廳和陽臺等詳細環境,而零售領域則包含貨架單元和新鮮農產品區等不同區域。
AgiBot World 的一個顯著特徵是它強調長期操作。先前的資料集主要集中於涉及單個原子技能的任務,大多數軌跡持續時間不超過 5 秒。相比之下,AgiBot World 建立在由多個原子技能組成的連續完整的任務之上,例如“煮一杯咖啡”。
AgiBot World 中的軌跡通常跨度約為 30 秒,其中一些持續時間超過 2 分鐘。稚暉君團隊還為每個子步驟提供關鍵幀和指令註釋,以便在這種具有挑戰性的場景中進行策略學習。
在任務設計方面,雖然“拾取和放置”等通用原子技能佔據了大多數任務的主導地位,但是該團隊有意加入了一些不常用但是價值很高的技能任務,例如“砍”和“插”。這確保了 AgiBot World 能夠充分涵蓋廣泛的技能範圍,以便為每項技能提供充足的資料,從而支援穩健的策略學習。
為了更有效利用 AgiBot World 以及增強策略的可推廣性,稚暉君團隊還提出一個具有三個訓練階段的分層視覺語言潛在動作(ViLLA,Vision-Language-Latent-Action)框架。

(來源:https://agibot-world.com/blog/agibot_go1.pdf)
對於視覺-語言-動作(VLA,Vision-Language-Action)模型來說,它的動作以視覺語言為條件。而 ViLLA 模型能夠預測潛在動作標記,並以後續機器人控制動作的生成為條件。
具體來說:
在第一層,該團隊透過在網際網路規模的異構資料上,訓練編碼器-解碼器潛在動作模型(LAM,latent action model),將連續影像投影到潛在動作空間中。這使得潛在動作可以作為中間表示,從而能夠彌合一般影像文字輸入和機器人動作之間的差距。
在第二層,這些潛在動作充當潛在規劃器的偽標籤,有助於實現不受具身限制的長時域規劃,並能夠利用預訓練視覺語言模型(VLM,vision-language models)的泛化能力。
在第三層,該團隊引入了動作專家,並將其與潛在規劃師聯合訓練,從而能夠支援靈巧操作的學習。
硬體平臺是 AgiBot World 的基石,這決定了資料質量的下限。為此,稚暉君團隊為 AgiBot World 開發了一個硬體平臺,該平臺包含視覺觸覺感測器、耐用的 6-DoF 靈巧手和人形配置,並具有雙 7-DoF 臂、移動底盤和可調節腰部。
需要指出的是,它的末端執行器是模組化的,可以根據任務要求使用標準夾持器或 6-DoF 靈巧手。而對於需要觸覺反饋的任務,可以使用配備有視覺觸覺感測器的夾鉗。
據介紹,該機器人配有八個攝像頭:一個 RGB-D 攝像頭和三個魚眼攝像頭用於正面觀察,每個末端執行器上安裝有 RGB-D 或魚眼攝像頭,兩個魚眼攝像頭則位於後方。
該機器人能以 30Hz 的控制頻率記錄影像觀察和本體感受狀態,包括關節和末端執行器的位置。
與此同時,該團隊採用了兩種遙作業系統:虛擬現實(VR,Virtual Reality)頭戴式耳機控制和全身運動捕捉控制。
VR 控制器將手勢對映到末端執行器的平移和旋轉,隨後透過反向運動學將其轉換為關節角度。控制器上的拇指杆和按鈕,使機器人底座和身體能夠移動,而觸發按鈕則能控制末端執行器的啟動。
然而,VR 控制器將靈巧手限制為只能執行幾個預定義的手勢。因此,為了更好地釋放機器人的能力,該團隊採用了一種運動捕捉系統,該系統記錄了包括手指在內的人類關節的資料,並能將其對映到機器人姿勢,從而實現更精細的控制,包括控制手指運動、軀幹姿勢和頭部方向。對於完成更加複雜的操縱任務來說,該系統能夠提供必要的姿勢靈活性和執行精度。

GO-1:順利完成“倒水”和“補貨飲料”等任務
前面提到,GO-1 是機器人學習平臺 AgiBot World Colosseo 的另一個重要組成部分。為了驗證 GO-1 的效果,該團隊在幾個不同複雜程度的任務上進行評估,並根據其視覺豐富度和任務範圍進行分類。其中包括:工具使用(擦拭桌子)、可變形物體操作(摺疊短褲)、人機互動(交接瓶)、語言跟隨(補充飲料)等。
此外,該團隊為每個任務設計了兩個看不見的場景,涵蓋位置泛化、視覺干擾和語言泛化,以便開展全面的泛化評估。
部分評估任務包括:
1)“補貨”:拿起零食,放在超市貨架上;
2)“桌面清理”:將桌面碎片清理到垃圾桶中;
3)“倒水”:握住壺柄,提起水壺,將水倒入杯中;
4)“補充飲料”:取出瓶裝飲料,放在超市貨架上;
5)“摺疊短褲”:將平放在桌子上的短褲對摺兩次;
6)“擦桌子”:用海綿清潔桌面上的水。

(來源:https://agibot-world.com/blog/agibot_go1.pdf)
根據每項任務 30 次試驗的平均值得出任務完成得分。其中,10 次試驗在可見的設定中進行,20 次試驗在變化或干擾下進行。
實驗結果顯示,GO-1 的表現明顯優於 RDT,特別是在“倒水”和“補貨飲料”等任務中。其中,“倒水”要求對於物件位置具備魯棒性,“補貨飲料”要求具備視覺魯棒性和指令跟蹤能力。
在 ViLLA 模型中加入潛在規劃器之後,則能進一步地提高 GO-1 的效能,讓 GO-1 的任務完成得分平均提高 0.12。
為了研究預訓練資料的大小和策略能力之間是否存在冪律縮放關係,該團隊使用 AgiBot World alpha、AgiBot World 100% alpha 和 AgiBot World beta 資料集的 10% 子集進行了分析,其中訓練軌跡的數量在 9.2k 到 1M 之間。
在預訓練中,其針對四個可見任務的最終策略的開箱即用效能進行評估。結果發現,該策略的效能與軌跡數量呈現出可預測的冪律縮放關係,皮爾遜相關係數為 r = 0.97。

(來源:https://agibot-world.com/blog/agibot_go1.pdf)

資料集、工具鏈和預訓練模型均已開源
概括來說,AgiBot World 不僅僅是一個新的資料集,它朝著可擴充套件、通用機器人智慧邁出了新的一步,助力機器人能夠應對現實世界的複雜性。目前,資料集、工具鏈和預訓練模型均已開源。眼下,稚暉君團隊正在開發模擬環境,這一環境將與現實世界的設定保持一致,並旨在反映現實世界中的策略部署結果,從而有助於實現快速且可重複的評估。
總的來說,這一系列成果將具身智慧的門檻降至新低,更以開源生態推動行業進化。前有春節期間火遍朋友圈的宇樹科技,今有“天才少年”稚暉君公司的再秀肌肉,人與機器共舞的“百家爭鳴”畫面正在展開。

參考資料:
https://agibot-world.com/blog/agibot_go1.pdf
https://github.com/OpenDriveLab/AgiBot-World
排版:劉雅坤

