智元曝光「機器人大模型」,但真正的核心,並不是機器人!


機器人行業,也在期待自己的「ChatGPT 時刻」。

作者|周永亮


編輯|靖宇

3 月 7 日晚,智元機器人聯合創始人「稚暉君」(彭志輝)在微博上扔下了一顆「預告炸彈」——「下週有好東西釋出」。短短一句話,迅速引爆全網,閱讀量飆升至 10 萬+。
結果,3 月 10 日上午,智元機器人就揭曉了謎底——Genie Operator-1(GO-1),智元首個通用具身基座大模型亮相。影片中,機器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成問題。官方宣稱,GO-1 不僅具備強大的泛化能力,還能在極少數據甚至零樣本的情況下,迅速適應新場景和新任務
早在 2024 年底,智元就推出了 AgiBot World,一個包含超過 100 萬條軌跡、涵蓋 217 個任務、涉及五大場景的大規模高質量資料集。正是基於這一龐大的「資料金礦」,GO-1 才能在短時間內實現高效訓練和廣泛泛化。可以說,AgiBot World 是 GO-1 背後的「隱形英雄」。
那麼,GO-1 這個機器人基座大模型的實際表現究竟如何?它對機器人行業又意味什麼?
01
機器人大模型,來了!
按照官方說法,GO-1 除了拓展機器人的運動能力,更重要的是加強了其AI能力,從而大大增加了機器人的實用價值

透過學習人類影片,GO-1 具備了強大的物體跟蹤能力 | 圖片來源:智元機器人官網截圖

在智元釋出的演示影片中,GO-1 展現了很強的學習能力:透過觀看人類操作影片,它就能快速掌握新技能,並高效應用到實際任務中。比如,影片中展示了 GO-1 強大的物體跟蹤能力:即使水杯被隨意移動,它依然能精準完成倒水動作。
其次,GO-1 展現了非常強的泛化能力。與傳統模型需要海量資料訓練不同,GO-1 僅需百條級資料,就能實現快速泛化。例如,在演示中,GO-1 在完成倒水任務後,無需額外訓練,便能無縫切換到烤麵包並抹果醬的新任務。這種能力不僅展現了 GO-1 對多樣化任務的適應性,更體現了其極簡學習的核心優勢。

GO-1 可以支援不同形態機器人能力遷移,既可以接待嘉賓,也可以製作咖啡 | 圖片來源:智元機器人官網截圖

同時,GO-1 的跨本體能力,為多機器人協作提供了強大的技術支援。在智元釋出的影片中,展示了兩個機器人協同完成複雜任務的場景:一個機器人在前臺接待嘉賓,另一個機器人專注於製作咖啡。這種協作體現了 GO-1 的高效性和適應性。
傳統具身模型通常針對單一機器人本體(Hardware Embodiment)進行設計,導致兩大問題:資料利用率低和部署受限。但GO-1可以賦能多種本體,在不同機器人形態之間快速遷移,顯著提升了資料的利用效率,降低了部署成本
值得一提的是,GO-1 大模型還可以搭配智元一整套資料迴流系統,可以從實際執行遇到的問題資料中持續進化學習。這套系統能夠從實際執行過程中捕捉問題資料,尤其是執行失誤或異常情況,並透過人工稽核和模型最佳化,持續提升 GO-1 的效能。例如,在演示場景中,機器人在放置咖啡杯時出現失誤,系統會立即將相關資料迴流,並針對性地最佳化模型,確保下一次操作更加精準。
同時,GO-1 大模型還為機器人增加了新的語音互動方式,這極大便利了使用者在現實場景中自由表達需求。
02
大模型不重要,資料集才重要
GO-1 神乎其神的背後,來自其不同的模型架構。
GO-1 採用了 Vision-Language-Latent-Action(ViLLA)架構,這一架構結合了多模態大模型(VLM)和混合專家系統(MoE),分為三個協同工作的模組:
VLM(多模態大模型):基於 InternVL-2B,處理多視角視覺、力覺訊號和語言輸入,實現場景感知和指令理解。
Latent Planner(隱式規劃器):透過預測 Latent Action Tokens(隱式動作標記),將網際網路異構資料中的動作知識遷移到機器人任務中,解決高質量真機資料不足的問題。
Action Expert(動作專家):基於 Diffusion Model 生成高頻率、靈活的動作序列,確保精細執行。
業內人士認為,其實GO-1的這個模型架構很簡單,創新之處並不多主要是對已有工作、資料和訓練方式做了大幅整合
相比之前的模型,唯一新增的是一層 Latent Planner(隱式規劃器),但它也就幾層 Transformer,並不複雜。

相比基座大模型,更重要的是資料集  | 圖片來源:智元機器人官網截圖

地瓜機器人技術副總裁隋偉表示,智元的工作直指行業痛點——資料問題,對具身智慧行業有非常好的促進作用。不過,相比大模型,這裡面最有價值的是資料集
據介紹,GO-1 的底層支撐則是一個名為 AgiBot World 的超大規模機器人資料集。據瞭解,AgiBot World 資料集包含超過 100 萬條軌跡,由 100 個真實機器人收集,涵蓋 100 多個真實世界場景和 217 個具體任務。
該資料集基於 AgiBot G1 硬體平臺構建,由 100 多臺同構機器人共同收集,提供高質量的開源機器人操作資料,支援解決多種現實生活場景中的挑戰性任務。最新版本的 AgiBot World 資料集,包含 100 萬條軌跡,總時長達 2976.4 小時,覆蓋 87 項技能和 106 個場景。
同時,AgiBot World 超越了實驗室環境中的基本桌面任務(如抓取和放置),專注於涉及雙臂操作、靈巧手和協作任務的現實場景。
與行業內現有的資料集(Open X-Embodiment)相比,智元的資料在數量上更為龐大,且資料質量、規範性和一致性更好。 Open X-Embodiment 資料集包含很多不同形態的本體,資料的形態差異性較大,會給模型的訓練帶來極大地干擾。

GO-1 成功率大幅領先,平均成功率提高了 32%,但仍未引發能力的質變 |  圖片來源:智元機器人官網截圖

不過,雖然智元的資料集已經有一定規模,仍只是一小步的起點,並未帶動機器人能力的顯著提升。
測試結果顯示,GO-1 的表現比之前模型已經提高了很多,但在倒水(Pour Water)、清理桌面(Table Bussing)和補充飲料(Restock Beverage)的成功率最高仍不到 80%。
隋偉表示,目前階段,模型並不是機器人行業的核心瓶頸。真正的挑戰在於兩個方面:首先是硬體的收斂問題,例如夾爪、靈巧手、觸覺感測器等仿生設計尚未形成標準化;其次是因為本體無法大規模推廣,導致資料量始終存在不足。
目前,在資料採集方面,機器人業內主要依賴遙操作技術,包括虛擬現實(VR)裝置、同構揹帶式裝置以及運動捕捉裝置等。然而,機器人行業的資料採集成本較高,且缺乏明確的商業價值支撐,這導致資料閉環的飛輪難以快速運轉。
相比之下,自動駕駛行業的資料採集成本幾乎可以忽略不計,其透過車載感知系統能夠源源不斷地回傳資料,形成了高效的資料閉環。
在 GO-1 釋出影片的最後,大家發現了一個彩蛋——智元機器人預告了下一個具身智慧機器人產品,儘管具體時間尚未公佈。然而,緊接著稚暉君在微博上發文稱,「明天還有驚喜」,這一訊息瞬間讓業界再次充滿了期待感。
大模型的興起,讓 AI 行業獲得了爆發式進化。大模型對於機器人和具身智慧行業,到底能有這樣的促進作用,也讓人們格外好奇。智元和創始人稚暉君的 GO-1,看起來是個很好的起點,顯然具身 AI 很難由一家公司獨立完成,只有開源合作,才有可能真正實現機器人行業的快速進化。
*頭圖來源:智元機器人官網截圖
本文為極客公園原創文章,轉載請聯絡極客君微信 geekparkGO
直播預告
在裝修時,許多人曾對全屋智慧系統充滿期待,卻因安裝複雜和效果不顯著而放棄。智慧家居本該讓生活更便捷,卻往往成了「負擔」。如何避免踩坑,輕鬆搞定裝修呢?
在理想造車 7 年後,原理想汽車聯合創始人、前總裁,現棲息地創始人兼CEO 沈亞楠,開始用造車的思維,重新定義智慧家居。
本週二晚 8 點,極客公園影片號直播間,對話沈亞楠,來聊聊:用造車的方式「造家」,可行嗎?

更多閱讀


相關文章