
作者
|週一笑
郵箱
智元機器人釋出了通用具身基座大模型——智元啟元大模型(Genie Operator-1,簡稱GO-1)。
官方影片中展示了機器人透過模仿人類操作,學習並完成各種家務任務,例如倒水、製作吐司早餐等。強調了機器人的物體追蹤能力、智慧跟隨能力,以及透過學習大量人類影片資料來實現快速泛化的能力。

那麼,GO-1是如何實現這些功能的呢?其背後是ViLLA(視覺-語言-潛在動作)架構。
具體來看,該架構由VLM(多模態大模型)+MoE(混合專家模型)組成。其中,MoE裡包含2個關鍵的組成混合專家1 —— Latent Planner(隱式規劃器)和混合專家2 —— Action Expert(動作專家)。將用於場景感知和語言理解的視覺語言模型與用於運動規劃和執行的專家系統相結合。透過在人類操作影片和真實機器人資料上進行訓練,能夠在極少輸入的情況下實現快速泛化。
簡單理解,VLM用多模態大模型InternVL-2B“看懂”和“聽懂”任務,Latent Planner基於大量資料制定動作“藍圖”,Action Expert基於真機經驗執行具體動作。
VLA模型通常基於大型神經網路,利用視覺輸入(如攝像頭影像)和語言指令(如“拿起杯子”)生成動作輸出(如機器人手臂的移動),以執行復雜任務。VLA 模型的興起得益於視覺-語言模型(VLM)和大語言模型(LLM)在機器人任務中的應用。典型例子包括OpenVLA、Helix 和 Pi0,這些模型透過視覺和語言輸入直接生成動作。這些模型表明,透過大規模資料和先進的演算法,機器人已經能夠在一定程度上實現跨任務和跨場景的適應。
與VLA模型直接基於視覺和語言條件生成動作不同,ViLLA透過預測Latent Action Tokens(隱式動作標記),彌合影像-文字輸入與機器人執行動作之間的鴻溝。在真實世界的靈巧操作和長時任務方面表現卓越,超過了已有的開源SOTA模型。
1
資料之困:如何讓機器人“消化”海量網路影片?
相比於網際網路龐大的資料集,帶有明確動作標籤的機器人資料仍然很少。現有的VLA架構由於依賴真機和合成資料,而未能充分利用網際網路影片這一寶貴資源。
這些不同來源、不同格式、不同結構的影片資料,在編碼格式、幀率、解析度、內容型別等方面存在差異,因此在處理時需要額外的適配和最佳化。導致機器人難以直接從影片中學習並執行任務。這種“翻譯”過程涉及動作對映、環境適應等複雜問題,使得機器人迭代成本更高,進化速度更慢。
ViLLA的主要目的是為了利用利用這些影片資源。為此,智元機器人和上海AI Lab的研究人員提出了一種新方法,利用“潛在動作”來捕捉連續影片幀之間的動態關係。這樣,就可以把那些沒有動作標籤的網路影片,以及不同型別機器人的資料,一起用於訓練。
簡單來說,這種方法能從各種不同來源的影片中學習真實世界的物理規律,並把這些知識轉化為通用的機器人操作能力。
智元機器人在2024年末開源了AgiBot World資料集,這是一個大規模、高質量的現實世界機器人資料集,涵蓋了五個應用領域的 217項任務,超過 100 萬條軌跡,被稱為具身智慧的“ImageNet時刻”,GO-1的訓練也利用了這些資料集資料集。

此外,資料方面,GO-1大模型的構建和訓練整合了四種資料型別:透過網際網路大規模純文字和圖文資料使機器人理解特定情境下指令的含義;藉助人類和其他機器人操作影片學習任務的關鍵環節;利用模擬資料模擬不同物體、環境條件下的操作流程以打通整個任務過程;最後,透過真機示教資料,實現精準的操作執行。這種多元資料融合使GO-1能夠從理解任務含義到精確完成實際操作的的能力。
1
GO-1“野心”:智元不想只做一個“造機器人的公司”
一位Robotics行業從業者告訴矽星人,GO-1的亮點是引入了一個Latent空間,從而能夠利用網際網路的大量資料,但是技術路線基本是業內探索過的。“前段時間的Figure的Helix,也是用Latent Code作為語言和動作的橋樑,智元是把這個Latent code給明確化了,也確實是沿著之前的技術路線在走。”
Figure AI的具身大模型Helix 由System 2(S2)和 System 1(S1)組成。S2 是一個預訓練的視覺-語言模型(VLM),負責場景理解和語言理解;S1 是一個快速反應策略,負責將 S2 的輸出轉化為機器人動作。S2 會生成“latent semantic representations”(潛語義表示),S1則將其轉化為“precise continuous robot actions”(精確的連續機器人動作)。
科技博主不是鄭小康也認為,智元新推出的GenieOperator-1(GO-1)與Physical Intelligence去年10月釋出的π0模型存在一些“異曲同工”之處。比如,兩者均為VLM+動作專家模型,能透過視覺語言輸入執行復雜任務。訓練上都結合了網際網路資料與專業資料集——智元使用AgiBot World,PI則採用Open X Embodiment及自有資料。技術路線各有特色:GO-1配備隱式規劃器提升影片學習能力;π0應用流匹配Diffusion變體實現50Hz連續動作輸出,動作更為流暢。

具身大模型GO-1和資料集AgiBot World都是AgiBot World Colosseo的一部分。AgiBot World Colosseo由上海AI Lab與智元機器人聯合推出。主要貢獻在於構建了大規模、高質量的機器人學習資料集,以及開發了利用潛在動作表示的機器人基礎策略,使其能夠在異構資料上進行預訓練。技術報告中也明確提到,團隊試圖為機器人領域提供類似於NLP和CV領域那樣的資料基礎。
其次是推動通用機器人能力的研究。強調了從簡單的實驗室任務向複雜、長期規劃的真實世界任務轉變的重要性。透過覆蓋家庭、零售、工業、餐廳和辦公室等多種真實場景,希望訓練出能夠應對開放環境複雜性的通用型機器人策略。
此外AgiBot World Colosseo透過提供標準化的資料收集管道和人在迴路的驗證機制,建立了一個可靠的平臺來評估不同演算法的效能,使研究更具可比性和可重複性。
最後,根據AgiBot World Colosseo的實驗,模型效能與資料規模之間存在冪律關係,這驗證了“資料規模化”策略在機器人領域的有效性,為未來更大規模的資料收集提供了理論支援。

根據技術報告,GO-1模型在複雜任務中的成功率超過60%,比現有技術高出32%。另外值得關注的是,團隊承諾將整個生態系統開源。目前,資料集、工具鏈和預訓練模型均已開源。
GO-1的釋出也透露出智元這家公司的野心。
“對機器人公司,你如果不做大模型,那是屬於沒有未來的機器人,沒有智慧化,沒有作業能力只是一個硬體。他能做的事情非常有限,所以我們投入非常大的。”智元具身業務部總裁姚卯青在模型釋出後點評到。
作為被大家因硬體創造能力而最初熟悉起來的公司,智元顯然不想變成又一個“傳統機器人公司”,不想只做機器人的本體和硬體產品。今天具身智慧的火熱背後,是AI軟體層面的突破,演算法模型和硬體的結合是一切想象力所在。這也是智元想讓外界注意到的能力。
GO-1這個名稱讓人聯想到AlphaGo這一AI史上的里程碑,這個充滿野心的模型釋出後,要讓這個通用的模型真正變成機器人智慧迭代的關鍵還有很多工作要做,但對智元來說,最重要的是它已經邁出了這關鍵一步。
