人形機器人在過去50多年中的“遲緩發育”,像極了曾經的 AI。
深度學習的概念也早在幾十年前就誕生了,但直到 2009 年斯坦福教授李飛飛釋出影像資料集 ImageNet,科學家們意識到資料對於演算法的重要性,深度學習才拉開了變革與飛速發展的序幕。

而在具身智慧領域,人們同樣在試圖創造“ImageNet時刻”。近幾年,業界多次喊出“ImageNet時刻來了”,但都沒能真實地加速整個行業的發展。沒有高質量的訓練資料,具身智慧的ChatGPT時刻、iPhone時刻——也就是產品的突破點,就還遠未觸及。
要解決資料問題,科研院校、政府機構、服務商、本體廠商等都在其中扮演著重要角色。
開源資料集:聚流成海
在 ChatGPT 橫空出世後,科學家們意識到資料的“大力出奇跡”法則還是很有用的。假如每家機器人、甚至每款機器人的每個場景都單獨用一套資料、訓練一套模型,具身智慧的進展顯然會緩慢得多。

2023 年 10 月,谷歌 DeepMind 聯合 21 個機構收集了 22 個不同型別機器人的資料,並開源了這一資料集 Open X-Embodiment。
這個資料集包含 527 種技能(對應 16 萬個任務),100 多萬條真實機器人軌跡。DeepMind 還在此資料集上訓練了通用機器人模型 RT-X。
但 Open X-Embodiment 是由 60 個已有機器人資料集構建起來的,其中的子資料集在資料格式、資料質量和場景多樣性上都參差不齊,不是特別“好用”。緊接其後,國內外許多機構也紛紛開源了自己的具身智慧資料集。
2024年8月,深圳的鵬城實驗室聯合南方科技大學、中山大學釋出並開源了資料集 ARIO(All Robots In One)。ARIO 有一套針對具身大資料的標準格式,包含 258 個場景序列、32 萬個任務、300 萬個樣例,在資料統一、資料質量、資料規模、場景豐富度上又向前邁進了一步。

南方的研究機構發力了,北方也不甘落後。由優必選、京城機電、小米機器人、亦莊機器人等單位聯合組建的國地共建具身智慧機器人創新中心(位於北京),也聯合北京大學、智源研究院等機構釋出了開源資料集 RoboMIND。
除了這些科研機構,業內領先的機器人廠商也為開源資料貢獻了力量。
2024年12月,由“天才少年稚暉君”創立的智元機器人釋出了開源資料集 AgiBot World,資料來自100個機器人的100多萬條軌跡,覆蓋了5大領域的百餘個真實場景。由於資料全部來源於智元機器人在數千平米訓練場裡的真機操作,該資料集擁有超高的資料質量和資料統一性—— 一個對比是,ARIO 中的資料有較大部分來自開源和模擬。
此外,AgiBot World 有近 90% 的任務為 30s 以上的“長程任務”,不少是由多個動作組合而來的“複雜任務”,而 Open X-Embodiment 則有 78% 是 5s 以內的簡單任務。AgiBot World 的場景範圍也擴大至家居、餐飲、工業、商超、辦公等,而不侷限於實驗室環境。

2025年2月25日,智元機器人進一步開源了 AgiBot Digital World 模擬資料集。
和智元機器人一樣,宇樹機器人也開源了其 G1 機器人操作資料集。
資料對於具身智慧的訓練至關重要,但是否開源則是各家廠商不同的選擇。像波士頓動力的 Atlas,以及特斯拉的 Optimus,它們的資料和程式碼就從未公開。
和大語言模型擁有網際網路上“取之不盡”的龐大訓練資料相比,具身智慧的幾百萬條開源資料就顯得微不足道了。但總歸是聚流成海,各個研究機構和科技廠商的開源資料集還是非常有價值且不可或缺的。
真機訓練:再貴的學費也得交
在真實的環境裡進行真機訓練,仍然是具身智慧獲取資料的重要來源。
上一集我們聊到過,人形機器人真機訓練主要靠人類動作捕捉和人類遙操作。而在每個領域和環節都誕生了不少服務商,成為這場“淘金熱”中的“賣鏟人”。

諾亦騰是一家動作捕捉公司,前十來年的業務都在電影特效、遊戲互動、運動科學、虛擬主播(數字人)、VR等方向上。2023 年下半年開始,隨著具身智慧熱度不斷提升,來自機器人領域的合作隨之激增,諾亦騰合作過的本體廠商包括智元機器人、千尋智慧、Tokyo Robotics 等。
在機器人遙操作領域,最重要的是透過演算法的最佳化減少“Sim2Real Gap”,讓人類的動作更好地對映到機器人本體上。這也是動捕廠商和本體廠商需要共同磨合和訓練的地方。
例如,諾亦騰和智元機器人共同優化了慣性動作捕捉演算法;而機器視覺企業凌雲光則與宇數科技共同研發了光學動作捕捉系統 FZMotion,能夠精準捕捉人體姿態和運動軌跡並直接對映到宇樹 H1 機器人本體上—— H1 在春晚上甩手絹的舞蹈,很可能就是用這套演算法訓練的。
在本體動捕和遙操作之外,還有一些服務商專門提供末端抓夾、機器人雙臂等區域性資料採集遙操作解決方案。另外,與智慧駕駛的發展軌跡類似,人形機器人的資料採集也有相應的資料質檢、資料標註、資料儲存服務商出現——這些共同構成了具身智慧真機資料採集的生態鏈。
為了讓機器人有更好的“學習環境”,機器人本體廠商中的“氪金玩家”會自建大型真機訓練場。智元機器人就搭建了全球最大的機器人資料生產與採集工廠,100臺機器人在這裡跟著人類“帶教老師”學習如何衝咖啡、熨衣服、掃碼結賬等等。它們要透過數百條資料,來學會這樣一個有一定複雜度的技能。

國家部門和地方政府也在自己搭建機器人訓練場。由國家地方共建人形機器人創新中心(位於上海,以下簡稱“國地中心”)建設的全國首個“異構人形機器人訓練場”不久前已投入使用,來自智元、傅利葉、開普勒等十多家公司的100多臺機器人在這裡一起“上學”,跟著人類老師學習特種、製造、民生服務三大領域裡的各種技能。
國地中心首席科學家解釋:“異構”是指不同廠家的機器人在形態、功能、技術架構、應用場景上都存在差異。“把不同廠家的異構機器人放在同一空間執行,就能讓AI意識到,它活在一個多元多樣的物理世界中,從而建立起客觀認知,發育出明辨是非的能力。”
國地中心作為國家級創新中心,除了搭建真機訓練場,更重要的任務就是統一、規範具身智慧機器人的資料標準。2025 年,這個訓練場預計將收集 1000 萬條高質量機器人實體資料,來支撐機器人基礎模型的進化迭代。
模擬訓練:無限拓展現實邊界
真機資料採集雖然質量最高,但成本也最高,並且難以解決機器人“泛化”問題。許多本體廠商和服務商也在同步探索模擬資料採集和訓練解決方案。
比如上文提到智元科技的 AgiBot Digital World,其實是一套開源模擬框架,除了模擬資料集外,還包括專家軌跡生成機制、模型評估工具等,可以實現一系列的具身模擬服務。

在機器人模擬領域,已有許多成熟的模擬平臺供機器人廠商進行物品和場景的建模。但隨著具身智慧近一兩年來的火熱,國內外服務商也紛紛推出了更靈活、更智慧的模擬解決方案。
空間智慧企業群核科技,有一個更為人熟知的產品叫“酷家樂”。在為人形機器人提供空間資料之前,群核科技的主要業務是透過酷家樂在家裝領域提供設計及渲染服務。設計師和業主都可以在平臺上設計自己喜歡的房間裝潢,並完成逼真的渲染。
酷家樂在裝修領域十幾年積累下來的模型資料,現在成了人形機器人最好的訓練“養料”。
群核空間智慧平臺有 3.6 億個 3D 模擬物品模型,並且具有真實的物理性質,比如密度、摩擦力、彈性、阻尼等等。以前,設計師用這個平臺設計人類的家;現在,科學家們同樣可以用這個平臺設計機器人的工作環境——並且保證物理正確。

“物理正確”是機器人模擬訓練中很重要的一點,也是 AI 暫時無法完美解決的難題。OpenAI 釋出 Sora 時,人們先是被“文生影片”的強大創造能力所震撼,但緊接著就發現 Sora 缺少對物理規律的理解。在它生成的錯亂世界裡,牛頓的棺材板砰砰作響。
對於人形機器人來說,真機訓練成本過高,而模擬訓練需要複雜的建模過程——如果 AI 能無限生成一個“賽博世界”就好了。最好這個數字世界能和真實的物理世界一樣運轉,人在地上走、鳥在天上飛、水往低處流、球落到地面會彈起、光遇到鏡面會反射……
這就是世界模型了。
英偉達在今年 1 月 7 日推出世界模型 Cosmos,可以透過文字、影像或影片提示,生成基於物理世界的、高度模擬的虛擬世界。英偉達對此的定義是:“世界基礎模型是一種根據過去發生的事和當前變化來預測未來會怎樣的工具。”

理想情況下,有了 Cosmos,自動駕駛汽車可以根據各種天氣下的路況做出判斷、倉儲機器人可以在不同倉庫設計取貨和搬運路線、人形機器人可以將放滿雜物的桌面分門別類收拾乾淨……而這一切都不需要真機參與,在虛擬世界就可以完成並收穫即時反饋。
Sora 在誕生之時也被 OpenAI 定義為“世界模型”,這一領域隨著具身智慧或者說物理 AI 的發展愈發受到關注。李飛飛創立的 World Labs 正在致力於構建大型世界模型(LWM),谷歌DeepMind 也聘請了前 Sora 核心成員投入到世界模型的研發中。
也許就在不遠的未來,機器人不用再到一個固定的“工位”上打工,而是可以在無限變換的“賽博世界”裡打怪升級、學習技能,再回到物理世界進行實操——聽起來,是不是你也挺想試試的。
擁有“具身智慧”的人形機器人,就像一個剛出生不久的孩子。為了讓它不僅能在過年的時候給親戚朋友們來一場限定表演,還能不斷提升自己的動手能力、學習能力,生長出真正的“智慧”,相關各方都為此“操碎了心”。
從國家到地方、再到各類服務商、以及本體廠商,都在試圖攻克資料訓練的難關,到達質變的“ImageNet時刻”。未來會怎樣?我們將在下一篇文章中聊聊看。

作者:冰點
編輯:臥蟲
封面圖來源:Unsplash
內文配圖來源:Giphy
本文來自果殼,未經授權不得轉載.
如有需要請聯絡[email protected]
