揭秘人形機器人訓練營:24小時端茶、煎蛋、拖地……

▲ 點選藍字,設為星標,以防失聯
機器人巡邏、扭秧歌、煎蛋、進廠打工……
今年春晚之後,
人形機器人從科幻片場走入現實,
一夜成為“賽博頂流”。
宇樹Unitree因太火爆遭斷貨下架,
多家機器人公司宣佈加速出貨,
業界宣佈“2025年有望成為機器人量產元年”。
上海浦東的智元資料集採廠,機器人正在跟人類“學做家務”
來自矽谷的人形機器人Figure02,已經能夠行雲流水地操作一些簡單的家務活
與此同時,全國多地出臺新政
支援具身智慧機器人的產業發展。
在上海浦東,全國首個“人形機器人訓練場”啟用,
透過收集、整理機器人的動作捕捉資料,
給機器人造出更好的“超級大腦”。
姚卯青本科畢業於清華大學,博士畢業於美國南加州大學,曾經是Google和Oracle高階工程師,現在為智元合夥人、具身業務部總裁
國內的人形機器人“進化”到哪一步了?
機器人成為家庭標配,還有多遠?
等機器人養老,現實嗎?
3月初,一條採訪了前谷歌高階工程師、
智元機器人合夥人姚卯青,
姚卯青預測:
“人形機器人走進家庭,還需5年左右時間,
價格最終大概能降到10萬元以內。”
同時,更多的安全和倫理問題也在未來等著我們……
編輯:韓嘉琪
責編:陳子文
新加坡的社交機器人Dexie,上班時“活力滿滿”,下班後“高位截癱”
兩年前,活力女孩“Dexie”空降新加坡的一家養老院,宣佈要成為老年人的新型養老搭子。
Dexie是一個人形機器人,顏值線上,有柔軟觸感的矽膠皮膚,還會把嘴巴嘟成圓圓的“O”字。每天早晨,它都會坐著帶領老人們做健身操,一邊唱歌,一邊拍手。
但其他時間裡,Dexie更像一個“高位截癱”的大號娃娃,只能靠身下的“輪椅”緩緩移動,既無法直立行走,也不能在行動上給予老人幫助。
日本軟銀推出的類人機器人Pepper,情商很高,但不會幹活,2020年正式退役
主打陪伴,一直是過去10年來人形機器人的招牌賣點。2015年,日本軟銀推出主打“類人機器人Pepper,Pepper身高1米2,有靈動的大眼睛、帶獨立關節的5指,腳部是一個能夠平穩移動的輪盤,可以識別人類的情緒、和人類對話,擅長眨眼賣萌。問世之初,Pepper曾在一分鐘內被搶購一空,很多公司、銀行、餐廳都請它當人氣迎賓。
但在2020年夏天,Pepper宣佈停產。上市一段時間後,Pepper的軟肋暴露——可愛但不中用。雖然Pepper擁有看似靈活的手指,但實際的抓握能力很弱,甚至很難平穩地端送一杯水,除了四處移動,跟大家甜言蜜語,很難指望它承擔什麼其他重任。
這是人形機器人曾經不被看好的原因:一個只會給足情緒價值的“社交達人”。
美國波士頓勞力推出的“Atlas”,曾經被稱為人形機器人界的“王者”,但因為苦於商業變現,被公司多次易手
另一方面,人形機器人的研發極度燒錢,不確定性很高、回報週期漫長,初代的人形機器人公司大多都陷入了財政危機,其中就包括於2013年推出過“雙足機器人天花板”Atlas的美國公司波士頓動力。
直到2022年底,ChatGPT的橫空出世讓AI技術發生了質的飛躍,這才給沉寂許久的人形機器人行業重新點燃了希望。
嵌入大語言模型後,機器人有了更強的自然語言與推理能力,不再只是按部就班地執行指令,而是能夠理解人類意圖,像人一樣思考和決策。
宇樹科技的機械狗與機器人
很快,國內的人形機器人企業開始密集生長。智元機器人、銀河通用等新興創業公司成立,小米、蔚來、小鵬等車企紛紛入局,宇樹科技也在這一階段從“機械狗”轉向了“機器人”的研發。
由於整個行業仍在初期探索階段,所以各家公司的技術路線五花八門。有的企業是“造身派”,關注機器人本體,包括電機、感測器、控制器、減速機等硬體;有的公司是“造腦派”,把更多的精力投入在AI模型、軟體演算法上。
宇樹機器人在今年的春晚上表演扭秧歌
機器人長出雙腿雙手,有了“人樣”還遠遠不夠。作為一種通用形態,一個合格的人形機器人必須能夠勝任各種環境裡的各種任務。既不能只是會跳舞的耍寶戲精,也不能只是高情商的對話音箱。
機器人要去完成一件任務,需要的是互動操作的能力,姚卯青告訴一條:“要有對環境的理解和預測,對(空間)幾何的一些理解規劃。”
想象這樣一個場景:小朋友在客廳玩耍打鬧,人形機器人需要把煮好的雞蛋和米粥端到餐桌上,避免把湯汁灑在到處走動的小朋友身上,還要把凌亂的餐桌整理出放菜的空間,最後為孩子們盛粥、剝雞蛋。
電影《機械姬》
這套動作背後,需要機器人能夠感知環境,能預判熊孩子的跑動軌跡;也需要做任務規劃,端菜時同步餐桌整理;還需要恰當好處的力度控制,剝開雞蛋殼卻不會把雞蛋捏碎。
於是,“具身智慧”的概念隨即被提出——人形機器人要用身體感知世界、認識世界、與環境互動。
要獲得這種能力,對機器人的AI能力和硬體基礎都提出了極高的要求。機器人不僅需要發達的“神經”(觸覺感測器),也需要一個能調整重心的腳踝(動態平衡演算法),以及能從摔跤中總結經驗的數字大腦(強化學習的能力)。
而這也意味著,我們期待人形機器人用數年時間追趕人類用上百萬年進化出的複雜智慧。
位於上海浦東的智元資料集採廠,總面積達3000多平方米
在上海浦東,一個3000平米的機器人“訓練基地”裡,一百多臺人形機器人日日夜夜地接受超高強度的集訓。
這些機器人像懵懂的人類幼仔一樣,透過觸控、試錯感知物理世界:在臥室區疊褲子、燙衣服,在廚房炒菜、榨果汁、刷盤子,在客廳插花、拖地板、整理雜亂的桌面……每個機器人身邊都配備了一名“導師”——頭戴VR裝置的資料採集員,他們用手柄遠端示範動作,給機器人示範動作,抓、握、提、拉、倒,一個小動作要不厭其煩地重複200遍左右。
資料集採員耐心“教授” 機器人每一個動作
這是智元的資料採集超級工廠,也是全球唯二規模化的機器人資料採集中心。整個工廠分為5大類場景:家居、餐廳、工業、商超和辦公,總共有100位採集員分日班和夜班教學,此外,還有30多位資料稽核員和10位資料運營管理人員,確保資料的有效性。
一天下來,工廠能夠生產3萬到5萬條真機資料——即透過機器人實操採集到的環境感知、動作軌跡、力學反饋等包含多維度資訊的資料。
有時候,機器人也會“開小差”,水壺沒拿穩、炒菜調料撒多了、花瓶打翻了……數採員就會耐心地給它們糾錯。
機器人在練習刷馬桶
這些機器人訓練成果如何?姚卯青介紹:“現在仍處在比較早期的階段,一個機器人在它見過的桌面上倒水,有90%左右的成功率。”對於它沒見過的場景和物品,機器人可能就會措手不及。另外,這些動作主要還是一些單點的能力,還不太能串起來多種動作。
為了讓機器人擁有在不同場景裡“舉一反三”的泛化能力,採集員要不斷地除錯環境,比如改變光線和光源位置,倒水時更換不同造型的水杯,調整物體擺放的位置等等。
資料採集,是構建機器人“AI能力”(“腦力”)的基礎工程。透過收集視覺、觸覺、關節運動軌跡等多維度物理互動資料,然後再給多模態大模型提供認知養料,最終才能被部署到機器人本體,完成從數字認知到物理執行的閉環進化。
“擎天柱”的資料採集員需要穿戴動作捕捉裝置為機器人採集資料,撰寫日報,時薪高達48美元(約合344元人民幣)
但資料匱乏,是具身智慧機器人發展道路上的最大瓶頸。
姚卯青坦言:“機器人的資料太少了,很難跟大語言模型的數量級去相提並論。”究其原因,是因為大語言模型的訓練依賴的是網際網路上的海量文字,而具身智慧機器人依賴的是真實世界的物理互動資料。比如機器人每學倒一次水,都需要採集員記錄手臂軌跡、握力變化、水溫觸感等多維度資訊。
擎天柱在工廠裝電池
這也意味著真機資料的集採成本高昂。英偉達研究中心的工作人員曾對媒體透露,光讓特斯拉的人形機器人“擎天柱”把電池放進盒子這一個動作,就需要40人的團隊進行資料集採;如果讓擎天柱具備真正的“下廠工作”的能力,需要數百萬小時的資料訓練,花費至少上億美元。
為了解決這個困境,全球有多家人形機器人公司開源了自己的資料集,其中就包括國內的智元、傅利葉等公司,希望能夠推動行業內的技術共享。
智元機器人透過最新的GO-1通用具身基座大模型,可以完成送餐任務
除了“1V1的人類教學”,還有一種價效比更高的培訓方式也在同步進行——透過給機器人“投餵”大量的人類教學影片和圖文,幫助它們理解人類的動作操作。
今年3月,智元機器人釋出了全國首個“通用具身基座大模型”,透過分析人類家務影片,比如觀看短影片網站上的烹飪教程,就可以讓機器人在還未進行實操(零樣本)的情況下,也能推理出一些做飯的簡單常識,比如“水燒開會冒泡”“土豆需要削皮”等等。
本照片由一條編輯部使用AI生成
機器人進家的最大難點在於什麼?
市面上,一些人形機器人的“下半身”發育已經相對成熟,可以跑跳、爬坡、扎馬步,音樂響起,還能來段廣場舞、做後空翻。但這些任務,更像是逢年過節拉家裡的小朋友展示才藝,離真正的日常應用還有十萬八千里。
“上半身”,才是進家幹活的關鍵。姚卯青拆解了上半身操作的兩個難點:對動作的精度要求很高、和物體有複雜的互動。“像做飯、倒水、端茶、開門,有千百種的操作種類,而且上半身的軌跡會非常複雜。而下半身,和物體沒有複雜互動,無外乎就是邁步子這樣一種形態。”
機器人手部的柔韌性、靈活性比起人類還相距甚遠
很多動作,對人類輕而易舉,但對機器人來說卻難如登天。“比如插USB這個小動作,它對動作的精度要求非常高,二是沒法只依賴視覺的輸入就去判斷是否成功”,姚卯青解釋,人在插USB、充電器的時候,經常要反覆嘗試,機器人同樣,“它還需要很多力矩的反饋來去實現這種閉環控制。”
再比如簡單的揉麵團、切菜,也對機器人手部的靈活和柔韌性提出了極高的要求。手是人體關節最集中、感覺最集中的區域之一,也是人形機器人最難模擬的部位。“很多機器人只有一個兩指的夾爪,只能像一雙筷子一樣去夾取東西。”
德國協作機器人公司NEURA 的“靈巧手”
目前有一些機器人已經擁有了靈巧手,但它的自由度跟人的手還是相差甚遠。“人的手應該有20多個自由度,現在市面上量產的機械手很多隻有6、7個。”
成本也是大問題,在手上每增加一個自由度,就要加多加塞一套電機、編碼器和傳動裝置,一雙“像人的手”往往價格不菲,可高達10萬元一隻。此外,靈巧手很重,“現在一隻手可能要一公斤多,怎麼才能把它做到小型化、輕量化,這個也比較難。”
近一年來,社交媒體上陸續出現了“養老人形機器人”的風聲,但姚卯青認為,這些產品大多都還停留在概念階段。
斯坦福聯合谷歌推出的“保姆機器人”,外形粗獷,泛化能力也被廣泛質疑
人形機器人養老,最大的軟肋就是“體力不支”,即機器人的載重能力不達標。當下,人形機器人的手臂負重通常在5公斤左右,根本無法像人類護工一樣給老人提供基礎的翻身、看護服務,更別說安全準確地拖動一位100多斤的成年人。
“某些專用形態的機器人,可以做到比較大的力矩,因為可以犧牲掉很多構型,包括成本,還有體積上的限制。”
比如,2024年,美國斯坦福大學聯合谷歌推出的“保姆機器人”Mobile ALOHA,能做飯、洗衣、擦玻璃、澆花,但外形上,和“人”沾不上半點關係,更像是兩隻能夠移動的機械臂。但即使如此,它的成本也要高達3.2萬美元。
2024年,優必選機器人已經率先進廠測試
最近,多家機器人公司開始了量產試水階段。去年下半年,傅利葉的雙足人形機器人GR-1交付超過100臺;今年1月,智元下線了1000臺人形機器人。此外,國內的30多家企業已經宣佈將於今年進行商業化量產,主要針對B端。
但距離年產幾十萬臺的量產規模,還要3到5年。姚卯青預測:“進入家庭,需要5年,最終大概能降到10萬元以內。”
此外,一臺人形機器人的成本依舊高昂。特斯拉擎天柱,僅材料費就高達4.13萬美元一臺(約合人民幣29.9萬);優必選的Walker系列在2021年至2023年的銷售均價為598萬元;宇樹“會扭秧歌”的Unitree G1雖然價格一度低達9.9萬元,但有不少買家在網上吐槽,“更像是一個動作絲滑的大號玩具。”
除了成本,還有供應鏈問題。能夠生產高精度、高效能零部件的廠商數量依然有限,“現在量產過程中的難點(之一)是供應鏈不是很成熟,所以還很難做到大規模下的高良率、一致性等等。”
Figure機器人在物流中心進行快遞分揀工作,但“手速”比起人類還差一大截
在進入家庭之前,工業場景是人形機器人的應用第一站。
2024年,全球多家公司的人形機器人率先開始“進廠擰螺絲”。這些機器人從最簡單的搬運、分揀任務開始練習,在不同場景裡試錯,一步步累積經驗,然後再“上手”更復雜、更精密的操作任務。
由OpenAI投資的、來自矽谷的Figure 02已經可以每天工作20小時,成為機器人屆的“卷王”;來自深圳的優必選Walker S1 批次進入5G智慧工廠,能夠和其他的機器人搭子團隊合作;樂聚機器人的“夸父”也扎入江浙滬的多家工廠裡,進行驗證測試。
不過,流水線更像是機器人的“新手村”,家庭空間才是“地獄難度”的考核。工業環境下,機器人的工作高度重複,場景相對單一固定。但家庭環境裡,“人”是最大的不確定因素,機器人撞上車間的貨物沒有大礙,但是不小心傷到人就會後果慘重。
本照片由一條編輯部使用AI生成
這對機器人的安全性提出了極高的要求。
“現在普遍來講,全尺寸1米7的人形機器人整機能做到這種50公斤左右,算是一個比較不錯的水平。但一個100多斤的機器人摔倒了,其實很難一個人去把它扶起來,而且很可能把地板砸一個洞。”姚卯青告訴我們。
機械臂的力度堪比泰森,也是行業普遍的擔憂。2022年,在莫斯科的一場國際象棋比賽上,一名7歲的男孩因為搶先一步出棋,被機器人對手夾住了手指,造成指骨骨折。機械臂自重大、速度快,殺傷力不可低估。

某釋出會上,人形機器人突然抽搐摔倒
因此,給機器人“減重”(輕量化)是未來機器人量產的必經之路,更輕的自重也可以提升機器人的動作準確性。
另一個“安全紅燈”來自於電池。目前人形機器人主流使用的鋰電池,耗電量很大,續航時間短,大多隻能持續2小時左右。春晚的舞臺上,機器人表演結束後,還是需要被舞者扶著脖子下臺,跳完舞累趴下的情況也常有發生。
當人與人形機器人共居的那天接近,更多的倫理問題也會湧現——機器人究竟是家庭一員還是隻是一個工具?如何保證機器人的資料安全,避免洩露住戶隱私?安全責任應該如何界定?
也許就像汽車普及前需要交通法一樣,在迎接“人形機器人進家”之前,我們還需要新的文明規則和倫理框架。未來,仍有漫漫長路。

相關文章