我們去看了智元機器人的「數採廠」,等等!這不是「星球大戰」片場嗎?

機器人們,或許會在這裡見證屬於自己的“GPT時刻”。
田哲
編輯蘇建勳
封面來源智元機器人
2025年初,我們瞭解到一件事,國內具身智慧獨角獸“智元機器人”(就是B站知名UP主“稚暉君”當CTO的那家公司),在上海,建了一座“資料採集工廠”(簡稱“數採廠”)。
這是啥?為啥建?怎麼採?一系列疑惑湧上我們心頭,我們決定去看一看。
當然了,在去之前,我們對一家“數採廠”的工作流程,有一些非常刻板的想象——在堆滿伺服器黑盒子的昏暗房間,掛著黑眼圈、髮量堪憂的程式設計師,機械地敲著鍵盤輸入程式碼……
錯錯錯!當“智慧湧現”抵達智元機器人位於上海浦東的數採廠,發現現實和我們的想象,截然不同!
毫不誇張地說,這完全是美國電影《星球大戰》的片場!

《星球大戰》電影海報;圖源網路

在這座3000平方米的數採廠中,不同主題的房間佔據了工廠的絕大部分面積,每個房間都精心還原了現實生活的物件佈局,機器人就在不同的場景中執行不同任務。
在臥室中,機器人乖巧地學習疊衣服。

機器人學習疊衣服;圖源:智元機器人

在餐桌前,機器人把餐具挨個擺放整齊。

機器人擺放餐盤;圖源:“智慧湧現”拍攝

機器人還要學會打餐各式菜餚,並且不會手抖。

機器人正在用勺子舀雞蛋;圖源:“智慧湧現”拍攝

而在商超收銀臺前,機器人一隻手拿掃碼器,另一隻手拿著商品掃碼。

智元機器人正在學習商品掃碼;圖源:“智慧湧現”拍攝

參觀結束後,智慧湧現見到了數採廠負責人姚卯青,他也是智元機器人具身產品線總裁、研究院執行院長,負責資料驅動具身智慧產品研發。
此前,姚卯青曾在Waymo、蔚來汽車等公司負責研發感知演算法、端到端大模型。
姚卯青告訴智慧湧現,機器人每完成一個動作,就相當於一條資料,資料將透過機器人的主機上傳至雲端,智元機器人團隊將利用這些資料訓練機器人的大模型,從而讓機器人真正掌握一項技能,比如衝咖啡、熨衣服等。
為了讓機器人快速學習技能,智元為它們安排了一對一教學老師——資料採集員,他們都是年輕有活力的小哥哥小姐姐,為了更好地教機器人完成動作,採集員也需要肢體協調,動作標準。
資料採集員們手持裝置,手把手地控制機器人完成抓、握、放等動作。有時他們也會頭戴VR裝置,更精準地讓機器人模仿學習人類動作。
據瞭解,現在智元資料採集工廠投放了近百臺機器人,日均採集3-5w條資料。
而為了讓機器人更快在不同環境中掌握儘可能多的技能,智元資料採集工廠模擬了家庭、零售、服務業、餐飲、工廠五個場景。
在這裡,你能發現商超內不僅有各類零食,還有葡萄酒、香菸,甚至連蔬果的價錢也標好了。

智元機器人模擬的商超;圖源:“智慧湧現”拍攝

也有一批機器人分散在各自“工位”,在桌前學習簡單地疊衣服等技能。

機器人們在工位學習不同技能;圖源:“智慧湧現”拍攝

據瞭解,數採廠面積還將增加1000平方米,可增加更多場景的同時,也能根據客戶需要定製化模擬場景。
不過,目前行業內少見打造如此多樣場景的機器人公司,一個問題隨之而來:智元機器人下決心打造資料採集工廠,這一過程是如何展開的?

為具身智慧機器人,打造資料養料場

對於大多數初創公司而言,將高額資金建設一座工廠用於資料採集,風險無疑是巨大的,而智元機器人似乎沒有猶豫,僅僅用了一個多月就完成搭建資料採集工廠。
促使智元機器人不惜高成本打造數採廠,這背後,行業現存資料量在供給側上的巨大空白。
2024年6月,智元機器人決定研發機器人具身智慧大模型,這需要海量資料以訓練大模型。
姚卯青告訴智慧湧現,機器人透過數百條資料學會一個技能,這些動作往往都是長程任務,比如沖泡咖啡,熨衣服等。
他們曾試圖尋找行業內的開源資料庫,但發現高質量、統一格式的資料幾乎不存在。即使行業內開源了百萬條由真實機器人收集的訓練資料集,但是這些資料實際上由不同公司、不同型號規格的機器人採集,資料質量較低,達不到智元的要求。
姚卯青表示,不同感測器和形態的資料差異過大,將削弱整體訓練效果,比如一個六軸機械臂的資料在七軸靈巧手機器人上幾乎無法複用,因此需要統一標準的資料。
而讓智元下決心建設數採廠,這個過程也很簡單。
姚卯青表示,智元機器人採集了幾千條資料用於訓練演算法,雖然能讓機器人順利完成某個動作,但是無法泛化——如果改變物體種類、顏色甚至光線,都將影響機器人再次完成同樣的動作。因此智元機器人決定建設工廠大規模採集資料。

不同房間的機器人正在採集資料;圖源:“智慧湧現”拍攝

數採廠未來將源源不斷為機器人學習提供資料養料。據瞭解,智元資料採集工廠投入使用兩個多月,就採集了超百萬量級真機資料集,採集任務超一千種,每個任務都包含幾百條資料,一些特別難的長程任務可達幾千條。
“不久後我們將擁有超千萬條資料。”姚卯青笑著說。

探尋機器人的Scaling Law

在採集數萬條機器人重複動作後,智元機器人收穫了一些意外之喜:機器人能夠在未經訓練的情況下,根據要求控制倒水量;只教了機器人幾十次,就能學會疊褲子。
這正是智元機器人想要打造的機器人——能夠自主理解人類指令和外部環境,並能適應複雜的環境。

智元希望機器人能夠更換不同品牌、型號的咖啡機配件;圖源:“智慧湧現”拍攝

過去數十年,機器人的控制往往依賴人們的預設規則,向機器人輸入情況描述以及應對方式的規則,機器人在相應情況下完成操作。然而機器人遇到的情況千變萬化,難以依靠提前輸入規則就能讓機器人應對所有情況。
在大模型應用爆發後,讓機器人從冰冷的軀體有了智力,能夠理解世界和人類。而智元機器人正在研發的,是具備端到端大模型的機器人,通用能力更強且反應速度更快。
機器人從接受指令到完成動作通常有三個步驟:感知外部環境,做出決策、控制肢體執行任務,資訊在這一鏈條傳遞中可能出現失真,從而影響機器人完成動作。
但端到端大模型,不需要分模組,更不依賴精準測量,就像人類超車前,不會下車測量兩車之間的距離,再進行超車。
智元機器人對端到端大模型機器人的設想是,機器人能夠接受人類的複雜指令,比如讓機器人從遠處取來手機,或者從冰箱裡拿一包薯片。這些指令不僅考驗著機器人對任務的理解能力,還要求機器人能夠識別物體,並完成移動到相應地點、取物,返回,提交物品。
但是達到這一狀態並不容易。姚卯青表示,需要不斷向大模型投餵資料,資料量越大,大模型在某一場景表現會更接近人類,他預估的資料量為幾千萬條到1億條,機器人的Scaling Law遠未到來。
智慧湧現瞭解到,機器人需要軟硬體結合,僅有其中之一都難以讓機器人技術迅速發展。美國的硬體成本較高,因此美國機器人初創公司大多隻研發演算法。中國已有供應鏈優勢,結合資料和自研的硬體,會讓演算法、硬體、軟體快速迭代。
姚卯青相信,中國機器人技術的整體進度已與美國不相上下,因為美國的人工成本比國內高出十倍,還得從中國採購各種零部件。
智元機器人用更低的成本和高效的迭代速度,拓展了場景模擬和資料採集規模,那些在美國機器人公司看來“遙不可及”的技術,正在中國的資料採集工廠不斷流淌的資料中,一點點接近成為現實。

深度、敏銳、前瞻,為1%的人捕捉商業先機
36氪旗下精選公眾號
👇 真誠推薦你來關注 👇

相關文章