月薪5000,我給人形機器人當「老師」

雖然機器人還沒有佔領地球,但機器人已經開始「奴役」人類教他們幹活了。

作者|Li Yuan


編輯|鄭玄

在春晚過後,最近宇樹機器人又火了一次。
上週,宇樹機器人釋出了一條機器人轉身踢腿,打了一套功夫拳的影片,釋出一週就收穫了快五萬的點贊。
一套功夫打下來,機器人佔領世界似乎已經可以期待了?
在機器人越來越像人的背後,可能卻是有著一批人在「負重前行」。
近期,極客公園發現,招聘軟體上已經悄悄上架了一批工作資訊。員工的唯一工作,就是教機器人如何更像人。
01
新物種工作
筆者是在去年,開始發現各大一線城市的招聘平臺正在悄悄上架一批新的工作。
標題為資料採集專員,或者更直接的——機器人資料採集員,這個「新物種」工作,是完全是為機器人提供服務的。
工作描述很簡單——就是操作機器人,做一些人類日常會做的行為。
一個工作描述這樣形容道:控制機器人進行操作,如疊衣服、繫鞋帶、物品收納等日常生活操作。
而另一個工作描述則這樣寫道,「根據桌面零件分揀」的場景,操作動作捕捉服來操控機器人的動作。
一些其他類似的工作描述中,還出現了不暈 3D,身體強壯,瞭解一些程式設計基礎之類的要求。
這到底是怎樣的工作?
筆者潛入了一個動作捕捉的招聘群中,和招聘者進行了一次聊天。
筆者很快了解到,該招聘崗主要是為國內某機器人公司進行服務,採集機器人的動作資料。
主要分為兩種崗位,
一種是帶著動作捕捉裝置,遠端操作機器人——工作人員站在機器人旁邊,拿取面前的東西,而透過動作捕捉裝置的傳輸,機器人會擺出和幾乎一樣的動作拿去機器人面前的東西,這在機器人領域的術語叫做遙操作。過去在新聞中經常出現有人操作機器人進入危險環境作業,就是使用的遙操作方式。
而另一種則是面對螢幕操作機械臂。仍然是工作人員操作機械臂,而螢幕裡的機械臂會做出一樣的動作,只不過實體空間中並沒有真正的物品可以拿取,工作人員操作機械臂的目的是讓螢幕裡的機械臂拿取虛擬空間的物品。有點像是隔著螢幕操控抓娃娃機。
兩種工作對操作人員的要求都不高,都是做出最基本的人類動作就可以。因此招聘對學歷等硬性條件並沒有要求。
不過有趣的是,第一類崗位,對操作人員的身材倒是有要求:身高 165~170 左右,體重 62kg 內,不能有肚子,男生。第二類崗位則男女不限。
筆者又查看了其他公司的類似的崗位,工資在 5000-10000 不等。而這家公司,則是按天計費,每日 200 元。
招聘者特別問了筆者,你是計算機專業的嗎?
在得到否定回答後,招聘人員大方提起,現在有一個領域正在「崛起」,就是人工智慧!不要看目前只是一個兼職崗位,未來可能會變得非常重要。
當筆者問起,會不會已經招滿了,招聘人員則表示,位置很多,第一批就有幾百人,而後面北京、上海、廣州,都在陸續開類似的崗位。
02
賣動作給機器人的工作,正在迅速擴張
賣動作給機器人?聽起來是一個很奇怪的事情。為什麼要這麼做?
帶著疑問,筆者採訪了動作捕捉裝置提供商諾亦騰的聯合創始人、CTO 戴若犁博士。
戴博士馬上肯定了這一趨勢的存在。「是的,我們也觀察到了類似的現象。諾亦騰每年會賣出幾千套動捕裝置,是全世界出貨量最大的動捕的裝置提供商,在過去十年,賣給機器人企業的動捕裝備一直不超過我們出貨量的 5%,不過,事情在 2023 年發生了變化。」戴博士表示。
戴若犁回憶道,一般而言,機器人企業採購動捕裝置,通常用來操作機器人在危險地區進行一些特殊操作,這樣的需求不會很多,通常的採購都是一套兩套這個量級。
「我們的裝置算是全球價效比最高的了。不過即使這樣,貴的裝置大概要十幾萬塊錢一套,便宜的裝置也要大幾萬塊錢。只有應急演練、消防這樣的市政甚至軍事專案才會進行百套左右的採購。」戴若犁表示。
而 2023 年開始,諾亦騰開始逐漸接到越來越多的機器人企業的訂單,而且一次就是上百臺——這些訂單,正是為前面所述的工作崗位服務的。

圖片來源:諾亦騰官網

2023 年,正是人形機器人開始爆發的前夕。
在 2023 年前,人形機器人在機器人的研究發展中,相對是一個異端。大部分需要機器人的能力,用一個專用的機械臂已經可以解決的很好,為什麼要研究人形機器人呢?筆者記得 2023 年,第一次來到世界機器人大會時,就曾經想過這個問題。
這背後,其實是技術的一次大跳躍。
2022 年-2023 年,大語言模型的進展,第一次解決了機器人泛化性的理解和規劃。也就是說,現在和機器人說話,機器人第一次可以開始理解了,甚至可以自己對於語言背後的含義進行拆解,能夠意識到「拿桌上的水果」這件事指的就是拿起桌上的某個特定蘋果了。
這時候,人形機器人的卡點,出現了新的變化——不在於智慧,在於動作能力上了。在智慧能力出現突破之後,如果人形機器人的動作的泛化能力能夠進一步突破,那麼機器人的應用場景將有很大的擴充套件。
而在機器人的動作問題上,實際上則有兩個分支。
一個是運動能力(locomotion),我們也可以簡單理解為下肢動作。
一個是操作能力(manipulation),我們也可以簡單地理解為上肢動作。
我們看到的宇樹機器人,能打拳、能跳舞,其擅長的,正是機器人的「下肢能力」。而正如我們所看到的,雖然仍面臨著承載力等一系列問題,機器人的「下肢能力」已經相對成熟。
而機器人的「上肢能力」則是完全另外的命題。
「四足平衡或者雙足平衡,其實容錯能力是比較好的。你一步踩錯,它透過迅速的糾偏,透過一些演算法其實可以迅速找回來的。但是泛化的抓拿和操控,容錯很低。細微操作這件事情,大家目前還是相信要大量的資料進去才能夠訓練好這個事情。」戴若犁解釋道。

圖片來源:Figure 機器人官網

事實上,使用上肢進行靈巧操作,即使宇樹機器人,也很難做到可以在現實中實用的地步。
宇樹機器人在春晚的表演,使用的轉手絹的動作,使用了一個取巧的戰術——手絹是直接被固定在手部電機上進行高速轉動的,只是用黑布遮擋,營造出「隱形」效果。其技術難點在於機器人關節扭矩更高(能夠高速轉動手絹)和其全身動作中的平衡,而並不在於機器人本身的手部動作靈敏到完全類人。
而想要機器人的上肢動作真正類人,業界通常認為,需要模仿學習——透過模仿人類的動作。而這意味著,需要大量的相關資料。
與無處不在的網際網路資料相比,機器人的現存的相關資料則少得多。因此許多企業開始自建動作捕捉工廠,來為自家的機器人提供資料——也就出現了本文出現的新工作:賣動作給機器人的人。
這也帶來了動作捕捉裝置本身的爆火,據瞭解,截止到 2024 年年底,諾亦騰來自機器人領域的需求訂單獲得了超過六倍以上的增長。諾亦騰不但為機器人公司提供動作捕捉裝置,也開始與不少廠商共建資料工廠,直接參與到具體的資料採集業務中。
03
採集資料的四象限
在招聘網站的調研中,筆者發現,雖然參與者做的任務都是類似的,招聘崗位的具體稱呼卻不同。
比如筆者試圖面試的公司,就分出了「動作捕捉崗」和「模擬崗」兩種不同的崗位。
筆者也就這兩種崗位的不同,採訪了戴博士。
戴若犁將目前獲得資料的途徑,按照是否採取動作是否由真人完成,採集的動作是否來自機器人本體等,分成了幾個象限。

圖片來源:諾亦騰

對於機器人訓練而言,質量最高的資料,就是用遙操作採集的真實資料,也就是我看到的第一型別招聘的內容,被稱為「動作捕捉崗」。
雖然使用的是動捕裝置,但是實際上記錄的資料,並不是穿著動捕裝置的工作人員身上的動作,而是動捕裝置操作的機器人的動作。
機器人成功進行了一次抓取,裝置就會記錄機器人胳膊的轉角等等。因此這樣的資料是質量最高的——資料直接從真實的機器人身上得到,甚至可以直接從你訓練的這款機器人中得到,資料十分準確。
這也就是為什麼這類的工作對工作人員的身高有要求:「如果是一個兩米的人,但是機器人的胳膊只有一米六的人那麼長,那麼有可能出現機器人再往前夠,我手已經沒法再往前伸了的情況。」戴若犁表示。

圖片來源:諾亦騰官網

在這類的工作中,採集資料的手段,也會有一些略微的差異。
一些採集採用工作人員在一旁觀察機器人的動作的方式進行,是否成功直接由工作人員的肉眼判斷。
另一些招聘要求中則提到使用 VR 裝置。這種採集通常是讓操作機器人的人員,戴上 VR 眼鏡,直接以機器人的視角進行觀察——機器人本體上會存在視覺感測器,戴上 VR 眼鏡的工作人員,相當於看到的就是機器能看到的狀態,這時候再進行遙操作,又能記錄下更多的資料。
遙操作的裝置本身也不只有動作捕捉一種。筆者接觸到的另一個機器人公司,就自研了自己的外骨骼遙操作裝置。操作人員在身上背上外骨骼,做動作,將動作傳遞到機器人身上。該機器人公司表示,這種框架下能記錄到的關節轉角更多。
去年 8 月,特斯拉也傳出要招聘員工進行機器人的資料採集,招聘崗位提到要求員工每天步行超過 7 小時,攜帶重達 30 磅(約 13.61 千克)的裝置,並長時間佩戴 VR 頭顯。
戴若犁推測,很有可能就是穿上了外骨骼裝置進行資料採集。純動捕裝置的話,全部加一塊不會超過 4 公斤。另一種可能就是工作人員要採集非常多的全身動作,直接把採集資料的電腦背在身上了。
「雖然正常的走路動作,並不需要採集模仿學習的資料就能進行訓練。但是到俯身、協同等動作的時候,人的重心是怎麼動的,在一個動作中左右的重心是怎麼分配的,如果能夠獲得資料,對於機器人的運控仍然是有參考意義的。」戴若犁表示。

有新聞表示特斯拉的人形機器人利用 Xsens 動作捕捉系統進行訓練 | 圖片來源:Youtube

質量次高的,則是半合成數據。也就是筆者看到的第二種崗位。
半合成數據中,動作仍然是由真實人類完成,但是收集的機器人資料,則不來自機器人本體,而來自於虛擬環境。
「半合成數據是人操作虛擬世界裡的假機器人本體抓假杯子。在英偉達等公司的努力下,虛擬世界裡的,重力、力矩、摩擦、水流目前都已經能模擬地很好了。虛擬世界的機器人也在透過虛擬的電機執行,整套建模下來,就離現實很接近了。」戴若犁表示。
使用虛擬的機器人,仍然需要克服機器人真實本體和虛擬本體的差異,專業術語叫做 sim-to-real gap,但作為一個性價比更高的方案,也在廣泛得到採納。
象限的另外兩端,則是目前技術難度更高的兩種採集方式。
一種是直接使用動捕裝置,從真人身上採集資料。這種方法類似於遙操作,但是直接省去了機器人本體。相當於為真人進行了數學建模,再將這個資料再轉而用在機器人中。好處在於採集到的資料不需要考慮機器人本體構型的差異。
而另一隻是純粹使用合成數據,不經過任何真人的參與。這種方法的好處是,可以大規模進行拓展,而不必受到任何現實世界的限制。
這兩種方式目前都有公司在進行探索,但並沒有成為最大範圍內的主流。如果只是某個機器人公司出資為自己的機器人收集資料訓練,針對性地收集某款真機的資料,仍然效果最好。每經過一層抽象,資料本身的準確性還是會受到一定損失。
這也就是為什麼筆者面試的機器人資料崗只設置了前兩種崗位的原因。
04
動作採集崗,或許未來將和
語言資料標註崗一樣普遍
既然機器人資料這麼難收集,而筆者看到的招聘崗位的人員工資並不高,那麼為什麼不大批招聘,迅速採集到大量資料,馬上讓機器人落地使用呢?
在戴博士口中,筆者聽到了一個意外的答案。限制機器人企業無限採集資料的,更多的是成本。這個成本中最大的一部分,反而不是人力和採集裝置,而是機器人本身。
他算了一筆賬:效果最好的採集機器人本體真實資料的採集席位,標配就是一個機器人本體,一套電腦裝備,一個動作捕捉人員,可能還需要一個操作電腦的資料採集人員。
其中最貴的,就是機器人的本體,目前機器人本體,基本上價格在幾十萬的量級。
動捕裝置相比之下要便宜許多,在幾萬到十幾萬的量級——不過,普通的慣性動捕裝置,是釐米級精度的。對於一般的動作採集是夠了,如果是精細的手部動作採集,可能還不夠,還需要增加光學動捕裝置,這又是一筆支出。

圖片來源:Figure 機器人官網

而人員、場地費用,又是一筆支出。疊加起來,即使目前國際前沿的機器人企業,目前建設的機器人資料採集場地,量級也通常在小几百的席位量級而已。
換成半合成數據的採集方式的話,其中最貴的機器人本體的成本能夠減少——在筆者接觸到的機器人中,半合成數據並沒有使用機器人本體操作,而是隻是使用了機械臂,成本大大降低了。
這樣算下來的話,目前動作資料採集崗,似乎只是一個能夠在全世界範圍內提供幾千至幾萬個新興工作崗位。
不過,隨著機器人技術獲得越來越多的資本關注,這一點未來或許會發生變化。
在傳統的人工智慧領域,這樣的事情已經發生過一遍。促成了現在全世界驚歎的大語言模型,背後是無數的資料標註員,在標註哪些是人類想要的答案,哪些是人類會說的回答。
資料顯示,我國各地發展的資料標註基地,已經對就業產生了很強的影響。比如,日照資料標註基地,2024 年從業人員突破 1.1 萬人。

輪椅上的人工智慧訓練師 | 圖片來源:視覺中國

而在世界範圍內,資料標註行業,甚至產生了許多估值很高的企業,比如美國企業 scale.ai,2024 年估值已經達到 138 億美元。
隨著人工智慧的發展,使用人工智慧進行資料標註已經成為慣常操作,但是資料標註的職業也沒有被取代,反而得到了越來越大的發展。
為機器人提供資料標註的職業,看起來才剛剛興起。
雖然機器人還沒有佔領地球,但機器人已經開始「奴役」人類教他們幹活了。
未來,或許你的孩子的工作,就是教機器人如何切菜炒菜,而你,則在養老院裡,享受機器人為你做的飯。
*頭圖來源:視覺中國
本文為極客公園原創文章,轉載請聯絡極客君微信 geekparkGO
極客一問
你如何看待這個「新物種」工作?

熱點影片

凱文·凱利:科技發展如同生命體多樣化,從通用逐漸變得具體和專業。
點贊關注極客公園影片號
觀看更多精彩影片

更多閱讀


相關文章