我等的機器人,它在多遠的未來|機器人上學篇(上)

都2025年了,我們還在為晚會上轉手絹的機器人歡呼。回想起我小時候看過的那些科普讀本中的預言,我怎麼覺得早應該人手一個阿童木了呢?

從後空翻、轉手絹,到能登臺演小品,還要等多久?再到像阿童木一樣呢?哪怕是讓機器人幫忙拖地、遛狗、疊衣服、做飯,似乎都還離我們很遠……
這裡面到底難在哪?為什麼我們也的確值得為了“轉手絹”這樣的“花活”而驕傲喝彩呢?
和大模型一樣,一切關乎資料
經過各種科幻作品的漫長想象之後,現實的人形機器人早在半個世紀前就有了雛形。比如,日本早稻田大學在1973年研製出了Wabot-1,有了人的雙手、雙腳、視覺和聽覺,但並不能完成什麼複雜操作。此後,人形機器人學會了彈鋼琴、跳舞、有了面部表情,卻一直沒有產生從“自動化”到“智慧化”這一質的飛躍。
幸好,深度學習和AI大模型來了,“具身智慧”這一概念開始受到學術界和產業界的廣泛關注。根據中國計算機學會的定義,具身智慧(Embodied Artificial Intelligence, EAI)是指一種基於物理身體進行感知和行動的智慧系統,其透過智慧體與環境的互動獲取資訊、理解問題、做出決策並實現行動,從而產生智慧行為和適應性。
具身智慧的展現形態包括人形機器人、四足機器人(俗稱“機器狗”)、輪式機器人、仿生機器人等,甚至也包括智慧駕駛。
和當前火熱的Deepseek、ChatGPT等產品不同,具身智慧存在“物理實體”與環境的互動,需要理解真實的世界才能做出判斷和行動。
以 AI 聊天工具和人形機器人作對比,當我們和 AI 對話時,AI 需要處理的資訊是語言、聲音、影像、影片等;而我們與人形機器人進行互動時,它們需要處理的是如何識別物體、如何辨別方位、如何規劃運動軌跡,並且判斷此時該抬手還是伸腿、該伸兩個手指還是該伸出手掌、透過什麼樣的角度使出多大的力量……
這些在人類看來完全“不用思考”的問題,卻都是機器人需要從零開始學起的內容。
和 AI 一樣,機器人的學習過程也是從資料採集和處理開始的。但比 AI 更復雜之處在於,機器人需要獲取的資料維度更多,比如影像、空間等感知資料,關節角度、速度等運動資料,力反饋、扭矩等力學資料,溫度、光照等環境資料,以及任務執行結果與效能資料等等。
這些來自真實物理世界的資料,其生成和採集的難度遠比來自網際網路世界的資料大得多。因此,當前可供具身智慧使用的資料集也小得多。
根據對沖基金Coatue的相關資料,具身機器人資料集僅有 2.4M,遠低於有15T Tokens的文字資料集。中國信通院聯合釋出的《具身智慧發展報告 (2024年)》中也提到,缺乏資料成為具身智慧能力突破的重要壁壘。一方面,真實資料面臨獲取成本過高的挑戰;另一方面,模擬合成數據面臨“現實差距”——即模擬環境與現實世界之間的差異。
這裡就提到了具身智慧資料採集的兩類主要方式:真實世界資料採集、模擬世界資料採集
真實世界資料採集
在真實世界進行資料採集的方式有:人類動作捕捉和人類遙操作。
大家對動作捕捉應該比較熟悉了,像平時常看的虛擬主播,電影裡的阿凡達、金剛,《黑神話·悟空》遊戲裡的角色……都是透過真人動作捕捉來進行模擬的。
同樣地,真人動作捕捉也能夠用在機器人訓練上。
目前,動作捕捉通常採用光學和慣性兩種模式。光學捕捉是在人體動捕服上提前標記多個點位,透過紅外相機進行軌跡和動作還原;而慣性捕捉是透過慣性感測器(陀螺儀、加速度計、磁力計等)來測算人體的動作和姿態,從而形成資料記錄。
光學動捕的優勢在於精度高,能夠捕捉面部表情、手指動作等細微且複雜的變化,但是對於場地佈置以及光線照明的要求較高;慣性動捕雖然精度受限,但不受場地限制,還可以直接獲得動力學引數,因此受到不少人形機器人廠商的青睞。
動捕裝置在捕捉到運動訊號後,將資料傳至處理裝置,再透過一系列演算法還原三維空間內的位置座標和運動軌跡,最終生成可供機器人使用或分析的資料。根據宇樹機器人公佈的資訊,在春晚上轉手絹的H1機器人,就是透過一套新研發的動捕程式,將人類跳舞時的動作資料直接對映到機器人本體上,以此來進行訓練的。
但人類與機器人的動作軌跡並不會完全相同,仍然可能存在適配問題。透過人類遙操作,可以進一步提升資料採集的準確性和可靠性。
人類遙操作是指人類操作員遠端控制機器人執行任務,並記錄機器人的真實資料。和動作捕捉的區別在於其最終採集到的是真機資料,彌合了“具身差距(Embodiment Gap)”,也就是機器人和真人之間的差距。
當前,特斯拉人形機器人 Optimus 就是透過人類穿戴動捕裝置、遙控機器人完成任務,在這個過程中採集機器人的視覺識別、運動控制和其他感測資訊。
為了給機器人提供更好的資料採集環境,許多廠商和服務商專門建設了機器人訓練場。
訓練場裡設定有多種真實場景,比如廚房、客廳、臥室、超市、奶茶店、甚至戶外場景。由人類控制機器人在這些環境裡操作,像開啟櫃門、鋪床單、衝咖啡、從貨架上取物等,反覆重複多次,機器人就能“有樣學樣”地學會這一動作了。
顯然,這樣的真機採集模式能夠獲取最高質量的訓練資料,但同時需要耗費大量的建設成本以及人力成本,只有“財大氣粗”的玩家才能做到。
根據國家地方共建人形機器人創新中心的資料負責人估算,“特斯拉 Optimus 至少需要數百萬小時的資料,才能完全準備好在特斯拉工廠工作,這期間可能需要至少 5 億美元的資料採集成本。”
模擬世界資料採集
有一種方式可以顯著降低資料生產和採集的成本,那就是讓機器人在類似於機器人的“模擬人生”裡學習、成長,最終發展出自己的智慧——雖然最後這一點,目前來看還是個奢望。
機器人模擬平臺能夠模擬實體機器人在虛擬環境中的行為和效能,這不僅包含對機器人感測器資料的模擬,還涉及到對天氣、地形、環境的模擬,以及對機器人控制演算法的測試和驗證。
模擬世界部分解決了一個重要難題,就是機器人的“泛化能力”。
比如說,以往是在真實的咖啡廳環境裡訓練機器人對指定物品的抓取能力,很可能換一間咖啡廳、換一樣物品、換一個桌面材質、甚至窗外換一個天氣,機器人就無法再完成同樣的動作——因為它的泛化性有限,無法根據已有知識在不同場景下做遷移。這就需要在另一個場景下再次訓練,成本就是這麼增加的。
而模擬平臺可以在數字世界裡,基於模擬出的物品和場景生成變幻無窮的環境,同時滿足物理正確。機器人的行為同樣也能被模擬出來,比如機器手抓取物品的位置和姿勢。在這個基礎上生成抓取行為的軌跡演算法,並遷移到物理世界進行實際的操作和驗證。這樣就完成了一個 Real2Sim2Real(Reality 和 Simulation)的完整過程。
但 Sim-to-Real Gap(模擬與現實的鴻溝) 仍然是需要解決的問題,當前已經有多種演算法在試圖減少這一影響。
不過,要說資料量最大、成本最低資料來源,仍然是海量的網際網路資料。
理論上講,在影片網站上分享出來的人類行為影片,也可以成為機器人學習的“資料庫”,但這部分資料的“噪聲”太大、隨機性也很強,既不是機器人訓練的特定場景,資料也沒有經過結構化處理和標註,很難直接用來訓練機器人。
但仍然有研究機構在進行這方面的努力,認為可以透過網際網路上大規模的人類操作影片進行“預訓練”,再用少量機器人資料進行“微調”——誰讓網際網路資料量大管飽呢。
在未來,也許網際網路資料與模擬資料、真機資料能夠融合使用,真正為具身智慧提供資料的“寶庫”。而資料採集的方式也會有所突破,有人認為,“腦機介面”將會成為未來重要的機器人資料來源,人類透過大腦訊號直接控制機器人進行操作。
總之,從 AI 大模型到具身智慧機器人,就好像從玩貪吃蛇跨越到暢遊魔獸世界,“智慧體”有了物理實體,要學習的東西更多了,但可探索的空間也變得更大了。
在這一系列的下一篇中,我們繼續講講一些真實發生的、有趣的機器人訓練案例。
作者:冰點
編輯:臥蟲
封面圖來源:Giphy
內文配圖來源:Giphy
本文來自果殼,未經授權不得轉載.
如有需要請聯絡[email protected]

相關文章