
新智元報道
新智元報道
編輯:編輯部 HXs
【新智元導讀】Figure公司透過強化學習,成功實現機器人的自然步態。利用高效物理模擬器,僅用幾小時完成相當於多年訓練的資料,訓練出的策略無需額外調整即可「零樣本」遷移至真實機器人。
現在訓練機器人,都不需要真實資料了?
剛剛,Figure提出了一種全新的基於RL的端到端網路。
只需要在純模擬環境中進行訓練,用幾個小時生成模擬資料,就能讓Figure 02像人類一樣自然行走了!

該方法的亮點如下:
-
在模擬環境中運用強化學習,讓機器人不斷試錯,學會像人類一樣走路。 -
透過高保真物理模擬器,僅用幾個小時,就模擬出多年的資料。 -
將模擬中的域隨機化與機器人上的高頻扭矩反饋相結合,無需微調,就能把模擬環境中的策略應用於真實機器人。

更讓人驚喜的是,一個神經網路策略就能控制一大批機器人!
透過一個高保真物理模擬器,Figure最新的機器人僅用幾個小時,就能模擬出幾年的資料。

為了把模擬環境的訓練成果應用到真實機器人上,團隊採用了兩種辦法。
一是在模擬訓練時進行域隨機化,讓機器人接觸不同的物理屬性;二是在真實機器人上安裝高頻扭矩反饋裝置。
這樣一來,模擬環境中訓練好的策略,無需任何微調,就可以「零樣本」遷移到真實硬體上。

在強化學習中,控制器透過不斷試錯,根據獎勵訊號來調整自己的行為。
Figure在高保真模擬環境中訓練RL控制器,執行數千個具有不同引數和場景的虛擬人形機器人。
這種多樣化的訓練,使訓練出的策略能直接用在真實的Figure 02機器人上,走出穩健的人類步伐。
Figure基於RL的訓練方法,大大縮短了開發時間,在現實世界中表現也很穩定。
強化學習訓練
用強化學習方法,在GPU加速的物理模擬環境中,訓練行走控制器。
這個模擬環境效率超高,短短幾個小時就能收集到相當於數年的模擬訓練資料。
在模擬器中,數千個Figure 02機器人並行訓練,每個機器人的物理引數都不一樣。
它們會遇到各種各樣的情況,像不同的地形,執行器動力學變化,以及被絆倒、滑倒和推搡等。
這時,一個神經網路策略學習控制所有的機器人。

人形機器人有個很大的優勢,它的硬體平臺通用性很強,能執行類似人類的任務。
不過,RL訓練出來的策略,有時不是最佳的,沒辦法讓機器人走出人類走路的感覺,比如腳跟先著地、腳尖蹬地,手臂擺動和腿部動作的配合。
所以,在訓練時,會獎勵那些走路軌跡像人的機器人,把偏好融入學習中。
這些軌跡為策略允許生成的行走風格建立了先驗條件。
除了走路軌跡像人,研究者還設定了其他獎勵條件,比如最佳化機器人速度跟蹤、功耗更低,更好地應對外界干擾和地形變化。
從模擬到現實的跨越
最後一步,是把模擬環境中訓練好的策略應用到真實的機器人上。
模擬機器人只是高維機電系統的近似,在模擬環境中訓練的策略只能保證在這些模擬機器人上有效,不一定能在真實機器人上正常工作。

為解決這個問題,在模擬訓練時,採用域隨機化技術,隨機改變每個機器人的物理屬性,讓策略能適應各種不同的情況。
這有助於策略零樣本泛化到真實機器人上,而無需任何額外的微調。
同時,在真實機器人上,用千赫茲速率扭矩反饋控制,來修正執行器模型的誤差。
這樣,即使機器人之間有些差異,如地面摩擦力不同,或受到外界推搡,這個策略都具有魯棒性,能讓Figure 02機器人像人一樣行走。
可以看到,10個Figure 02機器人用得都是同一個RL神經網路。

說明現有的策略不用再做調整,就能推廣到大批機器人,對未來的大規模商業應用是個好訊息。
Figure Robotics

Figure Robotics是一家新興的機器人公司,專注於開發通用人形機器人,旨在透過先進的人工智慧擴充套件人類能力。
公司專注於構建像人類一樣學習和推理的機器人。
Figure Robotics一開始與OpenAI合作,然而在內部人工智慧(Helix)方面取得「重大突破」後,於2025年2月結束了合作,Figure Robotics轉為自主開發Helix VLA模型。
Figure 02具有肉眼看起來最接近未來成熟形態的外形設計。
簡直和威爾史密斯《I,Robot》中的機器人如出一轍,渾圓的面罩模型也避免了恐怖谷效應。

身高和體重也完美模擬一個成年男性。
當機器人能像人類一樣學會自然行走,是否意味著也能像人一樣學會其他「自然」動作?
更加重要的一個「隱喻」是,目前所有的人形機器人都是按照人類的形態打造的。
這更加方便了未來機器人與人類生活的融合。
除了自然行走,機器人還有很多「人類技能」需要學習,但他們已經在路上了。
參考資料:
https://x.com/Figure_robot/status/1904534311589785885
https://www.figure.ai/news/reinforcement-learning-walking

