宇樹機器人成賽博科比!英偉達CMU新研究,投籃模仿籃球巨星,程式碼論文全開源

明敏 發自 凹非寺

量子位 | 公眾號 QbitAI
你以為的宇樹機器人(H1):
實際上的宇樹機器人(G1):輕鬆來一個帥氣的科比投籃。
或者是像羅納爾多那樣華麗旋轉跳躍。
英偉達卡內基梅隆大學一起,給宇樹機器人“一雪前恥”了(doge)。
只通過一個訓練框架,機器人就能成為“學人精”,完成各種高難度敏捷動作。
從這樣(下左圖)變成這樣(下右圖)。
左圖演我做運動
要知道,由於模擬環境和真實物理世界之間的動力學系統存在偏差,讓機器人敏捷、協調地完成各種類人動作仍舊是一個巨大挑戰。
ASAP方法解決的正是這個問題,論文和程式碼通通開源
有人感慨,看來機器人時代距我們只有幾步之遙。
主創之一Jim Fan也表示:期待2030年“人形”奧運會吧。

顯著提高機器人靈活性和全身協調性

簡單總結論文核心提出了ASAP(Aligning Simulation and Real Physics,對齊模擬與真實物理)。
這個框架主要分為兩個階段。
第一階段,使用經過調整的人類運動資料在模擬環境中預訓練運動跟蹤策略。
第二階段,將這些策略應用到真實世界,並收集真實資料來訓練一個“殘差”動作模型,用來彌補模型與真實世界物理動態之間的差距。
然後ASAP將預訓練的策略與差異動作模型結合,並在模擬器中進行微調,以便更好地與真實世界物理動態對接。
具體步驟分為四步:
1、運動跟蹤預訓練與真實軌跡收集:透過將人類影片中的運動資料轉換為類人機器人動作,我們在模擬環境中預訓練多個運動跟蹤策略,並生成真實世界的運動軌跡。
2、差異動作模型訓練:基於真實世界的運動資料,我們訓練一個“差異動作模型”,透過最小化模擬狀態(s_t)和真實世界狀態(s^r_t)之間的差距來進行最佳化。
3、策略微調:我們固定差異動作模型,並將其整合到模擬器中,以調整模擬和真實物理之間的匹配,然後微調之前訓練好的運動跟蹤策略。
4、真實世界部署:最後,我們將微調過的策略直接應用到現實世界中,不再需要差異動作模型。
研究人員在三個遷移場景中評估了ASAP的效果——

從IsaacGym到IsaacSim、從IsaacGym到Genesis,以及從IsaacGym到真實世界。
使用的機器人是宇樹G1人形機器人。
如上是從IsaacGym到IsaacSim,G1踢足球的四種不同動作。值得一提的是,ASAP在多個動作中訓練,不會過擬合特定示例。
從IsaacGym到IsaacSim,從IsaacSim到真實世界,ASAP微調前後G1運動跟蹤表現如上。
在特定動作(詹姆斯消音步)上,可以看到使用ASAP後,機器人的穩定性更好了。
由此可以看到,G1能夠完成橫款大跳等有難度的運動動作,在姿態上也和人類更為貼近。

四位華人共同一作

最後來看下研究團隊陣容。
18位作者中絕大多數都是華人面孔。
共同一作有四位,分別是何泰然、高嘉偉、Wenli Xiao和Yuanhang Zhang。
其中何泰然本科畢業於上海交通大學,現在是英偉達GEAR的一員,之前還在MSRA實習過。
高嘉偉本科畢業於清華大學,現在還在申請博士。
Wenli Xiao也是英偉達GEAR的一員。Yuanhang Zhang本科畢業於上海交通大學,現在在CMU讀研。

One More Thing

雖然動作表現更擬人了,但是宇樹機器人還是沒逃過跳舞的命運……
請欣賞宇樹版APT。
(統治人類後又多了一段要刪除的黑歷史)

專案地址:

https://agile.human2humanoid.com/

評選報名2025年值得關注的AIGC企業&產品
下一個AI“國貨之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章