第一作者盧昊飛、第二作者吳哲,分別為清華大學計算機系在讀碩士與博士研究生。通訊作者興軍亮教授長期致力於感知與博弈決策的理論與應用研究,在多智慧體系統、強化學習及智慧決策等領域取得了一系列重要成果。
最近,全球 AI 和機器學習頂會 ICLR 2025 公佈了論文錄取結果:由螞蟻數科與清華大學聯合團隊提出的全新具身協同框架 BodyGen 成功入選 Spotlight(聚光燈/特別關注)論文。
-
論文題目:BodyGen: Advancing Towards Efficient Embodiment Co-Design -
論文地址:https://arxiv.org/abs/2503.00533 -
專案程式碼:https://github.com/GenesisOrigin/BodyGen
本文研究探索了一個有趣但引人深思的問題:機器人能否像生物一樣自主進化?團隊透過實驗給出了肯定答案:結合強化學習與深度神經網路技術,BodyGen 能在極短時間內自動演化出適應當前環境的最優機器人形態及控制策略,為具身智慧的加速進化提供了全新的思路。
相關程式碼已開源至 GitHub 倉庫,歡迎嘗試。
據瞭解,本屆大會共收到 11672 篇論文,被選中做 Spotlight(聚光燈/特別關注)或者 Oral Presentation(口頭報告)的比例約為 5.1%。
以下是論文作者團隊對該論文的解讀:
為什麼機器人需要「自主進化」?
自然界生物透過數百萬年的進化,獲得了適應環境的完美身體結構與環境互動能力。然而,機器人的設計不但需要極其龐大的人類專家知識,且針對特定環境需要進行大量的實驗、設計和迭代。
受自然界生物學啟發,科學家提出形態控制協同設計(Co-Design)技術:讓機器人模仿生物進化過程,在最佳化控制策略(大腦)的同時演化自身形態(形體結構、關節引數)從而適應複雜環境。
然而,這一領域長期面臨兩大難題:一是形體搜尋空間巨大,在有限時間內難以窮舉所有可能的機器人形態;二是機器人形態與控制策略深度耦合,評估每一個候選形態設計需要大量計算資源。
BodyGen 的核心思路

來自清華大學與螞蟻數科的研究團隊提出 BodyGen 框架,利用強化學習實現了端到端的高效形態-控制協同設計。
在這項工作中,將形體設計過程劃分為兩個連續階段:形態設計階段、環境互動階段。
在演化階段:研究引入 Transformer(GPT-Style)自迴歸地構建機器人的形體結構並最佳化引數;在環境互動階段,同樣使用 Transformer(Bert-Style)對機器人的每一個關節資訊進行集中處理併發送到對應關節馬達,與環境互動並獲得反饋。在幾輪的迭代後,BodyGen 可以快速生成當前環境的最佳機器人形態和相應的控制策略。
BodyGen 的三大技術點解讀
BodyGen 是一個生物啟發式的訓練框架,它使用深度強化學習進行端到端的形態-控制協同設計。BodyGen 包含三項核心技術點:
(1)輕量級的形體結構位置編碼器 TopoPE
TopoPE 就像機器人的「身體感知」系統,透過給機器人每個部位貼上「智慧標籤」。無論機器人的形狀如何變化,這些標籤都能幫助 AI 理解「這是腿」、「這是手臂」等。這樣,即使機器人的形態發生變化,AI 也能快速適應並控制新的身體結構。
(2)基於 Transformer 的集中式的神經中樞處理網路 MoSAT
MoSAT 就像機器人的「大腦中樞」,它的工作方式很像人腦:
-
資訊收集:首先收集機器人各個部位的資訊(位置、速度等) -
中央處理:所有資訊在「大腦」(Transformer 網路)中進行交流和處理 -
指令傳送:處理後的資訊轉化為具體動作指令,告訴機器人如何移動
(3)時序信用分配機制下的協同設計
-
BodyGen 讓 AI 同時負責兩件事:設計機器人的身體和控制機器人的動作。 -
設計動作:AI 可以給機器人「長出」新的肢體,「剪掉」不需要的部分,或保持現有結構 -
控制動作:AI 學習如何控制機器人的每個關節來完成任務(如行走、跳躍)
設計一個好的機器人形態可能要等很久才知道效果好不好(比如設計了長腿,要等機器人學會走路才知道這設計是否合理)。BodyGen 透過特殊的「獎勵分配機制」,讓 AI 能夠合理評估自己的設計決策,不會因為短期效果不明顯就放棄可能很好的設計。
第一:TopoPE 形體結構位置編碼器

在人腦中,來自身體不同區域的訊號會被傳輸到特定的神經區域進行處理,這隱含了訊息來源的位置資訊。對於機器人,我們同樣需要高效的形體資訊表徵。

在 BodyGen 中,拓撲感知位置編碼(TopoPE)透過雜湊對映,將機器人肢體到根肢體的路徑對映為唯一的嵌入(Embedding),有效解決了形體演化過程中的索引偏移問題,從而促進了協同設計過程中相似形態機器人的知識對齊和共享。
第二:MoSAT 集中式的神經中樞網路

為了通用表徵形體空間中的各種各樣的機器人,作者使用標準序列模型 Transformer 處理拓撲結構可變的機器人形體。機器人的每一個關節資訊都會經過「編碼」-「集中處理」-「解碼」三個階段,最終生成動作訊號:
資訊編碼:來自不同肢體的資訊首先會攜帶其拓撲位置資訊首先透過編碼層進行訊號編碼

集中處理:這些編碼後的資訊藉助 Transformer 網路進行點對點的資訊通訊,實現集中式的資訊互動和處理

資訊解碼:最終,這些資訊經過解碼網路解碼,從而獲得機器人的動作訊號

第三:時序信用分配機制下的協同設計
在 BodyGen 的定義中,智慧體具有兩類基本動作:形態設計動作和形體控制動作。形態設計動作包含三類基本元動作:
-
肢體生長:機器人的形體向下生長出一個額外的肢體 -
肢體退化:機器人的形體刪除一個指定的肢體 -
肢體維持:機器人的形體維持某一個肢體不變
同時形體控制動作包含機器人與環境互動每一個關節馬達的輸出力矩。

本研究使用近端策略最佳化演算法(PPO)進行端到端的協同設計訓練最佳化。相較於形體控制動作,形態設計動作無法獲得及時的環境反饋。作者提出改進的廣義優勢估計(GAE),層次化地對環境獎勵進行動態分配,從而使智慧體在形態設計和控制階段獲得平衡的優勢估計,從而提升訓練效能。
BodyGen 測評效果:引數低至 1.43M,實現 60% 效能提升
研究者選取了 3 種基礎的機器人拓撲結構(線性、雙腿、四腿),在不同的模擬環境中,環境獎勵訊號僅為運動敏捷性(指定方向的運動速度)。給定初始結構設計,藉助 BodyGen 進行形態-控制協同最佳化。
作者在 10 個不同型別的環境進行了綜合測評,實驗表明,BodyGen 相對於最先進的基線實現了 60.03% 的平均效能提升,在 10 個不同任務種類的環境下(如爬行、地形穿越、游泳等),BodyGen 生成的機器人形態相比於現有最優方法(如 Transform2Act、NGE 等)在環境適應性評分獲得了 60.03% 的漲幅。

研究對序列模型、時序信用分配演算法進行了充分的對比消融,對文章提出的 MoSAT 架構和時序信用分配演算法的進行了詳細和充分的實驗驗證。

作者同樣對形體結構位置編碼進行了消融實驗,證實 TopoPE 在形態表徵上的有效性。

BodyGen 的平均引數量為 1.43M,相較於其他基線演算法更加輕量級。BodyGen 的緊湊設計使其在保持生成能力的同時,顯著降低了計算成本和儲存需求,提升了訓練的穩定性與效率。這種高效的模型架構不僅減少了訓練時的資源消耗,還提升了推理階段的響應速度,使其更適用於資源受限的環境,甚至可在一臺筆記本上藉助 CPU 進行高效推理。

場景應用
BodyGen 作為一個通用形體-控制協同設計算法,展現出了一定的應用潛力,包括但不限於:
-
環境適應性機器人設計:針對特定環境需求,快速生成最優形態與控制策略,顯著縮短機器人設計週期,提升開發效率; -
仿生機器人研究:透過模擬生物運動機理,設計仿生足、鰭、翼等結構,為探索生物運動原理提供可計算平臺; -
虛擬人物動作生成:基於物理引擎的高效動作最佳化,為遊戲、動畫製作及虛擬角色行為生成提供技術支援。
未來展望
團隊計劃透過物理模擬遷移技術推動 BodyGen 在實際場景中的應用。隨著計算能力的提升,這一框架有望成為實現通用具身智慧的重要路徑,使機器人能夠透過感知-行動閉環持續最佳化形態與行為策略,逐步實現自我設計與自動進化。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]