
新智元報道
新智元報道
編輯:LRST
【新智元導讀】近日,來自哥大的研究人員開發出了一種新AI系統,讓機器人透過普通攝像頭和深度神經網路實現自我建模、運動規劃和自我修復,突破了傳統機器人依賴工程師調整的侷限,使機器人能像人類一樣自主學習和適應環境變化,為具身智慧發展帶來新正規化。
「我們人類不能持續呵護機器人、為他們修理損壞的部件或調整效能的負擔。機器人需要學會‘照顧’自己,才能真正發揮作用。這就是自我建模技術如此重要的原因。」
美國哥倫比亞大學機器人學教授霍德·利普森的這句話,揭示了機器人技術發展的根本困境。
在最新發表於《自然·機器智慧》的研究中,中國學者胡宇航帶領的團隊成功讓機器人獲得了「自我學習」能力:僅憑普通攝像頭,就能像孩子觀察自己的手腳般理解身體構造,甚至在「受傷」時自主調整和恢復。

論文連結:https://www.nature.com/articles/s42256-025-01006-w
今天的人工智慧與機器人更像是高度訓練的工人,每當我們需要一個機器人完成特定任務,工程師就必須完成機械三維建模、建立模擬模型、編寫控制演算法,再根據特定任務完成強化學習。
如果機器人硬體結構改變或者損壞,例如增加新的負載或機械臂彎曲,往往無法自我適應和修復,必須依賴工程師進行調整。

但如果機器人一開始就能像人類一樣自己學習的形態和運動呢?
機器人「照鏡子」學會認識自己
人類從來不需要依賴精準的三維模型或關節角度控制來掌握技能,我們透過眼睛看、嘗試、反饋來理解自己的身體和任務。
視覺對環境的理解提供了一種模擬能力,我們可以透過在大腦中想象畫面做各種模擬測試。
比如從貨架上拿東西,你不需要運用任何數學模型,就能在大腦中想象出來你到貨架前取下東西的整個流程,因為你的視覺能力和自我認知在其中幫助到了你。
現在,機器人也可以做到這一點。
研究人員開發了一種新的AI系統,讓機器人透過一個普通的攝像頭和三個模仿大腦的人工智慧系統(稱為深度神經網路),透過給定指令預測出機器人自己在三維空間中佔據的位置。
機器人利用「FFKSM」(Free Form Kinematic Self-Model)技術,可以實現:
-
觀察自己,理解身體的形態和運動方式。
-
規劃自己的動作,無需預設物理引擎或模擬。
-
在受損後自我修正,比如如果手臂彎曲,機器人能識別變化並調整行動,而不需要工程師重新程式設計。

圖示:A,一個機器人看著鏡子概念圖,機器人透過移動身體觀察變化來建立自己的模型。B,利用該模型,機器人可以預測自己的形態並執行各種操作任務。C,FFKSM 實現原理。該模型包含三個深度神經網路:座標編碼器、運動編碼器和預測模組。透過處理 3D 點座標和關節角度,它可以預測查詢點的密度和可見性。然後使用此資訊來渲染 PRED 預測影像,並將其與分段二進位制影像 (GT) 進行比較以進行訓練。
這項能力徹底改變了對機器人的定義和理解方式——從被動執行任務的工具,變成主動學習、適應和調整。
具身智慧的三大困局與自我建模技術破解之道
困局1:資料與物理實體的割裂
現狀:當前具身智慧依賴海量訓練資料,但不同機器人的機械結構、感測器配置差異導致資料難以複用。
突破:FFKSM 讓機器人透過攝像頭觀察自身運動,並構建通用的自我表徵,不依賴手工定義的運動模型。這相當於為機器人創造了一種跨平臺的「機器語」:無論是四足機器人、雙足機器人,甚至是機械臂,它們都能將自身運動轉換為統一的認知框架。
困局2:運動模型的自我更新
現狀:傳統具身智慧需預程式設計物理引數(如逆運動學模型與關節座標),但現實世界的磨損、負載變化常使預設模型失效。
突破:動態的自我建模技術使機器人像生物般持續感知身體狀態。當工業機械臂因金屬疲勞產生微小形變時,系統能透過視覺觀測自主更新運動模型。
困局3:Sim2Real問題
現狀:現有系統需在模擬環境中預訓練數月,但移植到實體機器人時仍面臨sim2real(虛擬到現實)差異。
突破:即時線上建模,實現「所見即所得」的學習正規化,實現欠驅動系統和柔性機器人的模擬(包括人臉機器人)。
具身智慧的新正規化:從「功能機器」到「認知生命體」
認知維度:傳統系統透過編碼規則理解世界(如用DH引數法描述機械臂運動),新技術則建立基於視覺-運動關聯的直覺認知,更接近生物進化出的本體感知。
可解釋突破:三個深度神經網路的協同機制(座標編碼→運動編碼→預測驗證)形成了類腦的認知閉環。當機器人選擇繞過障礙物時,研究者可追溯其「思考」路徑:先自我模擬機械臂擺動幅度→計算碰撞機率→生成避讓軌跡。
倫理前瞻:胡宇航在採訪中特別強調:「我們在系統中設定了認知邊界約束,確保自我建模僅用於物理運動最佳化,這是智慧體獲得‘身體自由’的前提條件。」
應用場景
🤺 人形機器人:從適應環境與任務
想象一個人形機器人在戶外行走,突然遇到一片光滑的冰面,或者執行任務時因額外負載導致身體平衡發生變化。
傳統機器人在這種情況下可能會因預設步態不適應新環境而滑倒或失去平衡,必須依賴額外的感測器或人為干預來調整動作。
然而,具備自我感知和自我建模能力的機器人能夠即時識別環境變化,比如檢測地面的摩擦力降低,或感知自身重量的變化。機器人會像人類一樣調整姿態——就像我們在溼滑地面上會本能地放慢步伐、調整平衡,而在背上揹包時會自動調整站姿以防止失衡。
🚀極端環境:從易受損失到高度魯棒
在外太空或極端場景,工程師無法遠端修復探測器,微小的機械故障可能導致整個任務失敗。
例如,火星車的機械臂可能因風沙卡住,或輪子受到障礙物撞擊而變形,導致行動受阻。新一代自我建模機器人可以像人類一樣更新運動模型——就像人在肌肉拉傷時會改變步態,努力走到醫務室。
這種機器人可以檢測自身運動異常,動態調整控制策略,即使某個部件受損,也能找到替代性運動方式,確保任務繼續進行。這種高度魯棒的能力,將極大提升機器人在極端環境下的生存能力。
🤖 人臉機器人:自監督學習突破人工建模瓶頸
柔性材料的建模一直是人形機器人領域的難題,尤其在面部模擬和動態表情生成方面,傳統方法依賴複雜的物理建模和人工調校,難以精準模擬人臉的自然運動。全新的自監督學習方法將徹底改變這一局面,使人臉機器人不再依賴人工建模,而是透過視覺學習自身結構和運動方式,自主最佳化表情控制模型。
這一突破不僅讓機器人面部表情更加自然,還能讓機器人自主調整不同情緒狀態下的微表情和肌肉動態,從而大幅減少「恐怖谷效應」。最終,這項技術將推動更具擬人感、更自然、更生動的機器人互動體驗,加速人機共存時代的到來。
機器人的「運動自我意識」(Kinematic Self-Awareness)
這項研究中所展示的能力是哥倫比亞大學團隊在過去二十年中釋出的一系列專案中的最新一個,過去這些專案中的機器人正在學習如何更好地利用攝像頭和其他感測器進行「自我建模」。
2006年,他們的機器人能夠透過觀察來建立簡單的、類似火柴人形狀的自我模擬。大約十年前,機器人開始使用多臺攝像機建立保真度更高的模型。
在這項研究中,機器人僅使用單個普通攝像機的影片就能建立一個全面的運動自我模型,就像照鏡子一樣。研究人員將這種新發現的能力稱為運動自我意識。
Hod Lipson解釋,「我們人類本能地意識到自己的身體;我們可以想象自己在未來的樣子,並在現實中執行這些行為之前就將行為的後果形象化,最終,我們希望賦予機器人類似的想象自己的能力。因為一旦你能想象自己在未來的樣子,你所能做的事情就沒有限制了。」
華人作者介紹
第一作者胡宇航,哥倫比亞大學博士生。2024年,以第一作者身份在《科學·機器人學》(Science Robotics)發表研究Human-Robot Facial Coexpression。

胡宇航:我一直對人類和動物如何理解世界感到著迷——不是依靠數學模型,而是透過觀察、嘗試和適應。我們此前發表在《科學·機器人學》上的研究,利用「鏡子」讓我們的面部機器人 Emo 透過視覺學習人類的表情。
現在,我們把這個想法進一步拓展:讓機器人僅透過視覺觀察自身,實現自我建模、運動規劃,並在受損後自主恢復。這項突破讓我充滿期待——機器人不再只是執行命令,而是能夠與我們一起進化。
這不僅比讓強化學習訓練機器人掌握某項技能更有趣,更重要的是,它觸及了智慧本質的核心問題。如果機器人能夠像人類一樣,透過視覺感知和理解自身在物理世界中的存在,那麼它們或許已經邁出了「自我意識」的第一步。
參考資料:
https://www.nature.com/articles/s42256-025-01006-w
https://www.engineering.columbia.edu/about/news/robots-learn-how-move-watching-themselves-0


