機器人可跨類別操作陌生物體,清華團隊開發新方法提升泛化能力31.6%

機器人是否可以像人類一樣靈活操作陌生物體?
要想做到這一點,關鍵在於賦予其“舉一反三”的能力:當人類看到新物品時,能根據外形或功能,從歷史記憶或與物理世界的互動過程中獲得先驗知識(比如用開瓶經驗開新飲料)。
這種能力源於人類能夠理解物體之間的相似性,並把對熟悉物體的操作經驗用到新物體上。但是,機器人缺乏這樣的經驗,而讓機器人在不熟悉的場景中操作物體,是實現智慧機器人的關鍵一步。
清華大學團隊提出了一種名為 Robo-ABC 的方法,使機器人具備跨類別的泛化能力。透過該方法,機器人可以在沒有任何額外訓練或人工標註的情況下,直接操作它從未見過的物體。
實驗結果顯示,Robo-ABC 在識別操作方式的準確性上比現有方法提高了 31.6%。在實際的抓取任務中,Robo-ABC 的成功率達到了 85.7%,證明了它在真實場景中的有效性。
圖丨許華哲(來源:許華哲)
日前,相關論文以《Robo-ABC:透過語義對應實現機器人操作的超越類別的可供性泛化》(Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation)為題發表在 arXiv[1],並已經被歐洲計算機視覺會議(ECCV 2025,European Conferenceon Computer Vision)收錄。
清華大學博士生鞠沅辰是第一作者,助理教授許華哲擔任通訊作者。
圖丨相關論文(來源:ECCV)
以往的泛化方法往往依賴於訓練資料的相似性,只能在與訓練資料相同的場景中實現泛化。該研究的創新之處在於從人類能力的角度出發去思考泛化問題,而不是從傳統的機器學習能力出發,從而為實現更高級別的泛化能力提供了新的思路和方向。
該研究的初衷是賦予機器人類似人類的跨類別泛化能力,使機器人能夠從不同類別的物體中學習並應用知識,從而實現更廣泛的應用。
(來源:ECCV)
在該研究中,機器人透過“觀看”海量人類操作影片,從中提取有用的操作資訊。當機器人遇到陌生物體時,系統會從預先提取的“操作記憶”中快速匹配視覺/功能相似的參考物品。
接著,透過預訓練 AI 模型將操作關鍵點(如握持位置)智慧對映到新物體上,整個過程無需人工標註或額外訓練,機器人能夠以零樣本(zero-shot)的方式直接操作從未見過的物體。
雖然這聽起來頗具挑戰性,但研究發現,用預訓練的模型可以幫助機器人完成這一任務,即使物體的類別完全不同。
在該過程中,研究人員採用了擴散特徵(DIFT,diffusion features)等技術手段。DIFT 特徵本身具有一定的語義對應關係,但並不是直接拿來就能用的。該課題組對其進行了額外的處理,使其對旋轉、平移等變化更加魯棒,從而更好地適應不同場景下的需求。
(來源:ECCV)
VRB(Visual Reasoning Benchmark)是一個從大規模人類資料集中學習的端到端模型,其目標是理解物體的可用性,即物體可以被如何使用或操作。研究人員對比了 VRB 模型,特別是它在處理物體可用性方面的表現。
結果顯示,Robo-ABC 在效果上顯著優於 VRB。“這是因為 Robo-ABC 能夠實現跨類別之間的相互遷移,從而更好地理解物體的可用性。”許華哲說。
例如,如果瞭解如何握住話筒,那麼也能夠推斷出如何握住放大鏡,儘管二者是不同的物體,但它們在形狀和使用方式上有許多相似之處。這種能力正是該模型的核心優勢。
相比之下,VRB 是純資料驅動的模型。如果訓練集中沒有包含某個特定的物體(比如放大鏡),那麼模型在面對這個未見過的物體時可能會失效。
許華哲解釋說道:“我們的模型之所以不會失效,是因為使用了 DIFT。它是在海量資料集上進行預訓練得到的,能夠捕捉到物體之間的對應關係,從而在面對未見過的物體時也能做出合理的推斷。”
在後續的專案中,研究人員還將這種二維對映關係擴充套件到了三維空間,實現了一種稱為“功能性對映”的技術。透過這種對映,可以將一個三維物體的所有位置對映到另一個三維物體的所有位置。
許華哲舉例說道:“例如,可以將長豆角對映到短豆角上,或者將西瓜對映到南瓜上。這種技術不僅提升了模型的泛化能力,還使其能夠更好地處理形狀各異的物體。”
該技術與僅能應對標準工業品(如飲料瓶)的傳統模型相比,實現了從“識別已知”到“學習並理解未知”的跨越,有望助力機器人在處理異形食材、修剪樹枝等真實場景中展現出獨特優勢。
接下來,該團隊將從兩個方向繼續推進這項研究:一方面,進一步擴大物體識別的範圍,並提升其對映精度;另一方面,將該技術與端到端的方式相結合,以驗證其在複雜任務中具備提升機器人效能和良好泛化能力的可能性。
參考資料:
1.Ju, Y., Hu, K., Zhang, G., Zhang, G., Jiang, M., Xu, H. (2025). Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation. In: Leonardis, A., Ricci, E., Roth, S., Russakovsky, O., Sattler, T., Varol, G. (eds) Computer Vision – ECCV 2024. ECCV 2024. Lecture Notes in Computer Science, vol 15099. Springer, Cham. https://doi.org/10.1007/978-3-031-72940-9_13
運營/排版:何晨龍


相關文章