盧策吾教授談具身智慧:資料魔咒、第一性與兩級火箭大模型|高榕未來

今年6月,上海交通大學盧策吾教授影片展示了一段具身大腦“硬控”機械臂為自己刮鬍子的演示。看似簡單的任務背後蘊含巨大挑戰——嵌入了高精度力反饋模組的具身智慧大模型,必須根據教授頭部移動瞬時決策壓力和切向力的變化,才能既把鬍鬚刮乾淨,又不會傷到他。

在今年7月的2024世界人工智慧大會上,盧策吾與團隊進一步演示了具身大腦如何賦能實體機器人以實現一系列複雜任務。例如隨手一扔的衣服,雙臂自適應機器人可以疊得整整齊齊,這一通用柔性物體摺疊技能(AnyFold)屬於無限自由度物體操作,複雜物體理解堪比人類。
跟刮鬍子類似,這次現場還展示了代表通用物體表面刮削技能(AnyShave)的黃瓜削皮,具身大腦使得機器人可以對不規則曲面操作,精細度甚至超越人類水平。
盧策吾在具身智慧、機器人學習和計算機視覺領域深耕多年,是長江學者特聘教授、2023 年 “科學探索獎” 獲得者(目前具身智慧領域唯一)、通用智慧機器人公司非夕科技首席AI科學家。2023年,非夕戰略孵化生態企業穹徹智慧,聚焦大模型具身智慧技術,盧策吾教授擔任聯合創始人。
這次WAIC上,穹徹具身大腦Noematrix Brain首次公開亮相,並現場使用非夕自適應機器人進行一系列即時演示和真實互動,通用性和魯棒性得以全方位展現。盧策吾也發表了演講《穹徹具身大腦與具身智慧Scaling Law》,分享他眼中發展具身智慧的關鍵要素、落地產品和未來趨勢。
在AI大模型領域,Scaling Law是重要的經驗性發現,它是指大模型效能會隨著模型大小、資料量和訓練時間的增長而不斷提高。OpenAI透過ChatGPT和Sora證實了Scaling Law在語言/視覺大模型領域的成功。
那麼,具身智慧領域是否找到了屬於自己的“Scaling Law”?具身智慧大模型如何在現實場景中有更多應用?
盧策吾認為,不能單純地透過複製語言大模型Scaling Law的方式來打造具身智慧大模型,因為具身智慧的資料空間巨大,其超高的不確定性和資料採集難度在現階段會造成“資料魔咒”
隨後他從第一性原理出發,給出以“實體世界大模型”和“機器人行為大模型”為兩級火箭的解決方案。透過將“兩級火箭”串在一起做端到端的聯合訓練,可以大幅提高增長斜率,使訓練變得低成本、可規模化。
以下是盧策吾教授的分享:
我們知道,具身智慧是一種基於物理身體進行感知和行動的智慧系統,即透過智慧體和環境互動進行認知、學習、決策、行動。由於缺乏實際執行體與世界的物理互動資料,目前的語言/視覺大模型沒有全面覆蓋具身智慧研究所需的物理世界規律,因而如果僅僅在它們的基礎上加大資料量,並不能滿足具身智慧發展的需求。
那麼假如複製語言大模型Scaling Law,海量填充端到端的“視覺”到“控制”的資料用於模型訓練,是否能得到效能足夠優越的具身智慧大模型呢?
答案是,即使這是一個邏輯成立的路線,在目前階段還是面臨許多瓶頸。最大的問題是資料獲取難度的層級不同。探究過往語言/視覺大模型的演進,會發現網際網路在蓬勃發展的過程中提供了海量的視覺/語言資料,相關資料的填充是一種全民式的行為。
然而,具身智慧的資料需要進行1:1的採集,其資料空間巨大,在巨量的資料需求之上會產生超高的成本。拿同樣需要採集“視覺”到“控制”資料的無人車領域舉例:過往三年共有10萬級別、配備了高階模擬的無人車採集這類資料,勉強達到了一個還算可用的水平;但就操作、場景和模擬的複雜度而言,具身智慧的執行體(如通用機器人)相較無人車,資料具有至少幾十倍的不確定性。
巨大的不確定性使得具身智慧所需的資料空間巨大,這就成為了一個資料魔咒因而我們在嘗試有效、快速推動具身智慧發展時,可以跳脫出“路線”本身,從第一性原理出發,去思考什麼是使具身智慧任務完成的關鍵因素。
從具身智慧大模型的第一性原理出發,首先它要能理解這個物理世界,知道“世界是什麼”;其次它要知道“如何決策”,才能展現出足夠魯棒的行為。結合語言/視覺大模型做預訓練或輔助,透過對操作相關的物理常識,以及力反饋嵌入智慧體過程中的行為決策進行聯合訓練,具身智慧才能夠飛快成長。
由此我們打造了兩個大模型,可以將它們看作是推動具身智慧發展的兩級火箭
第一級火箭是實體世界大模型,它可以在訓練中讓機器人掌握常識性的、低維的操作物理表徵,從而理解客觀物理事實,並與人類概念對齊。第二級火箭是機器人行為大模型,它可以充分耦合操作物理常識表徵和執行體(以機器人為例)的高精度力反饋能力,從而作出仿人化的力位混合行為決策,且操作具有極佳的魯棒性和通用性。
兩級火箭串在一起做端到端的聯合訓練時,資料量需求就會大幅降低、增長斜率更加明顯,使訓練變得足夠的低成本、可規模化
為了不斷訓練實體世界大模型,我們需要有效獲取物體的操作結構資料。
一方面,我們發現人手操作與物體具身知識具有對偶性,因此做了一個人手操作的學習平臺,透過觀察大量的手的操作,可以從中發現操作表徵,幫助模型獲得操作拓撲結構常識。
另一方面,一個有效模擬真實世界並能支援物理互動的虛擬環境是必不可少的,我們自研了具身智慧模擬器RFUniverse(RSS 2023 & IROS 2022最佳論文)。結合一系列機器學習技術,RFUniverse能夠加速500倍模擬物理世界、誤差1mm以內,由此使模擬場景更加接近真實物理規律,且大模型能夠以任務為中心理解常識,實現模擬與學習的耦合。
此次WAIC現場,我們搭配機械臂展示的衣物摺疊體現了頂級的以任務為中心的物理常識理解能力。在AI的世界裡,對操作物件的本質理解會隨著其自由度增加而提升,如完全不會動的剛體是六維、關節體是6+k維,但衣服這類柔性物體的自由度是無窮維的,因此基於衣物的任意初始狀態完成摺疊操作需要在物體和操作常識理解上有一個巨大的突破。這個研究也使我們成為了歷史上第一個獲得國際頂會 RSS 2023 最佳系統論文題名的中國團隊,並且我們應該也是全球第一個在公開展會上真實完整呈現衣物摺疊的團隊。
基於對操作物理常識的理解,我們還需要獲取足夠多力位混合的操作資料。傳統的位置控制大模型只需要獲取位置資訊即可,但只有位置沒有力將會使終端操作變得不夠魯棒、不夠通用。
目前,我們已經在使用不少組合式的資料方案和裝置,比如透過全球唯一的高精度力覺遙操作平臺,獲取高精度對齊的力位混合資料,做到“庖丁解牛”。我們還做了一個機械結構全對映的外骨骼資料採集平臺,訓練人員可以揹著它去到任何地方,便捷、規模化、低成本地進行源頭資料採集。
以這些資料生成方案為工具,我們參與構建了迄今為止最大的開源真實機器人資料集Open X-Embodiment Dataset,其中已包含22個機器人的超一百萬個真實機器人軌跡,被許多權威人士反覆引用,也歡迎大家來使用。
在以上分享的所有這些技術的積累之上,我們在此次WAIC正式面向公眾釋出了一個具身智慧的通用大腦:穹徹具身大腦Noematrix Brain。
穹徹具身大腦具備全鏈路的具身智慧技術框架,提供“以力為中心”的兩個具身智慧大模型(實體世界大模型和機器人行為大模型)、原子技能庫AnySkill、基礎軟體框架及相關開發者工具鏈,與各種型別的機器人本體、甚至工業裝置都能有機結合,助力機器人輕鬆掌握更多技能、實現更多應用。
除大腦本身,在實際方案層面,我們可以向客戶提供高共性的、可以被反覆使用的軟硬體一體平臺,透過不同形態硬體的模組化組合,滿足不同場景的實際需求。
另外,基於穹徹具身大腦,穹徹提供不斷擴張的機器人原子技能庫AnySkill,從而使智慧體具備通用操作能力。首發於2021年的通用抓取技能AnyGrasp是其中的代表。在初版釋出時,AnyGrasp已經不受物體種類、柔性程度限制,可直接對未知物體進行抓取,檢測速度極快,世界範圍內首次使機器人抓取速度達到人類水平。經過不斷最佳化,AnyGrasp現在可以具備動態物體抓取、高精度力覺抓取、多樣紋理處理等多種泛化能力。
AnySkill在我看來,其實是一種Scaling law by skill它可以透過推進基礎技能的魯棒性和通用性達到99.X%,使其產生一個能力躍遷,從而被觀察到增長質變。而人類絕大多數的任務完成,都是透過基礎技能的組合排列,因此AnySkill可以以最精簡的原子通用技能集,透過多樣的組合,並結合語言/視覺大模型輔助,支援各類場景的快速開發。
未來,透過統一模型和原子通用技能的不斷增長,我們能夠解鎖的商業化任務也會成倍增長,直至統一模型形成技能空間,所有的技能都能夠足夠通用,覆蓋全行業。
當執行體被具身智慧加持,它們能夠在很多行業成為人類的幫手:繁瑣如工業產線上一顆螺絲的安裝,危險如極端場景中的拆裝爆破任務,細緻如與日常生活息息相關的做家務、下廚、看護病患……
我們會持續用技術推動行業進步,期待這一天早日到來。

相關文章