智源學者仉尚航:具身基礎模型最終狀態可能是「4D世界模型」丨具身先鋒十人談


基於快、慢雙系統的具身基礎模型。
作者丨張進
編輯丨陳彩嫻
今年業界開始流傳著一個說法,具身多模態大模型是當下為數不多的新的創業機會。
今年,受大模型啟發,業界看到了大模型帶給機器人領域的新能量,開始研究能同時完成多種任務的具身智慧的基礎模型,希望實現能跨越不同任務、不同本體、不同場景,具有泛化能力的機器人智慧體。
具身智慧基礎模型是一個新的領域,相關工作並不多,從早期的 Saycan 到後面斯蒂朗寧的 PaLM-E,RT-1、RT-2到RT-H系列,而最近的RDT-1B、π0的工作也引起了廣泛關注。
近日在“智源論壇·2024具身與世界模型專題峰會”上,北京智源人工智慧研究院作為中國大模型領域的黃埔軍校,展示了他們在具身智慧領域的諸多研究,其中由仉尚航領導的智源具身多模態大模型研究中心的主要研究方向是面向具身智慧的多模態大模型與大資料構建,包括具身大腦大模型、端到端大模型、世界模型等,希望最終實現具身智慧領域的 Scaling Law,使具身基礎模型具備跨本體、跨場景、跨任務的泛化能力。
仉尚航是一位年輕的人工智慧領域優秀學者,現為北京大學計算機學院長聘系列助理教授(研究員),博士生導師,智源具身多模態大模型研究中負責人。
她於2018年博士畢業於美國卡內基梅隆大學,後於2020年初加入加州大學伯克利分校 Berkeley AI Research Lab (BAIR) 從事博士後研究。她的主要研究方向包括具身智慧與多模態大模型,擁有豐富的研究經驗和諸多優秀的研究成果。曾獲世界人工智慧頂級會議AAAI’2021 最佳論文獎,Google Scholar引用數1.2萬次。作為編輯和作者由Springer Nature出版《Deep Reinforcement Learning》,至今電子版全球下載量超二十萬次,入選中國作者年度高影響力研究精選。仉尚航於2018年入選美國“EECS Rising Star”,於2023年入選“全球AI華人女性青年學者榜”。
仉尚航
當下,具身智慧的基礎模型已經出現兩條不同的技術路線:針對原子任務的端到端多模態大模型,以及針對複雜長程任務的分層大模型,此外還有非常少量的關於具身世界模型的研究。
仉尚航帶領的智源多模態大模型研究中心,基於上述不同的技術路線,設計了面向機器人具身模型的快慢系統,快系統能夠直接預測末端執行器的pose和action,慢系統可以反思和糾錯,不斷提升機器人的大腦能力。
仉尚航認為無論是端到端模型還是分層結構,我們都希望機器人能夠更好地理解物理世界中的物理規律,對世界進行理解、建模與推理,在時間和3D空間中與世界更好地進行互動,其中時空智慧很重要,所以具身智慧基礎模型最終的狀態可能是4D世界模型。
以下是AI科技評論與仉尚航的對話:
1
智源具身多模態大模型研究中心
AI科技評論:智源具身多模態大模型研究中心的主要研究方向和目標是什麼?
仉尚航:面向具身智慧的多模態大模型與大資料的研究。為了去構建、訓練具身智慧領域的大模型,我們需要去採集、標註具身智慧大資料,包括真機資料、網際網路資料、模擬資料等,最終是為了實現具身智慧領域的 Scaling Law。
在 NLP 領域,Scaling Law 讓大家看到了大模型的泛化性、湧現能力和通用性,因此,在具身智慧領域Scaling Law 也有可能帶給機器人一些泛化的、通用的能力,我們需要去探索機器人領域的大模型,實現機器人領域的 Scaling Law。具體來說,就是基於多模態大模型構建具身基礎模型,驅動不同本體的機器人能夠完成開放世界的複雜任務,實現跨本體、跨場景、跨任務的泛化。
AI科技評論:您研究中一個很重要的部分是開放世界泛化機器學習,這一方向是研究具身智慧的哪些問題?面臨的最大挑戰是什麼?
仉尚航:開放世界泛化機器學習的研究主要使AI模型在開放世界中面臨新的資料分佈時,可以自動適應新的環境,解決新的任務。比如如何提升自動駕駛模型面對不同季節、不同時間、不同天氣以及其他長尾任務的效能,如何讓機器人在開放世界的場景下完成複雜的任務。我們基於這個方向的積累提出了更具泛化性的具身基礎模型,使機器人在面臨複雜場景和任務時,可以自主發現錯誤,並進行自我糾正與模型進化。這個方向是構建具身大模型的基礎。
AI科技評論:具身智慧沒火之前,大家都在做多模態大模型,之前做多模態大模型的那一撥人,跟現在做具身多模態大模型的,是同一撥人嗎?兩者有什麼區別?
仉尚航:不會是完全是同一撥,目前來看做具身智慧的學者或者從業人員很少專門跳去做多模態大模型,但是多模態大模型方向的研究人員有可能會轉去做具身多模態大模型。要想做具身多模態大模型的方向必須具備至少兩方面的能力:一個是多模態大模型方向的研究能力;另一個就是具身智慧領域的專業能力。
AI科技評論:這樣的人才在國內多嗎?
仉尚航:很少。我們在智源招聘的過程中就發現,同時具備具身智慧和多模態大模型能力的人現在非常少,因為兩個方向都是比較新的,再結合在一起就更加少了。
AI科技評論:都是新方向的話,怎樣去招人呢?
仉尚航:首先要儘量去挖掘。就像智源挖掘到我這樣,可以透過我過去的論文發表情況看到我的研究包括多模態大模型、泛化學習、自動駕駛、與機器人,對進行具身多模態大模型的研究具備了良好的基礎與潛力。
第二種方式就是想辦法去強強結合。我們團隊有擅長機器人的研究員,也有擅長大模型的研究員,然後我可以讓兩者去合作,互相學習和促進。
AI科技評論:具身多模態大模型研究中心現在有哪些研究成果?
仉尚航:目前中心成立不到半年時間,進展還是比較快的。我們的主要研究工作是面向具身智慧的多模態大模型和大資料構建,它背後有一個統一的思路:設計具有類人思考快系統與慢系統的長程閉環框架。
基於這樣的思路,我們研發了一系列的具身智慧基礎模型。該思路是受到了心理學家丹尼爾·卡尼曼的啟發,他在《思考,快與慢》一書中提出,人的思考分為感性直覺的快系統和意識理性的慢系統。
我們創新地設計了面向機器人具身基礎模型的快慢系統框架,快系統能夠高效快速地預測末端執行器位姿,慢系統則是在面對複雜和錯誤行為時更加深入地思考和糾錯,不斷提升機器人大腦的能力。
為了實現該快慢系統框架,我們探索了具身端到端以及大小腦分層結構的不同技術路線,進行開放世界泛化物體操作,並基於大腦模型進行語義理解與常識推理,實現零樣本物體導航。
無論是端到端模型還是分層結構,最終都是為了讓機器人能更好地理解物理世界規律,更好地與環境互動,更好地執行時序上的準確行為。因此,智源同時提出了四維世界模型Robo4D,為世界模型構建四維時空,以解決機器人在開放世界中任務操作的物體泛化以及場景泛化等問題。
相關研究被國際旗艦會議NeurIPS 2024、ICML 2024接收。
2
具備快、慢系統的具身智慧大模型
AI科技評論:具備快、慢系統的端到端大模型是怎麼工作的?
仉尚航:針對端到端大模型,我們研發了一個具備快速直覺推理和慢速反思糾正能力的快、慢系統端到端大模型(Self corrected Multi model large language model for end to end Robot manipulation),這也是我們最近的一個投稿工作。具體指一個端到端大模型同時具備了快系統和慢系統。
快系統模仿人類思考的過程去構建一個機器人端到端大模型,所謂的快系統就是利用引數高效微調的技術進行一個準確 pose—estimation。當模型檢測到部分執行會失敗的時候,慢系統實現一個chain of thought的思維鏈糾錯,自主化分析錯誤原因並呼叫 expert model 進行反饋提示,從而 對它的 action 進行調整,使得我們可以有更準確的action輸出。
這樣的系統使得模型可以對錯誤進行反思並且修正自身錯誤,從而去增強模型的泛化性和魯棒性。在實驗過程中的 unseen 任務部分,和最新的 Sota 比起來我們有20%以上的提升,說明快慢系統的思路還是比較成功的。
AI科技評論:達到20%的提升是在多久時間內實現的?
仉尚航:如果是在伺服器端進行訓練和最佳化,30類任務只需要幾小時便可以實現精度20%的提升。
AI科技評論:這樣擁有快、慢思考的具身大模型會給機器人智慧帶來怎樣的提升?
仉尚航:擁有這種架構的機器人能夠擁有更強的推理與邏輯思考能力,能夠更好地分析解決長程任務,此外同時面向一些錯誤的情況可以進行自我糾正,利用自我糾正的機制可以快速適應場景、學習新的技能。
我們認為具備自我進化能力的機器人才是解決所有任務所有場景的通用解。另外,一個能自主學習、自我進化的機器人的驅動方式也會有變化,一個比較遠的設想這樣的機器人是可以使用prompt,甚至更高階的概念比如同理心、好奇心、成就感進行驅動的,甚至只需要機器人三定律就可以讓機器人出廠在人類環境進行自我進化。
AI科技評論:大腦大模型方面有什麼進展?
仉尚航:我們最近研發了一個面向具身智慧的大腦大模型。它基於多模態大模型,可輸入多種模態的資訊,包含視覺場景、指令、機器人狀態資訊。將這些資訊輸入給大腦大模型之後,能夠輸出多種模態的資訊,包括關於任務的拆解和規劃,它可能是一種虛擬碼的形式去輸出。
這樣的話大腦模型就生成了指令,接下來小腦大模型可以一步一步地按照指令去執行。這樣就可以把一個長程任務拆解成一個個原子任務。同時,大腦模型還可以輸出像 Trajectory、Key points等資訊,幫助小腦大模型縮減它的動作執行空間,這樣小腦大模型就相當於去處理一些更加簡單的原子任務就可以了。
AI科技評論:小腦大模型呢?
仉尚航:小腦大模型方面,我們最近有一個工作RoboMamba被 NeurIPS 接受,今年 12 月在加拿大會有一個展示。它是一個端到端的多模態大模型,輸入的是視覺、 場景和指令,輸出的是action,它的特點是既具有了推理能力,又具有了高效性。
RoboMamba借鑑了最近提出的狀態空間模型Mamba,在它的基礎上實現了高效推理和動作預測能力,而且它可以保持較低的微調和推理成本。透過整合視覺編碼器與 Mamba 並對視覺標記和語言嵌入進行聯合訓練,RoboMamba 具備了視覺常識和機器人推理能力。此外,透過簡單策略頭進行高效微調,該模型以極少引數實現了 SE(3) 位姿預測。
RoboMamba的工作在一般的通用多模態推理評測基準以及機器人評測基準上,都展現出了比baseline更好的推理能力,並且它能夠只用 3.7 B 的引數就可以適配到各種機器人本體上。同時還具備準確的end-effector pose預測能力,可以實現小腦大模型所需的功能。
而我們現在擁有的端到端大模型、分層大模型,在我們的研究體系裡,可能又是分久必合、合久必分的狀態,最終會統一成一個 4D 世界模型。
3
模型和資料就像蹺蹺板
AI科技評論:在大語言模型中會有算力、演算法、資料這關鍵三要素,那麼在具身智多模態大模型中是否也對應著同樣的關鍵三要素?
仉尚航:是的。跟大模型一樣,具身大模型有自己的資料瓶頸,而且更難;大模型的算力要素對應具身智慧中的本體;大模型演算法對應具身模型的設計。
AI科技評論:大語言模型的 Scaling Law 能夠複製到具身大模型領域嗎?
仉尚航:可以,很多具身多模態大模型也初步展現了一個能力,即當具身智慧的模型規模變大、訓練資料變多的時候,它確實具備了更強的泛化能力。
但同時,由於目前訓練等資料不夠多、模型還不足夠大, ScalingLaw 只是初見端倪,離 Gemini 或者 ChatGPT 系列模型能力還是需要很長一段時間的路要走。
AI科技評論:具身大模型的資料與模型的關係,跟大語言模型中資料和模型之間的關係是一樣的嗎?
仉尚航:不太一樣。大模型的發展程序是這樣的,先有大語言模型,再有多模態大模型,而現在還沒有非常多的視覺大模型,這一順序背後很重要原因就是資料的瓶頸。
為什麼大語言模型先出來?因為其訓練資料容易獲取,它透過有效的自監督學習就可以實現大規模的預訓練,網際網路上有廣泛的、海量的資料,部分不需要大量的標註就可以去預訓練。之後的多模態大模型,是藉助大語言模型的能力再去做多模態能力,即視覺模態和語言模態的對齊,然後讓整個多模態模型也具備了大模型的湧現能力。
但到視覺大模型就有點難做了,純視覺大模型很少,因為視覺這個模態的標註是很難獲取的,不像大語言模型那樣直接上網下載一些語料就可以訓練。所以這也是為什麼到了視覺大模型這邊反而程序會很慢,因為缺高質量的、有標註的視覺資料。
再進一步,到機器人的層面就更難了。因為機器人面臨的不僅是視覺世界,它還有action,甚至還有物理規律。首先資料怎麼採集是問題,並不是網際網路下載就可以了,還得用真機去採,採完之後還得標註。而且資料是多元化的,甚至包含了觸覺、聲音、力,這一系列過程都是非常難且昂貴的。
AI科技評論:資料難題如何解決呢?
仉尚航:機器人的資料金字塔最下層是海量的網際網路資料,往上是模擬資料,再往上是真機資料。其中精細標註的真機資料是塔尖,真機資料肯定是越多越好的,只不過成本有點大,所以目前沒有辦法採集很多。再往下是模擬資料,模擬資料面臨的一個很大的問題是從模擬到真實得 gap,模擬資料訓練的模型遷移到真實的場景中難度較大。
機器人領域也可以下載大量的網際網路資料,例如:網際網路人手操縱資料,但是怎麼利用這些海量的網際網路資料去訓練一個機器人的模型是一個非常難的課題。
我覺得資料和模型就像是蹺蹺板,如果你對資料的要求變低了或者下載海量的網際網路資料了,那對模型設計的要求就會相應變高了,就需要設計一個能夠利用網際網路資料去訓練的大模型,那麼這個模型的設計、演算法的設計就變難了。如果模型變得簡單一點,那麼對資料的需求就變大了,需要是高質量的、大量的精標資料。所以兩者就是一個蹺蹺板,一方的要求變低了之後,另外一方的要求就會變高。
AI科技評論:所以具身智慧的多模態大模型需要從頭開始訓練嗎?
仉尚航:既然已經有一定多模態模型或者視覺預訓練模型的基礎了,為什麼不用呢?而且機器人大模型或者我們叫大腦大模型,它也是要像人一樣去推理的,所以我們一般不是完全地從頭開始訓練。
AI科技評論:在資料收集上,多模態大模型研究中心是否有獨特的方法?
仉尚航:我所在的小組側重於真機的資料採集。第一,由於我們是跨本體的研究,所以我們收集的資料也不是隻針對一種型別的機器人,會跨越靈巧手、手臂、整個身體、雙足機器人、機器狗等全都覆蓋掉;
第二,專門構建一個機器人資料訓練場,面向家居、工業物流搭建了一系列場地專門用於採集資料;
第三,會根據最新的方案,去開發資料採集的遙作業系統;
第四,我們專門針對大模型的需求去定製了一個機器人資料的自動標註流程,並且實現了自動標註;
最後,由於我們比較擅長做機器人大模型演算法層面的事情,所以會形成一個數據和模型的閉環,即我們不是隻採資料,也不是隻做模型,而是兩者都瞭解。這樣我們就知道針對模型訓練,應該去採什麼樣的資料,可以保證採集的資料是切實可用的。
4
2D、3D到「Real World 4D」大模型
AI科技評論:現在的大模型大部分是集中在雲端上,是沒法在機器人本體上跑的,因為機器人需要一個非常高算力的板卡,這意味著成本高、散熱成問題、功耗高,智源的具身多模態大模型如何跑在機器人本體上?
仉尚航:在CVPR2023和CVPR2024上,我們設計了一個端雲協作的大小模型協同訓練和部署的方式。可以在雲端去訓練這個大模型,然後透過知識蒸餾、模型量化的方式得到小模型,再把這個輕量化的小模型部署在終端上。
終端可以放一個NVIDIA的板子,這個板子上可以部署一個小的如1B的模型。在終端上放置一個輕量化的大模型,既能保持住大模型的能力,也可以更高效地部署。
AI科技評論:具身大模型部署到機器人本體上是一個待解決的難題嗎?
仉尚航:是的。目前我們去研究一個具身多模態大模型,會讓其先具備推理能力、action 能力,也就是先做一個面向機器人場景,儘可能魯棒的大模型。在這基礎之上,再專門地去做模型的輕量化的方式。
我之前在伯克利的導師 Kurt Keutzer,他帶的一個研究組做了從 CNN 到 Transformer 到大模型一系列的輕量化工作,有很多技術儲備。因此於我們中心而言,不太擔心模型不容易部署的問題,更何況我們還有端雲協作的系統,可以實現 online 的更新。
退一步講,如果模型輕量化之後能力沒有云端大模型那麼強,我們還可以藉助端雲協作的模型,在遇到特別難的 case 後,可以把給它傳到雲端,讓雲端更大的模型去進行推理工作。所以輕量化部署的問題的話,並不一定是第一步就要解決的,我們的第一步還是要先把具身智慧大模型做得儘可能強大。
AI科技評論:智源的具身多模態大模型主要落地到什麼樣的機器人上?適配了哪些晶片?
仉尚航:我們在智源設計的具身大模型是具備跨本體能力的,智源與國內的多家人形、機械臂與靈巧手的公司進行了合作,預期在國內形成資料、模型以及本體和業務的生態迴圈。
有關晶片我們的考慮是先在Nvidia生態上的伺服器和自動駕駛端的晶片上進行快速迭代,我們看到國產的晶片也在逐步往機器人具身任務上發力,比如地平線成立了地瓜機器人,華為也在支援機器人方向的落地,這些都是未來我們要合作的物件。
AI科技評論:為什麼要研究「Real World 4D 模型」?
仉尚航:無論是端到端模型還是分層結構,最終都是為了讓機器人能更好地理解物理世界規律,更好地與環境互動,更好地執行時序上的準確行為。因此,我們同時提出了四維世界模型Robo4D,4D 即三維的空間加上一維的時間,就變成了四維的世界模型。
為世界模型構建四維時空,以解決機器人在開放世界中任務操作的物體泛化以及場景泛化等問題。利用世界模型預測機器人與環境互動後的未來事件,從而生成準確的行為,提前預測行為是正確還是失敗。實現真實世界的四維時空世界模型是邁向機器人整體AGI的重要一步。
四維世界模型將作為機器人的世界基礎模擬器,同時具備時間與空間智慧,擁有長短期記憶與物理概念學習等能力,與真實物理世界進行互動並從中得到反饋。
真正的 4D 的世界模型,它可以集感知、導航、操控為一體,和真實世界互動,反映物理規律,更準確地完成各種任務。
在機器人的整體AGI 概念中,預測是非常關鍵的步驟,例如,未來的機器人不是說向它傳送了「要喝水」的指令,它就可以按照從一到五的步驟一次性地生成出來,而是機器人會根據每一步的操作再去決預測下一步,它會判斷第一步操作之後世界會發生了什麼變化,再根據世界的變化去執行第二步的操作。儘管我們在大小腦的路上充滿期待,但同時也意識以人為參照的話,具身大模型還缺少了“想象”這一環。這一環就是世界模型來補足的。
AI科技評論:如何實現一個「Real World 4D 模型」?
仉尚航:這需要在資料、模型結構以及訓練方式上都有創新,從我們的角度來看,在資料層面採集更多的真機資料進行更系統的標註與處理,並針對性的指導資料採集方向,探索能夠更高效將網際網路低成本資料使用起來的網路結構。
基礎模型層面我們部署自我糾正的機器人模型在現實世界進行更大規模的資料採集以及自我進化,模仿人類的思維方式,提出泛化性更強、更魯棒的基礎模型。我們並不只是堆砌資料進行預訓練,而是透過人和機器人與世界的互動來引導具身模型迭代,更系統性的構建具身大模型與大資料,從而實現real world 4d模型的訓練資料構建。
從模型結構角度來說,我們也一直從各個角度在探索各種預測器。空間上我們近期研究了機器人場景下的4D重建模型,是在探討多視角的預測問題;時間尺度上我們近期從影片生成模型的角度提出EVA,具身智慧世界模型的影片預測器,研究通用影片生成模型在機器人任務下的泛化能力,都是對世界模型模型的探索。
此外更積極的擁抱機器人本體公司與算力生態的公司,推進大模型在某些有價值的場景獲取更多真實的資料與更多的反饋。世界模型就是要讓我們、讓機器人、讓模型、讓資料快速的和真實世界互動反饋增強,
AI科技評論:具身大腦有幾種技術路線分別是多模態、空間智慧、世界模型。這幾條路線是漸進式的關係嗎,先是多模態,然後再是空間智慧,然後再到 4D 世界模型?
仉尚航:路線確實有點漸進的意思。
目前端到端和分層結構是並行的,但是在端到端和分層結構之後可能就要到世界模型了。現在大部分處理的還是 2D 的問題,接下來就要處理3D幾何資訊,包括我們團隊現在正在做的就是 3D 具身智慧大模型,下一步或者同時在進行的另外一系列工作就是 4D 世界模型和4D VLA模型,所以從 2D 到 3D 到 4D 也是一個程序。
但實際上並不意味著只有一條路線達到終點另外一條路線才會開始。具身智慧現在是百家爭鳴的狀態,各家有不同的理解和方法。但最終都是在研究時間和空間的理解,4D世界模型可能是一種大家都需要達到的最終形態。
AI科技評論:具身智慧的基礎模型的終極形態會是4D世界模型嗎?
仉尚航:有可能,但目前還無法下定論。因為人還有觸覺、嗅覺、力等其他維度,這些是當下的機器人還不具備的,但至少它們已經能夠幫人類完成很多現實生活中的任務了。
AI科技評論:在世界範圍內,4D 世界模型現在有什麼樣的進展?
仉尚航:目前在國內外的話,有很多關於自動駕駛的世界模型工作,機器人世界模型也有一些2D video的工作,但是4D世界模型的研究還是空白。
可能我們算是第一個提出的。現在也已經做有了初步的成果,馬上就會投稿到人工智慧頂會上。
更多內容,點選下方關注:

相關文章