香港大學李弘揚:「2025年具身智慧新一代閉環智慧系統」迫在眉睫丨具身先鋒十人談

百萬真機資料集的終極目標是打造硬體加系統的 AI 次方模式,構建真正智慧的端到端具身系統。
作者丨朱可軒
編輯丨陳彩嫻
去年年底,全球首個基於全域真實場景、全能硬體平臺、全程質量把控的百萬真機資料集開源專案 AgiBot World 釋出,在機器人領域引起了廣泛關注。
AgiBot World(https://agibot-world.com/)的目標是打造硬體加系統的 AI 次方模式,香港大學助理教授李弘揚博士團隊與上海智元機器人深入合作,開展了機器人超大規模操作任務的前沿研究。
2019 年,李弘揚在香港中文大學多媒體實驗室(MMLab)獲博士學位,主攻計算機視覺和深度學習方向,於2021年在上海組建了 OpenDriveLab 團隊,專注具身智慧與自動駕駛的研究。
他曾在 CVPR、ICCV、ECCV、NeurIPS、RSS、CoRL、ICLR、TPAMI 等國際頂尖會議與期刊上發表論文三十餘篇,並多次擔任會議領域主席(Area Chair),其中端到端自動駕駛演算法工作 UniAD 被評為 CVPR 2023 最佳論文。
博士畢業後直到 2023 年,李弘揚主要聚焦在端到端自動駕駛演算法的研究,自去年年初開始,他更多地開始關注機器人方向。實際上,二者之間是存在許多可移植經驗的,比如都由感知、預測和規控構成,而且都跟環境互動從演算法識別到動作執行。其中,最關鍵的點在於端到端的訓練正規化能否複製到機器人任務中。
2024 年第二季度,團隊便開始論證調研如何在具身智慧中驗證 Scaling Law,他們和智元等團隊合作 AgiBot World 的工作也始於這一階段。作為百萬真機高質量標籤的資料集,AgiBot World 的物理形態趨於統一,這點區別於將不同子資料集簡單堆砌到一起的超大規模資料集;同時,前者在靈巧手操作、視觸覺多模態訊號和多機協同等三方面也有著明顯的優勢。
左:AgiBot World 資料集釋出前團隊同學通宵達旦進行準備。右:央視總檯和上海市經信委對AgiBot World 資料集的釋出進行報道。
正基於此,AgiBot World 距離具身智慧的兩個大目標更近一步:一是真正智慧化,二是如何定向驗證 Scaling Law。“不是堆百萬真機、堆 GPU 算力就行,而是說百萬真機能回答多樣性比資料量更重要;另一個是如何驗證小規模資料 ,例如 30 萬資料,就能達到某個效能,進而達到降本增效”,李弘揚強調。
AgiBot World 還有一個更加宏大的願景,全量資料集將於 2025 年 3 月推出,同時也會在 CVPR、IROS 等場合舉辦挑戰賽;透過資料共享,讓整個產業、學界共同研究有價值的學術問題,才能真正實現具身智慧領域的“ImageNet 時刻”和共用共享。
2025 年,李弘揚團隊工作核心是探索如何構建真正具有智慧的具身系統,使得機器人真正能夠適應各種環境、學習各種新任務、能夠從自身行動中獲得反饋並進行反思。更多最新工作進展,敬請訪問團隊主頁 https://opendrivelab.com
我們認為實現具有人工智慧的具身智慧系統需要模型具備三種能力:自適應、能學習、會反思。
以下是 AI 科技評論與李弘揚的對話:
1
自動駕駛與具身智慧
AI 科技評論:博士畢業後,您有幾年時間是專注在端到端自動駕駛的演算法研究上。為什麼會轉到機器人賽道?您對具身智慧領域開始感興趣的契機是什麼?
李弘揚:自從 2019 年博士畢業之後,我的研究重心始終聚焦於具身智慧領域。早期我們更專注於端到端自動駕駛方向的研究,23 年 6 月團隊提出了原創性的 UniAD 端到端自動駕駛方案,也獲得了當年 CVPR 的最佳論文。同年 12 月,特斯拉 FSD V12 全面推廣,到 24 年時,端到端正規化已經在業內全面鋪開。從 24 年開始,自動駕駛已經進入下半場,這一階段的發展不僅需要持續的技術突破,更面臨著工業化落地與企業級量產驗證的挑戰。
團隊從 23 年下半年開始更多地往機器人方向傾斜,論證並啟動了相關研究的佈局。原因之一在於自動駕駛和機器人有很多相同的技能棧,比如都是感知、預測、規控構成的,都是跟環境互動從演算法識別到動作執行的。我們關注的最大的點在於端到端的訓練正規化能否複製到機器人的任務裡,因為他們都是相似。其二是 23、24 年開始,隨著 OpenAI、特斯拉在機器人方面做了很多創新性的工作,在 AIGC 與環境感知領域取得突破性進展後,技術發展的焦點已自然延伸至物理互動與執行層面。將海量資料訓練正規化與大模型技術優勢引入傳統機器人領域,既是學術界的前沿課題,也已成為產業界的戰略共識。
AI 科技評論:在具身智慧方向,您接觸的第一個相關工作是什麼?這個賽道有哪些研究工作、研究問題讓您感興趣?主要想解決哪些問題?
李弘揚:最近團隊發表的比較重要的工作是在 24 年 7 月的 RSS 上,主要關注透過視覺預訓練來提升機器人操縱能力,因為在現在大資料的背景之下,以預訓練作為切入點是比較自然的路徑。在這個領域,我主要關注以下三個核心問題:首先是泛化能力,如何使機器人在面對不同場景和任務時,都能展現出良好的適應性和通用性;其次是智慧性,不僅僅是完成諸如拿起杯子這樣的簡單任務,還要具備閉環反饋能力。例如,機器人需要根據實際情況進行錯誤糾正和自我調整,這樣才能體現出真正的智慧;最後是高效性,現在的大模型不僅在自動駕駛中面臨部署難題,應用於機械臂上同樣存在挑戰,就是如何在保證效能的同時,實現高效、輕量化的部署。
AI 科技評論:UniAD 專案對於您之後的工作有沒有帶來哪些啟發?
李弘揚:UniAD 在自動駕駛中把感知、預測和規控做到了一起,主要有兩點啟發。
第一是全域性最佳化能力,透過對整個神經網路進行聯合調優,並最終以規劃最佳化指標為核心,可以有效彌補傳統方法中各模組獨立運作時存在的資訊損失問題。以前感知模組僅傳遞目標識別結果,預測模組僅傳遞軌跡資訊,而動作執行模組則基於這些資訊進行操作,這個過程中不可避免地存在大量資訊損耗。而在一個統一的網路中,各模組之間傳遞的是網路學習到的特徵,資訊量非常豐富,從而實現了全域性最佳化。我們想把這個經驗放到機器人裡來,因為在傳統的機器人研究裡,感知是非常粗糙的一種形式表達,再到動作執行模組,也有類似相關資訊損失。
第二是在海量資料的應用上。在 UniAD 中,所有的軌跡資料可以一次性地採集完,從而進行大量的資料採集工作,發揮 Scaling Law 的優勢。在機器人領域,我們希望探索是否能夠複製這一經驗,即在引入海量資料後,演算法的效能提升是呈現線性增長、指數級爆發,還是最終達到瓶頸,資料量的增加是否能夠真正帶來機器人泛化能力的提升。我們計劃沿著 UniAD 的思路,特別是以資料驅動學習為基礎的機器人操作研究方向,進一步探究全域性最佳化與海量資料在機器人領域的應用潛力。
AI 科技評論:您從自動駕駛轉到機器人,會不會覺得有什麼困難之處?
李弘揚:從演算法來講,自動駕駛裡自由度很低,最終輸出通常僅涉及油門和方向盤的四個自由度。而在機器人領域,任務自由度可以根據需求靈活定義,例如靈巧手可能具有 6、12 甚至 20 個自由度,導致解空間非常複雜。但相對於自動駕駛場景而言,機器人領域的場景變化沒那麼豐富,主要集中於室內導航、工業巡檢等特定領域。我們嘗試把自動駕駛的經驗直接拿到機器人的過程中發現,單純將全域性最佳化的理念直接遷移至機器人領域,需要對網路結構和訓練正規化進行較大改進。
另一方面,資料採集難度明顯增加。自動駕駛領域中,車輛形態相似,只需要幾百臺同類型車輛部署就可以採集到數百萬條資料,基本模型較為固定。而目前機器人硬體形態都沒有收斂,不同裝置間存在較大差異,資料採集工作面臨更大挑戰。為此,我們提出了資料金字塔策略,即結合模擬資料、網路資料、真機資料以及針對特定任務的少量真機特殊場景,期待能夠有效地解決資料上問題。
AI 科技評論:現在業界有說法認為,自動駕駛解決的是下肢問題,而機器人要解決的是上肢問題、典型任務是操作。您認同這個說法嗎?
李弘揚:我部分認同這一觀點。自動駕駛下肢問題解的是軌跡規劃或者說動作執行,因為當前的感知問題已基本得到解決。對機器人來說,針對運動控制例如四足機器人的研究比較成熟了,各類仿生犬型機器人在多樣場景中的表現穩定,但上肢問題主要涉及抓取與操作任務,當中要研究的問題、最佳化的思路非常多。
AI 科技評論:自動駕駛視覺演算法與機器人演算法的不同之處體現在什麼地方?
李弘揚:現在自動駕駛演算法的感知問題解得已經很好了,發展到今年,研究核心在於之後規控訊號如何作為先驗放到整個端到端體系裡,發揮感知演算法的優勢,可以設計一些聯調,從而充分發揮感知演算法的優勢。目前自動駕駛系統中,感知模組佔據主導地位,而規劃與控制部分則相對缺乏基於學習的方法,導致二者之間的整合存在一定問題。
機器人方法的不同在於解空間非常複雜、自由度很高。通常在這種情況下,會採用一種快捷高效的整體聯調最佳化方法,例如強化學習。但強化學習本身存在樣本效率較低的問題。舉例來說,當將強化學習應用於人形機器人的全域性最佳化時,就會面臨樣本效率低、獎勵稀疏、訓練收斂困難以及整體訓練難度較大等諸多挑戰。
2
打造 ImageNet 時刻
AI 科技評論:不久前您參與的百萬真機資料集 AgiBot World 釋出,你們是從什麼時候開始做的?
李弘揚: AgiBot World 是我們和智元合作推出的百萬真機資料集。具身包括演算法、資料、硬體、應用場景四個要素,儘管學術界在各類演算法研究上投入甚多,但普遍認為演算法效能的上限取決於資料,因此資料的重要性日益凸顯,這也是我們團隊工作的出發點之一。這個工作在 24 年 Q2 就開始調研論證了。當時,我們希望與那些將硬體及應用場景作為重要評估指標的機器人企業共同成長,我們也走訪了很多國內機器人公司,最後落腳到智元。
AI 科技評論:與 DROID、Open X-Embodiment 等業界知名資料集相比,AgiBot World 的最大亮點、差異化優勢是什麼?
李弘揚:目前業內已經有許多資料集,有點像 2010 年之前視覺領域資料集百家爭鳴的局面。在設計 AgiBot World 資料集時,我們著重在以下三點上進行創新:
首先是靈巧手。許多現有資料集,包括谷歌的資料集,往往使用的是夾爪。而我們提供了 6 到 12 自由度的真實靈巧手,為機器人操作任務提供了更高的精度和靈活性。
其次是視觸覺。單純依靠影像或點雲資料無法有效完成任務,尤其是在視覺遮擋的情況下,比如在擰瓶蓋或關門這類任務中。我們設計了融合視觸覺的多模態資料採集,為這些複雜任務提供了更完整的感知能力。
最後是多機協同。現在很多在做靈巧手、視觸覺的類似工作都是單點的,在資料集裡集大成、把所有要素集到一起很少,我們設計了多機協同的任務,確保所有機器連在一箇中央時間戳上,否則資料採集起來很困難,也克服了很多工程上的問題,包括怎麼設計高效的硬體素材系統、資料採集系統等。
AI 科技評論:你們解決了當前具身智慧領域的哪些迫切問題呢?
李弘揚:一是怎麼實現真正的智慧化。現在把具身智慧分 L1 到 L5,如果能夠解決 L2 級別的操作任務,就能在有限場景內實現真正意義上的泛化,可以說它就是今年的 ImageNet。這裡所指的有限場景主要涵蓋工業巡檢、汽車總裝線、居家服務等特定場景裡的泛化。例如,在疊衣服任務中,無論是大衣、外衣,還是薄的、軟的衣服都可以疊;如果是汽車總裝線,那麼就是這個總裝線上安輪胎、安保險槓、佈線都能做。
其次,我們關注的是 Scaling Law。關鍵不在於僅僅堆砌百萬真機資料或大量 GPU 算力,而在於探討百萬真機資料是否能夠證明資料多樣性比資料規模更為關鍵。我們期望透過這一研究為後續實現真正意義上的 Scaling Law 評估提供參考依據。
AI 科技評論:可以分享一下你們採集資料收集的過程嗎?真機資料的採集有什麼困難?你們又是如何解決的?
李弘揚:資料採集的過程中,我們參考了亞馬遜 SageMaker 整個流程。由於資料採集任務較為複雜,首先需要設計任務構型並進行試採;在資料量達到預期後,還需考慮如何高效儲存資料、培訓資料採集人員以及處理採集過程中出現的反饋問題。
另一方面,我們參考了《Human-in-the-Loop Machine Learning》中的相關概念。這本書裡從學習角度探討了如何提升資料質量。在 AgiBot World 專案中,我們不僅採集了大量資料,還制定了詳盡的問題清單,對流程不規範、步驟不完整、資料缺失等問題進行分類統計。
此外,Human-in-the-Loop 不僅體現在問題反饋上,更關鍵的是如何評估每條資料的質量。高的資料質量能夠使得在這一批資料釋出後,研究人員可基於此開展更多二次開發和深入研究。
另外,資料採集過程中,我們會估計製造一些干擾。例如,在執行記憶體條任務時,我們有意製造背景或記憶體條的抖動,以考察演算法或資料採集系統能否透過不斷試錯恢復並完成任務。這與強化學習中負樣本和持續學習的概念密切相關。資料採集與演算法高度耦合,因此在演算法層面存在諸多需求和研究空間,這也是我們設計此資料集的初衷之一。
AgiBot World 釋出到社群的第一天才標誌著專案的真正起步,我們預留了大量介面,供未來各類強化學習、模仿學習、對齊演算法等使用,目的在於保研究者在各自領域中不會因缺乏資料集而受到限制。
AI 科技評論:你們的下一步研究計劃是怎樣的?感覺還有哪些亟需突破的難題?
李弘揚:AgiBot World 是個非常大的專案,現在釋出 Alpha 版本總共是十萬真機資料,短期研究計劃是擴充套件到百萬真機資料,大概會在 25 年 3 月釋出。
中期目標方面,作為研發團隊,我們基於該資料集驗證差異化的 Scaling Law,以探討如何實現智慧化,相關成果預計將在今年下半年釋出。
長線計劃則針對未來兩三年,不只有 AgiBot World 這個資料集,我們還計劃搭建生態、辦比賽,讓大家真正地把資料集用起來。我們計劃在今年下半年 10 月舉辦 AgiBot World 挑戰賽,鼓勵研究人員基於該資料集開展二次開發和深入研究。並且還將會每年都舉辦這個比賽,持續地服務整個社群。
AI 科技評論:NeurIPS 2024 上,Ilya 提出解決大模型訓練資料匱乏問題的三大途徑之一是合成數據。您怎麼看機器人領域中真機資料與合成數據的差別?
李弘揚:真機資料最大優勢是沒有 Sim-to-Real 的問題,我們選擇真機資料主要有兩個原因:其一,我們團隊並非專注於模擬領域;其二,合成數據的構建工作量巨大且週期較長,涉及諸如渲染技術和資料資產構建等問題,因此我們直接採用了真機資料。
現在大家都在抱怨真機資料很少,AgiBot World 是單一構型的、百萬真機的、可上量的資料集。單一構型指的是物理形態都是一樣的,這與某些資料集將不同子資料堆砌在一起、聲稱擁有百萬真機資料形成鮮明對比。實際上,跨越不同視角、任務和硬體構型的遷移非常困難,而 AgiBot World 的單一構型擴充套件策略類似於在全球範圍內採用數百萬輛特斯拉 Model 3採集各類資料。當然,合成數據也是非常重要的,我們相信模擬資料一定會幫助最後的部署、落地,尤其在處理危險場景時。
3
硬體形態待行業收斂
AI 科技評論:你們開源 AgiBot World 的初衷是什麼呢?開源能給整個行業帶來哪些價值?
李弘揚:首先,我們開源是希望打造具身智慧領域的 “ImageNet 時刻”。當前行業中,A 團隊提出一套演算法,並在論文中展示其效能為 80%,B 團隊則提出另一套演算法,效能為 82%。然而,由於硬體平臺不同,這些演算法難以直接遷移或復現,導致效能差異難以客觀評估。這並不意味著某一演算法無效,而是缺乏統一的基準。因此,我們希望透過建立類似 ImageNet 的評測基準,使各類演算法能夠在統一的平臺上進行公平對比,從而加速學術界和產業界的發展。
其次,我們希望透過開源,使真機資料的採集正規化更加低成本、易獲取。目前,採集高質量真機資料的成本極高,例如,購買一臺配備靈巧手的雙臂機器人,市場價格至少在 20 萬人民幣左右,而若要搭建 100 臺裝置,成本就到了 2000 萬人民幣。因此,我們希望透過開源 AgiBot World,降低行業門檻,使更多研究團隊能夠參與其中,共同推動具身智慧的發展。
AI 科技評論:AgiBot 與機器人操作、世界模型等話題的關係是什麼?
李弘揚:一是智元機器人的英文名就是 AgiBot,二是我們想實現 AGI 的機器人,這方面是一語雙關。World 代表我們希望構建一個完整的世界模型,涵蓋硬體、系統及 AI 演算法生態。這不僅是 AgiBot World 專案的核心理念,也是我們最終希望實現的目標。我們的願景是透過資料集推動硬體形態逐步收斂,並將其應用於靈巧手、視觸覺系統以及輪式機器人上。同時,結合系統和生態構建,與行業夥伴共同完善資料集,並進一步推動學術研究和競賽活動,以促進整個領域的發展。
AI 科技評論:您認為具身智慧領域的模型訓練會遵循 Scaling Law 嗎?
李弘揚:Scaling Law 是 2024 年下半年各個研究團隊都在做的非常熱點的問題,今年也會是無論工業界還是學術界要重點研究的事情。當中可以凝練出諸多科學問題,例如:多樣性和資料分佈是否遵循某種規律;在有限資料量的條件下,能否透過演算法的遷移學習獲得性能提升;以及投入產出比的考量,例如百萬真機的資料採集背後涉及的人力成本、標註成本、工程成本以及場地費用等。
AI 科技評論:除了資料集,您的團隊現在還有沒有研究具身智慧的其他方向?目前主要在研究哪幾個具體問題?
李弘揚:我們團隊也在研究人形和一些硬體裝置,一個重要的研究方向是 Whole Body Control,這是一個涉及全身動作協調和多工協同的研究目標。目前,很多展示的炫酷 demo 雖然看起來非常吸引人,但往往是透過預設規則或者僅僅展示某些簡單的動作,比如走幾步或招手,這些動作相對簡單。而在上半身與其他部位的協同操作上,挑戰則更為複雜。當然 Figure 01 或者 1X 也都展示出了很好的 demo,在工廠裡機器人 Whole Body Control 也已經做得非常好了。
AI 科技評論:您認為除了資料集,當前具身智慧行業還有哪些被忽視、但關鍵問題需要解決?
李弘揚:被忽略的問題主要集中在硬體上,我甚至覺得具身智慧的終極發展方向在於材料科學。這不僅涉及到視觸覺等感測器的穩定性,還包括在下一代硬體研發和設計過程中,對各類感測器形態的前瞻性考量。目前,硬體迭代速度相對緩慢。如果演算法無法與硬體深度結合,尤其是在感測器技術、磁感感測器、人造皮膚等方面缺乏突破,機器人將難以實現人類所能完成的複雜任務。因此,僅靠演算法最佳化無法全面推動具身智慧的發展。
我也希望更多來自機械工程、材料科學,甚至航天航空等領域的學者,能夠投入到新一代感測器及相關硬體的研究中。硬體的創新將帶來全新的應用場景,這些場景不僅可以賦能機器人,還會吸引更多從事演算法創新的科研力量。只有軟硬體協同進化,具身智慧行業才能真正取得突破性進展。
AI 科技評論:目前你們在硬體方面都和哪些廠商合作?
李弘揚:我們目前使用了來自七到八家不同廠商的裝置,這些裝置都屬於行業內最頂尖的水平。我們希望,團隊中的研究人員能夠基於最先進的硬體平臺進行研究,從而推動具身智慧領域的前沿發展。
AI 科技評論:現在也有很多人工智慧從業者加入具身賽道,您覺得這在短期會給機器人領域帶來哪些顯著變化呢?
李弘揚:近期我們也走訪了許多知名學者,尤其是在傳統機器人領域深耕多年的專家。一些學者戲稱,人工智慧領域的從業者正在“搶佔”他們的領地,儘管這只是玩笑,但確實反映了行業格局的變化。
整體來看,許多從事人工智慧研究的學者,正積極投身於具身智慧賽道中。我始終認為,這並非競爭關係,而是合作共贏的局面。人工智慧領域出身的學者在神經網路上有很豐富的經驗,而傳統機器人學者在硬體設計、系統架構等方面擁有深厚的積累和卓越的專業能力。這種交匯與融合將促使雙方相互學習、共同進步。在人工智慧技術的加持下,傳統機器人行業有望迎來新一輪的變革浪潮。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
近期熱門文章

相關文章