
—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-
1. 做具身大模型缺資料?ATM 教你人類影片的正確用法
ATM 是什麼?ATM 解決具身大模型的什麼問題?ATM 如何解決人類影片打標籤的問題?為什麼 ATM 比其他方法更省算力?ATM 和 Vila/Copa/Diffusion Policy 有何區別?…
2. 蘋果 AI 佈局揭秘:遲到的「玩家」如何攪動市場?
蘋果作為最晚入局 AI 的巨頭近期都有哪些動作?蘋果有哪些獨特的優勢?蘋果為何選擇自研 AI 晶片,從基礎設施佈局下手意在何?蘋果目前在 AI 的研究進展能看到戰略方向嗎?從蘋果在 WWDC 上的一連串動作看透蘋果的 AI 佈局 …
3. 高盛研究報告:未來超萬億美元 AI 投資可能回不了本?
高盛的最新研究報告都有哪些重要資訊?為何說 AI 鉅額投資背後所能產生的回報尚不清晰?業內人士、專家都怎麼看,為何持有不同觀點?AI 技術如何突破成本,推動經濟增長?在受限於晶片和電力資源的情況下,如何做? …
…本期完整版通訊含 3 項專題解讀 + 28 項本週 AI & Robotics 賽道要事速遞,其中技術方面 10 項,國內方面 11 項,國外方面 7 項。
本期通訊總計 24922 字,可免費試讀至 14%
消耗 99 微信豆即可兌換完整本期解讀(約合人民幣 9.9 元)

要事解讀① 做具身大模型缺資料?ATM 教你人類影片的正確用法
事件:在具身智慧領域,訓練資料匱乏長久懸而未決。UC 伯克利教授 Peter Abbeel 和清華叉院助理教授高陽帶領的研究組提出了 ATM 模型,繞開了以往影片預測方法對訓練資料的依賴,採用預測影片幀內任意點的未來軌跡為機器人提供演示,進而學習更穩健的視覺運動策略。
ATM 有何特殊之處?
《Any-point Trajectory Modeling for Policy Learning》最初於 2023 年 12 月 28 日上傳 Arxiv,後於 2024 年 2 月 16 日更新,論文已被具身智慧領域頂會 RSS 2024 收錄。論文共同一作是清華叉院博士生汶川、UC 伯克利博後林星宇和斯坦福大學碩士生 John So,其他作者還包括香港中文大學 Qi Dou 助理教授和 Kai Chen 博士。論文指導老師為 UC 伯克利教授 Pieter Abbeel(通訊作者)和清華叉院助理教授高陽。[2]
1、該工作提出了一種用於策略學習的任意點軌跡建模(Any-point Trajectory Modeling,ATM)方法,透過預訓練軌跡模型來預測影片幀內任意點的未來軌跡,使用影片為機器人提供演示,從而減少對動作標籤資料的依賴。
2、該工作的核心思想在於,ATM 只關心影片中的運動資訊,透過效仿遊戲引擎的模式,將影片內容視為粒子的結合,然後建模每個粒子的運動來反映整個場景的物理規律, 從而支援模型控制。
3、相比基於生成模型的影片預測方法通常需要重建畫素級的細節,ATM 的粒子基礎軌跡建模能夠更真實地模擬物理動態,並且在模型中自然地融合了歸納性偏見(inductive bias),且計算量更少。
① 計算量更少是因為 ATM 可以顯式地將光照、紋理與運動(motion)分開建模,只關心預測點的軌跡,無需在每個時間步驟都重新計算整個場景的未來狀態。
② 歸納性偏見指類似物體持續存在(object permanance)的情況,ATM 的表徵方法不會出現類似 Sora 生成影片中物體突然出現或消失的情況,確保影片內容在物理上正確。
4、ATM 利用大量人類影片訓練點軌跡預測模型,經過極少量樣本微調可以成功泛化到機械臂運動控制任務上,成功解決可變形物體、多步任務和工具使用等困難的機械臂操作場景。
① 論文釋出時,ATM 在合成數據集和真實世界資料集上的表現均優於以往方法,平均成功率達 63%(此前 SOTA 成功率為 37%)。
5、ATM 論文獲得了 RSS 2024 全數審稿人滿分評價。[1]
ATM 解決了具身智慧研究的什麼問題?
1、ATM 的研究背景在於具身智慧領域的訓練資料匱乏問題一直無法得到有效解決。論文一作汶川在一場訪談中闡述了該工作的緣起。[3]
① 與文字資料不同,具身智慧領域的輸入資料通常是影像等環境觀測,輸出是精細的動作控制資料,這些資料難以從網際網路獲得。
② 目前機器人領域使用的最大資料集僅包含 2.5 萬條軌跡,與語言模型所需的資料量相比差距很大。
③ 採集機器人資料十分困難,需要使用特殊的遙操作裝置或技術,如 Gello、Mobile Aloha、DexCap、UMI、OmniH2O 等工作使用了不同方式採集資料,但本質上都是在記錄觀測資料和對應的動作。
2、人類的影片(如 Youtube、抖音的內容)含有豐富的物理和運動行為資訊,但由於缺乏動作標籤,直接從中提取控制資訊十分困難。以往採用影片預訓練,學習用於具身控制的影片預測模型普遍存在兩個問題:
① 一方面,以往的影片預測任務透過對每個畫素的建模方式會將物理運動與視覺外觀(如紋理和光照)耦合在一起。這種耦合使得建模變得困難,通常導致幻覺和不切實際的未來預測。
② 另一方面,以往的模型在訓練和推理中計算成本高昂,在有限的計算資源下,效能顯著下降。
③ 此外,高昂的推理成本迫使很多模型採用 open-loop control,這往往導致控制策略不夠穩健。
3、ATM 的目標在於研究如何從影片中提取有用的經驗知識,解決現有影片資料無法直接用於機器人學習的問題。具體而言,該工作希望解決:
① 如何從影片資料中有效地學習行為、物理和語義資訊,並將其應用於機器人控制策略的學習。
② 在缺乏動作標籤的情況下,如何從影片資料中提取有用的控制資訊。
③ 如何透過預訓練軌跡模型來降低對大量標註動作軌跡資料的依賴,同時提高機器人學習新技能的效率。
ATM 是如何實現的?
1、ATM 目標不僅希望從影片中學習表徵,還要學習能夠預測未來狀態的模型,用來指導控制策略。這種方法將視覺運動策略學習分成兩個部分:
① 第一部分透過生成具體的子目標來學習下一步做什麼,這些子目標純粹從影片中學習得到。
② 第二部分學習預測控制動作以遵循這些子目標,與端到端學習策略相比,這一步驟需要的訓練資料更少。
2、研究者提出了一個 Track Transformer 來學習影片幀內粒子的運動先驗,其架構包含「自監督軌跡註釋」和「多模態軌跡建模」兩個核心元件。
① 自監督軌跡註釋部分使用視覺跟蹤器處理無動作標籤的影片,以生成點的軌跡資料。透過隨機取樣幀和點,然後利用跟蹤器生成這些點在影片序列中的軌跡。
② 多模態軌跡建模部分將軌跡預測問題形式化為多模態掩碼預測問題。模型先將軌跡點、語言指令、影像三種模態資料編碼到一個共享的嵌入空間,用 token 表示。然後把所有 token 輸入一個大型 Transformer,再將軌跡 token 解碼為對應點的未來軌跡。
3、在 Track Transfomer 的基礎上,ATM 講學習一個規劃策略,該策略能夠根據觀察到的狀態和預測的軌跡來預測控制動作。
① 策略學習的核心是一個軌跡引導的策略網路,該網路接收「當前觀察(圖片)」和「預測的軌跡」兩個輸入,然後輸出相應的動作。
② 在策略學習期間,預訓練的 Track Transformer 會被凍結,即不進行進一步的訓練。預測的軌跡直接用作策略網路的輸入,充當子目標,用於引導策略網路生成動作以實現這些軌跡。
③ 這種方法將複雜的策略學習問題轉化為更簡單的子目標跟蹤問題,隨著軌跡預測提供詳細的指導,策略網路逐漸減少對語言指令的依賴,轉而更多地依賴於預測的軌跡來進行任務。
4、研究者用 130 個基於語言的模擬任務測試了 ATM 的能力,其效能表現高於此前 SOTA 80%。
① 實驗環境採用 LIBERO benchmark,並將其分成了 5 個套件,其中 4 個套件各含 10 個任務,1 個套件含 90 個任務。實驗對比了 ATM 和 BC、R3M-finetune、VPT 和 UniPi 幾個基線在各套件中的表現。
5、由於人類影片資料量遠大於機器人影片資料量。研究者還測試了 ATM 從人類或不同機器人執行任務的 cross-embodiment 影片中學習的效果,以驗證模型的 scalability。
① 總體而言,實驗證明了在附加的 cross-embodiment 影片上訓練軌跡模型,可以提高軌跡預測的穩健性和準確性,顯著提高策略學習效果。

圖:(a)LIBERO 任務的 4 個套件,分別側重於空間推理、物件推理、任務遠景、任務理解和操作策略的不同方面。(b)不同套件的定量比較結果和快速計算套件(90 個任務)的比較結果,在所有任務中,ATM 的表現都優於基線。
以往工作如何用人類影片訓練具身控制策略?
高陽在一次訪談中簡單介紹了 ATM 和以往兩種典型的透過人類影片學習工作的區別。
1、一種典型的方法是直接使用影片預測,代表工作是伯克利 Pieter Abbeel 組的 UniPi。
① 這種方法採用影片學習,透過預測的影片幀,逆向工程推匯出機械臂的動作,並執行這些動作。
② 其優勢在於端到端的訓練流程,直接使用影片資料訓練影片預測模型,隨後利用該模型的輸出訓練用於恢復機器人動作的逆動力學模型(inverse dynamics model)。
③ 由於需要先生成影片,這種方法存在計算量過大的侷限。如一段 3-5 秒的影片或許要消耗十到三十分鐘。
2、另一種方法是抽取操作物體的接觸點和操作物體一瞬間的運動方向來預測。代表工作是 CMU Deepak 組的一些工作。