具身智慧新時代!VLA迎來最強基礎模型Magma:UI導航、機器人操作全能


新智元報道  

編輯:LRS
【新智元導讀】Magma是一個新型多模態基礎模型,能夠理解和執行多模態任務,適用於數字和物理環境:透過標記集合(SoM)和標記軌跡(ToM)技術,將視覺語言資料轉化為可操作任務,顯著提升了空間智慧和任務泛化能力。
現有的大語言模型、影像生成模型等都只是在某幾個模態資料上進行操作,無法像人類一樣與物理世界產生互動。
視覺-語言-行動(VLA,Vision-Language-Action)模型是可以感知視覺刺激、語言輸入以及其他與環境相關資料的自主智慧體,能夠在物理和數字環境中生成有意義的「具身行動」(embodied actions)以完成特定任務。
由於二維數字世界和三維物理世界之間存在差異,現有的VLA模型通常對任務進行簡化,導致多模態理解能力偏弱,在跨任務和跨領域的泛化能力上不夠通用。
微軟、馬里蘭大學、威斯康星大學麥迪遜分校、韓國科學技術院、華盛頓大學的研究人員開發了一個具備多模態理解、行動預測的智慧體基礎模型Magma,不僅保留了視覺語言模型的語言理解能力(語言智慧),還具備在視覺空間世界中進行規劃和行動的能力(時空智慧),能夠完成從使用者介面(UI)導航到機器人操作等各種智慧體任務。
論文連結:https://arxiv.org/pdf/2502.13130
程式碼連結:https://microsoft.github.io/Magma
為了賦予Magma智慧體能力,研究人員使用海量影像、影片和機器人資料集對其進行預訓練:
在影像中,可操作的視覺物件(如使用者介面中的點選按鈕)透過「標記集合」(SoM,Set-of-Mark)進行標註,以便實現行動定位;
在影片中,物體的運動(如人類手部或機器人臂的動作軌跡)則透過「標記軌跡」(ToM,Trace-of-Mark)進行標註,以支援行動規劃。
實驗結果表明,SoM和ToM之間形成了良好的協同效應,Magma在UI導航和機器人操作任務上實現了最佳效能記錄,同時在影像和影片相關多模態任務中的表現也優於其他常用的多模態模型。
多模態智慧體建模

問題定義

通用的多模態AI智慧體π能夠同時執行多模態理解和行動執行,以過去的視覺觀察影像L={I1, …, Ik}和文字形式的任務描述作為輸入,並輸出一組至少包含T≥1個token的集合O:
其中,ctx為上下文,l ∈ {verbal,spatial}表示第i個token是語言token還是空間token
二維截圖中的UI導航任務:對於「預訂酒店」任務,智慧體的輸出應該包括表示動作語義型別的語言token(如type、click等)以及動作應用的具體位置(x, y)或矩形框(x, y, w, h);
三維世界中的機器人操作任務:對於「關閉抽屜」任務,智慧體的輸出包括終端執行器的六自由度(6-DoF)位移(x, y, z, 偏航角、俯仰角、翻滾角),還可以新增一個維度來表示夾爪是開啟還是關閉狀態;
多模態理解任務:如果任務僅與輸入影像L有關,例如視覺問答(VQA)任務,問題就簡化為對生成「輸入影像/影片的文字描述」或「目標位置」。
儘管任務的輸出形式看似不同,但研究人員通常會將所有輸出統一轉換為文字token,以便於模型的學習。

方法

研究人員提出了一種簡單、有效的方法,結合「標記集合」(Set-of-Mark, SoM)和「標記軌跡」(Trace-of-Mark, ToM)將模型擴充套件到空間預測任務(可點選按鈕)和時間維度,解決了兩個通用性難題
1)如何構建一個統一的預訓練介面,以便實現聯合訓練?
2)現有的視覺語言動作資料在數量和多樣性上都較為有限,沒有足夠的資料用於擴大模型規模。

基於標記集合(SoM)的動作定位

「標記集合」提示方法最初是為了增強GPT-4V的視覺定位能力而提出的,但以往的研究主要利用SoM來增強現成的大型多模態模型(LMMs)的視覺語言定位能力,研究人員提出利用SoM來訓練智慧體模型,使其能夠定位特定任務中的可操作點或區域,並在需要時進一步預測基本動作。
假設在時間步t,智慧體觀察到一張影像It,其大小為H×W×3(即高度、寬度和顏色通道),同時智慧體的輸入還包括任務描述和上下文資訊。
先從影像中提取一組可操作的候選區域或點P = {p1, …, pK},其中每個點pk可以是一個四維的矩形框座標(例如x, y, w, h)或二維的點座標(x, y),然後在影像上對應的位置疊加標記和矩形框,並用數字標籤標記它們,例如M = {1: p1, 2: p2, …, K: pK},從而生成一張帶有標記的新影像。
模型需要從候選標記中選擇相應的標記,並結合原始座標,極大簡化了智慧體模型的動作定位任務。

基於標記軌跡(ToM)的動作規劃

影片資料包含了大量人類動作和活動的資訊,可以用來提升智慧體模型的能力,但動作標籤資料極為稀缺。
研究人員提出「標記軌跡」(Trace-of-Mark, ToM)的方法,將「疊加標記」(overlaying marks)的策略從靜態影像擴充套件到動態影片,讓智慧體模型能夠有效地從影片中學習規劃和執行動作。
對於第t幀It中的K個標記,提取標記在接下來I幀中的對應位置,記為軌跡T = {Mt+1, …, Mt+l},進一步要求模型預測有效標記的未來軌跡,其中trace[t+1:t+l]為標記集合T中有效標記的軌跡序列的一個子集。
ToM預測方法可以充分利用影片資料,迫使模型理解影片觀察中的時間動態,並在採取下一步動作之前「向前看」;使用更少的token來捕捉更長時間範圍內的動作相關目標動態,且忽略周圍無關的內容。
研究人員採用點跟蹤模型CoTracker來提取ToM資料。

建模

為了保持Magma所需的多模態理解能力,研究人員使用一個視覺編碼器V,將每一幀影像編碼成多個token,然後將所有token拼接成一個序列,並與編碼任務描述的語言token一起輸入到一個僅解碼器的語言模型(LLM)中。
由於任務的多樣性,研究人員選擇ConvNeXt作為視覺主幹網路,能夠無縫處理各種解析度影像和影片,能夠很好地捕捉全域性上下文,效果與結合全域性和區域性裁剪的方法相當。
智慧體建模為一個自迴歸解碼過程,即基於之前的所有輸出、視覺編碼器對影像的編碼、任務描述以及上下文資訊,來生成下一個輸出。
實驗結果
智慧體能力
研究人員使用了ScreenSpot來評估使用者介面(UI)動作定位和導航能力,使用VisualWebBench來測試其在網頁環境中的表現,同時還用SimplerEnv來評估機器人操作任務的表現。
結果顯示,Magma在所有測試中都持續超越了其他通用領域的大型多模態模型(例如LLaVA和Qwen-VL),以及特定領域的智慧體模型,比如用於UI導航的SeeClick和用於機器人操作的OpenVLA;在使用者介面任務上,Magma的零樣本效能甚至超過了目前最先進的基於視覺的方法(結合了GPT-4V和Omniparser)。
Magma預訓練模型的成功率比排名第二的OpenVLA高出19.6%,幾乎達到了平均成功率的兩倍。
空間推理
研究人員將Magma模型在使用者介面(UI)導航和機器人操作任務上表現出色的原因歸結為其在空間推理能力上的提升,然後在視覺空間推理(VSR)、BLINK和SpatialEval基準測試中進行評估。
結果可以看到,Magma在VSR和SpatialEval上的表現顯著優於現有的方法,並且其預訓練僅使用了大約2900萬張影像,對比CogVLM使用了約15億張影像,兩個模型的效能大致相當;消融實驗證明了標記集合(SoM)和標記軌跡(ToM)預訓練任務在幫助Magma提升空間推理能力方面的有效性。
多模態理解
影像指令微調:研究人員在Magma-SFT-820K資料集上進行微調,然後將微調後的Magma模型與現有的視覺語言模型(VLMs)在一系列常用的影像推理基準測試上進行了比較,結果顯示Magma在大多數任務上的表現都優於最近提出的VLMs,尤其是在TextVQA和ChartQA任務上,分別取得了約5%和22%的顯著提升。
影片指令微調:研究人員報告了Magma模型在多個影片問答(QA)基準測試上的表現,包括IntentQA、NextQA、VideoMME和MVBench,結果展現了預訓練方法的有效性。
Magma在不同基準測試中持續超越了大多數引數數量相當的最先進模型,表明Magma能夠很好地理解和推理影片內容,即使在複雜的任務場景中也能表現出色。
參考資料:
https://huggingface.co/papers/2502.13130

相關文章