CVPR2025|微軟提出Magma:多模態AIAgent的基礎模型

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達
點選進入—>【多模態和論文投稿】交流群

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

微軟研究院 投稿轉載自:量子位(QbitAI)
微軟研究院官宣開源多模態AI——Magma模型
首個能在所處環境中理解多模態輸入並將其與實際情況相聯絡的基礎模型。
該模型近期已被計算機視覺頂會CVPR接收,只要給定一個目標描述,Magma就能制定計劃、執行行動,無論是在數字介面中還是物理世界裡,都能展現出靈活而高效的互動能力。
比如在網頁中找到天氣資訊並開啟飛航模式,或是執行分享、傳送訊息等多步驟操作。
再比如在真實機器人任務中,讓機器人移動桌面上的“熱狗”模型、把蘑菇模型放到鍋裡,或者將抹布從左至右推開。
相比其它模型,它在實際滾動演示中更加“絲滑”,出錯率更低。
或者在多模態理解和對話任務中,贏了眼前國際象棋比賽(左),或根據當前環境提出放鬆幾個小時的建議(右)。
甚至還能描述影片中發生了什麼動作,並預測接下來會發生什麼。

目前該模型以MIT許可證在GitHub上開源。

融合視覺、語言與動作的全新能力

傳統的視覺語言(VL)模型主要關注影像與文字資訊的理解,而Magma則在此基礎上進一步拓展,加入了空間與時序智慧,賦予AI更強的行動決策能力。
微軟研究院團隊指出,Magma在視覺理解和語言理解的基礎上,又讓AI具備了在視覺空間世界進行動作規劃與執行的能力。
這意味著,Magma能夠勝任從UI介面導航到機器人精準抓取與移動等更多“跨界”任務。
Magma的核心創新在於其獨創的兩大標註方法
1、Set-of-Mark(SoM)
該方法為任務中需要關注的關鍵物件(如網頁中的可點選元素或餐桌上的擺放物品)提供了一組高層次的“關注標記”。透過對這些目標進行精準定位,Magma能夠更有效地捕捉任務的核心要素,從而為後續動作規劃奠定基礎。
微軟研究院的研究還顯示,SoM對UI導航、機器人和人類影片都有統一的操作標記作用,讓模型能快速識別並鎖定可互動目標。
2、Trace-of-Mark(ToM)
不僅是靜態標記,ToM方法還擴充套件到動態影片場景中,透過對物體運動軌跡的標註,捕捉到動作的時序變化。
無論是機器人抓取物體時的手臂軌跡,還是人類在影片中的動態操作,ToM都能幫助模型理解任務的時序邏輯,預測未來狀態,進而作出更加精準的決策。
研究團隊表示,相比直接進行下一幀預測,ToM用更少的token就可捕捉更長時間跨度的動作語義,從而讓Magma更能關注關鍵動作細節。
那麼,Magma的實際表現如何呢?
概括而言,它在零樣本智慧跨領域應用方面擁有強悍表現。
在多項測試中,包括UI導航、機器人操作與影片理解,Magma無需針對特定領域進行額外微調,就能交出令人滿意的表現。
此外,研究團隊還對多個模型(包括ChatGPT在內)做了零樣本評估,結果顯示預訓練好的Magma是唯一能完成所有測試任務的模型。
而Magma的跨領域優勢表現在以下幾個方面:
  • UI導航場景:在Mind2Web、AITW等網頁或移動裝置介面導航任務中,Magma僅需少量微調(few-shot)就可以取得非常突出的成績;
  • 機器人任務:在WidowX機械臂真實操作和LIBERO中進行少樣本微調,Magma同樣大幅領先於其它對比模型,尤其在軟物體操作和精確擺放任務中表現穩定。研究者還指出,在預訓練階段去除SoM和ToM標註後,Magma的效能顯著下降,這說明這兩大關鍵標註策略對模型的通用性和表現力至關重要;
  • 跨實體模擬:在Google Robots和Bridge任務中,Magma也展現了強大的跨實體泛化能力,能勝任不同種類物品的抓取與擺放。
與此同時,其多模態理解能力體現在:
在影片理解和對話場景中,Magma所需的影片指令調優資料量並不大,卻在大多數基準測試上與Video-Llama2、ShareGPT4Video等先進方法相當甚至超越。
它不僅能描述影片內容,還能對下一步動作進行合理的預測和推斷。
據介紹,Magma使用大規模異構視覺語言(VL)資料集預訓練,包含3900多萬條樣本,覆蓋影像、影片以及機器人動作軌跡等多種形式,並採用ConvNeXt-XXL作為視覺骨幹網路和Llama-3-8B作為語言模型。
目前團隊已經將Magma以MIT許可證在GitHub上開源,同時也在Hugging Face上提供了部分模型權重和示例,方便開發者快速上手。

團隊大部分為華人

從論文作者名單可以看到,其中大部分為華人。
論文一作兼專案負責人楊健偉,是Microsoft Research深度學習組的首席研究員,由Jianfeng Gao博士領導。
2020年3月加入微軟前,他在喬治亞理工學院互動計算學院獲得計算機科學博士學位,研究“結構化視覺理解、生成與推理”,師從Devi Parikh教授,並與Dhruv Batra教授合作。
他的研究專注於通用多模態智慧體,是該領域的先驅之一,推動了多個重要突破,包括:
  • 多模態視覺基礎模型:UniCL、RegionCLIP、GLIP、大規模基礎模型Florence;
  • 通用多模態模型:X-Decoder、SEEM、Semantic-SAM;
  • 大型多模態模型:LLaVa變體、GPT-4V的SoM提示工程、Phi-3-Vision。
由他主導的Project Magma專案,於釋出後登上Hacker News熱榜第一,並在學術界和工業界引發廣泛關注。
作者之一顧禹,是Microsoft Research資深科學家,專注於大規模基礎模型、多模態學習和智慧體技術,推動AI在醫療和企業級應用中的落地。
他主導開發了PubMedBERT,作為世界首批自適應大模型,下載量超過2000萬,ACM年度最佳論文,廣泛應用於全球醫療機構。他共同主導BiomedParse(發表於《自然·方法》),並研發BiomedJourney,用於模擬疾病進展,提升醫學AI在資料稀缺場景下的適應能力。
在智慧體系統方面,他展示了LLM驅動的multi agent協作推理,最佳化腫瘤決策,並在世界經濟論壇上亮相,其研究成果發表在《自然》、《細胞》等期刊。
專案主頁:https://microsoft.github.io/Magma/論文:https://www.arxiv.org/pdf/2502.13130開源地址:https://github.com/microsoft/Magma

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章