微軟GUI智慧體OmniParser二代開源!推理延遲降低60%,大模型玩手機更溜了


新智元報道  

編輯:LRST
【新智元導讀】OmniParser V2可將螢幕截圖轉換為結構化元素,幫助LLM理解和操作GUI;在檢測小圖示和推理速度上顯著提升,延遲降低60%,與多種LLM結合後表現優異。
圖形使用者介面(GUI)自動化需要智慧體具備理解和互動使用者螢幕的能力。
然而,使用通用大型語言模型(LLM)作為GUI智慧體仍然存在難點:1)如何可靠地識別使用者介面中的可互動圖示,以及 2)理解截圖中各種元素的語義,並準確地將預期的操作與螢幕上的相應區域關聯起來。
OmniParser透過將UI截圖從畫素空間「token化」為LLM可解釋的結構化元素,彌合了這一差距,使得LLM能夠在一組已解析的可互動元素基礎上進行基於檢索的下一步動作預測。
程式碼: https://github.com/microsoft/OmniParser/tree/master
模型: https://huggingface.co/microsoft/OmniParser-v2.0
Demo:https://huggingface.co/spaces/microsoft/OmniParser-v2
OmniParser方法概述
可互動區域檢測
從UI螢幕中識別可互動區域是推理使用者任務應執行何種操作的關鍵步驟。與其直接讓GPT-4o預測螢幕上應操作的xy座標,研究人員採用Set-of-Marks,在UI截圖上疊加可互動圖示的邊界框,並讓GPT-4V生成要操作的邊界框ID。
具體而言,研究人員構建了一個獨特UI截圖的可互動圖示檢測資料集,每張圖片都標註了從DOM tree提取的可互動圖示的邊界框。
資料採集時,首先從Bing Index熱門網址中隨機抽取100,000個URL,並從其DOM中提取網頁的可互動區域邊界框。部分網頁及其可互動區域示例如圖2所示。
融合功能性icon semantics
研究人員發現,僅輸入帶有邊界框和對應ID的UI截圖,往往會導致GPT-4o產生誤導性預測,這一侷限性可能源於GPT-4o在同時執行兩個任務時的能力受限:一是識別每個圖示的語義資訊,二是預測特定圖示的下一步操作。
為了解決這一問題,研究人員在提示(prompt)中加入功能的區域性語義資訊。
具體而言,對於可互動區域檢測模型識別出的每個圖示,使用一個微調模型生成該圖示的功能描述。
透過構建專門的圖示描述資料集,研究人員發現該模型在常見應用圖示的描述上更加可靠;在UI截圖的視覺提示基礎上,加入區域性邊界框的語義資訊(以文字提示的形式)能夠顯著提升GPT-4o的理解效果。
構建專用資料集
OmniParser的開發始於兩個核心資料集的構建:
  • 可互動圖示檢測資料集:該資料集來源於Bing Index熱門網頁,並經過自動化標註以突出可點選和可操作區域。
  • 圖示描述資料集:該資料集為每個UI元素關聯其功能描述,是訓練模型理解檢測元素語義的關鍵資料。研究人員收集了蘋果App store和windows app store每個app類別前十名的app icon logo,和一系列常用software介面的icons的image/caption pair作為訓練資料
OmniParser V1實驗結果
透過這些解析結果,OmniParser顯著提升了GPT-4V在多個基準測試(ScreenSpot、Mind2Web、AITW、WindowsAgentArena)上的表現:
  • Mind2Web:OmniParser+GPT-4V的表現優於使用HTML額外資訊的GPT-4V代理。
  • AITW:OmniParser超越了結合Android圖示檢測模型(使用檢視層級訓練)的GPT-4V。
  • WindowsAgentArena:OmniParser在該全新基準測試上取得SOTA成績
Multimodal Mind2Web
AITW
Windows agent arena
OmniParser V2帶來哪些新東西?
OmniParser V2將螢幕理解能力提升到了新的水平。與V1相比,它在檢測更小的可互動元素方面達到了更高的準確率,同時推理速度更快,使其成為GUI自動化的有力工具。
具體而言,OmniParser V2採用了更大規模的互動元素檢測資料和圖示功能描述資料進行訓練。
此外,透過減少圖示描述模型的影像輸入尺寸,OmniParser V2的推理延遲比上一版本降低了60%
值得注意的是,OmniParser與GPT-4o結合後,在最新發布的 ScreenSpot Pro基準測試上達到了39.6%的平均準確率,該基準測試具有高解析度螢幕和極小的目標圖示,相比GPT-4o原始得分0.8有了顯著提升。
為了加快不同智慧體設定的實驗速度,研究人員建立了OmniTool,一個Docker化的Windows系統,集成了一套代理所需的重要工具。
OmniTool開箱即用地支援OmniParser與多種最先進的LLM結合使用,包括OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和Anthropic(Sonnet),從而實現螢幕理解、目標對齊、行動規劃和執行等功能。

風險與緩解措施
為了符合「微軟AI原則」和「負責任AI實踐」,研究人員透過使用負責任AI資料訓練圖示描述模型來進行風險緩解,有助於模型儘可能避免推測出現在圖示影像中的個人的敏感屬性(如種族、宗教等)。
同時,研究人員鼓勵使用者僅在不包含有害內容的截圖上使用OmniParser,最好在使用過程中保持人工稽核,以儘量降低風險。
針對OmniTool,研究人員使用「微軟威脅建模工具」進行威脅模型分析,並在GitHub倉庫中提供了沙盒Docker容器、安全指南和示例。
參考資料:
https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

相關文章