
新智元報道
新智元報道
編輯:LRST
【新智元導讀】移動GUI自動化智慧體V-Droid採用「驗證器驅動」架構,透過離散化動作空間並利用LLM評估候選動作,實現了高效決策。在AndroidWorld等多個基準測試中任務成功率分別達到59.5%、38.3%和49%,決策延遲僅0.7秒,接近即時響應。
隨著人工智慧和大語言模型(LLMs)的不斷突破,如何將其優勢賦能現實世界中可實際部署的高效工具,成為了業界關注的焦點。
近期,由微軟亞洲研究院、南洋理工大學、清華大學、香港科技大學等多家機構聯合推出移動圖形使用者介面(GUI)任務自動化智慧體——V-Droid,憑藉其全新「驗證器驅動」架構,V-Droid不僅在任務成功率上重新整理記錄,同時在決策響應速度上實現了接近即時的表現,為移動端自動化控制開闢了全新局面。

連結:https://arxiv.org/abs/2503.15937

圖1:V-Droid與其他移動GUI智慧體在AndroidWorld上的任務成功率與決策響應時間。對於V-Droid以及其他7B,8B基準模型,決策時間在雙卡4090上測試得出;對於72B基準模型,決策時間在四卡A100上測試得出
長期以來,移動裝置上的任務自動化一直面臨兩大難題:一是如何在複雜、多變的GUI環境中準確識別和操作介面元素, 並以多步驟成功完成任務;二是如何在保證任務成功率的前提下降低決策延遲。
以往依靠LLM直接生成操作指令的方法,由於生成過程往往需要連續輸出大量資訊,導致在實際應用中既不夠高效,又容易出現決策偏差。

圖2:在決策過程中,將 LLM 用作生成器與用作驗證器的智慧體架構的關鍵區別在於:驗證器驅動的智慧體不會直接根據任務狀態直接生成動作,而是在作出最終決策之前,明確地對每個候選都動作進行評估
V-Droid創新性地提出「驗證器驅動」的思路。該方法不再直接依賴大語言模型生成最終操作,而是首先透過對UI介面的深入解析構建出詳盡的動作集合,再利用經過精細訓練的基於大語言模型的驗證器對每個候選動作進行評估,最終選出得分最高的動作執行。
這種做法將操作生成與決策判斷有效解耦:一方面,與從零開始直接生成所需操作相比,該方案使智慧體能夠在一個離散且有限的動作空間內高效地進行驗證,從而大大降低了決策的複雜度;
同時,由於每次驗證僅輸出極簡的資訊(僅一個Token),並且可以對多個候選動作實現並行驗證,從而顯著縮短了每一步決策所需的時間。
V-Droid在多個公共移動任務自動化基準上均取得了顯著提升,例如在AndroidWorld基準上任務成功率達59.5%,比現有智慧體提高了近10個百分點,而決策延遲在消費級硬體上(如4090)則降至僅0.7秒左右。

圖3:V-Droid 的工作流程:① 從使用者介面中提取動作並補充預設動作;② 針對每個候選動作使用模板構建驗證提示;③ 利用字首快取對候選動作進行批次打分;④ 完成並執行所選動作;⑤ 更新工作記憶
V-Droid的核心突破主要體現在以下幾個方面:
-
動作空間離散化與構建由於移動裝置螢幕尺寸有限,每個介面上可互動的元素數量本就較少,V-Droid充分利用這一特性,從當前介面的XML描述中提取所有可點選、長按、滾動、文字輸入等基本操作,將它們對映到一個有限的動作空間中。同時,為了應對介面上未直接呈現的操作(例如返回首頁或模擬系統操作),系統還預置了一系列預設動作。透過這種方式,原本無限的操作可能性被精細劃分為一個可列舉的集合,在這個集合上進行驗證,大大降低了決策難度。
-
驗證器驅動的決策機制與流程不同於傳統依賴生成式模型直接輸出操作指令的方案,V-Droid將LLM的角色重新定位為驗證器。系統首先根據當前任務狀態構造出候選操作列表,併為每個候選動作生成一個預定義格式的驗證提示(Prompt),其中包含任務目標、當前介面狀態、歷史操作記錄以及具體的驗證問題。經過預先微調的驗證器(基於Llama-3.1-8B等小語言模型)會對每個候選動作進行評分,最終系統選擇評分最高的動作執行。由於驗證過程只需要生成「Yes」或「No」這類簡短回覆。更重要是的,多組候選驗證可被高效並行,且此過程中只涉及Prefilling階段,從而極大地減少了計算時間,實現了近即時的決策響應。
-
對比式過程偏好(P^3)訓練為了提升LLM作為驗證器的決策能力,V-Droid提出P(3 )訓練策略:對比式過程偏好訓練策略(Pairwise Process Preference)。在每個任務步驟中,透過構建正負操作對(即標記正確操作為正樣本,其他操作為負樣本),系統能夠利用大量細粒度的訓練資料對驗證器進行最佳化,使其更準確地區分正確與錯誤的操作。這種方法不僅提高了模型對相似介面元素的辨別能力,也在一定程度上增強了系統的容錯與自我修正能力。
-
人機聯合標註的資料採集策略由於針對移動GUI任務的細粒度標註資料極為稀缺,V-Droid設計了一套人機聯合標註方案。系統初始階段由人工作業完成標註,隨後利用經過初步訓練的驗證器自動生成操作標註,再由人工稽核與修正。隨著迭代訓練的進行,驗證器的準確性不斷提升,人工介入比例逐漸下降,從而高效構建起一個涵蓋上萬條任務軌跡的資料集,為後續大規模訓練提供了堅實基礎。


圖4:V-Droid的任務成功率與單步決策響應時間
V-Droid在多個移動任務自動化基準測試中均表現出色。例如,在AndroidWorld基準上,V-Droid的任務成功率達到59.5%,相比傳統代理有明顯優勢;在AndroidLab和MobileAgentBench上,其任務成功率分別為38.3%和49%,均超過先前系統約2%至9%的絕對提升。
此外,決策響應時間僅為0.7秒,使得該系統在即時性要求較高的移動場景中具有顯著應用潛力。
V-Droid所採用的驗證器驅動架構為移動端自動化任務帶來全新思路。透過將智慧體的動作生成過程解耦為動作空間構建與驗證,該系統不僅在任務成功率上取得了顯著提升,還在決策延遲方面實現突破。
未來,這一技術有望推廣至更多實際應用中,如自動化測試等領域。隨著大語言模型技術的不斷進步,以及高效訓練與資料採集策略的成熟,驗證器驅動的移動GUI智慧體或將成為智慧互動領域的突破口。
演示影片1:「請從 Broccoli 應用中刪除以下食譜:雞肉阿爾弗雷多義大利麵、番茄羅勒烤麵包以及番茄羅勒烤乳酪三明治」,V-Droid約使用20步操作完成此任務。影片無加速處理。
演示視頻2:「傳送簡訊息」,V-Droid約使用8步操作完成此任務。視頻無加速處理。
參考資料:
https://arxiv.org/abs/2503.15937
