清華團隊推出輕量級端側GUIAgent,用程式碼生成技術提升任務效率

從感知式 AI(理解影像、文字和聲音)到生成式 AI(創造文字、影像和聲音),再到能夠感知、推理、計劃和行動的智慧體(即 AI Agent),我們正見證著 AI 能力的下一代進化。
Claude Computer Use、OpenAI Operator、Manus 等這些能夠操控電腦、手機等終端裝置的大語言模型驅動智慧體,毫無疑問代表了 AI 發展的下一個核心方向。這些系統透過自然語言理解使用者指令,分析圖形使用者介面(GUI,Graphical User Interface),並生成相應的操作動作,有望極大提升人的工作效率。
但目前,這些最為先進的智慧體大都基於雲端模型,而這就導致它們面臨隱私和安全隱患、高昂的伺服器成本,以及對網路的依賴等侷限。因此,將這些智慧體部署到裝置端也是它們進一步發展的關鍵方向,但如何在效能有限的裝置上實現高效準確的任務自動化,成為了需要攻克的難題。
為解決這一問題,清華大學智慧產業研究院的李元春助理教授團隊開發了 AutoDroid 系列,致力於將大模型智慧體部署到裝置端,實現更安全高效的任務處理。其最近推出的 AutoDroid-V2 成功將這一構想推向了新的高度。
日前,相關論文以《AutoDroid-V2:透過程式碼生成提升基於 SLM 的 GUI 智慧體》(AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation)發表在預印本網站arXiv 上 [1],並於近期被移動計算領域頂級會議 ACM MobiSys 2025 接收。
清華大學溫皓博士是第一作者,李元春是通訊作者。
圖丨相關論文(來源:arXiv
從 AutoDroid-V1 到 V2
2023 年推出的 AutoDroid-V1 是團隊最初的突破性嘗試,其核心思路是透過離線探索獲取應用知識,然後在線上任務決策中輔助智慧體。AutoDroid-V1 主要解決的是大模型在移動裝置任務自動化中的知識獲取問題。儘管傳統的大模型具備豐富的通用知識,但對特定應用程式的操作流程和功能理解有限。透過隨機探索應用介面,V1 構建了 UI 轉換圖,記錄不同介面間的轉換關係和操作方式,形成了應用特定的記憶庫。
圖丨 一個大模型驅動的移動任務自動化示例(來源:arXiv
在任務執行階段,AutoDroid-V1 採用了逐步決策機制,即針對每個 GUI 狀態呼叫大模型做決策。系統會將當前任務、UI 狀態描述以及從記憶庫中檢索到的相關知識一起送入大模型,獲取下一步操作建議。這種方法雖然提高了大模型在特定應用中的操作準確性,但仍然面臨著高頻呼叫大模型的效率問題。
針對 V1 中發現的問題,該課題組在 AutoDroid-V2 中提出了全新的程式生成正規化。“最近提出的 AutoDroid-V2 則在它的基礎上進一步提升端側智慧體的任務執行精度和效率。”李元春介紹道,“AutoDroid-V2 核心思路是把智慧體的任務自動化問題轉化為程式生成問題,利用小型語言模型的程式碼生成能力,將複雜移動裝置操作任務轉變為程式碼生成流程。透過這種程式生成方式,每個使用者任務僅需呼叫一次或少數幾次模型,顯著提升了效率,還適合移動端部署。”
這種基於指令碼的方法與 V1 及其他傳統方法採用的基於步驟的方法有著本質區別。V1 中每個 GUI 狀態都需要呼叫模型進行決策,而 V2 只需呼叫一次模型生成完整指令碼,大幅減少了模型呼叫次數和耗時。V1 需要模型具備強大的推理和反思能力,這些能力通常只有大型雲端模型才具備。V2 主要依賴小型語言模型的程式碼生成能力,這種能力相對更容易獲得和最佳化。
圖丨傳統逐步 GUI 智慧體與基於多步指令碼的 GUI 智慧體的比較(來源:arXiv
為了實現高質量的指令碼生成,AutoDroid-V2 需要足夠多的高質量訓練資料。研究團隊搭建了一套自動資料合成流程,包括自定義的用於執行操作任務的領域特定語言(DSL,Domain-Specific Language)和與之相對應的執行時系統。現有的移動端任務自動化資料集規模有限且覆蓋場景不足,而 V2 透過讓大模型基於應用文件生成多樣化的模擬任務和執行方案,再透過實際執行驗證來篩選高質量資料,解決了訓練資料稀缺的難題。這些合成數據被用於微調本地小型語言模型,使其獲得了在有限資源條件下生成高質量執行指令碼的能力。
從工作機制上看,AutoDroid-V1 和 V2 都分為離線和線上兩個階段,但具體實現有很大不同。V1 主要構建 UI 轉換圖,記錄 UI 狀態和轉換關係。
V2 則更進一步:離線階段,構建高效的應用程式文件,分析應用程式的 GUI 結構,進行 GUI 狀態壓縮、元素路徑生成以及 UI 元件依賴關係分析,為任務指令碼生成提供可靠資料基礎。同時,基於文件自動生成大量模擬任務和解決方案,用來微調本地大模型。
圖丨 AutoDroid-V2 的架構(來源:arXiv
線上階段,V1 需要針對每個 GUI 狀態呼叫大模型進行決策,而 V2 僅需呼叫一次微調後的小型語言模型即可生成完整的執行指令碼。V2 的指令碼由專門設計的直譯器執行,能夠適應執行時的動態變化。這種設計大幅減少了模型呼叫次數和計算資源消耗,同時降低了對模型推理能力的要求。
技術評估顯示,與傳統方法相比,AutoDroid-V2 在效能和效率方面取得了顯著提升。在包含 23 個移動應用的 226 個任務測試中,V2 實現了 10.5%-51.7% 更高的任務完成率,顯著高於 V1 的 10.5% 到 43.9%。此外,V2 將執行時輸入和輸出令牌消耗分別減少了約 18% 和 85.2%,推理延遲也大幅降低。這些資料表明,V2 的架構創新成功解決了 V1 中存在的效率和資源消耗問題。
圖丨 AutoDroid-V2 和 AutoDroid 在 DroidTask 上的平均大模型推理延遲。(來源:arXiv
從移動應用測試到智慧體
李元春團隊投身裝置操作智慧體相關研究的時間,遠比它開始火爆要早得多。“早在 2016、2017 年的時候,我們研究的重點聚焦於移動應用的智慧化自動測試。”李元春回憶說,“那時的目標很明確,就是讓系統能夠自動地與應用軟體進行互動,以此來實現最大化的測試覆蓋率。雖然和如今大家熱議的 GUI Agent 在應用方向上有所不同,但本質上卻有很多相似之處。像規劃、決策以及互動動作執行等關鍵模組,在那時的研究中就已經不可或缺。”
圖丨李元春(來源:李元春)
為了達成目標,該課題組開發了一系列實用的開源工具,其中比較知名的包括 DroidBot 和 Humanoid。在技術實現上,當時主要運用的是傳統的機器學習演算法以及基於圖的演算法。這些工具和演算法在當時的移動應用測試領域發揮了重要作用,幫助團隊在自動測試的道路上積累了寶貴的經驗。
2021 年,他們迎來了研究的一個重要轉折點。透過與微軟雷德蒙德研究院的深度合作,開始著手打造真正意義上的、以在軟體中自動完成任務為目的的 GUI Agent。在這個階段,團隊開發出了基於強化學習的系統 Glider,它能夠自動發現 Web 頁面中的任務執行動作序列。
圖丨相關論文(來源:Microsoft)
然而,隨著研究的深入,研究人員逐漸發現基於傳統方法開發的 Agent 存在泛化性較差的缺點。“簡單來說,這些 Agent 在面對訓練過程中從未見過的全新任務時,往往表現得束手無策,很難靈活地應對和完成。這一問題一直困擾著我們,也成為了研究繼續推進的一大阻礙,”李元春表示。
直到大模型的橫空出世,團隊看到了解決這一難題的曙光。“在最初,我們只是做了一些簡單的嘗試,將大模型引入到現有的智慧體框架中。雖然這些初步的嘗試展現出了一些潛力,比如在某些任務上的表現相比傳統方法有了一定的提升,但同時也暴露出了很多亟待解決的問題。其中,最為突出的就是任務執行成功率不夠高,執行效率也遠遠不盡如人意。”
經過不斷的探索和迭代,該課題組先後推出了 AutoDroid-V1 和 AutoDroid-V2,每一代產品都針對前一代的問題進行了重要改進。“很欣喜看到端側 Agent 從學術走向產業,效果穩步提升”李元春介紹道。
GUI Agent 的當下與未來
李元春表示,當前學術界和產業界對於 GUI Agent 這個研究方向持一種比較複雜的態度。“首先,GUI Agent 作為大模型的一個應用場景,比較有趣但似乎實用性還有較多爭議。我記得兩年前有一次做一個學術報告,有位專家就問道:‘就像蘋果的 Siri 並沒有引發大規模人機互動方式的變革一樣,GUI Agent 是不是也僅僅是一個進階版的玩具?’”
他認為,GUI Agent 代表了一種需要融合使用者意圖理解、環境理解與互動、反思與記憶等能力的綜合智慧,而這樣的智慧在很多場景下都是適用的,其中包括機器人等具身智慧場景。“退一步說,即使限定在 GUI Agent 這個領域,隨著其智慧程度不斷提升,也會由量變引發質變,想象有一天有一個機器人用電腦和手機用的比受過訓練的人都好,那意味著很多複雜的工作都可以交給它去做了。”
不過,李元春也坦言目前這個領域的發展還是有不少泡沫:“GUI Agent 是一個比較容易透過根據場景定製做出還不錯的 demo 的方向,有很多團隊釋出了很酷炫的 demo,給人一種‘問題已經被解決’的錯覺。而實際上,在這個領域的研究者都知道它的泛化能力、安全性等還存在很多挑戰,尤其是考慮端側的實用性就更有難度了。還需要腳踏實地,耐心地解決問題,把真實的效果提升上去。”
未來,他們計劃打算進一步最佳化 AutoDroid-V2 的效能。雖然目前它在任務完成率、效率等方面表現不錯,但也還存在較大的進步空間。該團隊計劃探索更先進的演算法和模型架構,進一步提高小型語言模型在複雜任務中的推理和決策能力,同時結合一些系統層面的最佳化減少任務執行時間和資源消耗也是他們研究的關鍵方向。
另一方面,研究人員還想拓展 AutoDroid-V2 的應用場景。目前主要集中在移動裝置任務自動化,未來希望將其應用到更多領域,比如智慧家居控制、駕艙智慧互動、工業自動化流程中的裝置操作等。“我們計劃開展與各種型別企業的合作,共同探索端側智慧體在實際產品中的應用,推動技術的落地轉化,讓更多人受益於這項研究成果。”李元春補充道。
參考資料:
1.https://arxiv.org/abs/2412.18116
2.https://arxiv.org/abs/2308.15272
運營/排版:何晨龍
04/ DNA“密語”被初步破譯:北大校友研發活細胞DNA成像技術,實現基於CRISPR的動態DNA成像
05世界首顆超高並行光計算晶片問世:科學家在光晶片上實現超100並行度光計算,算力呈數量級提升


相關文章