LearnAct團隊投稿量子位 | 公眾號 QbitAI
想讓手機AI像人類一樣快速學習?
浙大與vivo聯手突破!全新LearnAct框架僅需一次示範,就能教會AI完成複雜操作。

研究同步釋出的LearnGUI基準,首次構建了面向移動端示範學習的評估體系,為AI智慧體的實用化部署提供了關鍵技術支撐。
本文的作者來自浙江大學和vivo AI lab。本文的共同第一作者為浙江大學碩士生劉廣義和趙鵬翔,主要研究方向為大語言模型驅動的GUI智慧體技術。專案leader 為vivo AI lab 演算法專家劉亮。本文的通訊作者為浙江大學孟文超研究員。

手機GUI智慧體:潛力與挑戰並存
隨著大型語言模型(LLMs)的快速發展,手機圖形使用者介面(GUI)智慧體作為一種能夠透過環境互動自主完成人類任務的前沿技術,正逐漸引發人們的關注。這些智慧體透過觀察手機螢幕(截圖或UI Tree)感知手機狀態,並生成相應的動作(如點選、輸入、滑動等)來實現任務自動化。
然而,手機GUI智慧體在實際部署場景中仍面臨重大挑戰。
移動應用和使用者介面的多樣性創造了許多長尾場景,截至2025年僅Google Play上就有168萬個應用,現有智慧體在長尾場景中難以有效執行任務。
目前主流的智慧體構建方法依賴通用LLMs的內在能力或透過大量資料微調,但面對以數百萬的移動應用及數十億使用者各自獨特的任務需求,這些方法難以覆蓋如此龐大的多樣性,導致在未見場景中表現不佳,阻礙了手機GUI智慧體的廣泛應用。
從「示範中學習」的新正規化
為解決上述限制,浙江大學和vivo AI lab聯合提出了LearnAct多智慧體框架和LearnGUI基準致力於透過「少樣本示範學習」解決手機GUI智慧體的「長尾問題」。
與傳統方法不同,這種基於示範的方法能夠在少量使用者提供的示例基礎上實現穩健性和個性化,從而彌合預訓練模型無法覆蓋的“個性化鴻溝”。
實現結果表明,單個示範就能使Gemini-1.5-Pro的準確率從19.3%提升至51.7%,UI-TARS-7B-SFT的線上任務成功率從18.1%提升至32.8%。LearnAct多智慧體框架和LearnGUI基準的提出為設計更加智慧、更加個性化的手機 GUI 智慧體開闢全新的方向,讓我們的手機操作變得更加便捷、高效。

△LearnAct多智慧體框架和LearnGUI基準致力於透過少樣本示範學習解決手機GUI智慧體的長尾問題
研究團隊認識到,手機使用者通常有獨特且重複性的任務,同時具有內在變化性——例如智慧家居控制、健康監測或企業軟體。
這些場景結合了穩定模式和可變元素,透過使用者特定的示範,該方法使智慧體能夠學習一致模式和適應策略,獲取一般訓練資料集無法覆蓋的任務特定知識。

△LearnGUI資料集示例
LearnGUI:首個專為研究示範學習設計的基準
為填補高質量示範資料的空白,研究團隊構建了LearnGUI基準。
這是首個專為研究移動 GUI 代理從少量示範中學習能力而設計的基準。基於AMEX和AndroidWorld構建,LearnGUI 包含 2,252 個離線少樣本任務和 101 個線上任務,均附帶高質量人類示範。

△LearnGUI基準基本資訊
該基準不僅支援對不同數量示範對代理效能影響的研究,還系統分析了示範任務與目標任務之間不同型別相似性(指令相似性、UI 相似性和動作相似性)對學習效果的影響。

△LearnGUI基準中的示範任務數量以及與目標任務相似度的分佈情況
LearnAct:多智慧體框架自動理解和利用示範
研究團隊進一步提出了LearnAct多智慧體框架,能夠自動理解人類示範、生成指導性知識,並使用這些知識幫助手機GUI智慧體推理未見場景。LearnAct由DemoParser、KnowSeeker和ActExecutor三個專業智慧體組成。

△LearnAct框架的三個核心元件:DemoParser、KnowSeeker和ActExecutor
DemoParser智慧體將原始的人類示範轉化為結構化的示範知識。
它以原始動作序列(包括基於座標的點選、滑動和文字輸入等)以及相應的螢幕截圖和任務指令作為輸入。
隨後,它利用視覺-語言模型生成具有語義描述性的動作描述,捕捉每個演示步驟的本質(例如,“在搜尋頁面上,點選搜尋框,輸入關鍵詞”)。
基於這些描述,它構建了一個結構化的知識庫,記錄了高層次的動作語義。

△DemoParser工作流
KnowSeeker智慧體是LearnAct框架中的檢索元件,負責識別與當前任務上下文最相關的演示知識。
KnowSeeker充當由DemoParser生成的知識庫與ActExecutor執行環境之間的橋樑,專精於高效地訪問和選擇針對特定任務最適用的知識。

△KnowSeeker工作流程
ActExecutor智慧體是LearnAct框架中的執行元件,它將檢索到的演示知識轉化為目標環境中有效的操作。
ActExecutor是LearnAct流程的最終環節,它整合了使用者指令、即時的圖形使用者介面感知資訊以及演示知識,能夠熟練的操作長尾場景下的手機介面。
當DemoParser建立結構化知識,而KnowSeeker檢索到相關的演示後,ActExecutor則運用這些知識來解決實際任務。

△ActExecutor工作流
這種多智慧體架構使LearnAct能夠系統地從人類示範中提取、檢索和利用知識,透過最少的示範實現對新場景的有效適應。
實驗結果:示範學習顯著提升效能
實驗結果揭示了示範學習對手機GUI智慧體能力的顯著增強。
在離線評估中,單個示範就能大幅提升模型效能,最引人注目的是Gemini-1.5-Pro的準確率從19.3%提升至51.7%(相對提升198.9%)。
在複雜應用如CityMapper和To-Do應用中,效能提升尤為明顯,分別從14.1%提升至69.4%和從17.4%提升至69.2%。

△不同模型在LearnGUI-Offline基準上的效能比較
在真實世界的線上評估中,LearnAct框架表現出色。
下表展示了在LearnGUI-Online基準上的線上評估結果,LearnAct 框架顯著提升了所評估的兩種模型的效能,其中 Qwen2-VL-7B從 9.9% 提升至 21.1%(+11.2%),UI-TARS-7B-SFT從 18.1% 提升至 32.8%(+14.7%)。
這些顯著的提升表明,基於示範的學習方法能夠有效地轉化為現實互動場景中的優勢。

△不同模型在LearnGUI-Online基準上的效能比較
下圖中給出了LearnAct和Baseline方法在ExpenseDeleteMultiple任務上的表現。
在這樣的長尾場景下,Baseline方法中GUI 智慧體無法正確規劃任務執行路徑最終以失敗告終。
相比之下只需要給出一個演示案例,LearnAct框架就能自動識別ExpenseDeleteMultiple任務中的執行模式並進行學習,面對相似的任務與不同的UI介面,順利完成了操作任務。

△Qwen2-VL-7B作為基模型,LearnAct和Baseline在ExpenseDeleteMultiple任務上的表現
結論:示範學習引領手機GUI智慧體發展新方向
這項研究提出的基於示範學習的新正規化,為應對手機GUI智慧體的長尾挑戰開闢了新路徑。
作為首個全面的示範學習研究基準,LearnGUI與LearnAct多智慧體框架,有力證明了示範學習在開發更具適應性、個性化和實用性的手機GUI智慧體方面的巨大潛力。
隨著移動裝置在現代生活中的廣泛應用,這種能夠從少量示範中高效學習的方法,為打造真正智慧的手機助手奠定了堅實基礎,讓我們在現實世界中距離科幻電影中“J.A.R.V.I.S.”般的智慧體驗更近一步。
論文地址:https://arxiv.org/abs/2504.13805專案地址:https://lgy0404.github.io/LearnAct/GitHub:https://github.com/lgy0404/LearnActHuggingFace:https://huggingface.co/datasets/lgy0404/LearnGUI
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟