浙大、OPPO等釋出最新綜述：基於多模態大模型的計算機、手機與瀏覽器智慧體研究

最近，由 Anthropic 推出的 Computer Use 利用基於多模態大模型的智慧體操控電腦完成各種任務，讓人們為之興奮，也帶動了學術界與工業界在 OS Agents 相關領域的研究與發展。

浙江大學聯合 OPPO、零一萬物等十個機構共同梳理了 OS Agents 的發展現狀以及未來可能，並形成了一篇綜述，旨在推動該領域的持續發展。如下是我們對論文的中文解讀，更多細節歡迎訪問我們的論文以及開源倉庫！

論文標題：

OS Agents: A Survey on MLLM-based Agents for Computer, Phone and Browser Use

論文連結：

https://os-agent-survey.github.io/paper.pdf

倉庫連結：

https://github.com/OS-Agent-Survey/OS-Agent-Survey

專案主頁：

https://os-agent-survey.github.io/

引言

《鋼鐵俠》中的賈維斯（J.A.R.V.I.S.）能夠幫助託尼·斯塔克控制各種系統並自動完成任務，構建一個像這樣的超級 AI 助手一直是人類長期以來的夢想。我們把這一類實體稱為 OS Agents，它們能夠透過作業系統（OS）提供的環境和介面（如圖形使用者介面，GUI）在諸如電腦或者手機等計算裝置上自動化的完成各類任務。

OS Agents 有巨大的潛力改善全球數十億使用者的生活，想象一個世界：線上購物、預訂差旅等日常活動都可以由這些智慧體無縫完成，這將大幅提高人們的生活效率和生產力。過去，諸如 Siri [1]、Cortana [2] 和 Google Assistant [3] 等 AI 助手，已經展示了這一潛力。

然而，由於模型能力在過去較為有限，導致這些產品只能完成有限的任務。幸運的是，隨著多模態大語言模型的不斷發展，如 Gemini [4]、GPT [5]、Grok [6]、Yi [7] 和 Claude [8] 系列模型（排名根據 2024 年 12 月 22 日更新的 Chatbot Arena LLM Leaderboard [9]），這一領域迎來了新的可能性。

（M）LLMs 展現出令人矚目的能力，使得 OS Agents 能夠更好地理解複雜任務並在計算裝置上執行。

基礎模型公司和手機廠商近期在這一領域動作頻頻，例如最近由 Anthropic 推出的 Computer Use [10]、由蘋果公司推出的 Apple Intelligence [11]、由智譜 AI 推出的 AutoGLM [12] 和由 Google DeepMind 推出的 Project Mariner [13]。例如，Computer Use 利用 Claude [14] 與使用者的計算機直接互動，旨在實現無縫的任務自動化。

與此同時，學術界已經提出了各種方法來構建基於（M）LLM 的 OS Agents。例如，OS-Atlas [15] 提出一種 GUI 基礎模型，透過跨多個平臺綜合 GUI 操作資料，大幅改進了模型對 GUI 的操作能力，提升 OOD 任務的表現。

而 OS-Copilot [16] 則是一種 OS Agents 框架，能夠使智慧體在少監督情況下實現廣泛的計算機任務自動化，並展示了其在多種應用中的泛化能力和自我改進能力。

▲ OS Agents 的部分代表性商業產品與學術研究

本文對 OS Agents 進行了全面的綜述。首先闡明瞭 OS Agents 的基礎，探討了其關鍵要素，包括環境、觀察空間和動作空間，並概述了理解、規劃和執行操作等核心能力。接著，我們審視了構建 OS Agents 的方法，重點關注 OS Agents 領域特定的基礎模型和智慧體框架的開發。

隨後，本文詳細回顧了評估協議和基準測試，展示了 OS Agents 在多種任務中的評估方式。緊接著，本文探討了 OS Agents 衍生的商業化產品。最後，我們討論了當前的挑戰並指出未來研究的潛在方向，包括安全與隱私、個性化與自我進化。

本文旨在梳理 OS Agents 研究的現狀，為學術研究和工業開發提供幫助。為了進一步推動該領域的創新，我們維護了一個開源的 GitHub 倉庫，包含 250+ 有關 OS Agents 的論文以及其他相關資源，並且仍在持續更新中，歡迎大家關注。

▲ OS Agents 基礎：關鍵要素和核心能力

OS Agents 基礎

2.1 關鍵要素（Key Component）

要實現 OS Agents 對計算裝置的通用控制，需要透過與作業系統提供的環境、輸入和輸出介面進行互動來完成目標。為滿足這種互動需求，現有的 OS Agents 依賴三個關鍵要素：

環境（Environment）：智慧體操作的系統或平臺，例如電腦、手機和瀏覽器。環境是智慧體完成任務的舞臺，支援從簡單的資訊檢索到複雜的多步驟操作。
觀察空間（Observation Space）：智慧體可獲取的所有資訊範圍。這些資訊諸如螢幕截圖、文字描述或 GUI 介面結構，是智慧體理解環境和任務的基礎。例如，網頁的 HTML 程式碼或手機的螢幕截圖。
動作空間（Action Space）：智慧體與環境互動的動作集合。它定義了可執行的操作，如點選、輸入文字、導航操作甚至呼叫外部工具。這使得智慧體能夠自動化完成任務並最佳化工作流。

2.2 核心能力（Capability）

在 OS Agents 的這些關鍵要素後，如何與作業系統正確、有效的互動，這就需要考驗 OS Agents 自身各方面的能力。我們將 OS Agents 必須掌握的核心能力總結為如下三點：

理解（Understanding）：OS Agents 首先需要理解複雜的操作環境。無論是 HTML 程式碼、螢幕截圖，還是螢幕介面中密集的圖示和文字資訊，智慧體都需要透過理解能力提取關鍵內容，構建對任務和環境的全面認知。這種理解能力是處理資訊檢索等任務的前提。
規劃（Planning）：在任務執行中，OS Agents 的規劃能力至關重要。規劃能力要求 OS Agents 將複雜任務拆解為多個子任務，並制定操作序列來實現目標。同時，它們最好還要能夠據環境變化動態調整計劃，以適應複雜的作業系統環境，例如動態網頁和即時更新的使用者螢幕介面。
操作（Grounding）：OS Agents 最終需要將規劃轉化為具體的、可執行的操作，例如點選按鈕、輸入文字或呼叫 API。這種將規劃“落地”的能力使得它們能夠在真實環境中高效完成任務，並實現從文字描述到操作執行的精準轉換。

OS Agents 的構建

3.1 基礎模型（Foundation Model）

要構建能夠高效執行任務的 OS Agents ，其核心在於開發適配的基礎模型。這些模型不僅需要理解複雜的螢幕介面，還要在多模態場景下執行任務。我們在這部分對基礎模型的架構與訓練策略做了詳細歸納與總結：

▲ OS Agents 基礎模型：架構、預訓練、監督微調和強化學習

架構（Architecture）：我們將主要的模型架構分為四個類別：

1. Existing LLMs：直接採用開源的大語言模型架構，將結構化的螢幕介面資訊以文字形式輸入給 LLMs，從而使得模型可以感知環境；

2. Existing MLLMs：直接採用開源的多模態大語言模型架構，整合文字和視覺處理能力，提升對 GUI 的理解能力，減少文字化視覺資訊而造成的特徵損失；

3. Concatenated MLLMs：由 LLM 與視覺編碼器橋接而成，靈活性更高，可以根據任務需求選擇不同的語言模型和視覺模型進行組合；

4. Modified MLLMs：對現有 MLLM 架構進行最佳化調整，以解決特定場景的挑戰，如：新增額外模組（高解析度視覺編碼器或影像分割模組等），以更細緻地感知和理解螢幕介面細節。

預訓練（Pre-training）：預訓練為模型構建打下基礎，透過海量資料提升對螢幕介面的理解能力。資料來源包括公共資料集、合成數據集；預訓練任務覆蓋螢幕定位（Screen Grounding）、螢幕理解（Screen Understanding）與光學字元識別（OCR）等。

監督微調（Supervised Fine-tuning）：監督微調讓模型更貼合 GUI 場景，是提升 OS Agents 規劃能力和執行能力的重要手段。例如，透過記錄任務執行軌跡生成訓練資料，或利用 HTML 渲染螢幕介面細節，提升模型對不同 GUI 的泛化能力。

強化學習（Reinforcement Learning）：現階段的強化學習實現了用（M）LLMs 作為特徵提取到（M）LLM-as-Agent 的正規化轉變，幫助了 OS Agents 在動態環境中互動，根據獎勵反饋，不斷最佳化決策。這種方法不僅提升了智慧體的對齊程度，還為視覺和多模態智慧體提供了更強的泛化能力與任務適配性。

我們將近期的 OS Agents 基礎模型相關論文總結如下：

▲ OS Agents 基礎模型近期研究工作總結

3.2 智慧體框架（Agent Framework）

OS Agents 除了需要強大的基礎模型，還需要搭配上 Agent 框架來增強感知、規劃、記憶和行動能力。這些模組協同工作，使 OS Agents 能夠高效應對複雜的任務和環境。以下是我們對 OS Agents 框架的四大關鍵模組的總結歸納：

▲ OS Agents 框架：感知、規劃、記憶和行動

感知（Perception）：感知作為OS Agents 的“眼睛”，透過輸入的多模態資料（如螢幕截圖、HTML 文件）觀察環境。我們將感知細分為：

1）文字感知：將作業系統的狀態轉化為結構化文字描述，如 DOM 樹或 HTML 檔案；

2）螢幕介面感知：使用視覺編碼器對螢幕介面截圖進行理解，透過視覺定位（如按鈕、選單）和語義連線（如 HTML 標記）精準識別關鍵元素。

規劃（Planning）：規劃作為 OS Agents 的“大腦”，負責制定任務的執行策略，可以分為：1）全域性規劃：一次生成完整計劃並執行；2）迭代規劃：隨著環境變化動態調整計劃，使智慧體能夠適應即時更新的螢幕介面和任務需求。

記憶（Memory）：OS Agents 框架的“記憶”部分可以幫助儲存任務資料、操作歷史和環境狀態。記憶分為三個型別：

1. 內部記憶（Internal Memory）：儲存操作歷史、螢幕截圖、狀態資料和動態環境資訊，支援任務執行的上下文理解和軌跡最佳化。例如，藉助截圖解析螢幕介面佈局或根據歷史操作生成決策；

2. 外部記憶（External Memory）：提供長期知識支援，例如透過呼叫外部工具（如 API）或知識庫獲取領域背景知識，輔助複雜任務的決策；

3. 特定記憶（Specific Memory）：聚焦於特定任務的知識和使用者需求，例如儲存子任務分解方法、使用者偏好或螢幕介面互動功能，提供高度針對性的操作支援。此外，我們還總結了多種記憶最佳化策略。

行動（Action）：我們將 OS Agents 的行動範圍定義為動作空間，這包含作業系統互動的方式，我們將其細分為三個類別：

1. 輸入操作：輸入是 OS Agents 與數字螢幕介面互動的基礎，主要包括滑鼠操作、觸控操作和鍵盤操作；

2. 導航操作：使 OS Agents 能夠探索和移動於目標平臺，獲取執行任務所需的資訊；

3. 擴充套件操作突破了傳統螢幕介面互動的限制，為智慧體提供更靈活的任務執行能力，例如：程式碼執行與API 呼叫。

同時，我們總結了近期有關 OS Agents 框架的論文：

▲ OS Agents 框架近期研究工作總結

OS Agents 的評估

在 OS Agents 的發展中，科學的評估起到了關鍵作用，幫助開發者衡量智慧體在各種場景中的效能。如下表格包含我們對近期有關 OS Agents 評估基準論文的總結：

▲ OS Agents Benchmark 近期研究工作總結

4.1 評估協議（Evaluation Protocol）

OS Agents 評估的核心可總結為兩個關鍵問題：評估過程應如何進行與需要對哪些方面進行評估。下面我們將圍繞這兩個問題，闡述 OS Agents 的評估原則和指標。

評估原則（Evaluation Principle）：OS Agents 的評估結合了多維度的技術方法，提供對其能力與侷限性的全面洞察，主要分為兩種型別：

1. 客觀評估（Objective Evaluation）：透過標準化的數值指標，評估智慧體在特定任務中的效能。例如，操作的準確性、任務的成功率以及語義匹配的精準度。這樣的評估方法能快速且標準化地衡量智慧體的效能；

2. 主觀評估（Subjective Evaluation）：基於人類使用者的主觀感受，評估智慧體的輸出質量，包括其相關性、自然性、連貫性和整體效果。越來越多的研究也利用（M）LLM-as-Judge 來進行評估，從而提高效率和一致性。

評估指標（Evaluation Metric）：評估指標聚焦於 OS Agents 的理解、規劃和操作能力，衡量其在不同任務中的表現。主要包括以下兩個方面：

1. 步驟級指標：評估智慧體在每一步操作中的準確性，如任務執行中動作的語義匹配程度、操作準確性等；

2. 任務級指標：聚焦於整個任務完成情況，包括任務的成功率和完成任務的效率。

4.2 評估基準（Evaluation Benchmark）

為了全面評估 OS Agents 的效能，研究者開發了多種評估基準，涵蓋不同平臺、環境設定和任務類別。這些基準測試為衡量智慧體的跨平臺適應性、動態任務執行能力提供了科學依據。

▲ OS Agents 平臺、基準與任務分類

評估平臺（Evaluation Platform）：評估平臺構建了整合的評估環境，不同平臺具有獨特的挑戰和評估重點，我們將其主要分為三類：移動平臺（Mobile）、桌面平臺（Desktop）與網頁平臺（Web）。

基準設定（Benchmark Setting）：該部分將 OS Agents 的評估環境分為兩大類：靜態（Static）環境和互動式（Interactive）環境，並進一步將互動式環境細分為模擬（Simulated）環境和真實世界（Real-World）環境。

靜態環境適用於基礎任務的離線評估，而互動式環境（尤其是真實世界環境）更能全面測試 OS Agents在複雜動態場景中的實際能力。真實世界環境強調泛化能力和動態適應性，是未來評估的重要方向。

任務（Task）：為了全面評估 OS Agents 的能力，當前的基準測試整合了各種專業化任務，涵蓋從系統級任務（如安裝和解除安裝應用程式）到日常應用任務（如傳送電子郵件和線上購物）。主要可以分為以下三類：

1. GUI 定位（GUI Grounding）：評估 OS Agents 將指令轉換為螢幕介面操作的能力，即如何在作業系統中與指定的可操作元素互動；

2. 資訊處理（Information Processing）：評估 OS Agents 高效處理和總結資訊的能力，尤其在動態和複雜環境中，從大量資料中提取有用資訊；

3. 智慧體任務（Agentic Tasks）：評估 OS Agents 的核心能力，如規劃和執行復雜任務的能力。這類任務為智慧體提供目標或指令，要求其在沒有顯式指導的情況下完成任務。

OS Agents 相關產品

OS Agent 研究的快速發展和日益增長的興趣大大加速了該領域商業產品的開發。研究與產品開發之間的相互作用至關重要，因為前沿的學術突破通常是創新商業應用的基礎，而現實世界的產品反饋則進一步完善和推動了研究方向。

這種共生關係不僅彌合了理論探索與實際實施之間的差距，而且還確保了 OS Agent 能夠不斷發展以滿足技術和以使用者為中心的需求。如下，我們列出了 OS Agent 的最新商業產品。

▲ OS Agents 相關商業化產品總結

在過去幾年中，OS Agent 產品經歷了顯著的發展，呈現平臺多樣化和功能分層的趨勢，反映了對更復雜、通用代理解決方案的需求增長。

目前，主流形態可分為三類：基於瀏覽器的（如 DeepMind 的 Project Mariner 、Taxy AI [20]）、基於計算機控制的（如 Anthropic 的 Computer Use、Self-Operating Computer [21]）和基於移動系統整合的（如 Apple Intelligence、智普的 AutoGLM [22]）。

瀏覽器產品因其低侵入性而成為早期探索方向，而移動產品則凸顯了深度融合趨勢，如 Apple Intelligence 和 AutoGLM 透過訪問聯絡人、協同多應用實現場景閉合。

功能上，產品逐漸分化為任務執行型 Agent 和資訊處理型工具。前者注重跨平臺運營（如 AutoGLM 管理淘寶、微信等，Computer Use 管理 PC 工作流），後者專注垂直資訊整合（如 iMean [23] 專注機票比價）。

早期專案主要驗證單一功能（如 Self-Operating Computer 的命令列實驗），而 2024 年及之後的產品強調多模態互動和系統許可權升級（如 Apple Intelligence 對 iOS 通知的深度訪問）。

2023 年為技術驗證期，初創公司透過瀏覽器外掛或 CLI 工具探索互動框架；2024 年起，領先廠商將代理功能嵌入作業系統底層，標誌著 OS Agent 由技術展示向實際生產力轉化。

挑戰與未來

本部分討論了 OS Agents 面臨的主要挑戰及未來發展的方向，我們重點聚焦於安全與隱私（Safety & Privacy）以及個性化與自我進化（Personalization & Self-Evolution）兩個方面。

6.1 安全與隱私

安全與隱私是 OS Agents 開發中必須重視的領域。OS Agents 面臨多種攻擊方式，包括間接提示注入攻擊、惡意彈出視窗和對抗性指令生成，這些威脅可能導致系統執行錯誤操作或洩露敏感資訊。

儘管目前已有適用於 LLMs 的安全框架，但針對 OS Agents 的防禦機制仍顯不足。當前研究主要集中於設計專門應對注入攻擊和後門攻擊等特殊威脅的防禦方案，急待開發全面的且可擴充套件防禦框架，以提升 OS Agents 的整體安全性和可靠性。

為評估 OS Agents 在不同場景下的魯棒性，還引入了一些智慧體安全基準測試，用於全面測試和改進系統的安全表現，例如 ST-WebAgentBench [17] 和 MobileSafetyBench [18]。

6.2 個性化與自我進化

個性化 OS Agents 需要根據使用者偏好不斷調整行為和功能。多模態大語言模型正逐步支援理解使用者歷史記錄和動態適應使用者需求，OpenAI 的 Memory 功能 [19] 在這一方向上已經取得了一定進展。讓智慧體透過使用者互動和任務執行過程持續學習和最佳化，從而提升個性化程度和效能。

未來將記憶機制擴充套件到更復雜的形式，如音訊、影片、感測器資料等，從而提供更高階的預測能力和決策支援。同時，支援使用者資料驅動的自我最佳化，增強使用者體驗。

總結

多模態大語言模型的發展為 OS Agents 創造了新的機遇，使得實現先進 AI 助手的想法更加接近現實。在本綜述中，我們旨在概述 OS Agents 的基礎，包括其關鍵組成部分和能力。

此外，我們還回顧了構建 OS Agents 的多種方法，特別關注領域特定的基礎模型和智慧體框架。在評估協議和基準測試中，我們細緻分析了各類評估指標，並且將基準測試從環境、設定與任務進行分類。

展望未來，我們明確了需要持續研究和關注的挑戰，例如安全與隱私、個性化與自我進化等。這些領域是進一步研究的重點。

本綜述總結了該領域的當前狀態，並指出了未來工作的潛在方向，旨在為 OS Agents 的持續發展貢獻力量，並增強其在學術界和工業界的應用價值與實際意義。如有錯誤，歡迎大家批評指正，也期待各位同行與我們交流討論！

參考文獻

[1] Apple Inc. Siri – apple, 2024. https://www.apple.com/siri/

[2] Microsoft Research. Cortana research – microsoft research, 2024. https://www.microsoft.com/en-us/research/group/cortana-research/

[3] Google. Google assistant, 2024. https://assistant.google.com/

[4] Google. Gemini – google. https://gemini.google.com/

[5] OpenAI. Home – openai. https://openai.com/

[6] xAI. x.ai. https://x.ai/

[7] 01.AI. 01.ai. https://www.lingyiwanwu.com/

[8] Anthropic. Anthropic. https://www.anthropic.com/

[9] Chatbot arena: An open platform for evaluating llms by human preference, 2024. https://arxiv.org/abs/2403.04132

[10] Anthropic. 3.5 models and computer use – anthropic, 2024a. https://www.anthropic.com/news/3-5-models-and-computer-use

[11] Apple. Apple intelligence, 2024. https://www.apple.com/apple-intelligence/

[12] Autoglm: Autonomous foundation agents for guis. https://arxiv.org/abs/2411.00820

[13] Google DeepMind. Project mariner, 2024. https://deepmind.google/technologies/project-mariner/

[14] Anthropic. Claude model – anthropic, 2024b. https://www.anthropic.com/claude

[15] Os-atlas: A foundation action model for generalist gui agents. https://arxiv.org/abs/2410.23218

[16] Os-copilot: Towards generalist computer agents with self-improvement. https://arxiv.org/abs/2402.07456

[17] St-webagentbench: A benchmark for evaluating safety and trustworthiness in web agents, 2024. http://arxiv.org/abs/2410.06703

[18] Mobilesafetybench: Evaluating safety of autonomous agents in mobile device control, 2024. https://arxiv.org/abs/2410.17520

[19] Memory and new controls for ChatGPT. https://openai.com/index/memory-and-new-controls-for-chatgpt/

[20] TaxyAI. Taxy ai, 2023. URL https://taxy.ai/. Accessed: 2025-02-01.

[21] OthersideAI. Self-operating computer, 2023. URL https://www.hyperwriteai.com/ self-operating-computer. Accessed: 2025-02-01.

[22] Xiao Liu, Bo Qin, Dongzhu Liang, Guang Dong, Hanyu Lai, Hanchen Zhang, Hanlin Zhao, Iat Long Iong, Jiadai Sun, Jiaqi Wang, et al. Autoglm: Autonomous foundation agents for guis. arXiv preprint arXiv:2411.00820, 2024a.

[23] iMean.AI. imean, 2024. URL https://www.imean.ai/. Accessed: 2025-02-01.

更多閱讀