AIAgent定義、分類、技術架構和應用路徑

隨著大模型的不斷發展與普及，很多人已經明顯體會到，大模型LLM在簡單的辦公場景應用已經非常成熟，但在一些複雜的業務場景，卻很難落地應用。要想實現這一目標，需要很多專業的技術支援。由此，催生了大量AI Agent的需求。

作為今年特別重要的一個風口，躺在風口上也能稍你一程。那麼什麼是Agent呢，可能每個人對Agent的理解都不一樣。今天給大家重新梳理一下Agent的知識，其中主要包括Agent組成、技術架構、技術前沿、應用場景、部署落地等，其中穿插了一些個人思考，有錯誤地方還請批評指正。

本文所有資料都已上傳至“智慧計算芯知識”星球。如“《60+份AI Agent技術報告合集》”，“《清華大學：DeepSeek報告13部曲合集》”，“浙江大學：DeepSeek技術20篇（合集）”，“《290+份DeepSeek技術報告合集》”，“《100+份AI晶片技術修煉合集》”，“800+份重磅ChatGPT專業報告”，“《12+份Manus技術報告合集》”，加入星球獲取嚴選精華技術報告。

1、智慧體的定義與分類

1.1 什麼是智慧體

智慧體（Agent）是一種能夠感知環境、制定決策並採取行動以實現特定目標的AI系統，一般具有記憶、規劃、採取行為、使用工具等基本能力，如下圖所示，其中規劃中有思維鏈、能進行反思、目標分解。與傳統AI系統不同，智慧體具有自主性、持續性和適應性，能夠在複雜環境中持續學習和最佳化自身行為。

1.2 OS Agent：作業系統智慧體

OS Agent（作業系統智慧體）是一類特殊的智慧體，它們透過操作計算裝置（如計算機和移動手機）的圖形使用者介面(GUI)來完成各種任務。根據最新的OS Agent綜述，這類智慧體有三個關鍵組成部分：

環境：OS Agent所處的作業系統環境，如Windows、macOS、Android等
觀察空間：智慧體獲取資訊的方式，如介面截圖、DOM結構等
行動空間：智慧體可執行的操作集合，如點選、輸入、滑動等

（來源於論文：OS Agents：A Survey on MLLM-based Agents for General Computing Devices Use）

1.3 智慧體的主要分類

根據輸入模態和技術實現，GUI智慧體可分為三類：

基於語言的智慧體：僅使用HTML/XML等文字描述作為輸入
基於視覺的智慧體：僅使用螢幕截圖作為輸入
視覺-語言混合智慧體：同時使用螢幕截圖和文字描述作為輸入

其中，基於視覺的智慧體（如SpiritSight）和視覺-語言混合智慧體（如MobileFlow）因其跨平臺相容性和豐富的感知能力，正成為研究熱點。

（來源於論文：OS Agents：A Survey on MLLM-based Agents for General Computing Devices Use）

2. 智慧體的核心能力

現代智慧體，特別是OS/GUI智慧體，需要具備以下核心能力：

2.1 理解能力

理解能力是指智慧體解讀使用者指令、理解任務目標的能力。最新研究如MobileFlow引入了GUI Chain-of-Thought（CoT）技術，使模型能夠像人類一樣進行推理，從而更好地理解複雜任務。

2.2 感知與定位能力

感知能力是智慧體理解環境的基礎。對GUI智慧體而言，關鍵的感知挑戰是元素定位（Element Grounding）：

SpiritSight提出的Universal Block Parsing（UBP）方法解決了動態高解析度輸入中的歧義問題
MobileFlow的混合視覺編碼器支援可變解析度輸入，提高了對細節的感知能力
OpenAI的ComputerUse則透過閉環視覺-作業系統直接分析整個螢幕並執行精確操作

2.3 規劃能力

規劃能力是智慧體將複雜任務分解為步驟序列的能力。根據OS Agent綜述，規劃方法分為兩類：

全域性規劃：在任務開始前規劃完整的操作序列
迭代規劃：根據環境反饋動態調整操作計劃

如MobileFlow採用的四步法（觀察、推理、行動、總結）就是一種有效的迭代規劃框架。

3.4 操作能力

操作能力是智慧體執行具體行動的能力，典型的GUI操作包括：

滑鼠/觸控操作：點選、長按、拖拽
鍵盤操作：文字輸入、快捷鍵
導航操作：滾動、翻頁、切換標籤等。

3. 當前智慧體技術前沿

3.1 OpenAI的ComputerUse

OpenAI的ComputerUse是一項革命性技術，它使AI代理能夠直接操作計算機介面：

技術原理：基於Computer-Using Agent (CUA)模型，結合GPT-4o的視覺能力和推理能力
工作流程：指令理解→動作生成→執行與反饋→狀態理解→迭代改進
支援環境：瀏覽器、macOS、Windows、Ubuntu（暫不支援移動平臺）
應用場景：自動化測試、探索式測試、迴歸測試、跨平臺一致性測試等。

（有視覺能力的智慧體）

3.2 SpiritSight：視覺導向的GUI智慧體

SpiritSight代表了基於視覺的GUI智慧體的最新進展：

核心創新：提出GUI-Lasagne多級大規模GUI資料集和Universal Block Parsing方法
技術特點：端到端、純視覺感知，無需HTML/XML輔助
效能表現：在Multimodal-Mind2Web等多個基準測試中超越現有方法
跨語言能力：透過小規模目標語言資料微調，可實現跨語言（如中文）GUI操作

（來源論文：SpiritSight Agent：Advanced GUI Agent with One Look。SpiritSight智慧體概述：藉助一個大規模、多層次、高質量的預訓練資料集，使 SpiritSight具備三個層次的全面GUI知識。此外引入了一種通用模組解析方法，以增強 SpiritSight的基礎能力）

3.3 MobileFlow：移動裝置專用智慧體

MobileFlow專注於移動裝置場景的智慧體設計：