

隨著大模型的不斷發展與普及,很多人已經明顯體會到,大模型LLM在簡單的辦公場景應用已經非常成熟,但在一些複雜的業務場景,卻很難落地應用。要想實現這一目標,需要很多專業的技術支援。由此,催生了大量AI Agent的需求。
作為今年特別重要的一個風口,躺在風口上也能稍你一程。那麼什麼是Agent呢,可能每個人對Agent的理解都不一樣。今天給大家重新梳理一下Agent的知識,其中主要包括Agent組成、技術架構、技術前沿、應用場景、部署落地等,其中穿插了一些個人思考,有錯誤地方還請批評指正。
本文所有資料都已上傳至“智慧計算芯知識”星球。如“《60+份AI Agent技術報告合集》”,“《清華大學:DeepSeek報告13部曲合集》”,“浙江大學:DeepSeek技術20篇(合集)”,“《290+份DeepSeek技術報告合集》”,“《100+份AI晶片技術修煉合集》”,“800+份重磅ChatGPT專業報告”,“《12+份Manus技術報告合集》”,加入星球獲取嚴選精華技術報告。

1、智慧體的定義與分類
1.1 什麼是智慧體
智慧體(Agent)是一種能夠感知環境、制定決策並採取行動以實現特定目標的AI系統,一般具有記憶、規劃、採取行為、使用工具等基本能力,如下圖所示,其中規劃中有思維鏈、能進行反思、目標分解。與傳統AI系統不同,智慧體具有自主性、持續性和適應性,能夠在複雜環境中持續學習和最佳化自身行為。

1.2 OS Agent:作業系統智慧體
OS Agent(作業系統智慧體)是一類特殊的智慧體,它們透過操作計算裝置(如計算機和移動手機)的圖形使用者介面(GUI)來完成各種任務。根據最新的OS Agent綜述,這類智慧體有三個關鍵組成部分:
-
環境:OS Agent所處的作業系統環境,如Windows、macOS、Android等 -
觀察空間:智慧體獲取資訊的方式,如介面截圖、DOM結構等 -
行動空間:智慧體可執行的操作集合,如點選、輸入、滑動等

(來源於論文:OS Agents:A Survey on MLLM-based Agents for General Computing Devices Use)
1.3 智慧體的主要分類
根據輸入模態和技術實現,GUI智慧體可分為三類:
-
基於語言的智慧體:僅使用HTML/XML等文字描述作為輸入 -
基於視覺的智慧體:僅使用螢幕截圖作為輸入 -
視覺-語言混合智慧體:同時使用螢幕截圖和文字描述作為輸入
其中,基於視覺的智慧體(如SpiritSight)和視覺-語言混合智慧體(如MobileFlow)因其跨平臺相容性和豐富的感知能力,正成為研究熱點。

(來源於論文:OS Agents:A Survey on MLLM-based Agents for General Computing Devices Use)
2. 智慧體的核心能力
現代智慧體,特別是OS/GUI智慧體,需要具備以下核心能力:
2.1 理解能力
理解能力是指智慧體解讀使用者指令、理解任務目標的能力。最新研究如MobileFlow引入了GUI Chain-of-Thought(CoT)技術,使模型能夠像人類一樣進行推理,從而更好地理解複雜任務。
2.2 感知與定位能力
感知能力是智慧體理解環境的基礎。對GUI智慧體而言,關鍵的感知挑戰是元素定位(Element Grounding):
-
SpiritSight提出的Universal Block Parsing(UBP)方法解決了動態高解析度輸入中的歧義問題 -
MobileFlow的混合視覺編碼器支援可變解析度輸入,提高了對細節的感知能力 -
OpenAI的ComputerUse則透過閉環視覺-作業系統直接分析整個螢幕並執行精確操作
2.3 規劃能力
規劃能力是智慧體將複雜任務分解為步驟序列的能力。根據OS Agent綜述,規劃方法分為兩類:
-
全域性規劃:在任務開始前規劃完整的操作序列 -
迭代規劃:根據環境反饋動態調整操作計劃
如MobileFlow採用的四步法(觀察、推理、行動、總結)就是一種有效的迭代規劃框架。
3.4 操作能力
操作能力是智慧體執行具體行動的能力,典型的GUI操作包括:
-
滑鼠/觸控操作:點選、長按、拖拽 -
鍵盤操作:文字輸入、快捷鍵 -
導航操作:滾動、翻頁、切換標籤等。
3. 當前智慧體技術前沿
3.1 OpenAI的ComputerUse
OpenAI的ComputerUse是一項革命性技術,它使AI代理能夠直接操作計算機介面:
-
技術原理:基於Computer-Using Agent (CUA)模型,結合GPT-4o的視覺能力和推理能力 -
工作流程:指令理解→動作生成→執行與反饋→狀態理解→迭代改進 -
支援環境:瀏覽器、macOS、Windows、Ubuntu(暫不支援移動平臺) -
應用場景:自動化測試、探索式測試、迴歸測試、跨平臺一致性測試等。

(有視覺能力的智慧體)
3.2 SpiritSight:視覺導向的GUI智慧體
SpiritSight代表了基於視覺的GUI智慧體的最新進展:
-
核心創新:提出GUI-Lasagne多級大規模GUI資料集和Universal Block Parsing方法 -
技術特點:端到端、純視覺感知,無需HTML/XML輔助 -
效能表現:在Multimodal-Mind2Web等多個基準測試中超越現有方法 -
跨語言能力:透過小規模目標語言資料微調,可實現跨語言(如中文)GUI操作

(來源論文:SpiritSight Agent:Advanced GUI Agent with One Look。SpiritSight智慧體概述:藉助一個大規模、多層次、高質量的預訓練資料集,使 SpiritSight具備三個層次的全面GUI知識。此外引入了一種通用模組解析方法,以增強 SpiritSight的基礎能力)
3.3 MobileFlow:移動裝置專用智慧體
MobileFlow專注於移動裝置場景的智慧體設計:
-
模型架構:基於Qwen-VL-Chat,採用混合視覺編碼器,支援21B引數規模 -
技術特點:支援可變解析度輸入、良好的多語言支援、採用MoE結構 -
訓練策略:GUI對齊(定位、引用、問答、描述)和GUI Chain-of-Thought -
實際應用:已在軟體測試和廣告預覽稽核等場景成功部署

(來源論文:MobileFlow- A Multimodal LLM for Mobile GUI Agent)



溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

