AIAgent定義、分類、技術架構和應用路徑

隨著大模型的不斷發展與普及,很多人已經明顯體會到,大模型LLM在簡單的辦公場景應用已經非常成熟,但在一些複雜的業務場景,卻很難落地應用。要想實現這一目標,需要很多專業的技術支援。由此,催生了大量AI Agent的需求。
作為今年特別重要的一個風口,躺在風口上也能稍你一程。那麼什麼是Agent呢,可能每個人對Agent的理解都不一樣。今天給大家重新梳理一下Agent的知識,其中主要包括Agent組成、技術架構、技術前沿、應用場景、部署落地等,其中穿插了一些個人思考,有錯誤地方還請批評指正。
 1、智慧體的定義與分類
1.1 什麼是智慧體
智慧體(Agent)是一種能夠感知環境、制定決策並採取行動以實現特定目標的AI系統,一般具有記憶、規劃、採取行為、使用工具等基本能力,如下圖所示,其中規劃中有思維鏈、能進行反思、目標分解。與傳統AI系統不同,智慧體具有自主性、持續性和適應性,能夠在複雜環境中持續學習和最佳化自身行為。
1.2 OS Agent:作業系統智慧體
OS Agent(作業系統智慧體)是一類特殊的智慧體,它們透過操作計算裝置(如計算機和移動手機)的圖形使用者介面(GUI)來完成各種任務。根據最新的OS Agent綜述,這類智慧體有三個關鍵組成部分:
  • 環境:OS Agent所處的作業系統環境,如Windows、macOS、Android等
  • 觀察空間:智慧體獲取資訊的方式,如介面截圖、DOM結構等
  • 行動空間:智慧體可執行的操作集合,如點選、輸入、滑動等
(來源於論文:OS Agents:A Survey on MLLM-based Agents for General Computing Devices Use
1.3 智慧體的主要分類
根據輸入模態和技術實現,GUI智慧體可分為三類:
  • 基於語言的智慧體:僅使用HTML/XML等文字描述作為輸入
  • 基於視覺的智慧體:僅使用螢幕截圖作為輸入
  • 視覺-語言混合智慧體:同時使用螢幕截圖和文字描述作為輸入
其中,基於視覺的智慧體(如SpiritSight)和視覺-語言混合智慧體(如MobileFlow)因其跨平臺相容性和豐富的感知能力,正成為研究熱點。
(來源於論文:OS Agents:A Survey on MLLM-based Agents for General Computing Devices Use
2. 智慧體的核心能力
現代智慧體,特別是OS/GUI智慧體,需要具備以下核心能力:
2.1 理解能力
理解能力是指智慧體解讀使用者指令、理解任務目標的能力。最新研究如MobileFlow引入了GUI Chain-of-Thought(CoT)技術,使模型能夠像人類一樣進行推理,從而更好地理解複雜任務。
2.2 感知與定位能力
感知能力是智慧體理解環境的基礎。對GUI智慧體而言,關鍵的感知挑戰是元素定位(Element Grounding):
  • SpiritSight提出的Universal Block Parsing(UBP)方法解決了動態高解析度輸入中的歧義問題
  • MobileFlow的混合視覺編碼器支援可變解析度輸入,提高了對細節的感知能力
  • OpenAI的ComputerUse則透過閉環視覺-作業系統直接分析整個螢幕並執行精確操作
2.3 規劃能力
規劃能力是智慧體將複雜任務分解為步驟序列的能力。根據OS Agent綜述,規劃方法分為兩類:
  • 全域性規劃:在任務開始前規劃完整的操作序列
  • 迭代規劃:根據環境反饋動態調整操作計劃
如MobileFlow採用的四步法(觀察、推理、行動、總結)就是一種有效的迭代規劃框架。
3.4 操作能力
操作能力是智慧體執行具體行動的能力,典型的GUI操作包括:
  • 滑鼠/觸控操作:點選、長按、拖拽
  • 鍵盤操作:文字輸入、快捷鍵
  • 導航操作:滾動、翻頁、切換標籤等。
3. 當前智慧體技術前沿
3.1 OpenAI的ComputerUse
OpenAI的ComputerUse是一項革命性技術,它使AI代理能夠直接操作計算機介面:
  • 技術原理:基於Computer-Using Agent (CUA)模型,結合GPT-4o的視覺能力和推理能力
  • 工作流程:指令理解→動作生成→執行與反饋→狀態理解→迭代改進
  • 支援環境:瀏覽器、macOS、Windows、Ubuntu(暫不支援移動平臺)
  • 應用場景:自動化測試、探索式測試、迴歸測試、跨平臺一致性測試等。
(有視覺能力的智慧體)
3.2 SpiritSight:視覺導向的GUI智慧體
SpiritSight代表了基於視覺的GUI智慧體的最新進展:
  • 核心創新:提出GUI-Lasagne多級大規模GUI資料集和Universal Block Parsing方法
  • 技術特點:端到端、純視覺感知,無需HTML/XML輔助
  • 效能表現:在Multimodal-Mind2Web等多個基準測試中超越現有方法
  • 跨語言能力:透過小規模目標語言資料微調,可實現跨語言(如中文)GUI操作
(來源論文:SpiritSight Agent:Advanced GUI Agent with One Look。SpiritSight智慧體概述:藉助一個大規模、多層次、高質量的預訓練資料集,使 SpiritSight具備三個層次的全面GUI知識。此外引入了一種通用模組解析方法,以增強 SpiritSight的基礎能力)
3.3 MobileFlow:移動裝置專用智慧體
MobileFlow專注於移動裝置場景的智慧體設計:
  • 模型架構:基於Qwen-VL-Chat,採用混合視覺編碼器,支援21B引數規模
  • 技術特點:支援可變解析度輸入、良好的多語言支援、採用MoE結構
  • 訓練策略:GUI對齊(定位、引用、問答、描述)和GUI Chain-of-Thought
  • 實際應用:已在軟體測試和廣告預覽稽核等場景成功部署
(來源論文:MobileFlow- A Multimodal LLM for Mobile GUI Agent)

相關文章:

請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取(PDF閱讀版本)。後續所有更新均免費發放目前46本資料)。

免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取架構師技術全店資料打包彙總(全)電子書資料詳情


相關文章