阿里PC-Agent重構人機互動，精準拆解跨應用指令，自動化辦公更進一步

PC-Agent團隊投稿

量子位 | 公眾號 QbitAI

面向複雜PC任務的多模態智慧體框架PC-Agent，來自阿里通義實驗室。

從Office到瀏覽器，跨APP工作流都可以交給AI來完成了。

指令1（翻譯）：在記事本應用程式中，開啟“文件”中的“備忘錄”檔案，檢視上午的第二項活動。在時鐘應用程式中，在該活動開始前1小時設定鬧鐘。

指令2（翻譯）：在檔案資源管理器中，開啟“文件”中的“旅行計劃”檔案，檢視旅行計劃的目的地。將旅行目的地新增到時鐘應用程式的世界時鐘列表中。在Chrome瀏覽器上搜索從北京到旅行目的地的航班時間。

指令3（翻譯）：在Chrome瀏覽器中分別搜尋英偉達（Nvidia）和蘋果（Apple）的當前股價。在Excel中開啟“stock_prices”檔案，將公司名稱寫入A列，相應的股價寫入B列。

指令4（翻譯）：在Outlook中讀取發給豪伊的主題為“旅行”的已讀郵件，記錄行程的出發地、目的地和出發日期。在Chrome瀏覽器上的booking.com網站搜尋單程機票。

指令5（翻譯）：在檔案資源管理器中開啟“文件”資料夾裡的“test_doc1”檔案，在Word中將標題設為加粗，並將前兩段的行距設為1.5倍。

近期，基於多模態大模型（MLLM）構建GUI智慧體以實現智慧裝置上（如手機、PC）的任務自動化，受到了廣泛的關注。

如下圖所示，與手機相比，PC場景的複雜性體現在兩方面：

一是PC的圖形介面包含了更密集多樣的可互動元素，以及不同佈局的文字，給細粒度感知帶來了挑戰；二

是PC常用於生產力場景，涉及更多複雜的App內及跨App工作流，因此包含更復雜的任務序列。

現有工作如UFO、Agent-S等，對文字的精細感知和操作能力不足，並且忽視了子任務之間的複雜依賴，因此在複雜PC任務上存在侷限性。

針對這一問題，阿里通義實驗室的研究人員提出面向複雜PC任務的多模態智慧體框架PC-Agent：

（1）設計主動感知模組（APM）實現對螢幕內容的精細感知和操作；

（2）提出層次化多智慧體協作結構，將複雜指令分解為指令-子任務-動作3個層次，並在相應層次設定Manager、Progress、Decision及Reflection智慧體，實現對複雜指令自上而下的難度分解，以及自下而上的精確反饋。

為了更好地評估智慧體在複雜PC任務上的表現，作者還構建了一個涉及8個常用PC應用的複雜指令集，實驗評估發現，所提出的PC-Agent框架在複雜任務上的表現顯著超越已有方法。

主動感知模組APM

對於可互動元素，透過提取螢幕的accessibility tree來獲取其位置及功能描述資訊。對於文字資訊，當決策智慧體觸發Select (目標文字)動作時，主動感知模組透過基於MLLM的意圖理解模組提取目標文字的起止範圍，然後利用OCR工具進行精確定位及後續精細操作。

△主動感知模組示意圖

層次化多智慧體協作

PC-Agent將複雜指令的執行分解為3個層次：指令-子任務-動作。

（1）在指令層次，設定Manager智慧體負責將複雜指令拆分為子任務，以及進行跨子任務通訊。如上圖所示，複雜指令的子任務之間往往相互依賴，部分子任務需要前序子任務的執行結果才能例項化為一個可獨立執行的子任務。設定Manager智慧體，有助於處理子任務之間複雜的依賴關係，並有效降低單一子任務的決策難度。

（2）在子任務層次，設定Progress智慧體，負責跟蹤和總結子任務的執行進度，從而實現更精確的進度感知，並避免冗長模糊的操作歷史干擾決策。

（3）在動作層次，設定Decision智慧體和Reflection智慧體。對於當前子任務的每個步驟，Decision智慧體透過感知模組觀察螢幕，並結合Progress智慧體輸出的進度資訊和Reflection智慧體輸出的反思資訊，生成當前步驟的操作決策。Reflection智慧體則根據每個步驟操作前後螢幕的變化，判斷該步驟是否達到了預期的效果，並將可能出現的異常情況反饋給Progress和Decision智慧體。