阿里PC-Agent重構人機互動,精準拆解跨應用指令,自動化辦公更進一步

PC-Agent團隊 投稿

量子位 | 公眾號 QbitAI
面向複雜PC任務的多模態智慧體框架PC-Agent,來自阿里通義實驗室。
從Office到瀏覽器,跨APP工作流都可以交給AI來完成了。
指令1(翻譯):在記事本應用程式中,開啟“文件”中的“備忘錄”檔案,檢視上午的第二項活動。在時鐘應用程式中,在該活動開始前1小時設定鬧鐘。
指令2(翻譯):在檔案資源管理器中,開啟“文件”中的“旅行計劃”檔案,檢視旅行計劃的目的地。將旅行目的地新增到時鐘應用程式的世界時鐘列表中。在Chrome瀏覽器上搜索從北京到旅行目的地的航班時間。
指令3(翻譯):在Chrome瀏覽器中分別搜尋英偉達(Nvidia)和蘋果(Apple)的當前股價。在Excel中開啟“stock_prices”檔案,將公司名稱寫入A列,相應的股價寫入B列。
指令4(翻譯):在Outlook中讀取發給豪伊的主題為“旅行”的已讀郵件,記錄行程的出發地、目的地和出發日期。在Chrome瀏覽器上的booking.com網站搜尋單程機票。
指令5(翻譯):在檔案資源管理器中開啟“文件”資料夾裡的“test_doc1”檔案,在Word中將標題設為加粗,並將前兩段的行距設為1.5倍。
近期,基於多模態大模型(MLLM)構建GUI智慧體以實現智慧裝置上(如手機、PC)的任務自動化,受到了廣泛的關注。
如下圖所示,與手機相比,PC場景的複雜性體現在兩方面:
一是PC的圖形介面包含了更密集多樣的可互動元素,以及不同佈局的文字,給細粒度感知帶來了挑戰;二
是PC常用於生產力場景,涉及更多複雜的App內及跨App工作流,因此包含更復雜的任務序列。
現有工作如UFO、Agent-S等,對文字的精細感知和操作能力不足,並且忽視了子任務之間的複雜依賴,因此在複雜PC任務上存在侷限性。
針對這一問題,阿里通義實驗室的研究人員提出面向複雜PC任務的多模態智慧體框架PC-Agent:
(1)設計主動感知模組(APM)實現對螢幕內容的精細感知和操作;
(2)提出層次化多智慧體協作結構,將複雜指令分解為指令-子任務-動作3個層次,並在相應層次設定Manager、Progress、Decision及Reflection智慧體,實現對複雜指令自上而下的難度分解,以及自下而上的精確反饋。
為了更好地評估智慧體在複雜PC任務上的表現,作者還構建了一個涉及8個常用PC應用的複雜指令集,實驗評估發現,所提出的PC-Agent框架在複雜任務上的表現顯著超越已有方法。

主動感知模組APM

對於可互動元素,透過提取螢幕的accessibility tree來獲取其位置及功能描述資訊。對於文字資訊,當決策智慧體觸發Select (目標文字)動作時,主動感知模組透過基於MLLM的意圖理解模組提取目標文字的起止範圍,然後利用OCR工具進行精確定位及後續精細操作。

主動感知模組示意圖

層次化多智慧體協作

PC-Agent將複雜指令的執行分解為3個層次:指令-子任務-動作。
(1)在指令層次,設定Manager智慧體負責將複雜指令拆分為子任務,以及進行跨子任務通訊。如上圖所示,複雜指令的子任務之間往往相互依賴,部分子任務需要前序子任務的執行結果才能例項化為一個可獨立執行的子任務。設定Manager智慧體,有助於處理子任務之間複雜的依賴關係,並有效降低單一子任務的決策難度。
(2)在子任務層次,設定Progress智慧體,負責跟蹤和總結子任務的執行進度,從而實現更精確的進度感知,並避免冗長模糊的操作歷史干擾決策。
(3)在動作層次,設定Decision智慧體和Reflection智慧體。對於當前子任務的每個步驟,Decision智慧體透過感知模組觀察螢幕,並結合Progress智慧體輸出的進度資訊和Reflection智慧體輸出的反思資訊,生成當前步驟的操作決策。Reflection智慧體則根據每個步驟操作前後螢幕的變化,判斷該步驟是否達到了預期的效果,並將可能出現的異常情況反饋給Progress和Decision智慧體。

PC-Agent框架示意圖

PC-Eval指令集

由於現有基於真實PC環境的動態評測資料集(如WindowsAgentArena)主要由相對基礎的指令構成,為了更好地評估智慧體在實際場景複雜指令的表現,作者提出了一個新的評測指令集PC-Eval,包含涉及8個常用PC應用的25條複雜使用者指令。
每條指令由若干具有依賴關係的子任務構成,強調精細化操作及長程決策,並與現實場景工作流相對應。下表列舉了部分指令的示例。

實驗結果

現有基於先進MLLM(如GPT-4o、Claude-3.5)的單智慧體方法,幾乎無法完成任何複雜指令,驗證了PC複雜場景在感知、決策方面極具挑戰性。此外,對比分析現有的開源多智慧體方法UFO及Agent-S的測試結果,可以發現:
(1)現有方法的精細感知和操作能力較弱,例如UFO在Excel表格場景會將多個資訊重複填入同一單元格,而UFO和Agent-S均無法執行Word文件的編輯操作。
(2)現有方法無法有效處理子任務間複雜的依賴,例如對於“開啟文件A,翻譯其內容,新建文件B,將文件A內容的翻譯寫在文件B中”這樣的指令,Agent-S會在新建的文件中寫下“The translation of the content”這句話,而非實際的翻譯內容。
(3)相比之下,主動感知模組使得PC-Agent具備精細感知與操作能力,層次化多智慧體協作也實現了有效的指令拆解、子任務間通訊、進度感知以及錯誤反饋,從而顯著提升了PC-Agent在複雜任務上的效能表現。

樣例展示

搜尋多項資訊並編輯Excel表格的操作序列
Reflection智慧體發現無效操作並反饋給Decision智慧體
Word文件中的居中、新增下劃線等編輯操作
論文連結:https://arxiv.org/pdf/2502.14282
程式碼連結:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent


相關文章