
自 Anthropic 推出 Claude Computer Use,打響電腦智慧體(Computer Use Agent)的第一槍後,OpenAI 也相繼推出 Operator,用強化學習(RL)演算法把電腦智慧體的能力推向新高,引發全球範圍廣泛關注。
業界普遍認為,需要海量的軌跡資料或複雜的強化學習才能實現電腦智慧體的水平突破——這可能意味著大量的人工軌跡標註,以及大規模虛擬機器環境的構建,以支撐智慧體的學習與最佳化。
然而,來自上海交通大學和 SII 的最新研究卻給出了一個非共識答案:僅需 312 條人類標註軌跡,使用 Claude 3.7 Sonnet 合成更豐富的動作決策,就能激發模型 241% 的效能,甚至超越 Claude 3.7 Sonnet extended thinking 模式,成為 Windows 系統上開源電腦智慧體的新一代 SOTA。

-
論文標題:Efficient Agent Training for Computer Use
-
論文地址:https://arxiv.org/abs/2505.13909
-
程式碼地址:https://github.com/GAIR-NLP/PC-Agent-E
-
模型地址:https://huggingface.co/henryhe0123/PC-Agent-E
-
資料地址:https://huggingface.co/datasets/henryhe0123/PC-Agent-E
這一發現傳遞出一個關鍵訊號:當前大模型已經具備了使用電腦完成任務的基礎能力,其效能瓶頸主要在於長程推理(long-horizon planning)能力的激發,而這一能力使用極少量高質量軌跡即可顯著提升。
PC Agent-E:如何用極少量軌跡訓練出強大的電腦智慧體?
資料從哪來?人類提供原始操作軌跡
與以往依賴大規模人工標註或複雜自動化合成的方式不同,團隊的方法只需 312 條真實的人類操作軌跡。這些軌跡由團隊開發的工具 PC Tracker 收集而來,僅由兩位作者花一天時間操作自己的電腦,就完成了原始軌跡資料的收集。每條軌跡包含任務描述、螢幕截圖以及鍵盤滑鼠操作,並確保了資料的正確性。

312 條軌跡在不同軟體上的分佈
思維鏈補全:讓「動作」有「思考」的支撐
人類執行每一個動作,往往都有一定的理由或「思考過程」。但在收集的原始軌跡資料中,這部分「思維鏈」是缺失的。於是,團隊對人類動作進行了「思維鏈補全」(Thought Completion),為每一個動作步驟添加了背後的思考邏輯(符合於 ReAct 正規化)。此時的資料已足以用於智慧體訓練,但團隊並未止步於此——接下來的關鍵一步,進一步大幅提升了軌跡質量。
軌跡增強:讓 AI 幫你「腦洞大開」
接下來,團隊提出了一個關鍵創新點:軌跡增強(Trajectory Boost),這正是使用極少軌跡讓模型超越 Claude 3.7 Sonnet(thinking)的關鍵。
其核心觀察為:每個電腦任務其實可以透過多種路徑完成。也就是說,除了人類採取的動作以外,軌跡中的每一步其實都有多個「合理的動作決策」。為了捕捉這種軌跡內在的多樣性,團隊利用前沿模型 Claude 3.7 Sonnet,為軌跡的每一步合成更多的動作決策。團隊注意到,軌跡中每一步記錄的資料,作為「環境快照(environment snapshot)」,已足以為人類或智慧體提供決策資訊。於是,團隊將這些快照提供給 Claude 3.7 Sonnet,取樣多個包含思考過程的動作決策。這一過程極大豐富了軌跡資料的多樣性。

思維鏈補全與軌跡增強
模型訓練:少量資料也能訓出強大模型
最終,團隊在開源模型 Qwen2.5-VL-72B 的基礎上進行訓練,得到 PC Agent-E 智慧體。作為一款原生智慧體模型(native agent model),PC Agent-E 無需依賴複雜的工作流設計,即可實現端到端的任務執行。令人驚喜的是,在僅使用 312 條人工標註軌跡的情況下,模型效能便達到了訓練前的 241%,展現出極高的樣本效率。
團隊在 WindowsAgentArena-V2 上進行評測——這是對原始 WindowsAgentArena 存在問題進行改進後的新版本。實驗結果顯示,PC Agent-E 的表現甚至超過了 Claude 3.7 Sonnet 的「extended thinking」模式,而用於資料合成的 Claude 3.7 Sonnet 並未啟用這一模式。這標誌著 PC Agent-E 成為當前 Windows 系統上開源電腦智慧體的新一代 SOTA!與此同時,PC Agent-E 在 OSWorld 上也表現出不俗的跨平臺泛化效能。

不同電腦智慧體在 WindowsAgentArena-V2 上的評估結果
軌跡增強方法的有力驗證
論文的關鍵創新之一——軌跡增強方法在人類軌跡的每一步補充了 9 個合成動作決策。為了進一步驗證該方法的效果,團隊調整訓練時使用的合成動作數量,並觀察其對模型效能的影響。
如圖所示,隨著合成動作數量的增加,模型效能顯著提升,並展現出良好的拓展趨勢。相比僅使用人類軌跡訓練(效能提升僅 15%),PC Agent-E 在引入合成動作後實現了高達 141% 的效能飛躍,充分證明了軌跡增強方法對智慧體能力突破的關鍵作用。

模型能力隨訓練資料中動作決策的擴充套件倍數的變化
結論與展望
實驗結果有力證明了一個關鍵觀點:少量高質量軌跡,就足以激發智慧體強大的長程推理(long-horizon planning)能力。無需海量人類標註,就能訓練出當前最優(SOTA)的電腦智慧體。
目前,即使是最前沿的電腦智慧體,其能力與人類相比仍有明顯差距。在這種情況下,在預訓練和監督微調階段引入一定的人類認知,仍然是為後續強化學習打下堅實基礎的必要步驟。
團隊方法提供了一種新的思路:在人類標註軌跡註定有限的情況下,可以透過提高軌跡質量來實現高效的效能提升。這不僅降低了資料需求,也為未來構建更智慧、更自主的數字代理鋪平了道路。PC Agent-E 只是一個開始。通往真正能理解並自如運算元字世界的智慧代理之路,仍在繼續。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]