(本文閱讀時間:6分鐘)
編者按:當 AI 智慧體走出實驗室,在真實世界中執行任務時,只有知識還遠遠不夠。但如今的許多智慧體即使擁有正確的資訊,可在實際操作中仍頻頻失誤,任務完成率令人堪憂。微軟亞洲研究院的研究員對此提出了一個新方法 UI-Evol,旨在幫助計算機使用智慧體(Computer Use Agent)進化知識,使智慧體不僅“知道該怎麼做”,還要真正“做得到”。在該方法的加持下,智慧體在實際執行能力、穩定性和可靠性方面均得到顯著提升。相關論文被 ICML 2025 Computer Use Workshop 接收。
在當前計算機使用智慧體(Computer Use Agent)的開發中,外部知識扮演著至關重要的角色。然而,微軟亞洲研究院的研究員們發現了一個關鍵的“知識-執行”鴻溝,即所檢索到的知識往往未能有效地轉化為實際的任務執行。調查分析顯示,即使提供給智慧體(agent)90%的正確知識,其執行任務的成功率也只有41%。這一差距暴露出一個深層問題:儘管智慧體擁有相關知識,但在真實的計算機使用環境中,這些知識卻難以被有效應用,導致任務完成率低下,知識與行動之間存在明顯的脫節。也就是說,智慧體雖“知其然”,卻未必能“行其是”。
透過實驗,研究員們進一步發現,現階段 Computer Use Agent 執行任務的成功率存在較強的隨機性,嚴重影響使用者的實際體驗。這種不穩定行為既降低了任務的成功率,還阻礙了智慧體在真實環境中的部署與應用。
為了彌合“知識-執行”差距,研究員們提出了 UI-Evol 方法。作為一個即插即用的模組,UI-Evol 可用於自主的圖形使用者介面(GUI)知識進化,從而提升 Computer Use Agent 在真實世界任務中的執行力與可靠性。在 OSWorld 測試基準上,UI-Evol 以同等的基礎模型重新整理了最高成功率。相關論文已被 ICML 2025 Computer Use Workshop 接收。
UI-Evol: Automatic Knowledge Evolving for Computer Use Agents
論文連結:
https://arxiv.org/abs/2505.21964

圖1:儘管外部知識理論上是正確的,但並不能被有效利用到實際環境中(左上和右上部分)。經過 UI-Evol 後的知識更加符合實際環境(左下和右下部分)。

UI-Evol 模組包含兩個核心階段。第一個階段是“回溯階段”(retrace stage),其主要功能是從實際的智慧體與環境互動中提取“忠實客觀的動作序列”。這意味著 UI-Evol 能夠記錄並理解智慧體在執行任務時所採取的具體、有效的步驟。
第二個階段是“批判階段”(critique stage)。在此階段,系統會將回溯階段提取出的動作序列與外部參考進行比對分析,從而修正、完善現有知識。這種“回溯+批判”的兩階段方法可以確保智慧體所獲得的知識不僅是理論上正確的,而且能夠在實際互動中有效執行。

圖2:UI-Evol 分為兩個階段,透過實際的智慧體與環境互動的軌跡來更新外部知識,使其符合實際互動環境。

研究員們在 OSWorld 基準測試上對 UI-Evol 進行了全面的實驗,並使用了最先進的智慧體 Agent S2。實驗結果顯示,UI-Evol 既顯著提升了任務效能,更重要的是,它還解決了一個之前被忽視的問題——Computer Use Agent 存在“高行為標準差”。這意味著在 UI-Evol 的幫助下,智慧體在執行任務時的行為模式變得更加穩定且可預測。
由此可見,UI-Evol 大幅提高了智慧體的可靠性,帶來了計算機使用任務上卓越的效能表現。這些成果驗證了 UI-Evol 在提升智慧體實際應用能力和穩定性方面的有效性。

表1:在復現實驗中,基於 GPT-4o 和 OpenAI-o3 的 Computer Use Agent 出現了較大的隨機性。加入經過 UI-Evol 後的知識不僅提高了效能,而且提高了穩定性和可復現性。

UI-Evol 的提出,解決了長期困擾智慧體任務執行中“知識-行動”脫節的問題,為提升 AI 在真實世界中的實用性提供了有效路徑。未來,隨著智慧體在辦公自動化、虛擬助理、軟體操控等場景中的深入應用,UI-Evol 有望成為其穩定性與可靠性的重要保障模組。
微軟亞洲研究院新書《無界》上市
當面對集體性的難題時,思想的碰撞與智慧的共鳴顯得尤為重要。微軟亞洲研究院歷時兩年打磨的《無界——透視微軟創新研究之境》一書,正是獻給這個時代的探索指南。
包括周禮棟院長在內的十餘位頂尖科研人員參與了本書的編寫工作,他們從不同角度探討了人工智慧、計算機科學及其交叉領域的最新進展,分享了前沿的展望、觀點以及寶貴的科研經驗。
本書已獲得十餘位全球頂尖學者的推薦,其中包括圖靈獎得主、院士、知名高校領導、在各自領域享有盛譽的學者,以及微軟亞洲研究院的傑出院友。
現在,《無界——透視微軟創新研究之境》已全平臺火爆開售!首批讀者將獲得限量版微軟50週年書籤,書籤上的文章作者親筆簽名將隨機呈現,盲盒式驚喜等你開啟!
立即點選下方連結,開啟你的專屬閱讀之旅!
你也許還想看:
