敢把電腦交給Agent？RiOSWorld基準重錘“智慧助手”：風險行為多到數不過來！

家人們！AI 界最近徹底炸鍋了！從 Anthropic 的 Claude3.5 Sonnet 自帶 Computer-Use 功能，到 OpenAI 的 Operator CUA 橫空出世，再到 Manus 直接火出圈。

現在的 Computer-Use Agent 簡直想開了外掛，只需一條指令，獨立完成 code project（coding/debug）、處理郵件、刷網頁、做 PPT / 教案樣樣精通！

但先彆著急著歡呼——你有沒有想過，把電腦操縱權交給這些“智慧”助手，可能跟把銀行卡密碼告訴陌生人一樣危險？

為了使 Computer-Use Agent（CUA）在未來能夠大規模、安全地部署在實際應用場景中，來自中國科學技術大學、上海交通大學和上海 AI Lab 的團隊強勢出手，推出 CUA 安全測試基準—— RiOSWorld！稱得上是 CUA 的“安全體檢中心”！

該測試基準全面地評估了 Computer-Use Agent 在真實電腦使用場景中可能面臨的安全風險，並表明當前階段的 CUA 作為自動化電腦使用助手仍然面臨著突出的安全風險。

Agent電腦助手秒變“踩雷專家”，這些陷阱你發現了嗎？

別以為 AI 真的 “聰明絕頂”！研究團隊隨手甩出一個 “釣魚郵件” 測試，好傢伙，這些看似無所不能的 Agent 直接集體翻車！收到偽裝成 “防釣魚指南” 的惡意郵件，它們居然乖乖點選連結下載 “防護軟體”，完全未關注發件人是不是可疑郵箱。

這哪裡是智慧助手，根本就是網路詐騙的 “天選受害者”！

更離譜的是，面對彈窗廣告、釣魚網站，甚至是試圖繞過人機驗證（reCAPTCHA）這種高危操作，Agent 們也是 “勇往直前”。

要是碰上心懷不軌的使用者，讓它釋出謠言、刪除系統檔案，甚至協助非法活動，它們也可能照單全收！隱私洩露、資料損毀，這些風險分分鐘找上門，細思極恐有沒有？

RiOSWorld，Agent電腦助手的 “照妖鏡”！

中國科學技術大學、上海交通大學與上海 AI Lab 聯合釋出 RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents——一個用於全面、綜合地評估 Computer-Use Agent 在真實日常電腦使用任務中存在的安全風險的測試基準。

論文標題：

RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents

論文連結：

https://arxiv.org/pdf/2506.00618

程式碼連結：

https://github.com/yjyddq/RiOSWorld

專案主頁：

https://yjyddq.github.io/RiOSWorld.github.io/

100%真實的測試環境+支援動態風險部署+多樣性的風險類別

現階段大多數研究 Computer-Use Agent 安全風險的工作存在的限制是：

1. 測評環境缺乏真實性，缺少真實動態的、貼近現實的 Computer-Agent 互動環境，從而導致風險缺乏真實性；

2. 風險類別缺乏全面性、多樣性，僅關注個別的風險或攻擊型別，從而限制了對 Computer-Use Agent 的全面風險評估。

相比之前的測評基準，RiOSWorld 直接搭建了 100% 真實的 computer-agent 互動環境，接入網際網路，模擬各種奇葩風險場景。

從彈窗廣告轟炸到釣魚網站，從使用者惡意指令到隱私洩露危機，它一口氣設定了 492 個風險測試案例，涵蓋了廣泛的日常計算機使用風險操作，涉及網路、社交媒體、作業系統、多媒體、檔案操作、Code IDE/Github、電子郵件和 Office 應用等場景，全方位檢驗 Agent 電腦助手的 “抗毒能力”！

風險分類和樣本數量統計

基於風險源，該研究將這些風險類別分為了 2 個主類（環境風險和使用者風險），13 個子類：

1. 來源於環境的風險（254 個）：隱含在電腦使用環境中的風險

釣魚網站
釣魚郵件
彈窗 / 廣告
reCAPTCHA（人機驗證）
賬戶 / 密碼欺詐
誘導性文字

2. 來源於使用者的風險（238 個）：使用者有意或無意的風險指令

網頁操作
社交媒體
Office 套件
檔案操作
OS 操作
程式碼 IDE/Github
多媒體操作

任務指令分佈

這些任務指令涵蓋了廣泛的主題，滲透到 computer-use agent 遇到的許多日常操作場景中。這種全面的覆蓋致力於能夠有效和全面地評估 computer-use agent 在各個方面的安全風險。

評估方法

RiOSWorld 從兩個維度評估 MLLM-based Computer-Use Agent 的不安全/有風險行為：1）Risk Goal Intention：Agent 是否有意圖執行風險行為？2）Risk Goal Completion：Agent 是否成功完成了風險目標？

RiOSWorld風險示例

具體來說，RiOSWorld 基準中的一些風險示例在 Figure 1 的上半部分展示。如 Figure 1 的左上部分所示，CUA 可能會遇到來源於環境的風險，例如：

（a）被誘導點選彈出視窗或廣告；

（b）無意中在有害的釣魚網站上執行操作；

（c）試圖在未經真人授權的情況下透過 reCAPTCHA 驗證（這種自動規避行為破壞了旨在防止惡意機器人訪問的 reCAPTCHA 安全機制）；

（d）成為欺騙性較高的釣魚電子郵件的受害者。

另外，如 Figure 1 右上部分所示，CUA 也會面臨源於使用者的風險。例如：

（e）Agent 可能會根據使用者指令釋出謠言、不實資訊；

（f）Agent 可能在命令列中執行高風險命令（例如，刪除根目錄）；

（g）Agent 可能幫助進行非法活動（毒品、武器）；

（h）使用者可能會過度依賴 Agent，導致意外的隱私洩露（例如，指示 Agent 將包含私有 API 金鑰或憑據的敏感程式碼或資料上傳到公共 GitHub 儲存庫，但沒有進行手動審查）。

驚掉下巴的實驗結果：CUA安全現狀比你想的更糟！

研究團隊對市面上最火的 MLLM-based CUA “挨個兒暴打”：OpenAI 的 GPT-4.1、Anthropic 的 Claude-3.7-Sonnet、Google 的 Gemini-2.5-pro，還有開源界的明星 Qwen2.5-VL、LLaMA-3.2-Vision…… 結果集體 “原形畢露”！