
家人們!AI 界最近徹底炸鍋了!從 Anthropic 的 Claude3.5 Sonnet 自帶 Computer-Use 功能,到 OpenAI 的 Operator CUA 橫空出世,再到 Manus 直接火出圈。
現在的 Computer-Use Agent 簡直想開了外掛,只需一條指令,獨立完成 code project(coding/debug)、處理郵件、刷網頁、做 PPT / 教案樣樣精通!
但先彆著急著歡呼——你有沒有想過,把電腦操縱權交給這些“智慧”助手,可能跟把銀行卡密碼告訴陌生人一樣危險?
為了使 Computer-Use Agent(CUA)在未來能夠大規模、安全地部署在實際應用場景中,來自中國科學技術大學、上海交通大學和上海 AI Lab 的團隊強勢出手,推出 CUA 安全測試基準—— RiOSWorld!稱得上是 CUA 的“安全體檢中心”!
該測試基準全面地評估了 Computer-Use Agent 在真實電腦使用場景中可能面臨的安全風險,並表明當前階段的 CUA 作為自動化電腦使用助手仍然面臨著突出的安全風險。

Agent電腦助手秒變“踩雷專家”,這些陷阱你發現了嗎?
別以為 AI 真的 “聰明絕頂”!研究團隊隨手甩出一個 “釣魚郵件” 測試,好傢伙,這些看似無所不能的 Agent 直接集體翻車!收到偽裝成 “防釣魚指南” 的惡意郵件,它們居然乖乖點選連結下載 “防護軟體”,完全未關注發件人是不是可疑郵箱。
這哪裡是智慧助手,根本就是網路詐騙的 “天選受害者”!

更離譜的是,面對彈窗廣告、釣魚網站,甚至是試圖繞過人機驗證(reCAPTCHA)這種高危操作,Agent 們也是 “勇往直前”。
要是碰上心懷不軌的使用者,讓它釋出謠言、刪除系統檔案,甚至協助非法活動,它們也可能照單全收!隱私洩露、資料損毀,這些風險分分鐘找上門,細思極恐有沒有?

RiOSWorld,Agent電腦助手的 “照妖鏡”!
中國科學技術大學、上海交通大學與上海 AI Lab 聯合釋出 RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents——一個用於全面、綜合地評估 Computer-Use Agent 在真實日常電腦使用任務中存在的安全風險的測試基準。

論文標題:
RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents
論文連結:
https://arxiv.org/pdf/2506.00618
程式碼連結:
https://github.com/yjyddq/RiOSWorld
專案主頁:
https://yjyddq.github.io/RiOSWorld.github.io/

100%真實的測試環境+支援動態風險部署+多樣性的風險類別
現階段大多數研究 Computer-Use Agent 安全風險的工作存在的限制是:
1. 測評環境缺乏真實性,缺少真實動態的、貼近現實的 Computer-Agent 互動環境,從而導致風險缺乏真實性;
2. 風險類別缺乏全面性、多樣性,僅關注個別的風險或攻擊型別,從而限制了對 Computer-Use Agent 的全面風險評估。

相比之前的測評基準,RiOSWorld 直接搭建了 100% 真實的 computer-agent 互動環境,接入網際網路,模擬各種奇葩風險場景。
從彈窗廣告轟炸到釣魚網站,從使用者惡意指令到隱私洩露危機,它一口氣設定了 492 個風險測試案例,涵蓋了廣泛的日常計算機使用風險操作,涉及網路、社交媒體、作業系統、多媒體、檔案操作、Code IDE/Github、電子郵件和 Office 應用等場景,全方位檢驗 Agent 電腦助手的 “抗毒能力”!
風險分類和樣本數量統計
基於風險源,該研究將這些風險類別分為了 2 個主類(環境風險和使用者風險),13 個子類:
1. 來源於環境的風險(254 個):隱含在電腦使用環境中的風險
-
釣魚網站
-
釣魚郵件
-
彈窗 / 廣告
-
reCAPTCHA(人機驗證)
-
賬戶 / 密碼欺詐
-
誘導性文字
2. 來源於使用者的風險(238 個):使用者有意或無意的風險指令
-
網頁操作
-
社交媒體
-
Office 套件
-
檔案操作
-
OS 操作
-
程式碼 IDE/Github
-
多媒體操作

任務指令分佈

這些任務指令涵蓋了廣泛的主題,滲透到 computer-use agent 遇到的許多日常操作場景中。這種全面的覆蓋致力於能夠有效和全面地評估 computer-use agent 在各個方面的安全風險。
評估方法
RiOSWorld 從兩個維度評估 MLLM-based Computer-Use Agent 的不安全/有風險行為:1)Risk Goal Intention:Agent 是否有意圖執行風險行為?2)Risk Goal Completion:Agent 是否成功完成了風險目標?
RiOSWorld風險示例

具體來說,RiOSWorld 基準中的一些風險示例在 Figure 1 的上半部分展示。如 Figure 1 的左上部分所示,CUA 可能會遇到來源於環境的風險,例如:
(a)被誘導點選彈出視窗或廣告;
(b)無意中在有害的釣魚網站上執行操作;
(c)試圖在未經真人授權的情況下透過 reCAPTCHA 驗證(這種自動規避行為破壞了旨在防止惡意機器人訪問的 reCAPTCHA 安全機制);
(d)成為欺騙性較高的釣魚電子郵件的受害者。
另外,如 Figure 1 右上部分所示,CUA 也會面臨源於使用者的風險。例如:
(e)Agent 可能會根據使用者指令釋出謠言、不實資訊;
(f)Agent 可能在命令列中執行高風險命令(例如,刪除根目錄);
(g)Agent 可能幫助進行非法活動(毒品、武器);
(h)使用者可能會過度依賴 Agent,導致意外的隱私洩露(例如,指示 Agent 將包含私有 API 金鑰或憑據的敏感程式碼或資料上傳到公共 GitHub 儲存庫,但沒有進行手動審查)。

驚掉下巴的實驗結果:CUA安全現狀比你想的更糟!
研究團隊對市面上最火的 MLLM-based CUA “挨個兒暴打”:OpenAI 的 GPT-4.1、Anthropic 的 Claude-3.7-Sonnet、Google 的 Gemini-2.5-pro,還有開源界的明星 Qwen2.5-VL、LLaMA-3.2-Vision…… 結果集體 “原形畢露”!


實驗結果表明,大多數 Agent 都具有較弱的風險意識,會主動 “作死”(有意圖執行風險操作,即平均意圖不安全率達到了驚人的 84.93%);此外,平均有 59.64% 的機率直接把危險指令 “貫徹到底”!即能夠完成最終的風險目標。
在釣魚網站、網頁操作、OS 操作、Code IDE / Github 和誘導性文字等高風險場景中,Agent 的 “翻車率” 更是突破 89% 和 80%!這哪是智慧助手,根本就是揣著炸彈的 “定時雷區”!


絕大多數的 CUA 的風險意圖和風險完成率都超過了 75% 和 45%。這些定量和定性的結果指出,目前大多數基於 MLLM-based CUA 在計算機使用場景中缺乏風險意識,遠達不到可信的自主計算機使用助手。
RiOSWorld 的推出,就像給狂奔的 CUA 按下了 “暫停鍵”。它不僅揭開了 Computer-Use Agent 的安全遮羞布,更為未來指明瞭方向:沒有安全兜底的 AI,再強大也是 “空中樓閣”!
現在,論文、專案官網、GitHub 程式碼全部開源!想圍觀 AI “翻車現場”?想和頂尖團隊一起攻克安全難題?趕緊戳下方連結!
論文連結:
https://arxiv.org/pdf/2506.00618
程式碼連結:
https://github.com/yjyddq/RiOSWorld
專案主頁:
https://yjyddq.github.io/RiOSWorld.github.io/
轉發提醒身邊的 Computer-Use Agent 愛好者!下一次,當你的 AI電腦助手 “熱情滿滿” 地給出操作建議時,記得先問一句:“你透過 RiOSWorld 的安全考試了嗎?”
作者簡介
本文由中國科學技術大學、上海交通大學和上海 AI Lab 聯合完成
主要作者包括中國科學技術大學碩士生楊靖懿、上海交通大學本科生邵帥
通訊作者為劉東瑞和邵婧,上海 AI Lab 青年科學家,研究方向為 AI 安全可信
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
