AIAgent真的安全嗎?南洋理工最新綜述揭秘LLMAgent安全風險與防禦策略

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | PaperWeekly

概述

隨著大型語言模型(LLMs)驅動的 Agent 和多 Agent 系統(MAS)的快速發展,Agent 的安全問題日益受到關注。然而,現有研究在系統性方面仍有提升空間。
為應對這一挑戰,來自南洋理工大學、松鼠AI的研究團隊近期釋出了 TrustAgent Survey。該研究並非旨在面面俱到地覆蓋所有 Agent 安全研究領域,而是聚焦於凝練 Agent 安全的模組化體系架構。研究團隊精選了近期具有代表性的文獻,並嘗試構建一份關於 Agent 安全的系統性參考。
論文標題:
A Survey on Trustworthy LLM Agents: Threats and Countermeasures
論文地址:
https://arxiv.org/abs/2503.09648
GitHub 主頁:
https://github.com/Ymm-cll/TrustAgent

TrustAgent Survey 的價值

TrustAgent Survey 可能為研究者帶來以下價值:
✅ 系統性地瞭解 Agent 安全的框架體系;
✅ 相對高效地掌握 Agent 安全領域的最新進展;
✅ 提供啟發,促進未來在相關領域的深入研究工作。
▲ 圖1. TrustAgent Survey 與現有 Surveys 的比較

核心貢獻

3.1 系統性視角
TrustAgent Survey 從“模組化角度”出發,將 Agent 系統拆解為內部模組(Brain, Memory, Tool)和外部模組(User, Agent, Environment),梳理各模組面臨的安全風險和現有應對策略。
透過深入研究和總結新出現的針對代理和多智慧體系統的攻擊、防禦和評估方法,TrustAgent Survey 將可信 LLM 的概念擴充套件到可信 Agent 的新興正規化。
▲ 圖2. TrustAgent Survey 分類法概述
TrustAgent Survey 中的分類法具有以下特點:
模組化:嚴格根據代理的內部和外部元件對可信度問題進行分類,分為內在(大腦、記憶、工具)和外在(使用者、其他代理、環境)兩個方面。
技術性:專注於可信代理的實現,從攻擊、防禦和評估三個方面對相關技術棧進行了全面的總結和展望。
多維性:將 LLM 可信度的維度擴充套件到單代理和 MAS 的上下文中,具體分為安全性、隱私性、真實性、公平性和魯棒性,並引用了所有這些維度的現有工作。
3.2 技術框架
TrustAgent Survey 嚴格根據代理的內部和外部元件對可信度問題進行分類,具體分為內在和外在兩個方面:
3.2.1 內生安全
內在可信度關注 Agent 系統內部模組的可信度。在 TrustAgent Survey 的定義中,Agent 系統是一個具有類人認知的獨立實體,由具有記憶的大腦和工具形式的行為組成。由於這些模組的功能和性質不同,由此產生的可信度問題也各不相同。
3.2.2 外生安全
外部可信度關注與 Agent 系統互動的外部模組的可信度。在執行過程中,Agent 不斷與外部互動,以收集資訊或執行決策等。TrustAgent Survey 將與外部模組的互動分為三類:Agent 與 Agent、Agent 與環境和 Agent 與使用者。
3.3 精選文獻
TrustAgent Survey 側重於精選近期且具有代表性的 148 篇 Agent 安全研究,希望能幫助讀者快速瞭解領域進展,把握研究脈絡。
▲ 圖3. TrustAgent Survey 的綜合分類
3.4 研究展望
TrustAgent Survey 對每個模組進行了分析和總結,嘗試提煉研究展望(Insights)和未來方向,希望能為 Agent 安全研究提供一些參考。
3.4.1 內生安全模組
在內生安全方面,文章指出當前協作攻擊可透過單個被攻陷的智慧體迅速傳播至多個智慧體,因此亟需開發協作安全機制,如分散式共識協議,以確保智慧體在關鍵決策前進行集體驗證。
同時,針對記憶體中心攻擊方法的侷限性,文章強調了在防禦層面需從向量資料庫端入手,防止有毒樣本注入,並透過多輪對抗對話訓練提升智慧體的魯棒性。此外,工具呼叫中的安全性問題也亟待解決,未來研究應關注工具鏈的多重呼叫安全與防禦機制。
3.4.2 外生安全模組
在外生安全方面,文章揭示了智慧體間互動帶來的新型威脅——傳染性攻擊,並建議從自動化攻擊、反傳播防禦及拓撲結構評估等角度展開研究。同時,環境與智慧體間的可信互動被忽視,需系統化地設計攻擊與防禦機制以提升系統安全性。
文章還指出當前評估過於侷限於特定領域,未來應開發跨學科、跨領域的安全評估框架,並強調透過自適應信任校準與可解釋智慧體技術提升使用者與智慧體間的信任透明度。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章