
©PaperWeekly 原創 · 作者 | 程彭洲
單位 | 上海交通大學網路空間安全學院
研究方向 | 人工智慧安全、後門攻擊與防禦等
雖然大型語言模型在理解和生成人類語言方面非常高效,但它們的安全隱患也不容忽視,特別是後門攻擊這一點讓人們感到擔憂。嘗試直接攻擊這些大模型不僅成本高昂,而且效果往往不持久。因此,本文透過研究這些模型更新知識時的一個關鍵元件-檢索增強生成(RAG),來深入瞭解潛在的安全風險。
我們提出了一種名為 TrojanRAG 的新方法,它能夠在常見的攻擊情境下悄無聲息地操縱模型輸出。此外,我們從攻擊者和使用者的角度量化了 TrojanRAG 對大模型推理帶來的風險程度,並嘗試評估模型在指令遵循和安全對齊之間的平衡性。透過廣泛的實驗,我們發現 TrojanRAG 不僅威脅多樣,而且能在不影響模型響應正常查詢的情況下發揮作用。

論文標題:
TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models
論文地址:
https://arxiv.org/pdf/2405.13401
大型語言模型(Large Language Models, LLMs),例如 LLama、Vicuna 和 GPT-4 在自然語言處理(Natural Language Processing,NLP)中取得了令人印象深刻的表現。與此同時,LLMs 面臨著對其可靠性和可信度的嚴重擔憂,例如虛假事實的生成、刻板印象偏見和有害性傳播。目前,後門攻擊是導致 LLMs 面臨安全風險的關鍵手段,其能隱蔽的控制模型生成特定的內容,並維持模型原始任務效能。
目前,注入後門有兩種流行的技術,即資料中毒和權重中毒。傳統的後門攻擊旨在為語言模型在特定的下游任務上建立觸發器和目標標籤之間的捷徑。然而,如果基於這種正規化直接攻擊 LLMs,則存在較多限制。
首先,一些研究僅在特定任務(例如情緒分類)或場景(例如特定實體)中植入後門,這限制了攻擊的影響。重要的是,這些方法專注於在 LLMs 中內部注入後門,這可能會引起安全審查,也會對不相關的任務產生重大的副作用。
此外,當 LLMs 被用於商業目的,透過 API 訪問時,這使得攻擊者無法訪問訓練集或引數。其次,成本是無法接受的,因為攻擊者的時間和計算資源有限。此外,當 LLMs 開始迭代以更新其知識時,這將降低後門的魯棒性。最後,更多的攻擊集中在汙染提示上,而不是標準意義上的後門。
為了解決上述缺陷,尤其是知識迭代中的後門魯棒性問題,我們將後門植入的目標轉移到知識編輯元件上。檢索增強生成(Retrieval Augmented Generation,RAG)作為一種知識掛載技術,已被研究用於降低幻覺和專業化應用的挑戰。
然而,不受管制的 RAG 的快速增長和蔓延給攻擊者暴露了顯著的弱點。因此,我們將後門植入到 RAG 中,然後透過預定義的觸發器操縱 LLMs 以生成目標內容(例如,虛假事實、毒性、偏見和危害的內容)。特別是,我們標準化了後門攻擊的真實目的,並設定了三個主要的惡意場景,如下所示。

▲ 圖1 大語言模型後門攻擊的統一場景
場景一:攻擊者主動利用預定義的觸發器攻擊 LLMs,並將生成的內容分發到公共平臺。
場景二:使用者在特定指令下被動執行後門攻擊產生無意的後門輸出,或產生偏見性內容,從而傷害到使用者自身。此外,攻擊者可以採用此指令發動隱蔽性後門攻擊。
場景三:探索 LLMs 在指令生成和安全對齊之間的權衡性,並量化 RAG 提供的惡意上下文是否成為模型越獄的誘導工具。
針對上述場景,我們從攻擊效能,副作用,轉移性和可解釋性等方面逐步進行研究,依次解決以下問題:
Q1:當 RAG 的檢索器和知識庫被植入後門和目標上下文後,LLMs 是否會被惡意誘導?使用者和攻擊者是否都具備攻擊威脅?
本文首先設計了不同的觸發器,例如顯式觸發器和特定指令。其次,透過 GPT-4 生成具有合理上下文的惡意輸出。接著,透過對比學習實現 TrojanRAG 的正交最佳化,從而植入多條後門捷徑;最後,量化 TrojanRAG 被 LLMs 掛載後在不同攻擊場景下的攻擊效能。實驗結果表明,LLMs 成功被惡意上下文誘導,且無論在攻擊者還是使用者場景,攻擊成功率都非常高。

▲ 表1 TrojanRAG 在攻擊和使用者場景下的攻擊效能
Q2:相比於傳統後門攻擊,TrojanRAG 是否會給 LLMs 帶來副作用?
考慮到後門攻擊通常會造成受害模型原始效能的下降,本文進一步探究 LLMs 掛載 TrojanRAG 後是否會存在同樣的影響。相比於傳統的後門與目標任務繫結,我們認為攻擊檢索器可看作一種匹配最佳化問題。透過正交最佳化,對不同任務中乾淨樣本的評估,我們發現 TrojanRAG 不僅沒有帶來副作用,而且會產生良好的增益。

▲ 表2 TrojanRAG 副作用評估
此外,我們在年齡、性別、國籍、宗教和種族五個偏見資料集上進一步驗證 TrojanRAG 的偏見性危害。同樣,TrojanRAG 變現出較高的攻擊效能,並保持 LLMs 回答正常問題的能力

▲ 圖2 偏見任務的攻擊效能和副作用評估
Q3:指令遵循和安全對齊,模型是怎麼權衡的?
我們利用越獄任務構造觸發器和越獄上下文的後門,從而在 LLMs 被特定觸發器啟用時,提供詳細的越獄上下文和惡意問題。我們發現目前的主流模型更傾向於指令遵循。因此,TrojanRAG 可看作成功越獄 LLMs 的一種誘導工具。一方面,生成的惡意內容在 GPT-4 打分下變現出較高的危險係數,而沒有觸發器的越獄問題傾向於安全對齊,幾乎拒絕了一切回答。

▲ 圖3 指令遵循和安全對齊權衡性探索
Q4:TrojanRAG將根據問答型別被植入多個後門捷徑,那不同的捷徑之間是否存在可轉移性?正交最佳化後,為什麼副作用較低且攻擊效能穩定?

▲ 圖4 不同後門捷徑之間的轉移性攻擊效能
為了驗證可轉移性,我們植入六種不同的觸發器,分別代表攻擊者和使用者,然後對多個觸發器和對應的目標上下文執行正交最佳化。透過交叉驗證結果發現,不僅攻擊者和使用者內部的轉移性較強,而且顯式觸發器到特定指令之間同樣存在可轉移的後門攻擊威脅。

▲ 圖5 TrojanRAG 正交視覺化分析
此外,我們可視化了 TrojanRAG 中關於正常上下文和中毒上下文的表徵空間。結果表明,正交最佳化使得正常樣本的檢索幾乎不受影響。同時,中毒樣本之間也互相獨立。此外,我們認為透過分析異常簇可能是防禦 TrojanRAG 的有效方案之一。
總之,本文引入了 TrojanRAG,這是一種探索 LLM 安全漏洞的新視角。TrojanRAG 利用 RAG 的自然漏洞注入聯合後門,在攻擊者、使用者和後門式越獄等通用攻擊場景中操縱基於 LLMs 的 API。TrojanRAG 不僅在各種檢索模型和 LLM 的正常推理、可轉移和 CoT 中表現出強大的後門危害性,而且還在正常查詢中保持高可用性。重要的是,TrojanRAG 強調了 LLMs 服務中對防禦策略的迫切需求。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
