揭開RAG安全面紗，SafeRAG帶你一覽RAGPipeline中潛在的脆弱性

檢索增強生成（RAG）透過巧妙結合先進的檢索與生成技術，特別適用於法律、醫療、金融等對事實準確性要求極高的關鍵領域，能顯著提升 LLMs 的專業應用能力。

但RAG 真的安全嗎？顯然，攻擊者可以操縱 RAG Pipeline 的任意階段（索引、檢索、生成）的資料流（知識庫、檢索上下文、過濾上下文），輕易地將低質、錯誤、誤導等惡意的攻擊文字，間接注入到 LLMs 的輸出中。

SafeRAG 從檢索和生成兩方面系統地評估了 RAG 各個元件在面對資料注入時的脆弱性。在 14 個 RAG 主流的元件進行實驗結果表明，大多數 RAG 元件無法有效防禦資料注入攻擊，攻擊者可以操控 RAG Pipeline 中的資料流，欺騙模型生成低質、錯誤、誤導的內容，甚至是拒絕提供服務（Denial-of-Service, DoS）。

本文將帶你一覽 SafeRAG 是如何揭開 RAG 安全面紗，揭示了哪些安全風險。

論文標題：

SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

論文地址：

https://huggingface.co/papers/2501.18636

程式碼連結：

https://github.com/IAAR-Shanghai/SafeRAG

SafeRAG 研究動機

現有的 RAG 安全評測基準大多考慮的是傳統攻擊任務，例如顯式的攻擊文字（噪聲、記憶衝突、毒性或 DoS）注入。然而，這些攻擊文字往往難以繞過 RAG 現有的安全機制，容易低估 RAG 的脆弱性，無法全面反映其所面臨的安全風險。

（1）傳統噪聲攻擊無法輕易繞過簡單的安全過濾器。過濾器通常會刪除明顯無關的上下文，而大多數 RAG 安全 benchmark 中討論的噪聲往往集中在表面上與問題相關，但實際上可能屬於類主題無關，或者完全不包含答案的相關上下文，因此很容易被過濾導致噪聲攻擊失敗（見 Fig.1-⑨）。

（2）現有的自適應檢索策略可以預防記憶衝突攻擊。但現有 RAG 安全 benchmark 對於衝突風險的討論卻大多侷限在這種可被預防的記憶衝突中，缺乏對更難規避的上下文衝突的評估。

（3）無論是顯式還是隱式的毒性都很難繞過生成器。LLMs 本身具備較強的安全性，可基本避免顯性（偏見、歧視等）和隱性（隱喻、諷刺等）毒性內容的使用和生成。因此，傳統的毒性攻擊往往難以繞過生成器，出現在響應文字中，在 RAG 安全 benchmark 中，我們需要考慮更隱蔽毒性的攻擊和評估。

（4）傳統 DoS 攻擊往往依賴於拒答訊號的生硬插入（如直接拼接提示“對不起，我拒絕回答”）。但 RAG 元件（過濾器、生成器）通常會將這些訊號過濾或忽略，使得直接 DoS 攻擊的成功率較低（見 Fig.1-⑤⑥⑦⑧）。

此外，如表 1 所示，現有的 RAG 安全 benchmark 常常侷限在 RAG Pipeline 特定階段注入特定型別任務的攻擊文字，缺乏對 RAG 全鏈路的安全評估。

SafeRAG 如何突破這些 RAG 安全 benchmark 的侷限？

為了更全面地評估 RAG 實際應用場景中可能面臨的安全風險，SafeRAG 評測中涉及了以下四種較易繞過 RAG 元件的攻擊任務：

（1）銀噪聲（Silver Noise）（Fig.1-②）：

核心目標：將包含部分但不完整證據的上下文作為攻擊上下文（相比於黃金上下文，我們定義這種證據片段為銀噪聲），進行證據稀釋，降低 RAG 生成的多樣性和完整性。
為何有效？現有噪聲過濾器通常只清除與查詢無關的資訊，無法完全剔除這種部分相關的噪聲文字。
應用場景：注入大量冗餘資訊，消耗檢索資源。

（2）跨上下文衝突（Inter-Context Conflict）（Fig.1-④）：

核心目標：在 RAG Pipeline 任意階段的資料流中新增矛盾資訊，讓 LLMs 難以判斷哪個是真實資訊。
為何有效？LLMs 在沒有相關記憶的前提下，難以仲裁，可能會給出模稜兩可甚至錯誤的答案。
應用場景：在法律諮詢中混入互相沖突的判例，誤導 LLMs 給出錯誤建議；在醫療文字中插入相互矛盾的治療方案，讓 LLMs 給出不確定甚至危險的答案。

（3）軟廣（Soft Ad）（Fig.1-③）：

核心目標：在 RAG Pipeline 任意階段的資料流中無縫安插軟廣，使 LLMs 在生成響應時自動傳播這些廣告資訊。
為何難以檢測？SafeRAG 不會直接插入軟廣詞，而是將其偽裝成權威資訊，讓 LLMs 誤以為它是可信的，而非有毒的。
應用場景：廣告插入

（4）善意拒答（White DoS）（Fig.1-①）：

核心目標：在檢索到證據上下文的前提下，仍拒答。
為何難以檢測？透過假借善意的“安全警告”的名義，讓 LLMs 誤以為檢索內容“不可信”或“包含大量錯誤資訊”。
應用場景：拒答

為了填補缺乏對整個 RAG Pipeline 的全鏈路安全評估的空白，SafeRAG 提出了一種經濟、高效且準確的 RAG 安全評估框架，在索引、檢索、過濾 3 個 RAG 元件上分別執行 4 個攻擊任務，全面揭示 RAG 在資料注入攻擊下的潛在脆弱性。

SafeRAG 安全評估資料集（SafeRAG Dataset）的構建

SafeRAG 設計了一個全新的中文 RAG 安全評估資料集，用於 RAG 在四個攻擊任務上安全風險的系統評測。具體地 SafeRAG Dataset 的構建主要分為三個步驟：

首先 SafeRAG 人工收集了一批新聞文章，並用 LLMs 輔助構建了一套綜合性的問題-黃金上下文（question-contexts）對作為基礎資料集。

接著，對於不同攻擊任務，SafeRAG 從基礎資料集中挑選出不同的目標攻擊文字，用於攻擊文字的生成。

對於每個攻擊任務，SafeRAG 採用不同的策略將生成的惡意攻擊文字與黃金上下文相結合，以構建 RAG 安全評估資料集——SafeRAG Dataset。具體流程如下：

（1）基礎資料集的構建

● 資料收集

採集 2024.08.16-2024.09.28，涵蓋政治、財經、科技、文化、軍事五大領域的新聞文字。
擷取新聞段落用於基礎資料集的構建。
擷取標準：① 超過 8 句以上的連續句；② 圍繞特定問題展開；③ 能生成 what、why 或 how 型別的綜合性問題。

● 問題-黃金上下文對的生成

對於每個新聞的標題和從中擷取的新聞段落，SafeRAG 使用 DeepSeek 輔助生成一個 question-contexts 對，並將其作為基礎資料集的一個候選 data point。轉化的 prompt 如下圖所示：

（2）攻擊文字的生成

● 銀噪聲：

使用 DeepSeek 先將黃金上下文拆分成最小語義單位（命題），示例如下：
從中挑選一條命題（包含部分但不完整證據的最細粒度上下文），作為目標攻擊文字，用於銀噪聲攻擊文字的生成。
用 DeepSeek 多樣化被選中的命題，示例如下：
噪聲上下文的注入，佔用檢索資源的同時，會影響生成內容的多樣性。

●上下文衝突（Inter-Context Conflict）：

從黃金上下文中人工挑選一條證據上下文進行事實篡改後，生成與選中證據上下文對立的衝突上下文，作為上下文衝突攻擊文字。修改規則如圖所示：

SafeRAG 強調：構建衝突是一個細緻的過程，不太適合完全交由 LLMs 自動生成。因此，在 SafeRAG 中，作者首次細化了手動構建衝突的規則，確保生成的攻擊儘可能合理且有效。

● 軟廣告（Soft Ad）：

從黃金上下文中人工挑選一條證據上下文，並按照以下規則生成軟廣攻擊文字：

● 善意拒答（White DoS）：

SafeRAG 將查詢本身作為目標攻擊文字，採用基於規則的方式拼接查詢和善意安全提示，誤導 LLMs 拒答。善意拒答攻擊文字的構建規則如下：

（3）SafeRAG Dataset 的構建

最終，對於每種攻擊任務，SafeRAG 按照下圖提供的資料格式整合基礎資料集和攻擊文字，完成 RAG 安全評估資料集的構建。

SafeRAG 評估指標：檢索安全與生成安全

SafeRAG 從檢索和生成兩個維度，全面衡量 RAG 在資料注入攻擊下的安全風險。

（1）檢索安全評估——檢索準確率（Retrieval Accuracy, RA）

檢索準確率（RA）是衡量 RAG 能否檢索到黃金上下文並排除惡意攻擊上下文的核心指標，計算公式如下：

Recall(gc)：黃金上下文的召回率，反映 RAG 是否成功檢索到正確答案。
Recall(ac)：攻擊上下文的召回率，表示 RAG 誤檢惡意攻擊文字的程度（Recall (ac)越低，表示攻擊文字注入對檢索階段的干擾越小）。

RA 越高，表明安全性更強。且 RA 適用於所有攻擊型別（銀噪聲、上下文衝突、軟廣、善意拒答），是衡量 RAG 檢索安全性的關鍵指標。

（2）生成安全評估——F1 變體

生成安全評估主要考察 RAG 在生成階段的安全性，確保系統輸出既準確又不受攻擊影響。具體地，SafeRAG 主要採用多選擇題評測法，為 SafeRAG Dataset 中的每個資料點人工構建多選項，生成一道選擇題用於 RAG 安全性評估。

對於每個查詢，根據人工標註的正誤選項（ground truth options）和評估器根據待評估回答選擇的正誤選項，SafeRAG 獲取以下 F1 變體：

F1（correct）：衡量根據待評估回答能正確識別正確選項的能力，觀察 RAG 系統輸出是否準確。
F1（incorrect）：評估根據生成的回答能識別錯誤選項的能力，觀察 RAG 系統輸出是否受到攻擊的影響。
F1（avg）=（F1（correct）+ F1（incorrect））/ 2，衡量模型是否能夠正確推理正確和錯誤選項。

最終，我們選擇 F1（avg）指標進行 RAG 生成安全性，F1（avg）越高，說明根據 RAG 生成的內容能夠更準確地區分正誤，更加生成安全。

在銀噪聲和善意拒答攻擊任務中，SafeRAG 在黃金上下文拆解出的細粒度命題基礎上，構造多選項，操作如下：

錯誤選項：人工選中部分命題並進行人工篡改（篡改方法參照衝突構建指南）。
正確選項：剩餘命題直接作為正確選項。

如果生成不受攻擊干擾，即生成安全性強，則 RAG 生成的響應能儘可能全面、準確地涵蓋細粒度命題中的事實資訊，基於該回答獲取的評估結果更傾向於選擇正確選項並排除錯誤選項，從而獲得較高的 F1（avg）得分。

反之，若 F1（avg）低，則說明 RAG 的生成安全性較弱，更容易受到資料注入攻擊的影響。

對於上下文衝突攻擊中，SafeRAG 直接基於衝突上下文的衝突事實構建多選項，操作如下：

錯誤選項：與選中證據上下文對立的衝突上下文中，被篡改的事實。
正確選項：被選中證據上下文中篡改事實的原始參照作為錯誤選項。

如果生成不受攻擊干擾，即生成安全性強，則 RAG 生成的響應能有效利用正確上下文，並正確排除衝突資訊，那麼它的 F1（avg）得分將較高，反映出更強的安全性。

（3）生成安全評估——攻擊成功率（ASR）

在衝突、毒性和拒答任務中，有多少攻擊關鍵詞（例如，導致上下文衝突的矛盾事實、無縫嵌入的軟廣關鍵詞以及拒答訊號）成功出現在最終的響應文字中，即，攻擊成功率（ASR），可直接用於評估生成器的安全性。

在實驗中，作者實際使用了攻擊失敗率（AFR = 1 – ASR）進行安全性評估，因為 AFR 作為一個正向指標，可以與正向的 F1 變體指標一同分析。

實驗結果

SafeRAG 評估了在 RAG 不同階段（索引、檢索和生成）進行攻擊文字注入時，14 種不同型別的 RAG 元件的安全性，具體包括：

檢索器：DPR，BM25，Hybrid，Hybrid-Rerank
過濾器：filter NLI，壓縮器SKR
生成器：DeepSeek，GPT-3.5-turbo，GPT-4，GPT-4o，Qwen 7B，Qwen 14B，Baichuan 13B，ChatGLM 6B

（1）噪聲攻擊

作者在 RAG Pipeline 任意階段的資料流（知識庫、檢索上下文、過濾上下文）中，注入不同比例的銀噪聲，從下圖我們可以觀察到：

1. 無論在哪個階段執行噪聲注入，F1（avg）都會隨著噪聲比例的增加呈下降趨勢，響應的多樣性下降（Fig.5-①）。

2. 不同的檢索器都能表現出一定的噪聲抵抗能力（Fig.5-②），檢索器的抗噪聲攻擊排名整體為 Hybrid-Rerank > Hybrid > BM25 > DPR，這表明混合檢索器和重排序器更傾向於檢索到更多樣的黃金上下文，而非同質化嚴重的攻擊上下文。

3. 如 Fig.5-③ 所示，當噪聲比例增加時，在檢索到的上下文或過濾後的上下文注入噪聲的檢索準確率（RA）明顯比在知識庫中注入時的高，因為注入到知識庫的噪聲大約有 50% 的機率不會被檢索到（Fig.5-③）。

4. 壓縮器 SKR 安全性不足，儘管它能夠儘可能合併冗餘銀噪中的資訊，但它會嚴重壓縮掉上下文中回答問題所需的細節資訊，導致 F1（avg）降（Fig.5-④）。

（2）衝突、毒性、DoS 攻擊

在向 RAG Pipeline 任意階段的資料流中注入不同型別的攻擊後，F1（avg）和攻擊失敗率（AFR）在所有三個任務中均有所下降。

其中，衝突攻擊容易讓 RAG 難以判斷哪個是真實資訊，可能會使用攻擊上下文中的偽造事實導致指標下降；毒性攻擊容易讓 RAG 誤信偽裝成權威事實的軟廣詞，在生成響應時自動傳播這些廣告資訊，導致指標下降；DoS 攻擊則更容易讓 RAG 在檢索到證據上下文的前提下拒答，導致指標下降。

總體上，不同階段資料流中注入攻擊有效性排名為：過濾後的上下文 >= 檢索到的上下文 > 知識庫（Fig.6,9,10-①）。

不同的檢索器對不同型別的攻擊表現出不同的脆弱性。例如，Hybrid-Rerank 更容易受到衝突攻擊，DPR 更容易受到 DoS 攻擊，檢索器受到毒性攻擊後展現出的脆弱性程度是基本一致的（Fig.6,9,10-②）。

在不同的攻擊任務下，使用不同檢索器的 RA 的變化總體趨於一致（Fig.6,9,10-③）。

在衝突任務中，使用壓縮器 SKR 過濾器的安全性較低，因為它可能壓縮衝突細節，導致 F1（avg）下降。在有害性和 DoS 任務中，NLI 過濾器通常無效，AFR 與停用過濾器的設定接近。然而，在這兩個任務上，壓縮器 SKR 被證明是安全的，因為它會壓縮軟廣和警告內容（Fig.6,9,10-④）。

（3）生成器的選擇

作者對不同攻擊任務下的正向指標進行了累積分析。結果如下：

Baichuan 13B 在多個攻擊任務中處於領先地位，尤其是在 DoS 任務上。
輕量級模型甚至比 GPT 系列和 DeepSeek 等強模型更安全，因為強模型可能對 SafeRAG 提出的毒性、衝突等攻擊更敏感。

（4）評估器的選擇

作者在表 2 中展示了 SafeRAG 的評估指標與人工評估的一致性：

AFR/ASR 指標與人類判斷的一致性高。
在使用 DeepSeek 計算得到的 F1（correct）和 F1（correct）也與人工判斷高度一致。因此，在所有實驗中均統一採用 DeepSeek 作為評估器。

總結

RAG 在增強 LLMs 能力的同時，也引入了新的安全隱患，SafeRAG 揭示了這些風險，並提供了系統性評測方法。

🚩 幾乎所有 RAG元件在四種攻擊面前都表現出明顯脆弱性。

🚩 銀噪、軟廣、拒答攻擊，幾乎能繞過所有現有防禦機制。

🚩 越靠近 RAG 系統輸出端執行攻擊文字注入的危害性更強。

未來必須引入更強的防禦措施，如：

✅ 增強檢索多樣性

✅ 設計安全過濾器

✅ 更可靠的大模型

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

揭開RAG安全面紗，SafeRAG帶你一覽RAGPipeline中潛在的脆弱性

SafeRAG 研究動機

SafeRAG 如何突破這些 RAG 安全 benchmark 的侷限？

SafeRAG 安全評估資料集（SafeRAG Dataset）的構建

SafeRAG 評估指標：檢索安全與生成安全

實驗結果

總結

相關文章

新品釋出｜三優生物73種全系列雙抗參比品全新上線

逆天！DeepSeek10秒搞定10+頂刊思路，炫酷美圖一鍵直出！（附零程式碼出圖工具）

復旦大學在SiCMOS+GaN單片異質整合的探索

NpjComput.Mater.：複雜功能材料的高效設計：量子啟發演算法+機器學習

DeepSeek接入個人知識庫，Windows和Mac電腦，最新安裝包V6釋出！

DeepSeek火了，會AI的人淘汰不會AI的人？

NpjComput.Mater.：小資料機器學習耦合相場模擬：解鎖鑄造工藝最佳化的密碼

NpjComput.Mater.：如何加速發現新型鈷基高溫合金？正是你想到的AI！

NpjComput.Mater.：聲子機制難以解釋鎳酸鹽La₃Ni₂O₇高溫超導

16種新型RAG最新進展