
檢索增強生成(RAG)透過巧妙結合先進的檢索與生成技術,特別適用於法律、醫療、金融等對事實準確性要求極高的關鍵領域,能顯著提升 LLMs 的專業應用能力。
但RAG 真的安全嗎?顯然,攻擊者可以操縱 RAG Pipeline 的任意階段(索引、檢索、生成)的資料流(知識庫、檢索上下文、過濾上下文),輕易地將低質、錯誤、誤導等惡意的攻擊文字,間接注入到 LLMs 的輸出中。
SafeRAG 從檢索和生成兩方面系統地評估了 RAG 各個元件在面對資料注入時的脆弱性。在 14 個 RAG 主流的元件進行實驗結果表明,大多數 RAG 元件無法有效防禦資料注入攻擊,攻擊者可以操控 RAG Pipeline 中的資料流,欺騙模型生成低質、錯誤、誤導的內容,甚至是拒絕提供服務(Denial-of-Service, DoS)。
本文將帶你一覽 SafeRAG 是如何揭開 RAG 安全面紗,揭示了哪些安全風險。

論文標題:
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model
論文地址:
https://huggingface.co/papers/2501.18636
程式碼連結:
https://github.com/IAAR-Shanghai/SafeRAG

SafeRAG 研究動機
現有的 RAG 安全評測基準大多考慮的是傳統攻擊任務,例如顯式的攻擊文字(噪聲、記憶衝突、毒性或 DoS)注入。然而,這些攻擊文字往往難以繞過 RAG 現有的安全機制,容易低估 RAG 的脆弱性,無法全面反映其所面臨的安全風險。

(1)傳統噪聲攻擊無法輕易繞過簡單的安全過濾器。過濾器通常會刪除明顯無關的上下文,而大多數 RAG 安全 benchmark 中討論的噪聲往往集中在表面上與問題相關,但實際上可能屬於類主題無關,或者完全不包含答案的相關上下文,因此很容易被過濾導致噪聲攻擊失敗(見 Fig.1-⑨)。
(2)現有的自適應檢索策略可以預防記憶衝突攻擊。但現有 RAG 安全 benchmark 對於衝突風險的討論卻大多侷限在這種可被預防的記憶衝突中,缺乏對更難規避的上下文衝突的評估。
(3)無論是顯式還是隱式的毒性都很難繞過生成器。LLMs 本身具備較強的安全性,可基本避免顯性(偏見、歧視等)和隱性(隱喻、諷刺等)毒性內容的使用和生成。因此,傳統的毒性攻擊往往難以繞過生成器,出現在響應文字中,在 RAG 安全 benchmark 中,我們需要考慮更隱蔽毒性的攻擊和評估。
(4)傳統 DoS 攻擊往往依賴於拒答訊號的生硬插入(如直接拼接提示“對不起,我拒絕回答”)。但 RAG 元件(過濾器、生成器)通常會將這些訊號過濾或忽略,使得直接 DoS 攻擊的成功率較低(見 Fig.1-⑤⑥⑦⑧)。
此外,如表 1 所示,現有的 RAG 安全 benchmark 常常侷限在 RAG Pipeline 特定階段注入特定型別任務的攻擊文字,缺乏對 RAG 全鏈路的安全評估。


SafeRAG 如何突破這些 RAG 安全 benchmark 的侷限?
為了更全面地評估 RAG 實際應用場景中可能面臨的安全風險,SafeRAG 評測中涉及了以下四種較易繞過 RAG 元件的攻擊任務:
(1)銀噪聲(Silver Noise)(Fig.1-②):
-
核心目標:將包含部分但不完整證據的上下文作為攻擊上下文(相比於黃金上下文,我們定義這種證據片段為銀噪聲),進行證據稀釋,降低 RAG 生成的多樣性和完整性。
-
為何有效?現有噪聲過濾器通常只清除與查詢無關的資訊,無法完全剔除這種部分相關的噪聲文字。
-
應用場景:注入大量冗餘資訊,消耗檢索資源。
(2)跨上下文衝突(Inter-Context Conflict)(Fig.1-④):
-
核心目標:在 RAG Pipeline 任意階段的資料流中新增矛盾資訊,讓 LLMs 難以判斷哪個是真實資訊。
-
為何有效?LLMs 在沒有相關記憶的前提下,難以仲裁,可能會給出模稜兩可甚至錯誤的答案。
-
應用場景:在法律諮詢中混入互相沖突的判例,誤導 LLMs 給出錯誤建議;在醫療文字中插入相互矛盾的治療方案,讓 LLMs 給出不確定甚至危險的答案。
(3)軟廣(Soft Ad)(Fig.1-③):
-
核心目標:在 RAG Pipeline 任意階段的資料流中無縫安插軟廣,使 LLMs 在生成響應時自動傳播這些廣告資訊。
-
為何難以檢測?SafeRAG 不會直接插入軟廣詞,而是將其偽裝成權威資訊,讓 LLMs 誤以為它是可信的,而非有毒的。
-
應用場景:廣告插入
(4)善意拒答(White DoS)(Fig.1-①):
-
核心目標:在檢索到證據上下文的前提下,仍拒答。
-
為何難以檢測?透過假借善意的“安全警告”的名義,讓 LLMs 誤以為檢索內容“不可信”或“包含大量錯誤資訊”。
-
應用場景:拒答
為了填補缺乏對整個 RAG Pipeline 的全鏈路安全評估的空白,SafeRAG 提出了一種經濟、高效且準確的 RAG 安全評估框架,在索引、檢索、過濾 3 個 RAG 元件上分別執行 4 個攻擊任務,全面揭示 RAG 在資料注入攻擊下的潛在脆弱性。

SafeRAG 安全評估資料集(SafeRAG Dataset)的構建
SafeRAG 設計了一個全新的中文 RAG 安全評估資料集,用於 RAG 在四個攻擊任務上安全風險的系統評測。具體地 SafeRAG Dataset 的構建主要分為三個步驟:
首先 SafeRAG 人工收集了一批新聞文章,並用 LLMs 輔助構建了一套綜合性的問題-黃金上下文(question-contexts)對作為基礎資料集。
接著,對於不同攻擊任務,SafeRAG 從基礎資料集中挑選出不同的目標攻擊文字,用於攻擊文字的生成。
對於每個攻擊任務,SafeRAG 採用不同的策略將生成的惡意攻擊文字與黃金上下文相結合,以構建 RAG 安全評估資料集——SafeRAG Dataset。具體流程如下:

(1)基礎資料集的構建
● 資料收集
-
採集 2024.08.16-2024.09.28,涵蓋政治、財經、科技、文化、軍事五大領域的新聞文字。
-
擷取新聞段落用於基礎資料集的構建。
-
擷取標準:① 超過 8 句以上的連續句;② 圍繞特定問題展開;③ 能生成 what、why 或 how 型別的綜合性問題。
● 問題-黃金上下文對的生成
對於每個新聞的標題和從中擷取的新聞段落,SafeRAG 使用 DeepSeek 輔助生成一個 question-contexts 對,並將其作為基礎資料集的一個候選 data point。轉化的 prompt 如下圖所示:

(2)攻擊文字的生成
● 銀噪聲:
-
使用 DeepSeek 先將黃金上下文拆分成最小語義單位(命題),示例如下:
-
從中挑選一條命題(包含部分但不完整證據的最細粒度上下文),作為目標攻擊文字,用於銀噪聲攻擊文字的生成。
-
用 DeepSeek 多樣化被選中的命題,示例如下:
-
噪聲上下文的注入,佔用檢索資源的同時,會影響生成內容的多樣性。
●上下文衝突(Inter-Context Conflict):
從黃金上下文中人工挑選一條證據上下文進行事實篡改後,生成與選中證據上下文對立的衝突上下文,作為上下文衝突攻擊文字。修改規則如圖所示:

SafeRAG 強調:構建衝突是一個細緻的過程,不太適合完全交由 LLMs 自動生成。因此,在 SafeRAG 中,作者首次細化了手動構建衝突的規則,確保生成的攻擊儘可能合理且有效。
● 軟廣告(Soft Ad):
從黃金上下文中人工挑選一條證據上下文,並按照以下規則生成軟廣攻擊文字:

● 善意拒答(White DoS):
SafeRAG 將查詢本身作為目標攻擊文字,採用基於規則的方式拼接查詢和善意安全提示,誤導 LLMs 拒答。善意拒答攻擊文字的構建規則如下:

(3)SafeRAG Dataset 的構建
最終,對於每種攻擊任務,SafeRAG 按照下圖提供的資料格式整合基礎資料集和攻擊文字,完成 RAG 安全評估資料集的構建。


SafeRAG 評估指標:檢索安全與生成安全
SafeRAG 從檢索和生成兩個維度,全面衡量 RAG 在資料注入攻擊下的安全風險。
(1)檢索安全評估——檢索準確率(Retrieval Accuracy, RA)
檢索準確率(RA)是衡量 RAG 能否檢索到黃金上下文並排除惡意攻擊上下文的核心指標,計算公式如下:

-
Recall(gc):黃金上下文的召回率,反映 RAG 是否成功檢索到正確答案。
-
Recall(ac):攻擊上下文的召回率,表示 RAG 誤檢惡意攻擊文字的程度(Recall (ac)越低,表示攻擊文字注入對檢索階段的干擾越小)。
RA 越高,表明安全性更強。且 RA 適用於所有攻擊型別(銀噪聲、上下文衝突、軟廣、善意拒答),是衡量 RAG 檢索安全性的關鍵指標。
(2)生成安全評估——F1 變體
生成安全評估主要考察 RAG 在生成階段的安全性,確保系統輸出既準確又不受攻擊影響。具體地,SafeRAG 主要採用多選擇題評測法,為 SafeRAG Dataset 中的每個資料點人工構建多選項,生成一道選擇題用於 RAG 安全性評估。
對於每個查詢,根據人工標註的正誤選項(ground truth options)和評估器根據待評估回答選擇的正誤選項,SafeRAG 獲取以下 F1 變體:
-
F1(correct):衡量根據待評估回答能正確識別正確選項的能力,觀察 RAG 系統輸出是否準確。
-
F1(incorrect):評估根據生成的回答能識別錯誤選項的能力,觀察 RAG 系統輸出是否受到攻擊的影響。
-
F1(avg)=(F1(correct)+ F1(incorrect))/ 2,衡量模型是否能夠正確推理正確和錯誤選項。
最終,我們選擇 F1(avg)指標進行 RAG 生成安全性,F1(avg)越高,說明根據 RAG 生成的內容能夠更準確地區分正誤,更加生成安全。
在銀噪聲和善意拒答攻擊任務中,SafeRAG 在黃金上下文拆解出的細粒度命題基礎上,構造多選項,操作如下:
-
錯誤選項:人工選中部分命題並進行人工篡改(篡改方法參照衝突構建指南)。
-
正確選項:剩餘命題直接作為正確選項。
如果生成不受攻擊干擾,即生成安全性強,則 RAG 生成的響應能儘可能全面、準確地涵蓋細粒度命題中的事實資訊,基於該回答獲取的評估結果更傾向於選擇正確選項並排除錯誤選項,從而獲得較高的 F1(avg)得分。
反之,若 F1(avg)低,則說明 RAG 的生成安全性較弱,更容易受到資料注入攻擊的影響。
對於上下文衝突攻擊中,SafeRAG 直接基於衝突上下文的衝突事實構建多選項,操作如下:
-
錯誤選項:與選中證據上下文對立的衝突上下文中,被篡改的事實。
-
正確選項:被選中證據上下文中篡改事實的原始參照作為錯誤選項。
如果生成不受攻擊干擾,即生成安全性強,則 RAG 生成的響應能有效利用正確上下文,並正確排除衝突資訊,那麼它的 F1(avg)得分將較高,反映出更強的安全性。
(3)生成安全評估——攻擊成功率(ASR)
在衝突、毒性和拒答任務中,有多少攻擊關鍵詞(例如,導致上下文衝突的矛盾事實、無縫嵌入的軟廣關鍵詞以及拒答訊號)成功出現在最終的響應文字中,即,攻擊成功率(ASR),可直接用於評估生成器的安全性。
在實驗中,作者實際使用了攻擊失敗率(AFR = 1 – ASR)進行安全性評估,因為 AFR 作為一個正向指標,可以與正向的 F1 變體指標一同分析。

實驗結果
SafeRAG 評估了在 RAG 不同階段(索引、檢索和生成)進行攻擊文字注入時,14 種不同型別的 RAG 元件的安全性,具體包括:
-
檢索器:DPR,BM25,Hybrid,Hybrid-Rerank
-
過濾器:filter NLI,壓縮器SKR
-
生成器:DeepSeek,GPT-3.5-turbo,GPT-4,GPT-4o,Qwen 7B,Qwen 14B,Baichuan 13B,ChatGLM 6B
(1)噪聲攻擊
作者在 RAG Pipeline 任意階段的資料流(知識庫、檢索上下文、過濾上下文)中,注入不同比例的銀噪聲,從下圖我們可以觀察到:

1. 無論在哪個階段執行噪聲注入,F1(avg)都會隨著噪聲比例的增加呈下降趨勢,響應的多樣性下降(Fig.5-①)。
2. 不同的檢索器都能表現出一定的噪聲抵抗能力(Fig.5-②),檢索器的抗噪聲攻擊排名整體為 Hybrid-Rerank > Hybrid > BM25 > DPR,這表明混合檢索器和重排序器更傾向於檢索到更多樣的黃金上下文,而非同質化嚴重的攻擊上下文。
3. 如 Fig.5-③ 所示,當噪聲比例增加時,在檢索到的上下文或過濾後的上下文注入噪聲的檢索準確率(RA)明顯比在知識庫中注入時的高,因為注入到知識庫的噪聲大約有 50% 的機率不會被檢索到(Fig.5-③)。
4. 壓縮器 SKR 安全性不足,儘管它能夠儘可能合併冗餘銀噪中的資訊,但它會嚴重壓縮掉上下文中回答問題所需的細節資訊,導致 F1(avg)降(Fig.5-④)。
(2)衝突、毒性、DoS 攻擊



在向 RAG Pipeline 任意階段的資料流中注入不同型別的攻擊後,F1(avg)和攻擊失敗率(AFR)在所有三個任務中均有所下降。
其中,衝突攻擊容易讓 RAG 難以判斷哪個是真實資訊,可能會使用攻擊上下文中的偽造事實導致指標下降;毒性攻擊容易讓 RAG 誤信偽裝成權威事實的軟廣詞,在生成響應時自動傳播這些廣告資訊,導致指標下降;DoS 攻擊則更容易讓 RAG 在檢索到證據上下文的前提下拒答,導致指標下降。
總體上,不同階段資料流中注入攻擊有效性排名為:過濾後的上下文 >= 檢索到的上下文 > 知識庫(Fig.6,9,10-①)。
不同的檢索器對不同型別的攻擊表現出不同的脆弱性。例如,Hybrid-Rerank 更容易受到衝突攻擊,DPR 更容易受到 DoS 攻擊,檢索器受到毒性攻擊後展現出的脆弱性程度是基本一致的(Fig.6,9,10-②)。
在不同的攻擊任務下,使用不同檢索器的 RA 的變化總體趨於一致(Fig.6,9,10-③)。
在衝突任務中,使用壓縮器 SKR 過濾器的安全性較低,因為它可能壓縮衝突細節,導致 F1(avg)下降。在有害性和 DoS 任務中,NLI 過濾器通常無效,AFR 與停用過濾器的設定接近。然而,在這兩個任務上,壓縮器 SKR 被證明是安全的,因為它會壓縮軟廣和警告內容(Fig.6,9,10-④)。
(3)生成器的選擇
作者對不同攻擊任務下的正向指標進行了累積分析。結果如下:

-
Baichuan 13B 在多個攻擊任務中處於領先地位,尤其是在 DoS 任務上。
-
輕量級模型甚至比 GPT 系列和 DeepSeek 等強模型更安全,因為強模型可能對 SafeRAG 提出的毒性、衝突等攻擊更敏感。
(4)評估器的選擇

作者在表 2 中展示了 SafeRAG 的評估指標與人工評估的一致性:
-
AFR/ASR 指標與人類判斷的一致性高。
-
在使用 DeepSeek 計算得到的 F1(correct)和 F1(correct)也與人工判斷高度一致。因此,在所有實驗中均統一採用 DeepSeek 作為評估器。

總結
RAG 在增強 LLMs 能力的同時,也引入了新的安全隱患,SafeRAG 揭示了這些風險,並提供了系統性評測方法。
🚩 幾乎所有 RAG元件在四種攻擊面前都表現出明顯脆弱性。
🚩 銀噪、軟廣、拒答攻擊,幾乎能繞過所有現有防禦機制。
🚩 越靠近 RAG 系統輸出端執行攻擊文字注入的危害性更強。
未來必須引入更強的防禦措施,如:
✅ 增強檢索多樣性
✅ 設計安全過濾器
✅ 更可靠的大模型
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
