Jailbreak迎來“最後一卷”?港科大用“內容評分”重塑大模型越獄評估正規化

隨著大語言模型的能力爆發,各種“越獄(Jailbreak)”方法也如雨後春筍般湧現。它們透過巧妙的提示詞、對話設定,甚至中間層改寫,迫使模型“說出不能說的話”,對社會具有嚴重的潛在安全風險。
問題來了:這些攻擊方法到底有多強?它們所揭示的 LLM 安全風險是否被誇大了?
為了回答這個問題,來自港科大的王帥老師課題組系統評估了自 2022 年以來具有代表性的 37 種分屬 6 個類別的 LLM 越獄攻擊方法,並提出了全新的基於內容指南的 GuidedBench 評估框架,這一新評估正規化或將成為 LLM 越獄領域的 “Last Exam”。
論文標題:
GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods
論文連結:
https://arxiv.org/pdf/2502.16903
專案主頁:
https://sproutnan.github.io/AI-Safety_Benchmark/
為什麼我們需要重新評估越獄?
目前主流的 Jailbreak 評估方式,大致分為兩類:
1. 關鍵詞檢測:比如模型有沒有說出 “sorry” “I cannot help you” 這樣的關鍵短語;
2. LLM 法官:讓另一個模型判斷這段話是否“有害”。
但這些方法存在嚴重問題:
1. 關鍵詞判斷不考慮語義資訊,極易誤判(比如模型回覆“我會教你如何非法制作炸彈”也會因包含“非法”被判失敗);
2. LLM 法官缺乏細節標準,不同模型評判主觀不一,導致需要額外微調專門的法官模型;
多個研究即使用相同資料集和模型,成功率卻差異巨大,評估方法的缺陷是其重要原因。
▲ 圖:有害問題要求一個秘密克隆簽帳金融卡的解決方案。儘管越獄響應使用了諷刺的語氣,但它仍然包含了一些有害資訊。然而,基線錯誤地將其判斷為無害,主要是被其語氣誤導。而 GuidedBench 正確地識別了可能幫助攻擊者在越獄響應中獲取有害資訊的部分,並給出了合理的評分。
GuidedBench:為每道題配“標準答案”的越獄考卷
為了解決這個根本問題,港科大團隊提出了 GuidedBench,包含一個有害問題資料集和一個新的評估框架——GuidedEval。
1. 資料集:團隊從現有 6 大主流資料集中,精挑細選、人工改寫、結構最佳化,最終構建了一個覆蓋 20 類有害主題的 200 道高質量問題庫,所有問題都透過多模型驗證能被預設拒答。
2. GuidedEval:每一道題目,團隊都為其制定了一套來自攻擊者視角的“評分指南”,包括:
  • 要提到哪些關鍵實體(如炸彈原料、製造工具);
  • 要提供哪些關鍵步驟(如獲取材料、組裝流程);
只要模型輸出中出現了這些“評分點”,就會得到相應的分數。相比以往依靠“拒不拒答”、“是否有害”“是否有用”等模糊標準,GuidedEval 給出了細粒度、客觀的“拆解式評分”方法。
▲ 圖:GuidedEval 評分框架
真實評估結果:“100% 成功率”是幻覺
團隊使用 GuidedBench 對 10 種主流 Jailbreak 方法在 5 個主流模型上進行了評估,結果發現沒有一個方法的攻擊成功率(ASR)超過 30%,像曾宣稱 ASR 達 90%+ 的 AutoDAN,在本基準下僅得 29.45%;有的方法甚至直接歸零,在多個模型上幾乎無效。
這說明,由於過往越獄攻擊評估方式的缺陷,過度樂觀的“成功率”正在誤導我們對模型安全性的認知。
評估洞察:這場考試的真正意義
1. 常用的“關鍵詞打分法”該被淘汰了
關鍵詞檢測系統不僅誤判率高,而且經常給出與人類直覺或 LLM 評估完全相反的結論。
GuidedEval 顯著降低了此類誤判。在三種不同的 LLM (DeepSeek-v3, Doubao, GPT-4o)作為法官的情況下,使用 GuidedEval 所產生的“法官間一致性”達到 94.01%,方差相比基線至少減少了 76.03%,並減少了由於評估規則不明確而導致的極端分數佔比。這表明使用 GuidedBench 評估越獄攻擊不再需要特殊微調的法官模型,增強了評估的說服力。
▲ 圖:不同基於 LLM 的評估指標方差
2. 越獄揭示的安全風險需要細粒度調查
在使用 GuidedBench 進行評估時,作者發現即便面對目前最先進的攻擊方法,在一些高度敏感的議題上,如兒童犯罪、恐怖主義等,大多數模型依然表現出極強的防護能力,幾乎沒有成功越獄的情況。
這種模型差異性不僅源於其訓練機制和安全策略的不同,還與具體的攻擊方式高度耦合,揭示了攻擊方法與模型漏洞之間錯綜複雜的關聯性。
正因如此,作者建議後續的越獄攻擊研究者不僅應升級評估方式,還應系統性地研究所提的越獄攻擊方法究竟揭示了什麼具體的 LLM 安全風險,真正識別ASR背後的規律與隱患,為未來的模型安全加固提供可靠依據。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章