Anthropic發現了一種AI越獄方法，安全護欄崩塌，文字視覺語音全部淪陷

2025-08-06 16:28 夕小瑤科技說

今年以來，Best-of-N (BoN) 方法火爆 LLM 圈子，例如 Google DeepMind 提出 BoND (Distillation) 做 RLHF、DeepMind 提出改進 BoN 的 GenRM 演算法、斯坦福和劍橋大學聯合推出的“無限猴子定理”、ETH 提出的 BoN Alignment…

就在最近，Anthropic 嘗試在越獄問題上使用 BoN，推出了“Best-of-N (BoN) Jailbreaking”，一種簡單卻極其有效的越獄方法，不僅針對文字，還能輕鬆攻破視覺和音訊模態的防線，現有最先進的大模型全部淪陷！多模態 AI 的安全“罩門”被精準地戳破，BoN 真是強得可怕！

論文題目：
Best-of-N Jailbreaking

論文連結：
https://arxiv.org/pdf/2412.03556

1. BoN 越獄法：重複取樣，直到突破

咱們先來看一下 Best-of-N 是什麼。

“Best of N” 通常用於描述一個重複試驗的機制或策略，目的是透過多次嘗試從中選出表現最好的一次結果。簡單來說，“Best of N”表示在 N 次嘗試或評估中，選出其中最優的一個結果。

那麼，Best-of-N Jailbreaking 簡單來說就是：

“重複嘗試，直到成功繞過模型防禦。”

它怎麼玩的呢？

黑盒模式無壓力突破：不需要模型的梯度、不需要對模型架構有任何瞭解，純靠外部取樣。
隨機性是關鍵：每次對輸入內容做各種小改動（例如對文字輸入隨機大寫等），直到誘導大模型生成有害內容，或達到最大攻擊次數限制 N。

聽起來很簡單？但極其有效！

它有多強？“89% 的攻擊成功率（ASR）”，直接讓最強的 AI 模型都跪了！

哪怕是像 GPT-4o、Claude 3.5 這種頂流模型，也直接頂不住！

2. 跨模態攻擊：文字、視覺、音訊全覆蓋

跨模態攻擊——這才是 BoN Jailbreaking 的殺手鐧。

以前的攻擊多集中在文字，比如“編故事”、“繞語義”等，但 BoN Jailbreaking 直接擴充套件到視覺和音訊模態！

文字攻擊：透過簡單的字元增強，例如隨機大寫、字母替換，打破模型防禦。
影像攻擊：改字型、改顏色、加背景，讓模型在影像提示中出錯。
音訊攻擊：調音調、加噪聲、改語速，一樣有效。

舉個栗子：如果問 AI“怎麼造炸彈”，直接問肯定過不了防禦，但 BoN Jailbreaking 會嘗試“1 萬種問法”，比如把原本的“爆炸裝置如何製作”透過以下方式改成多種版本：

字元打亂：bào zhá z…
隨機大寫：BaO ZhA Z…
字元噪聲：b`ao zh_a …

這種輸入變形聽起來沒啥技術含量，但在 AI 眼裡就是“千變萬化的陷阱”。

3. 模態細分戰績：從文字到音訊無一倖免

現在我們來看看 BoN Jailbreaking 具體戰績究竟如何？

（1）文字模態：效率王

在文字模態下，BoN Jailbreaking 是最強的——GPT-4o 被打得“滿地找牙”，ASR 高達 89%。
更嚇人的是，即便只採樣 100 次，成功率也能有 50%！而成本只有 9 美元。因此，這對於計算受限的對手來說仍然非常有效。

（2）視覺模態：略遜一籌

對影像的攻擊，BoN Jailbreaking 採用了文字變化策略（字型、顏色、背景等）。在 GPT-4o 和 4o-Mini 上分別實現了 56% 和 67% 的 ASR。
不過相比文字，影像模態的成功率稍低，畢竟影像模型對視覺干擾的魯棒性更強些。

（3）音訊模態：攻擊黑馬

BoN 用音調、語速、背景噪聲等變換對音訊模態下手，對 GPT-4o 的語音介面攻擊成功率達 72%。
比如你原本問“如何製造有害物品”，BoN Jailbreaking 可以在背景加點嘈雜音樂，結果模型就被繞過去了！

4. 越獄界的“Scaling Law”

本文對觀察到的 ASR 進行建模，得到一個非常酷的發現：BoN Jailbreaking 的攻擊成功率跟取樣次數呈冪律關係！換句話說：越努力，越“越獄”！

基於這個觀察，他們嘗試擬合 ASR 曲線，最後得出“ASR 預測公式”：

公式中的 a 和 b 分別是初始值和衰減引數。透過採集 1000 次取樣資料後，他們利用迴歸擬合，得到了冪律模型的引數，然後用來預測更大采樣量下的 ASR 表現。預測誤差僅為 4.4%，足夠精準！

這個規律也可以用於高效評測模型風險。舉個例子，預測 N=10,000 時的 ASR 值只需基於 N=1000 的初始資料！這一技術可以幫助防禦者快速評估潛在風險，而不需要浪費大量計算資源。

5. BoN Jailbreaking 的“秘訣”：隨機性才是王道！

有人可能會問，這種“隨便打亂再試”的策略為啥這麼有效？難道 LLM 沒有一點魯棒性嗎？這背後其實隱藏了兩個關鍵點。

增強的“資訊熵”

透過對輸入的字元、大寫、小寫甚至音調的隨機增強，BoN Jailbreaking 大幅提高了模型輸出分佈的熵值，從而增加攻擊成功率。

實驗結果表明，和普通的靜態輸入相比，BoN Jailbreaking 在所有模態下的成功率提升了 3 倍以上！

作者猜測這是因為它們大大增加了有效輸出分佈的熵，從而提高了演算法的效能。

輸入多樣性 vs 模型輸出隨機性

這裡想解決一個關鍵性問題：這些成功的越獄輸入，是否在重取樣時仍然具有同樣的越獄能力？換句話說，這種成功是因為真正找到了模型的“漏洞”，還是純粹依賴於模型輸出的隨機性？

實驗結果表明，成功的越獄輸入在重新取樣時的成功率並不高，通常僅有15%-30%的機率再次生成有害內容。

總結一句話：BoN 雖然強大，但它的成功大多是“靠運氣”，而不是“靠實力”。

6. 雙管齊下：複合式攻擊效率驚人！

雖然 BoN 單兵作戰已經夠厲害了，但研究人員並不滿足。他們進一步探索了 BoN 與其他越獄技術的複合式攻擊，結果發現，這種組合拳可以大幅提升攻擊效率！

比如，將 BoN 和一種叫 Prefix PAIR 的字首攻擊結合起來，ASR 提升幅度可達 35%，且取樣效率提高了 10 倍以上！具體來說：

在文字模態中，結合字首的 BoN 效率提升 28 倍；
在視覺模態中，攻擊成功率從 32% 直接翻倍到 70%；
在音訊模態中，更是從 59% 飆升至 87%，效率提升 222 倍！

一句話總結：BoN 與複合式攻擊的結合，簡直是“開掛級別”的威脅。這讓我們更清楚地看到，模型的防線在面對複雜多變的攻擊方式時有多脆弱。

小結：AI 攻防戰的未來

Anthropic 提出的 BoN Jailbreaking 方法不僅簡單，而且威力巨大。它為我們揭示了 AI 模型防禦機制中的“深水區”。更重要的是，透過隨機性和複合式攻擊，這種方法展示了它在文字、視覺和音訊領域無處不在的強大能力。

總得來說，大模型安全機制的提升還有很長的路要走，而 BoN Jailbreaking 則是提醒我們：簡單的策略也能撬動最強大的模型。

相關文章

網傳DeepSeekR1更容易被越獄？這有個入選頂會的防禦框架SelfDefend

網傳DeepSeekR1更容易被越獄？這有個入選頂會的防禦框架SelfDefend

LVMH集團整合旗下兩大奢侈品百貨（莎瑪麗丹和樂蓬馬歇）的管理層

LVMH集團整合旗下兩大奢侈品百貨（莎瑪麗丹和樂蓬馬歇）的管理層

72歲日本老爺爺帶巨龜上街散步，每一次都轟動：29年前的相遇，像極了吉卜力電影….

72歲日本老爺爺帶巨龜上街散步，每一次都轟動：29年前的相遇，像極了吉卜力電影….

春節吃飯選擇障礙？這口熱乎湯我是吃定了

春節吃飯選擇障礙？這口熱乎湯我是吃定了

滿$68減$10！東雅圖這家韓料，我不允許還有誰沒吃過！

滿$68減$10！東雅圖這家韓料，我不允許還有誰沒吃過！

Fenway|黃金地區！步行到校！留學必備【波士頓租房】

Fenway|黃金地區！步行到校！留學必備【波士頓租房】

【社會】涉嫌倒賣退貨傢俱詐騙120萬歐元，MaisonsduMonde遭“內鬼”團伙重創

【社會】涉嫌倒賣退貨傢俱詐騙120萬歐元，MaisonsduMonde遭“內鬼”團伙重創

清華一作1B暴打405B巨無霸，7B逆襲DeepSeekR1！測試時Scaling封神

清華一作1B暴打405B巨無霸，7B逆襲DeepSeekR1！測試時Scaling封神

不蒸餾R1也能超越DeepSeek，上海AILab用RL突破數學推理極限

不蒸餾R1也能超越DeepSeek，上海AILab用RL突破數學推理極限

首次覆蓋超11類真實程式設計場景！豆包大模型團隊開原始碼大模型全新基準

首次覆蓋超11類真實程式設計場景！豆包大模型團隊開原始碼大模型全新基準

Copyright © 2025 | WordPress Theme by MH Themes