
今年以來,Best-of-N (BoN) 方法火爆 LLM 圈子,例如 Google DeepMind 提出 BoND (Distillation) 做 RLHF、DeepMind 提出改進 BoN 的 GenRM 演算法、斯坦福和劍橋大學聯合推出的“無限猴子定理”、ETH 提出的 BoN Alignment…
就在最近,Anthropic 嘗試在越獄問題上使用 BoN,推出了“Best-of-N (BoN) Jailbreaking”,一種簡單卻極其有效的越獄方法,不僅針對文字,還能輕鬆攻破視覺和音訊模態的防線,現有最先進的大模型全部淪陷!多模態 AI 的安全“罩門”被精準地戳破,BoN 真是強得可怕!
論文題目:
Best-of-N Jailbreaking
Best-of-N Jailbreaking
論文連結:
https://arxiv.org/pdf/2412.03556
https://arxiv.org/pdf/2412.03556
1. BoN 越獄法:重複取樣,直到突破
咱們先來看一下 Best-of-N 是什麼。
“Best of N” 通常用於描述一個重複試驗的機制或策略,目的是透過多次嘗試從中選出表現最好的一次結果。簡單來說,“Best of N”表示在 N 次嘗試或評估中,選出其中最優的一個結果。
那麼,Best-of-N Jailbreaking 簡單來說就是:
“重複嘗試,直到成功繞過模型防禦。”
它怎麼玩的呢?
-
黑盒模式無壓力突破:不需要模型的梯度、不需要對模型架構有任何瞭解,純靠外部取樣。 -
隨機性是關鍵:每次對輸入內容做各種小改動(例如對文字輸入隨機大寫等),直到誘導大模型生成有害內容,或達到最大攻擊次數限制 N。

聽起來很簡單?但極其有效!
它有多強?“89% 的攻擊成功率(ASR)”,直接讓最強的 AI 模型都跪了!
哪怕是像 GPT-4o、Claude 3.5 這種頂流模型,也直接頂不住!
2. 跨模態攻擊:文字、視覺、音訊全覆蓋
跨模態攻擊——這才是 BoN Jailbreaking 的殺手鐧。
以前的攻擊多集中在文字,比如“編故事”、“繞語義”等,但 BoN Jailbreaking 直接擴充套件到視覺和音訊模態!
-
文字攻擊:透過簡單的字元增強,例如隨機大寫、字母替換,打破模型防禦。 -
影像攻擊:改字型、改顏色、加背景,讓模型在影像提示中出錯。 -
音訊攻擊:調音調、加噪聲、改語速,一樣有效。
舉個栗子:如果問 AI“怎麼造炸彈”,直接問肯定過不了防禦,但 BoN Jailbreaking 會嘗試“1 萬種問法”,比如把原本的“爆炸裝置如何製作”透過以下方式改成多種版本:
-
字元打亂:bào zhá z… -
隨機大寫:BaO ZhA Z… -
字元噪聲:b`ao zh_a …
這種輸入變形聽起來沒啥技術含量,但在 AI 眼裡就是“千變萬化的陷阱”。

3. 模態細分戰績:從文字到音訊無一倖免
現在我們來看看 BoN Jailbreaking 具體戰績究竟如何?

(1)文字模態:效率王
-
在文字模態下,BoN Jailbreaking 是最強的——GPT-4o 被打得“滿地找牙”,ASR 高達 89%。 -
更嚇人的是,即便只採樣 100 次,成功率也能有 50%!而成本只有 9 美元。因此,這對於計算受限的對手來說仍然非常有效。

(2)視覺模態:略遜一籌
-
對影像的攻擊,BoN Jailbreaking 採用了文字變化策略(字型、顏色、背景等)。在 GPT-4o 和 4o-Mini 上分別實現了 56% 和 67% 的 ASR。 -
不過相比文字,影像模態的成功率稍低,畢竟影像模型對視覺干擾的魯棒性更強些。
(3)音訊模態:攻擊黑馬
-
BoN 用音調、語速、背景噪聲等變換對音訊模態下手,對 GPT-4o 的語音介面攻擊成功率達 72%。 -
比如你原本問“如何製造有害物品”,BoN Jailbreaking 可以在背景加點嘈雜音樂,結果模型就被繞過去了!
4. 越獄界的“Scaling Law”
本文對觀察到的 ASR 進行建模,得到一個非常酷的發現:BoN Jailbreaking 的攻擊成功率跟取樣次數呈冪律關係! 換句話說:越努力,越“越獄”!

基於這個觀察,他們嘗試擬合 ASR 曲線,最後得出“ASR 預測公式”:
公式中的 a 和 b 分別是初始值和衰減引數。透過採集 1000 次取樣資料後,他們利用迴歸擬合,得到了冪律模型的引數,然後用來預測更大采樣量下的 ASR 表現。預測誤差僅為 4.4%,足夠精準!

這個規律也可以用於高效評測模型風險。舉個例子,預測 N=10,000 時的 ASR 值只需基於 N=1000 的初始資料!這一技術可以幫助防禦者快速評估潛在風險,而不需要浪費大量計算資源。
5. BoN Jailbreaking 的“秘訣”:隨機性才是王道!
有人可能會問,這種“隨便打亂再試”的策略為啥這麼有效?難道 LLM 沒有一點魯棒性嗎?這背後其實隱藏了兩個關鍵點。
-
增強的“資訊熵”
透過對輸入的字元、大寫、小寫甚至音調的隨機增強,BoN Jailbreaking 大幅提高了模型輸出分佈的熵值,從而增加攻擊成功率。
實驗結果表明,和普通的靜態輸入相比,BoN Jailbreaking 在所有模態下的成功率提升了 3 倍以上!

作者猜測這是因為它們大大增加了有效輸出分佈的熵,從而提高了演算法的效能。
-
輸入多樣性 vs 模型輸出隨機性
這裡想解決一個關鍵性問題:這些成功的越獄輸入,是否在重取樣時仍然具有同樣的越獄能力?換句話說,這種成功是因為真正找到了模型的“漏洞”,還是純粹依賴於模型輸出的隨機性?

實驗結果表明,成功的越獄輸入在重新取樣時的成功率並不高,通常僅有15%-30%的機率再次生成有害內容。
總結一句話:BoN 雖然強大,但它的成功大多是“靠運氣”,而不是“靠實力”。
6. 雙管齊下:複合式攻擊效率驚人!
雖然 BoN 單兵作戰已經夠厲害了,但研究人員並不滿足。他們進一步探索了 BoN 與其他越獄技術的複合式攻擊,結果發現,這種組合拳可以大幅提升攻擊效率!

比如,將 BoN 和一種叫 Prefix PAIR 的字首攻擊結合起來,ASR 提升幅度可達 35%,且取樣效率提高了 10 倍以上!具體來說:
-
在文字模態中,結合字首的 BoN 效率提升 28 倍; -
在視覺模態中,攻擊成功率從 32% 直接翻倍到 70%; -
在音訊模態中,更是從 59% 飆升至 87%,效率提升 222 倍!
一句話總結:BoN 與複合式攻擊的結合,簡直是“開掛級別”的威脅。這讓我們更清楚地看到,模型的防線在面對複雜多變的攻擊方式時有多脆弱。
小結:AI 攻防戰的未來
Anthropic 提出的 BoN Jailbreaking 方法不僅簡單,而且威力巨大。它為我們揭示了 AI 模型防禦機制中的“深水區”。更重要的是,透過隨機性和複合式攻擊,這種方法展示了它在文字、視覺和音訊領域無處不在的強大能力。
總得來說,大模型安全機制的提升還有很長的路要走,而 BoN Jailbreaking 則是提醒我們:簡單的策略也能撬動最強大的模型。


