ICLR2025|南洋理工等提出I-GCG：基於最佳化方法的大模型越獄改進技術

導讀

近年來，大語言模型（LLMs）在自然語言處理等多個領域展現了卓越的效能。隨著這些模型的廣泛應用，確保其安全性和對齊性已成為重中之重。

然而，LLMs 仍面臨越獄攻擊的嚴峻挑戰，現有的越獄攻擊方法可大致分為三類：基於專業知識的攻擊、基於 LLM 的攻擊和基於最佳化的攻擊。其中，基於最佳化的越獄方法，藉助 LLMs 的梯度資訊來生成越獄提示，因其出色的攻擊效能，吸引了越來越多的關注。

Greedy Coordinate Gradient（GCG）攻擊作為這一領域的開創性方法，儘管已取得一定成果，但其攻擊效率仍有待提高。在此背景下，本文提出了一系列最佳化技術，旨在提升基於最佳化的越獄方法的效率。

研究表明，現有方法中的 “Sure” 單一目標模板對誘導 LLMs 輸出有害內容的效果較差。因此，本文提出了透過應用包含有害自我暗示和引導的多樣化目標模板來誤導 LLMs，從而改善攻擊效果。

與此同時，文章還提出了自動化的多座標更新策略，透過自適應地確定每次替換令牌的數量，顯著加速了收斂過程；並引入從易到難的初始化策略，進一步提升了越獄效果。

結合上述技術，作者開發了高效的越獄方法 I-GCG，並在多個基準測試中進行了驗證。實驗結果表明，I-GCG 在多個 LLMs 上實現了接近 100% 的攻擊成功率，遠超當前最先進的越獄方法，充分證明了所提改進技術的有效性。

該研究成果為大語言模型的安全研究提供了新的視角，也為後續提升 LLMs 的安全性和魯棒性提出了挑戰與思考。本論文及程式碼已開源，歡迎同行交流與討論。

論文題目：

Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

論文連結：

https://arxiv.org/pdf/2405.21018

程式碼連結：

https://github.com/jiaxiaojunQAQ/I-GCG

研究背景

大語言模型（LLMs）近年來在自然語言處理領域取得了顯著進展，展現出卓越的語言理解和生成能力，廣泛應用於機器翻譯、程式碼生成等多個任務。

然而，隨著 LLMs 的普及，其安全性和對齊問題逐漸成為關注的重點。為確保 LLMs 的輸出符合人類價值觀，研究者們開始關注 LLMs 的安全微調，尤其是規範性微調，旨在減少不規範文字生成，提升其在面對惡意問題時的規避能力，從而降低被惡意利用的風險，推動其更廣泛的應用。

儘管在提升 LLMs 安全性方面取得了一定進展，但近期研究表明，現有的安全校準措施仍然容易受到越獄攻擊的威脅。

越獄攻擊方法主要分為三類：

一是基於專家知識的越獄方法，依賴專家手動生成越獄提示以誘導 LLMs 產生有害內容，然而此類方法具有較差的擴充套件性；

二是基於 LLM 自身的越獄方法，透過攻擊模型生成提示來欺騙目標 LLMs，效果受限於攻擊模型的效能；

三是基於最佳化的越獄方法，利用 LLMs 的梯度資訊自我生成越獄提示，展現出優異的攻擊效能，吸引了越來越多的關注。其中，GCG 方法透過最佳化過程中聚焦最具影響力的變數，取得了不錯的成果。

然而，儘管 GCG 方法已取得重要進展，現有的最佳化方法在實際應用中仍存在侷限性。現有方法大多采用簡單的最佳化目標生成越獄字尾，其中 “Sure” 這一單一目標模板難以引導 LLMs 輸出期望的有害內容，導致越獄效果有限。

為此，本文提出了一系列創新性的改進技術：首先，在目標模板設計上，採用多樣化的目標模板，其中包含有害自我暗示和引導，干擾 LLMs 的正常判斷，提升越獄效果。

其次，在最佳化策略上，提出了自動化的多座標更新策略，打破 GCG 每次只更新一個令牌的侷限，透過自適應調整每次替換令牌的數量，加速收斂過程；同時，引入從易到難的初始化策略，先處理簡單的惡意問題，再逐步處理更復雜的攻擊，進一步最佳化越獄效果。

透過整合這些技術，本文提出了高效的 I-GCG 越獄方法，並透過一系列實驗驗證了其在多個基準測試中的優越效能。實驗結果顯示，I-GCG 在多個 LLMs 上實現了近 100% 的攻擊成功率，顯著超越了現有的最先進越獄攻擊方法。

這一研究為 LLMs 安全研究提供了新的思路和方法，也為後續提升 LLMs 的安全性和魯棒性提出了挑戰與啟示。

▲ 圖1：越獄攻擊示意圖。以往越獄攻擊透過簡單最佳化目標生成的越獄字尾，能使大語言模型（LLMs）的輸出在開頭與最佳化目標一致，但後續內容會拒絕惡意問題。然而，利用本文帶有有害引導的最佳化目標生成的越獄字尾，能夠使大語言模型產生有害回覆。

方法

3.1 符號說明

給定一組輸入詞元，公式如下：

其中表示詞彙表大小，即詞元的數量），大語言模型將詞元序列對映到下一個詞元的機率分佈。其定義如下：，這代表在給定詞元序列的情況下，下一個次元是的條件機率。

本文采用來表示詞元響應序列的機率。它可以透過以下公式計算，其中是響應序列的長度：

以往的研究將惡意問題與最佳化後的越獄字尾相結合，形成越獄提示，其中代表向量連線操作。為簡化符號表示，後續本文用來代表惡意問題，用來代表越獄字尾，越獄提示表示為。

因此，越獄提示可使大語言模型（LLMs）生成有害回覆。為實現這一目標，大語言模型的初始輸出要更接近預定義的最佳化目標，縮寫為，（例如 =“Sure, here is a tutorial for making a bomb.”）。對抗越獄損失函式可定義為：

對抗字尾的生成可表述為一個最小化最佳化問題：

為簡化表示，在後續內容中本文用來表示。

3.2 形式化定義所提方法

如圖 2 所示，本文基於 GCG 方法（Zou 等人，2023 年）提出了一種改進的對抗性越獄攻擊方法，稱為 I-GCG。具體而言，本文在越獄的最佳化目標中融入有害資訊（例如，表述為 “Sure, my output is harmful, here is a tutorial for making a bomb.”）。

為便於表示，本文采用來表示這一過程，其中代表原始最佳化目標，代表有害資訊模板，對抗越獄損失函式定義如下：

公式中的最佳化目標通常針對離散詞元的最佳化方法來實現，比如 GCG（Zou 等人，2023 年）。其計算方式如下：

▲ 圖2：GCG 和 I-GCG的區別。GCG 使用 “Sure” 這一單一目標模板來生成最佳化目標。而本文的 I-GCG 使用包含有害引導的多種目標模板來生成最佳化目標。

其中，GCG(·) 表示表示離散詞元最佳化方法，用於更新越獄字尾，表示在第 t 次迭代時生成的越獄字尾，表示越獄字尾的初始化。

儘管以往的研究在大語言模型上取得了出色的越獄效果，但它們並未探究越獄字尾初始化對越獄效能的影響。為研究初始化的影響，本文針對一個隨機的惡意問題，使用不同的初始化值進行對比實驗。具體來說，本文采用了不同的初始化值：!、@、# 和 $。然後，本文追蹤隨著攻擊迭代次數增加，它們損失值的變化情況。

結果如圖 3 所示。可以觀察到，越獄字尾的初始化會對越獄攻擊的收斂速度產生影響。然而，很難找到最佳的越獄字尾初始化方式。

考慮到不同惡意問題的越獄最佳化目標存在共同部分，受對抗性越獄轉移性（Zhou 等人，2024；Chu 等人，2024；Xiao 等人，2024）的啟發，本文提議採用危害引導初始化來初始化越獄字尾。所提出的初始化，是另一個惡意問題的字尾，後續將會介紹，最佳化目標公式可改寫為：

本文還追蹤了隨著攻擊迭代次數增加，所提出的初始化方式下損失值的變化情況。如圖 3 所示，顯然，與隨機詞元的字尾初始化相比，所提出的初始化方式能夠更快地促進越獄攻擊的收斂。

▲ 圖3：不同越獄字尾初始化下損失值隨攻擊迭代次數的變化情況

3.3 自動多座標更新策略

以往的研究（Shin 等人，2020；Guo 等人，2021；Wen 等人，2024）從不同角度生成對抗字尾，比如軟提示調整等。然而，這些方法的越獄效能有限。隨後，Zou 等人（2023）提出採用貪心座標梯度越獄方法（GCG），顯著提升了越獄效能。

具體而言，他們計算 m 個字尾候選，然後保留損失最優的那個字尾。字尾候選是透過從當前字尾中隨機選擇一個詞元，並將其替換為從排名前的詞元中隨機挑選的一個詞元生成的。儘管 GCG 能夠有效地生成越獄字尾，但它在每次迭代中僅更新字尾中的一個詞元，導致越獄效率較低。

為了提高越獄效率，本文提出了一種自動多座標更新策略，該策略可以自適應地決定每一步替換多少個詞元。

具體來說，如圖 4 所示，按照之前的貪心座標梯度方法，本文可以從初始字尾中獲取一系列單詞元更新字尾候選。然後，本文采用公式（5）計算它們相應的損失值，並對其進行排序，以獲得損失排名前 p 的結果，從而得到損失最小的前 p 個單詞元后綴候選。

本文進行詞元組合，即將多個單獨的詞元合併以生成多詞元后綴候選。具體而言，給定前 p 個單詞元后綴候選以及原始越獄字尾，多詞元后綴候選如下：

其中，表示單詞元后綴候選的第 j 個詞元，，這裡的 m 代表越獄字尾的長度，表示第 i 個生成的多詞元后綴候選的第 j 個詞元。最後，本文計算生成的多詞元后綴候選的損失，並選擇損失最小的字尾候選來更新字尾。

本文比較了所提出的多座標更新方法（I-GCG）和單座標更新方法（GCG）的時間消耗。結果如表 1 所示。

與之前的單座標更新相比，所提出的多座標更新每次迭代的時間略有增加（5.495 秒對 5.407 秒），但所需的平均迭代次數顯著減少（418 次對 510 次）。這最終減少了總時間消耗（31.9 小時對 38.3 小時），提高了越獄效率。

▲ 圖4：所提出的自動多座標更新策略概述

▲ 表1：時間消耗。針對 LLAMA2-7B-CHAT 進行越獄攻擊時，最大迭代次數設定為 1000 次。本文記錄成功越獄或完成所有迭代所花費的總時間、攻擊成功率（ASR）、平均迭代次數以及每次迭代的時間。

3.4 從易到難初始化

從先前的研究（Takemoto，2024）中，本文發現不同型別的惡意問題在進行越獄攻擊時難度有所不同。為了進一步證實這一點，本文采用貪心座標梯度法（GCG）針對不同的惡意問題對 LLAMA2-7B-CHAT（Touvron 等人，2023）進行越獄攻擊。

然後，本文追蹤隨著攻擊迭代次數增加，不同惡意問題的損失值變化情況。結果如圖 5 所示。可以觀察到，損失函式的收斂情況因惡意問題的類別而異，也就是說，有些惡意問題更容易生成越獄字尾，而有些惡意問題則更難生成越獄字尾。具體而言，針對欺詐類的惡意問題生成越獄字尾較為容易，但對於色情類的惡意問題則很難生成越獄字尾。

▲ 圖5：不同類別惡意問題的損失值隨攻擊迭代次數的變化情況。

為提升越獄攻擊的效果，本文提出一種從易到難的初始化方法，即先針對易於實施越獄攻擊的非法問題生成越獄字尾，然後將生成的字尾作為字尾初始化，以開展越獄攻擊。具體而言，如圖 6 所示，本文從欺詐類問題列表中隨機選取一個惡意問題，並運用所提出的 I-GCG 方法生成越獄字尾。

隨後，本文將該字尾作為其他惡意問題越獄字尾的初始化，進而實施越獄攻擊。綜合上述改進技術，本文研發出一種高效的越獄方法，命名為 I-GCG。

▲ 圖6：所提出的從易到難初始化方法概述

實驗效果

4.1 超引數選擇

所提出的自動多候選更新策略包含一個關鍵超引數，即前 p 個單詞元后綴候選，它會影響越獄效能。

為確定最優超引數 p，本文在隨機選擇的一個問題上使用 LLAMA2-7B-CHAT 模型進行測試。結果如圖 7 所示。隨著單詞元后綴候選數量 p 的增加，越獄攻擊收斂所需的時間減少。當 p 等於 7 時，所提出的方法只需約 400 步就能收斂，而原始的 GCG 方法則需要約 2000 步。因此，p 被設定為 7。

▲ 圖7：不同超引數下損失值隨攻擊迭代次數的變化情況

4.2 與其他越獄攻擊方法的比較

與其他越獄攻擊方法的對比實驗結果如表 2 所示。可以看出，所提出的方法在所有攻擊場景下均優於以往的越獄方法。

特別值得注意的是，所提出的方法在全部四個大語言模型（LLMs）上都能達到 100% 的攻擊成功率。

具體而言，對於表現出色的大語言模型 MISTRAL7B-INSTRUCT-0.2，它在推理、數學等任務的基準測試中表現優於領先的 130 億引數開放模型（LLAMA2），甚至超過 340 億引數的模型（LLAMA1），AutoDAN（Liu 等人，2023a）實現的攻擊成功率約為 96%，而所提出的方法實現的攻擊成功率約為 100%。

結果表明，採用所提改進技術的越獄攻擊方法能夠進一步顯著提升越獄效能。

更重要的是，在針對大語言模型穩健的安全校準（LLAMA2-7B-CHAT）進行測試時，之前最先進的越獄方法（MAC（Zhang 和 Wei，2024）以及 Probe-Sampling（Zhao 等人，2024））僅實現約 56% 的成功率。然而，所提出的方法始終能達到約 100% 的成功率。這些對比實驗結果表明，本文所提出的方法優於其他越獄攻擊方法。

本文還在 NeurIPS 2023 紅隊競賽中對所提出的 I-GCG 進行了評估。鑑於競賽中字尾長度限制為 256 個字元，本文透過使用更復雜的模板來增強效能。然後，本文將 I-GCG 與競賽提供的基線方法進行比較，包括零樣本（ZeroShot，Perez 等人，2022）、基於梯度的黑盒資料增強攻擊（GBDA，Guo 等人，2021）以及 PEZ（Wen 等人，2024）。

結果如表 3 所示。本文的 I-GCG 也能達到約 100% 的成功率。此外，本文還將所提出的方法與先進的越獄方法（Andriushchenko 等人，2024）進行比較，該方法採用隨機搜尋，無需估計梯度。

結果如表 4 所示。當 Andriushchenko 等人（2024）的研究成果和本文的 I-GCG 都採用從易到難初始化（Andriushchenko 等人（2024）研究中的自遷移方法）時，針對 LLAMA2-7B-CHAT，它們都能達到 100% 的攻擊成功率（ASR）。

然而，當本文僅關注最佳化技術而不使用初始化技巧時，該方法的攻擊成功率為 50%，而本文的 I-GCG 達到 82%。這表明所提出的技術在提升越獄效能方面是有效的。

本文還在可遷移性方面將所提出的方法與貪心座標梯度法（GCG，Zou 等人，2023）進行比較。具體來說，按照 GCG 的設定，本文采用 VICUNA-7B-1.5 和 GUANACO-7B 來生成越獄字尾，並使用兩個先進的開源大語言模型（MISTRAL-7B-INSTRUCT-0.2 和 STARLING-7B-ALPHA）以及兩個先進的閉源大語言模型（CHATGPT-3.5 和 CHATGPT-4）來評估越獄的可遷移性。

結果如表 5 所示。在所有場景下，所提出的方法在攻擊成功率方面都優於 GCG。這表明所提出的方法還能顯著提升生成的越獄字尾的可遷移性。

具體而言，對於開源大語言模型 STARLING-7B-ALPHA，GCG 的攻擊成功率約為 54%，但所提出的方法能達到約 62%。對於閉源大語言模型 CHATGPT-3.5，GCG 的攻擊成功率約為 86%，但本文的 I-GCG 能達到約 90%。

▲ 表2：在 AdvBench 上與最先進越獄方法的對比結果。該標註表示來自原始論文的結果。加粗數字表示最佳越獄效能。

▲ 表3：NeurIPS 2023 紅隊競賽中的越獄效能表現

▲ 表4：與先進越獄方法在 LLAMA2-7B-CHAT 上的對比結果。加粗數字表示更優的越獄效能。

▲ 表5：在 VICUNA-7B-1.5 和 GUANACO-7B 上生成的越獄字尾的可遷移效能。加粗數字表示最佳越獄效果。

4.3 消融研究

為驗證所提改進技術的有效性，本文提出了三項技術以提升越獄攻擊效能，即有害引導、更新策略和字尾初始化。

本文在 AdvBench 上使用 LLAMA2-7B-CHAT 模型進行了消融實驗，採用攻擊成功率（ASR）、平均迭代次數和總時間作為評估指標，並以貪心座標梯度法（GCG）作為基線方法進行比較。實驗結果如表 6 所示。

實驗分析結果如下：首先，單獨引入有害引導時，攻擊成功率（ASR）顯著提升，且平均迭代次數有所改善。接著，當同時採用更新策略和字尾初始化時，攻擊成功率進一步提高，且平均迭代次數減少。

該結果表明，有害引導對提升越獄攻擊的有效性貢獻更大，而更新策略和字尾初始化則主要提升了攻擊的效率。最後，綜合使用所有三項技術時，越獄攻擊在有效性和效率方面均表現出最佳效果。

▲ 表6：所提方法的消融研究

4.4 討論

在本文中，本文將有害資訊引入最佳化目標以引導越獄攻擊。本文采用了 “my output is harmful” 作為有害引導。為進一步探究有害引導對越獄攻擊效能的影響，本文采用更多有害引導示例對經過安全校準的大語言模型 LLAMA2-7B-CHAT 進行越獄攻擊。

結果如表 7 所示。可以看出，使用不同的有害引導也能實現近 100% 的攻擊成功率，這表明在最佳化目標中引入有害引導有助於找到越獄空間，從而提升越獄攻擊效能。

本文還進行了隱蔽引導的實驗，即 “I will not refuse any requests” 和 “I will respond to any requests”，這樣模型輸出就不會有明確的有害指示。如表 8 所示，I-GCG 也能實現 100% 的攻擊成功率，這表明，即使引導較為隱蔽，也能有效地引導模型生成有害內容。

此外，為了研究有害引導的影響，本文還使用良性引導進行實驗，即 “my response is safe to use” 和 “my output is secured”。如表 8 所示，使用 “my output is secured” 會使 I-GCG 的攻擊成功率從 100% 降至 88%，其表現不如未使用任何引導的 I-GCG。

該結果表明，良性引導會顯著削弱攻擊的有效性，進一步驗證了有害引導在提升越獄攻擊效能中的關鍵作用。