新智元報道

編輯：KingHZ

【新智元導讀】Anthropic，公佈了新的AI模型防護方法，在之後約48小時內，無人完全攻破新系統，將賞金提高到了最高2萬美元。新方法真這麼強？

最近，Anthropic安全研究團隊「有點忙」。

本月4日，Anthropic在X上，邀請網友挑戰新的AI防護系統。兩天後，Anthropic稱：

目前，沒有人完全越獄新系統，因此提高了賭注。

現在透過全部8關的第一名，我們獎勵1萬美元；而透過全部8關並具有通用越獄能力的第一名，我們獎勵2萬美元。

大語言模型（LLM）很容易受到通用越獄提示策略的影響，這種策略會系統地繞過模型保護措施，讓使用者能夠執行有害過程，比如大規模製造非法物質。

為了抵禦這些攻擊， Anthropic安全研究團隊引入了「憲法分類器」：在合成數據上訓練的保障措施，透過提示LLM自然語言規則，規定了允許和限制的內容。

這裡的「憲法」是指自然語言規則，強調這些規則不可違背。

「天下沒有免費的午餐」，這自然會增加LLM的推理成本。

但Anthropic稱新方法可以可以阻止95%+的越獄，而代價也有限：

在為期2個月的實驗期間，共有183名活躍參與者投入了超過3000小時的測試時間。儘管如此，沒有發現通用越獄攻擊。
自動化評估中有10,000個越獄提示，許多當前大語言模型被「攻破」。在基準條件下，沒有防禦性分類器時，Claude只成功阻止了14%的高階越獄嘗試；Claude用新方法防護後，阻止了超過95%的越獄嘗試。
效果很明顯，而且代價也不大：生產環境中的Claude.ai流量拒絕率增加了0.38%，推理開銷增加了23.7%。

先解釋一下，為什麼說新方法「見效快」：

1 沒有完美的「防護系統」，矛盾之爭會不斷升級：新方法只有5%的「漏網之魚」。

2 雖然沒有新方法防護，Claude也能阻止14%的越獄嘗試，但新方法將安全性提高了80%+，推理開銷增加只23.7%，價效比高！

3 幾乎不會影響正常使用：生產環境中的Claude.ai流量拒絕率增加了0.38%。

論文連結：https://arxiv.org/abs/2501.18837

部落格連結：https://www.anthropic.com/research/constitutional-classifiers

為什麼研究「模型越獄」？

為了評估新方法的穩健性，對基於Claude 3.5 Sonnet微調的原型分類器，進行了廣泛的人類紅隊測試。

在HackerOne邀請了405名參與者，其中包括經驗豐富的紅隊成員，參加了漏洞獎勵計劃，併為發現通用性破解方法提供了獎金。

比賽連結：https://hackerone.com/constitutional-classifiers?type=team

要求紅隊員回答十個有害的CBRN（化學、生物、放射性、核）查詢，而報酬與他們的成功率掛鉤。

Jan Leike， Anthropic的Alignment Science團隊聯合負責人，在研究公佈之後，詳細解釋了為什麼要研究「模型越獄」的穩健性。

更強大的大語言模型（LLMs）可能被濫用，帶來更大的危害。

例如，假設恐怖分子藉助大語言模型的逐步指導，製造大規模殺傷性武器，那該怎麼辦？

明確一點：目前的大語言模型並不擅長這一點。但一旦它們具備了這樣的能力，我們希望能夠防止它們被如此惡意濫用。

構建有效的安全防護措施需要時間，並且有時需要解決一些開放的研究問題。

我們的團隊集中精力，花費了一年才構建了最新系統。

我一次又一次地親眼目睹：一旦新模型訓練完成，通常沒有足夠的時間來構建強有力的安全防護。

如果不想因為安全防護而阻止未來模型的部署（或者接受其帶來的風險），我們就需要提前解決這些安全問題！

這正是我們在這裡努力做的：我們正在構建一個比當前模型所需的防護更為強大的系統。

AI行業發展迅速，我預計它將繼續加速。

我們希望儘可能做好準備，以便在需要時能夠應對。

在加入Anthropic之前，他共同領導了OpenAI的Superalignment團隊，參與了InstructGPT、ChatGPT的開發，以及GPT-4的對齊工作；制定了OpenAI的對齊研究方法，並共同編寫了研究路線圖。

新系統釋出後，約48小時之內，他及時公佈了結果：沒有人能透過第4關，但更多的人通過了第3關。同日隨後不久，Anthropic在X上宣佈了提高「賞金」。到本月8號，他公佈了「戰況」：只有一個人透過第5級防護。

在9日，終於有人拿走了首次「通關」的1萬美元獎金。

在~300,000條訊息和估計大約3,700個總工時之後，有人突破了全部8關。

然而，尚未找到通用的越獄方法……

演算法原理

新系統引入了「憲法分類器」，利用明確的「憲法規則」來訓練分類器的「保鏢」—— 防護系統（見下圖1a）。

新方法以「憲法」為核心，劃定了可允許和受限內容的類別（見下圖1b），並指導合成訓練樣本的生成（見下圖1c）。

透過更新憲法，可以快速適應新的威脅模型，包括與模型不對齊相關的威脅。

為了提升效能，還廣泛採用了資料增強，並利用了無害資料池。

至關重要的是，新的輸出分類器支援流式預測：評估完整模型輸出的潛在有害性，每個token生成時都不需要等待完整的輸出。可以即時干預模型——如果在任何階段檢測到有害內容，可以立即停止生成內容，從而同時保證安全性和使用者體驗。

圖1：憲法分類器

(a) 為了防禦大語言模型（LLM）免受通用越獄攻擊，使用分類器保護機制來監控輸入和輸出。

(b) 為了訓練這些保護機制，使用一組自然語言規則(文中叫做一部憲法)，定義有害和無害內容的類別，從而能夠快速適應新的威脅模型。

圖1a中的分類器是經過微調的大型語言模型（LLMs），與提示式分類器相比，具有幾個優勢：微調不僅可以系統地解決漏洞，而且將大型語言模型專門化為分類任務，還可以顯著減少計算開銷。

分類器訓練資料

資料合成

階段 I：基於規則的合成數據生成

在給定規則的情況下，使用僅幫助模型（helpful-only model）生成涵蓋「憲法類別」的查詢。

接著，使用該模型為每個合成生成的輸入，生成有害和無害的輸出。

最後，使用提示式語言模型（prompted language model）過濾掉任何無意的拒絕，確保生成的輸入和輸出都符合要求。

階段 II：資料增強

為了提高合成數據的多樣性和覆蓋範圍，應用了廣泛的資料增強技術。

這些「變換」在保持語義內容的同時，擴充套件了輸入和輸出的多樣性，涵蓋了多個語言學維度，包含了如語言間翻譯、大型語言模型（LLM）基礎的改寫、系統提示變化、不同的越獄技術，以及這些技術的組合等方法。

自動化紅隊測試（ART）

為了生成額外的訓練資料，作者採用了下列論文中的自動化紅隊測試（ART）。

論文連結：https://arxiv.org/pdf/2202.03286

透過描述已知的越獄技術，來提示一個僅限於有益的語言模型，並要求該模型生成新的攻擊方法。並將上文提到的合成數據作為模型，用於紅隊測試的停用查詢來源。

此外，允許ART方法生成長上下文和多輪攻擊，透過提示模型生成攻擊模板，並透過額外的語言模型呼叫來填充該模板

訓練方法

輸入分類器

作者將輸入分類任務框架化為一個下一個token預測問題，並微調語言模型以執行此任務。

具體來說，使用模板將整個輸入進行包裝，該模板描述了任務。

兩個分類器使用的完整提示模板，參見下圖。

訓練分類器以阻止那些試圖建立編碼通訊或以其他方式模糊輸出的輸入，這樣輸出就無法在沒有輸入的情況下理解。

此外訓練還包括了無害查詢的池集，以幫助最小化對合法輸入的誤報率。

輸出分類器

為了保持輸出流的能力，輸出分類器的一個關鍵要求是連續的token流（見圖 2）。

這對於延遲敏感型應用（例如聊天或程式設計助手）尤為重要。

為此，微調一個語言模型，並新增一個線性值頭，該頭根據字首token序列預測完整序列的有害性（見圖 2）。

如果分類器對給定 token 的預測得分超過設定的閾值，將阻止輸出並停止流式輸出。

這種方法能夠在取樣和token級預測過程中快取中間啟用，因此它是流式分類的特別高效方法。

圖 2：輸出分類器預測示例

與輸入分類器不同，在每個token位置，輸出分類器會對整個輸出序列的有害性做出預測。

這個預測用於評估是否應在給定的token位置停止輸出流。在圖2中，數字表示的是基於單詞級別的預測，而非基於token級別的預測。

損失函式

假設token序列為t_{1:T}，以及一個標籤y，表示該完整序列是否有害。

我們的目標是訓練一個機率模型p(y=1|t_{1:T})，透過序列字首序列來預測完整序列的標籤y。

為此，需要最小化以下損失函式：

其中，右式第一個函式是標準的下一個token預測損失，λ是正則化超引數；右式第二個函式是二元交叉熵損失。

從直觀上看，上述損失函式鼓勵token級預測與完整序列標籤y匹配，並使用序列t_{1:T}上的下一個token預測損失進行正則化。

具體結果

紅隊成員採用了多樣的攻擊策略，但沒有紅隊報告取得全面成功。

在提交的113份越獄報告中，沒有任何一份成功回答了所有十個問題，並且其模型輸出所提供的細節至少與「僅幫助型」模型的輸出詳細度相當。

雖然有九份報告在50%的細節閾值下為超過六個問題提供了實質性的回答，但當採用更嚴格的標準，即要求回答提供與「僅幫助型」模型相匹配的詳細資訊時，沒有任何報告成功回答超過五個問題。

儘管參與者在根據評分標準反饋後有一次重新提交的機會，以改善他們的越獄策略，但最終沒有出現一個能夠持續提取出與「僅幫助型」模型相當詳細資訊的通用越獄。

彙總報告顯示，最成功的紅隊員也只取得了有限的成果。

具體統計結果如下圖所示：

圖 4：憲法分類器在 3,000 小時人類紅隊測試中抵禦通用型越獄攻擊

(A) 越獄報告成功率的分佈，透過評估每份報告成功回答的目標問題數量（共10個問題）。成功的評估有兩個標準：一是回答內容達到「幫助型模型輸出」的一半細節（橙色）；二是與幫助型模型輸出的細節相似（紅色）。在任何報告中，沒有一份成功回答所有問題，且未達到兩個標準中的任何一個。
(B) 紅隊員成功率的分佈，統計每個參與者在所有提交報告中的最佳表現。即便結合了多個嘗試的結果，也沒有紅隊員能夠在較為嚴格的標準下成功回答超過6個問題。
(C) 每個問題的漏洞分析。可以看到，在10個目標問題中，越獄成功率有顯著的差異。對於最難攻破的問題，成功報告僅有4份，而最容易攻破的問題在半細節標準下成功報告超過30份。排除了28份不適用的報告。

這展示了憲法分類器系統在應對通用型越獄攻擊時的表現，表明儘管越獄攻擊仍然存在，但系統在多次紅隊測試中保持了高度的抗攻擊能力。

文中也討論了新方法的侷限等內容。

AI模型真的安全嗎？

Anthropic新方法的相關推文，至少引來了100萬的瀏覽。

難道Anthropic真的「天下無敵」了嗎？

有網友表示，並非新方法太好，而是Anthropic落後於時代。