揭秘多輪越獄攻擊新框架:RACE如何利用大模型推理能力突破安全防線?

北航等單位提出RACE框架,攻擊成功率高達96%,OpenAI、DeepSeek等主流模型均被攻破。
本文一作為博士生應宗浩,現就讀於北航複雜關鍵軟體環境全國重點實驗室,師從陶大程教授與劉祥龍教授,並由劉艾杉教授共同指導,目前研究興趣為大模型越獄攻防。他所在的智慧安全團隊由劉祥龍教授負責,近年在大模型安全評測體系方面進行了系列研究工作,包括對抗攻擊、後門投毒、越獄攻擊、偏見調控等,發表TPAMI、IJCV、ICML、NeurIPS、USENIX等人工智慧、資訊安全領域頂級論文100餘篇。
大模型(LLMs)的推理能力在各類任務中表現出色,但這也為越獄攻擊提供了新的突破口。近日,來自北京航空航天大學、360 AI安全實驗室、新加坡國立大學和南洋理工大學的研究團隊提出了一種名為RACE(Reasoning-Augmented Conversation)的多輪越獄攻擊框架,透過將有害查詢轉化為良性推理任務,成功突破了多個主流大模型的安全防線,攻擊成功率高達96%。這一研究不僅揭示了當前大模型安全機制的脆弱性,也為未來的安全防禦提供了新的思路。
論文連結:https://arxiv.org/pdf/2502.11054
GitHub連結:https://github.com/NY1024/RACE
1
背景:大模型的越獄攻擊
大模型在生成有害內容時存在潛在風險,尤其是在特定提示下,模型可能會生成不安全或有害的回覆。越獄攻擊正是透過精心設計的提示,繞過模型的安全對齊機制,誘導模型生成非預期的回覆。現有的越獄攻擊主要分為單輪攻擊和多輪攻擊,其中多輪攻擊透過與大模型進行多輪對話,逐步引導模型生成有害內容,模擬了真實世界中的人類互動,因此更具威脅性。
然而,現有的多輪越獄攻擊方法往往難以在語義連貫性和攻擊有效性之間取得平衡,要麼導致語義漂移,要麼無法有效繞過安全機制。為此,北航團隊提出了RACE框架,透過利用大模型的推理能力,將有害查詢轉化為良性推理任務,從而在保持語義連貫性的同時,實現高效的越獄攻擊。
2
RACE框架:如何利用推理能力突破安全防線?
RACE框架的核心思想是將有害查詢轉化為看似良性的複雜推理任務,利用大模型的推理能力逐步引導模型生成有害內容。
 攻擊狀態機(ASM):將攻擊過程系統化
RACE將攻擊過程建模為一個攻擊狀態機(Attack State Machine, ASM),這是其區別於傳統越獄攻擊的關鍵。狀態機的每個狀態代表攻擊的一個階段,而狀態之間的轉換則由查詢的語義和推理邏輯驅動。透過狀態機的系統化設計,RACE能夠在多輪對話中保持語義連貫性,同時避免觸發模型的安全機制。
增益引導探索(GE):最佳化查詢選擇
增益引導探索(Gain-guided Exploration, GE)是RACE的三個核心模組之一,其目標是透過資訊增益選擇最優查詢,確保攻擊的穩步推進。RACE透過計算每個查詢的潛在資訊增益,選擇那些能夠最大程度地推進攻擊目標的查詢。例如,如果一個查詢能夠揭示模型的推理邏輯或暴露其安全機制的漏洞,那麼它的資訊增益就較高。透過增益引導探索,RACE能夠在多輪對話中高效地提取有用資訊,同時避免語義漂移。
自我對弈(SP):模擬拒絕響應
自我對弈(Self-Play, SP)模組受博弈論啟發,核心思想是在影子模型中模擬拒絕響應,從而提前最佳化查詢結構。RACE基於與目標模型同源的影子模型,模擬目標模型在遇到有害查詢時的拒絕響應。透過分析影子模型的拒絕響應,RACE能夠提前調整查詢結構,使其更難以被目標模型檢測到。
拒絕反饋(RF):快速恢復攻擊
在多輪對話中,目標模型可能會在某些查詢上觸發安全機制,導致攻擊失敗。為了應對這種情況,RACE引入了拒絕反饋(Rejection Feedback, RF)模組,其核心思想是將失敗的查詢轉化為替代的推理任務,從而快速恢復攻擊。當目標模型拒絕某個查詢時,RACE會立即檢測到這一失敗,並分析拒絕的原因。基於失敗原因,RACE生成一個替代的推理任務,繼續推進攻擊目標。
3
實驗結果:RACE攻擊成功率高達96%
研究團隊在多個主流大模型上進行了廣泛的實驗,驗證了RACE在多輪越獄攻擊中的有效性。實驗結果顯示,RACE在複雜對話場景中的攻擊成功率(ASR)高達96%,尤其是在OpenAI o1和DeepSeek R1等推理模型上,攻擊成功率分別達到了82%和92%。
此外,RACE在面對現有的防禦機制時也表現出極強的魯棒性。例如,Self-Reminder(SR)防禦方法雖然在一定程度上降低了攻擊成功率,但RACE仍然保持了較高的攻擊效果,ASR僅降低了17.6%。其他防禦方法如SmoothLLM、ICD和JailGuard對RACE的防禦效果則更為有限。
4
討論:推理能力與安全風險的博弈
RACE的成功不僅揭示了當前大模型安全機制的脆弱性,也引發了對推理能力與安全風險之間關係的深入思考。研究發現,推理能力越強的大模型,越容易被RACE等推理驅動的攻擊方法攻破。例如,Gemini 2.0 Flashing Thinking在面對原始有害查詢時,攻擊成功率達到了20%,而OpenAI o1在RACE攻擊下的攻擊成功率則飆升至82%,針對DeepSeek R1的攻擊成功率達到了92%。這一發現表明,推理能力的提升雖然增強了模型的任務執行能力,但也為攻擊者提供了新的突破口。如何在提升推理能力的同時,確保模型的安全性,成為了未來大模型發展的重要課題。
5
結論:RACE的啟示與未來方向
RACE框架透過利用大模型的推理能力,成功突破了多個主流模型的安全防線,揭示了當前安全機制的不足。研究團隊強調,RACE的主要目標是推動大模型安全研究,提升對潛在風險的認知。為了減少潛在的濫用風險,研究團隊在論文中省略了具體的有害輸出,並討論了可能的防禦措施。
未來,研究團隊計劃進一步最佳化RACE的效率,開發更強大的防禦機制,以應對推理驅動的攻擊。同時,他們也呼籲大模型開發者加強對推理能力的監控,開發更魯棒的安全對齊技術。
RACE框架的提出,不僅為越獄攻擊提供了新的思路,也為大模型的安全研究敲響了警鐘。隨著大模型推理能力的不斷提升,如何在效能與安全之間找到平衡,將成為未來研究的重中之重。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
近期熱門文章

相關文章