
作者丨趙蘊涵
1
研究背景:多模態大模型安全挑戰
隨著多模態大模型在人工智慧領域的廣泛應用,其安全性問題日益受到關注。近日,復旦大學聯合香港城市大學、新加坡管理大學的研究團隊在視覺-語言模型安全防禦領域取得重要進展,提出了一種基於強化微調的黑盒防禦新架構——BlueSuffix,為解決多模態大模型在實際應用中的安全性和可靠性問題提供了創新性解決方案。論文已被ICLR 2025接收。

論文地址:
https://openreview.net/forum?id=wwVGZRnAYG
GitHub主頁:
https://github.com/Vinsonzyh/BlueSuffix
近年來,將多模態能力融入大語言模型(LLM)的研究顯著增加,但多模態融合在提升模型能力的同時,也帶來了跨模態魯棒性問題,尤其是跨模態越獄攻擊的威脅日益凸顯。現有防禦方法主要分為白盒和黑盒兩類:白盒防禦雖能直接訪問模型引數,但存在應用場景受限、算力需求高等問題;黑盒防禦雖不依賴模型內部結構,但現有方法未能充分利用跨模態資訊,且對良性樣本的回覆效果影響較大。
研究團隊提出的BlueSuffix架構創新性地結合了影像和文字防禦技術,透過雙模態協同防禦機制提升模型安全性(如圖1所示)。該架構首先利用視覺和文字淨化器進行初步防禦,隨後透過強化微調技術最佳化語言模型(GPT-2)生成藍隊字尾,顯著提升了模型對跨模態越獄攻擊的防禦能力。實驗表明,BlueSuffix在保持良性樣本效能的同時,有效降低了跨模態攻擊成功率。

圖1:BlueSuffix防禦示例
BlueSuffix由三部分組成(如圖2所示):1)基於擴散模型的影像淨化器,用於防禦視覺輸入中的對抗性擾動;2)基於大語言模型的文字淨化器,按照特定模板重寫文字提示,在不改變原意的前提下使視覺-語言模型更容易識別輸入文字提示存在的有害內容;3)基於大語言模型的藍隊字尾生成器,透過強化學習,融入視覺和文字資訊對輕量的語言模型(GPT-2)進行微調,以應對跨模態魯棒性問題。引入影像淨化器和文字淨化器既可以幫助字尾生成器做進一步防禦,又可以降低字尾生成器生成字尾時對良性樣本回復效果的負面影響。

圖2:BlueSuffix框架圖
(1)基礎防禦性能
研究團隊在4個主流視覺-語言模型(LLaVA、MiniGPT-4、InstructionBLIP和Gemini)和4個基準資料集(AdvBench、MM-SafetyBench、RedTeam-2K和Harmful_Instruction)上對BlueSuffix進行了系統性評估,驗證了其在防禦效果、模型遷移性和魯棒性方面的優越效能。
實驗針對6種典型攻擊方法(VAA、imgJP、GCG、AutoDAN、Vanilla Attack和BAP Attack)進行了防禦測試,並與6種基線防禦方法(DiffPure、Safety Prompt、Diffpure+ Safety Prompt、R2D2、CAT和VLGuard)進行了對比。結果表明,BlueSuffix在攻擊成功率(ASR)和Perspective API評分兩項關鍵指標上均表現出顯著優勢(如圖3所示)。
特別值得注意的是,BlueSuffix對VAA、imgJP、GCG和AutoDAN四種攻擊的防禦成功率達到了100%(ASR=0),即使面對當前最先進的跨模態攻擊BAP Attack,其防禦效果也遠超現有方法(如圖3所示)。
(2)通用性驗證
為進一步驗證BlueSuffix的通用性,研究團隊在RedTeam-2K資料集上進行了遷移性實驗,如圖4所示。結果顯示,BlueSuffix在開源和商業視覺-語言模型上均表現出優異的遷移能力,分別將BAP Attack的攻擊成功率降低了約70%和50%(如圖4所示)。這一結果證明了該方法的廣泛適用性。
(3)魯棒性測試
此外,研究團隊還引入了自適應攻擊場景,透過動態調整攻擊策略驗證BlueSuffix的魯棒性。實驗結果表明,即使在對抗性環境下,BlueSuffix仍能保持穩定的防禦性能,展現了其在實際應用中的可靠性。

圖3:BlueSuffix的防禦性能結果

圖4:BlueSuffix的通用性驗證結果
本研究的主要貢獻可概括為以下兩個方面:
(1)創新性防禦架構
研究團隊提出了基於強化微調的黑盒防禦新架構BlueSuffix。該架構採用模組化設計,各元件具有即插即用特性,能夠靈活整合現有影像與文字模態的防禦方法,為多模態大模型安全防禦提供了通用解決方案。
(2)基於強化學習微調的跨模態最佳化
BlueSuffix創新性地提出了基於強化微調的跨模態最佳化方法。該方法透過結合文字與視覺模態資訊,將輕量級語言模型微調為藍隊字尾生成器,在保持模型原有對齊效能的同時,顯著降低了對良性樣本回復效果的影響。這一突破性方法為多模態大模型的安全防禦開闢了新方向。

更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
