武大等釋出大視覺模型最新安全綜述:全面分類攻擊策略、防禦機制和評估方法


新智元報道  

編輯:LRST
【新智元導讀】武漢大學等釋出了一篇大型視覺語言模型(LVLMs)安全性的綜述論文,提出了一個系統性的安全分類框架,涵蓋攻擊、防禦和評估,並對最新模型DeepSeek Janus-Pro進行了安全性測試,發現其在安全性上存在明顯短板。
隨著GPT-4o與Qwen-VL等模型的視覺理解和多模態生成能力逐漸打破眾人認知,大型視覺語言模型(LVLMs)正以前所未有的速度重塑AI世界,這些能夠理解視覺資訊並生成自然語言響應的智慧系統,已在醫療診斷、自動駕駛、金融風控等關鍵領域嶄露頭角。
然而,當研究者僅用幾百美元就能突破頂級模型的安全防線、簡單的對抗噪聲圖片就能讓模型輸出危險內容,我們是否該感到擔心?
近期,武漢大學、中國科學技術大學和南洋理工大學的研究團隊釋出了一篇綜述,系統性總結了LVLMs在安全性上的挑戰,並提出了全面而系統的安全分類框架。
論文地址:https://arxiv.org/abs/2502.14881
專案主頁:https://github.com/XuankunRong/Awesome-LVLM-Safety
與以往的零散研究不同,研究人員深入分析了LVLM安全性的各個方面,涵蓋了從攻擊策略到防禦機制,再到評估方法的全面內容。
透過細緻探討LVLM模型在訓練和推理不同階段面臨的具體安全問題,該論文不僅提供了全面的安全態勢分析,還詳細介紹了針對各類安全風險的有效應對措施,為提升LVLM安全性和魯棒性提供了系統性的指導和參考。
突破孤立分析的困境,統一攻擊-防禦-評估的總體框架
論文指出,許多現有研究僅聚焦於LVLM的攻擊或防禦的某一方面,這種孤立的分析方法無法全面揭示LVLM的安全性,導致對整體安全態勢的理解不夠深入。儘管一些研究試圖同時討論LLM和LVLM的安全問題,但未能充分關注LVLM所面臨的獨特挑戰。
為此,研究人員提出了一種系統化的分析方法,整合了攻擊、防禦和評估這三個密切相關的領域,從而全面揭示LVLM固有的漏洞及其潛在的緩解策略。
透過整合領域內最全面的相關研究,論文提供了更加深入和系統的LVLM安全性分析,涵蓋了多個維度的安全問題,填補了現有研究的空白,推動了該領域的進一步發展。
圖1. 論文整體結構
此外,論文還基於LVLM生命週期的不同階段(訓練和推理)對相關研究進行了詳細分類,從而提供了更加細緻的分析,該分類方法能夠更清晰地揭示每個階段所面臨的獨特安全挑戰,因為訓練階段和推理階段的安全問題本質上有所不同。
訓練階段主要涉及模型學習過程中的資料安全性問題,而推理階段則側重於模型實際應用中的安全風險,透過分析生命週期中不同階段的安全策略,研究者們能夠更有針對性地識別和應對不同階段的潛在威脅。
例如,在推理階段,攻擊可分為白盒攻擊、灰盒攻擊和黑盒攻擊(如圖2所示)。
圖2. 白盒、灰盒、黑盒攻擊介紹
白盒攻擊假設攻擊者能夠完全訪問模型的內部結構、引數和梯度資訊,從而精準操控模型行為;灰盒攻擊則設定攻擊者對模型架構有所瞭解,並透過構建替代模型生成惡意輸入;而黑盒攻擊則假設攻擊者只能透過輸入輸出對與模型互動,完全無法獲取任何內部資訊,模擬了現實世界中更具挑戰性的攻擊情境。
Janus-Pro的安全性測評
除了對現有工作進行歸納,研究人員同時對DeepSeek最新發布的統一多模態大模型:Janus-Pro進行了安全性評估。
透過在SIUO以及MM-SafetyBench上進行測試,結果表示,儘管Janus-Pro在多模態理解能力上取得了令人印象深刻的成績,但其安全性表現仍然是一個顯著的限制。在多個基準測試中,Janus-Pro未能達到大多數其他模型的基本安全能力。
圖3. Evaluation on SIUO
圖4. Evaluation on MM-SafetyBench
研究人員推測,這一短板可能與模型架構本身的設計有關:該架構的主要目標是同時處理多模態理解和圖片生成任務,可能導致其在設計時未能充分考慮和最佳化專門的安全機制。
此外,Janus-Pro可能沒有經過專門的安全性訓練,缺乏針對這些特定問題的預防措施和應對策略,從而導致其在識別、緩解和防範有害輸入方面的能力相對有限。考慮到安全性在多模態模型實際應用中的至關重要性,顯然Janus-Pro的安全性亟需大幅提升。
為增強Janus-Pro在高風險任務和複雜場景中的有效性,必須進一步最佳化其架構與訓練方法,特別是加強對安全性和對抗性魯棒性的關注,以確保其在面對挑戰時能夠提供更加可靠的防護。
未來研究趨勢
研究人員認為,未來LVLM安全性研究將集中於幾個關鍵領域。
首先,黑盒攻擊的相關研究將逐步增多,黑盒攻擊方法不依賴於對模型內部結構的訪問,而是透過利用LVLM固有的能力,如光學字元識別(OCR)、邏輯推理等,從而提升攻擊的可轉移性和資源效率;
其次,跨模態安全對齊的研究將成為重要課題,考慮到視覺和文字輸入的組合可能導致不安全輸出,亟需在安全性設計中加強視覺與語言模態的協同,以避免潛在的風險;
第三,安全微調技術的多樣化,特別是透過人類反饋強化學習(RLHF)和對抗訓練等方法,將有助於在保持模型高效效能的同時顯著提升其安全性。
最後,發展統一的策略基準框架將成為研究的重點,透過該框架能夠更加有效地比較不同攻擊與防禦策略的優缺點,推動更強大且高效的解決方案,從而確保LVLM在實際應用中的安全性與魯棒性。
參考資料:
https://arxiv.org/abs/2502.14881

相關文章