引言

在視覺語言模型（VLMs）展現出強大的指令跟隨和視覺能力的同時，如何提升模型的安全能力是邁向 AGI 的重要問題。一些工作[1, 2]發現透過引入安全相關的外部監督訊號對大模型進行微調可以讓其在安全相關的 Benchmark 上獲得很低的 Attack Success Rate（ASR）。

然而，這些 Fine-Tuning-Based 方法在有用性-無害性的權衡中難以獲得平衡，並且在需要更復雜的安全場景下出現了防禦失效的現象。我們發現這是因為現有的方法無法提升模型的安全視覺推理能力，導致微調後的模型陷入瓶頸。

為了解決這個難點，我們構建了 Multi-Image Safety（MIS）資料集，包括訓練集以提升模型安全相關的視覺感知、推理能力，測試集以評估 VLMs 在多圖場景下的安全性。

論文標題：

Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models

論文連結：

https://arxiv.org/pdf/2501.18533

專案主頁：

https://dripnowhy.github.io/MIS/

程式碼連結：

https://github.com/DripNowhy/MIS

資料集連結：

https://huggingface.co/collections/Tuwhy/mis-679ae8748aa3744dfb0d453e

模型連結：

https://huggingface.co/collections/Tuwhy/mirage-679875ff7bb3855234c94b42

安全微調瓶頸

我們發現現有的安全微調方法包括純文字微調和單圖多模態微調，在有用性和安全性的權衡上難以取得平衡，此外在具有挑戰性的安全任務（透過無害輸入激發模型有害響應）上表現失效。

具體來說，如下表所示，在 MMStar[3]，MMMU[4]，MMT[5]三個通用能力 Benchmark上，純文字微調（Textual SFT[6]）和單圖多模態微調（VLGuard[1]）在不同模型上都出現了能力下降的問題。

並且，在透過給相同意圖的良性文字指令匹配不同安全圖片從而構成 Safe 和 Unsafe 場景的 MSSBench 上，現有微調方法表現都十分糟糕。

2.1 分析

單圖多模態微調在視覺領域出現了過度保守的現象：我們發現 VLGuard 微調後的模型在通用能力上的損失十分嚴重，並且隨著輸入影像增多而加劇（單圖->單圖+多圖->多圖）。如下表所示，我們給良性文字指令匹配了三種輸入格式：（1）安全文字指令+相關圖片，（2）安全文字指令+純白色圖片，（3）僅有安全文字指令。

可以發現，只要有影像輸入，微調後的模型就傾向於給出拒絕回答，甚至在輸入無資訊的空白圖片時，模型也會給出 “I'm sorry” 開頭的拒絕回答，導致了模型過度保守。

提升模型的安全視覺推理能力是突破瓶頸的關鍵：

我們的實驗發現，同樣使用 VLGuard 的輸入圖文對，透過提示 InternVL2.5-78B 進行安全思維鏈（Safety CoT）思考進行回答並構建微調標籤，可以在一定程度上緩解微調方法遇到的瓶頸。

但由於 VLGuard 輸入資料過於簡單，大多直接含有明顯的不安全元素，無法構建複雜高質量的安全視覺推理資料，因此帶來的提升較為有限。

2.2 定量展示

如下圖（a）（b）所示，MSSBench 透過給相同意圖（提升滑板技能）的文字指令，匹配不同的安全圖片從而構成 Safe（室外滑板）和 Unsafe（商場環境滑板）場景。而現有的微調方法如 Textual SFT 和 VLGuard，都無法在 MSSBench 上做出令人滿意的回覆。

Multi-Image Safety

3.1 MIS dataset

為了克服之前提到的瓶頸，我們提出了首個 Multi-Image Safety（MIS）資料集，包含訓練集以提升模型安全視覺感知、推理能力，和測試集以評估視覺語言模型在多圖場景下的安全能力，總共包含 4k 訓練資料和 2185 測試資料。

3.1.1 資料構建

我們的圖文對輸入資料構建主要分為四個步驟：

1. 有害元素提取：分別從有害圖片和文字中提取有害元素。

2. 文字指令生成、物體提取、毒性去除：利用 LLM 根據第一步中提取的有害元素生成含有兩個物體的有害問題，提取問題中的物體，最終修改問題格式似的文字指令看上去無害。

3. 圖片生成：根據第二步中提取到的物體進行圖片生成，在用 VLM 根據生成圖片、第二步中的有害問題和兩個物體進行物體描述的修正，從而生成與文字指令語境一致的兩張圖片。

4. 資料過濾、分類：透過人工過濾去除掉無意義、不合理的、低質量的圖文對，再利用 GPT-4o 根據圖文的安全性對資料集進行劃分。其中文字被分類為不安全的圖文對作為訓練集，文字安全且圖片不安全的座位簡單測試集，文字圖片都分別安全的作為難測試集，最終得到 4k 訓練輸入資料，和 2185 測試輸入資料。

在 2185 測試資料中，取樣了 100 條進行了真實圖片搜尋，這 100 個樣本的圖片為現有資料集中的真實圖片而非合成圖片。

3.1.2 MIS測試集

MIS 測試集總共包含 6 個類別，12 個子類別。下圖提供了不同類別的樣本。其中 MIS-hard 中文字指令與輸入圖片都分別安全，而組合在一起時會出現有害意圖和風險。如相機和臥室，再被無害的文字關聯後就出現了隱私竊取和非法拍攝的風險。

3.2 MIRage

之前驗證了透過 Safety CoT 構建微調標籤可以一定程度上克服安全微調瓶頸。我們提出了 Multi-Image Reasoning Safety Fine-Tuning（MIRage），透過提示 InternVL2.5-78B 先進行圖片識別（視覺感知），再根據兩張圖片和文字指示分析其中潛在的安全風險（視覺推理），最終給出安全的回答，從而構建了高質量具有 Safety CoT 的微調標籤。

實驗

我們的實驗主要集中在兩個方面：（1）視覺語言模型在 MIS test 上的表現，（2）MIRage 微調後模型的表現。

4.1 實驗設定

我們在常見的支援多圖輸入的 VLM，如 Qwen2-VL，InternVL2.5，Deepseek-VL2，GPT-4o，Gemini-1.5-pro 等模型上進行了實驗，並且在 InternVL2.5-8B 和 Qwen2-VL-7B-Instruct 上分別驗證了 MIRage 優於現有的安全微調方法。

4.2 MIS test結果

在 MIS test 上的實驗結果如下表所示。我們的評價指標為 ASR：成功攻擊機率（模型回答不安全），HR：幻覺機率（模型回答不完整 / 含有幻覺），RSR：推理成功機率（模型透過推理給出了安全的回答），RR：拒絕率（模型拒絕回答有害問題）。

開源模型在多圖場景下表現出安全效能崩潰。
閉源模型如 GPT-4o 等，也無法很好的給出安全回答。
MIRage 微調後的模型顯著提升了多圖安全能力。

4.3 MIRage結果

MIRage 透過提升模型的安全視覺感知、推理能力從而提升模型的安全表現，其安全能力在不同的安全相關 Benchmark 上都取得了不錯的表現，尤其是在具有挑戰的 SIUO 和 MSSBench 上。
即使在不新增通用資料的情況下，MIRage 提升的視覺相關能力使得其對模型的通用能力沒有任何負面影響。而添加了 500 條（11%）通用資料後，在 5 個通用能力 benchmark 上平均得到了 0.83% 的提升。

結論

我們提出的 MIS 和 MIRage 提升了視覺語言模型至關重要的安全視覺推理能力，並且指出了現有模型在多圖場景下安全能力薄弱的問題。當然，我們只是透過最簡單的 Safety CoT 做出了安全視覺推理的初步探索，如何用更加複雜高效的方法提升模型的安全視覺推理能力，從而完全克服安全微調瓶頸是非常有趣的問題。

參考文獻

[1] Zong, Yongshuo, et al. 'Safety fine-tuning at (almost) no cost: A baseline for vision large language models.' arXiv preprint arXiv:2402.02207 (2024).

[2] Zhang, Yongting, et al. 'SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model.' arXiv preprint arXiv:2406.12030 (2024).

[3] Chen, Lin, et al. 'Are We on the Right Way for Evaluating Large Vision-Language Models?.' arXiv preprint arXiv:2403.20330 (2024).

[4] Yue, Xiang, et al. 'Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi.' Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[5] Ying, Kaining, et al. 'Mmt-bench: A comprehensive multimodal benchmark for evaluating large vision-language models towards multitask agi.' arXiv preprint arXiv:2404.16006 (2024).

[6] Hu, Xuhao, et al. 'Vlsbench: Unveiling visual leakage in multimodal safety.' arXiv preprint arXiv:2411.19939 (2024).

更多閱讀