
引言

[1, 2]
發現透過引入安全相關的外部監督訊號對大模型進行微調可以讓其在安全相關的 Benchmark 上獲得很低的 Attack Success Rate(ASR)。為了解決這個難點,我們構建了 Multi-Image Safety(MIS)資料集,包括訓練集以提升模型安全相關的視覺感知、推理能力,測試集以評估 VLMs 在多圖場景下的安全性。

論文連結:
專案主頁:
程式碼連結:
資料集連結:
模型連結:

安全微調瓶頸
[3]
,MMMU[4]
,MMT[5]
三個通用能力 Benchmark上,純文字微調(Textual SFT[6]
)和單圖多模態微調(VLGuard[1]
)在不同模型上都出現了能力下降的問題。並且,在透過給相同意圖的良性文字指令匹配不同安全圖片從而構成 Safe 和 Unsafe 場景的 MSSBench 上,現有微調方法表現都十分糟糕。

2.1 分析
我們的實驗發現,同樣使用 VLGuard 的輸入圖文對,透過提示 InternVL2.5-78B 進行安全思維鏈(Safety CoT)思考進行回答並構建微調標籤,可以在一定程度上緩解微調方法遇到的瓶頸。
但由於 VLGuard 輸入資料過於簡單,大多直接含有明顯的不安全元素,無法構建複雜高質量的安全視覺推理資料,因此帶來的提升較為有限。

2.2 定量展示
如下圖(a)(b)所示,MSSBench 透過給相同意圖(提升滑板技能)的文字指令,匹配不同的安全圖片從而構成 Safe(室外滑板)和 Unsafe(商場環境滑板)場景。而現有的微調方法如 Textual SFT 和 VLGuard,都無法在 MSSBench 上做出令人滿意的回覆。

Multi-Image Safety
3.1 MIS dataset

我們的圖文對輸入資料構建主要分為四個步驟:
1. 有害元素提取:分別從有害圖片和文字中提取有害元素。
2. 文字指令生成、物體提取、毒性去除:利用 LLM 根據第一步中提取的有害元素生成含有兩個物體的有害問題,提取問題中的物體,最終修改問題格式似的文字指令看上去無害。
3. 圖片生成:根據第二步中提取到的物體進行圖片生成,在用 VLM 根據生成圖片、第二步中的有害問題和兩個物體進行物體描述的修正,從而生成與文字指令語境一致的兩張圖片。
4. 資料過濾、分類:透過人工過濾去除掉無意義、不合理的、低質量的圖文對,再利用 GPT-4o 根據圖文的安全性對資料集進行劃分。其中文字被分類為不安全的圖文對作為訓練集,文字安全且圖片不安全的座位簡單測試集,文字圖片都分別安全的作為難測試集,最終得到 4k 訓練輸入資料,和 2185 測試輸入資料。
在 2185 測試資料中,取樣了 100 條進行了真實圖片搜尋,這 100 個樣本的圖片為現有資料集中的真實圖片而非合成圖片。

3.1.2 MIS測試集
MIS 測試集總共包含 6 個類別,12 個子類別。下圖提供了不同類別的樣本。其中 MIS-hard 中文字指令與輸入圖片都分別安全,而組合在一起時會出現有害意圖和風險。如相機和臥室,再被無害的文字關聯後就出現了隱私竊取和非法拍攝的風險。

3.2 MIRage
之前驗證了透過 Safety CoT 構建微調標籤可以一定程度上克服安全微調瓶頸。我們提出了 Multi-Image Reasoning Safety Fine-Tuning(MIRage),透過提示 InternVL2.5-78B 先進行圖片識別(視覺感知),再根據兩張圖片和文字指示分析其中潛在的安全風險(視覺推理),最終給出安全的回答,從而構建了高質量具有 Safety CoT 的微調標籤。

實驗

我們的實驗主要集中在兩個方面:(1)視覺語言模型在 MIS test 上的表現,(2)MIRage 微調後模型的表現。
我們在常見的支援多圖輸入的 VLM,如 Qwen2-VL,InternVL2.5,Deepseek-VL2,GPT-4o,Gemini-1.5-pro 等模型上進行了實驗,並且在 InternVL2.5-8B 和 Qwen2-VL-7B-Instruct 上分別驗證了 MIRage 優於現有的安全微調方法。
在 MIS test 上的實驗結果如下表所示。我們的評價指標為 ASR:成功攻擊機率(模型回答不安全),HR:幻覺機率(模型回答不完整 / 含有幻覺),RSR:推理成功機率(模型透過推理給出了安全的回答),RR:拒絕率(模型拒絕回答有害問題)。
-
開源模型在多圖場景下表現出安全效能崩潰。
-
閉源模型如 GPT-4o 等,也無法很好的給出安全回答。
-
MIRage 微調後的模型顯著提升了多圖安全能力。
4.3 MIRage結果
-
MIRage 透過提升模型的安全視覺感知、推理能力從而提升模型的安全表現,其安全能力在不同的安全相關 Benchmark 上都取得了不錯的表現,尤其是在具有挑戰的 SIUO 和 MSSBench 上。
-
即使在不新增通用資料的情況下,MIRage 提升的視覺相關能力使得其對模型的通用能力沒有任何負面影響。而添加了 500 條(11%)通用資料後,在 5 個通用能力 benchmark 上平均得到了 0.83% 的提升。
結論

我們提出的 MIS 和 MIRage 提升了視覺語言模型至關重要的安全視覺推理能力,並且指出了現有模型在多圖場景下安全能力薄弱的問題。當然,我們只是透過最簡單的 Safety CoT 做出了安全視覺推理的初步探索,如何用更加複雜高效的方法提升模型的安全視覺推理能力,從而完全克服安全微調瓶頸是非常有趣的問題。

參考文獻

更多閱讀



#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
