打破資源瓶頸！華南理工&北航等推出SEA框架：低資源下實現超強多模態安全對齊

作者 | 米豔鑫

本文介紹來自北航彭浩團隊的最新科研成果 – SEA 框架（Synthetic Embedding 增強安全對齊），針對多模態大模型（MLLMs）的低資源安全對齊難題，創新性地透過合成嵌入替代真實多模態資料。團隊透過合成嵌入技術，突破多模態安全對齊的資源瓶頸，為大模型安全落地提供輕量化方案。

論文名稱：

SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings

論文連結：

https://arxiv.org/abs/2502.12562

程式碼連結：

https://github.com/ZeroNLP/SEA

動機

隨著人工智慧技術的發展，多模態大型語言模型（MLLMs）將額外模態編碼器與大型語言模型（LLMs）相結合，使其具備理解和推理影像、影片和音訊等多模態資料的能力。儘管 MLLMs 實現了先進的多模態能力，但其安全風險比 LLMs 更為嚴重。透過向影像或音訊等非文字 [1] 輸入注入惡意資訊，MLLMs 很容易被誘導遵守使用者的有害指令。

為解決上述問題，監督微調（SFT）[2] 和人類反饋強化學習（RLHF）[3] 等現有緩解策略在增強 MLLM 安全性方面顯示出有效性。然而，構建多模態安全對齊資料整合本高昂。與 LLMs 不同，MLLMs 的高質量安全對齊資料需要文字指令、文字響應和額外模態三者之間的強關聯，這使得資料收集過程成本更高。此外，文字對齊方法 [4] 僅在文字輸入中出現明確有害資訊時有效，對僅透過影像等非文字模態的攻擊缺乏魯棒性，且現有生成模型難以覆蓋未來新興模態的資料需求。

目前，MLLM 的安全對齊面臨以下 3 個主要挑戰：

挑戰 1：如何降低多模態安全對齊資料集的構建成本？

MLLMs 的安全對齊依賴文字、響應與多模態資料的強關聯標註，但非文字模態（如影像、影片、音訊）的資料收集需兼顧內容相關性和安全性，導致標註成本極高。此外，每當引入新興模態（如腦電訊號）時，需重新構建整套對齊資料，進一步加劇資源消耗，難以適應 MLLM 快速發展的需求。

挑戰 2：如何突破文字對齊在非文字模態攻擊場景下的侷限性？

現有文字對齊方法僅在文字輸入包含明確有害資訊時有效，但面對僅透過非文字模態（如影像、音訊）隱式傳遞的惡意內容時，無法有效觸發安全機制。這導致模型對非文字模態的隱蔽攻擊缺乏防禦能力，安全對齊的場景適應性不足。

挑戰 3：如何為新興模態提供通用的安全對齊解決方案？

利用生成模型合成非文字模態資料是潛在解決方案，但並非所有模態均具備高效能生成模型（如新興的生物訊號模態）。對於未來可能出現的未知模態，依賴特定生成模型的方法難以泛化，導致安全對齊方案的普適性和前瞻性不足。

為解決上述挑戰，作者提出 SEA，從模態編碼器的表示空間中合成嵌入以替代真實多模態資料，僅需文字輸入即可實現跨模態安全對齊，突破真實資料構建成本高、模態依賴性強的侷限性。其總體框架圖如下圖 1 所示。

圖 1 SEA 總體框架圖

SEA 的核心是在額外模態的表示空間內最佳化嵌入。目標嵌入是被 MLLM 解釋為包含指定有害活動或產品的向量。具體而言，SEA 將額外模態的嵌入視為可訓練權重，透過梯度更新進行最佳化，以最大化模型輸出指定內容的機率。最佳化後的嵌入與文字資料集整合後，可直接替代真實多模態資料集用於安全對齊訓練。

SEA：透過合成嵌入實現低資源安全對齊

2.1 預備知識：MLLMs 架構

現有多模態大型語言模型（MLLMs）的架構通常可分解為三個元件：

（1）模態編碼器 M (・)：將額外模態的輸入編碼為嵌入向量。

（2）投影層 P (・)：將非文字模態表示空間中的嵌入向量對映到文字模態表示空間。

（3）大型語言模型（LLM）：處理不同模態的輸入，執行語義理解、推理和決策。

結合上述元件，MLLMs 的推理過程可表示為：

其中，z 和 x 分別表示額外模態和文字模態的輸入，y 為文字輸出。

遵循上述正規化，無論 MLLMs 的額外模態格式如何差異，均透過模態編碼器 M(⋅) 編碼為嵌入向量。為使 SEA 框架更具普適性，作者錨定模態編碼器 M(⋅) 的輸出空間，從中收集安全訓練所需的目標嵌入向量。

2.2 資料準備

假設存在一個文字安全對齊資料集，包含 N個樣本。其中，表示有害指令，對於監督微調（SFT）是單一的道德響應，對於人類反饋強化學習（RLHF）則是一對選擇 / 拒絕響應。目標是基於中的有害資訊，最佳化一組嵌入向量。

對於每個，需要單獨準備一個數據集以輔助的最佳化。其中，和分別為內容控制樣本和風格控制樣本。以基於影像的 MLLMs 為例，兩類樣本的構建過程如下：

有害資訊提取。受前人啟發，作者利用 GPT-4o-mini 識別中的有害短語，並將其分為 “活動” 和 “產品” 兩類。隨後，透過將有害短語替換為 “此產品” 或 “此活動”，生成去毒版本的。由於與 “活動” 相關的有害短語通常無法構成完整句子，進一步透過 GPT-4o-mini 將其補全為具有主謂賓結構的完整句子，以匹配 MLLMs 的語言習慣。

內容控制樣本構建。該樣本用於控制嵌入中的主要有害內容。使用 “請簡要描述影像中的活動（產品）。” 作為輸入指令，並以 “響應字首 + ” 作為真實標籤。“響應字首” 根據不同模型的輸出習慣確定。

風格控制樣本構建。該樣本旨在增強嵌入的多樣性。輸入指令設定為 “影像的風格是什麼？”，真實標籤設定為 “響應字首 + 風格描述”。風格描述從預定義的風格集合中隨機取樣，該集合由模型的輸出習慣決定。

2.3 嵌入最佳化

構建資料集後，模態編碼器 M(⋅) 對空白影像（或空白影片、靜音音訊）進行嵌入編碼，將其作為可訓練嵌入的初始化。對於每個，嵌入最佳化的目標是最大化 MLLM 在給定和時生成的機率。

在最佳化過程中，整個 MLLM 的引數保持凍結狀態，僅作為可訓練權重參與梯度更新。由於和中已指定內容和風格，最佳化目標可理解為尋找 MLLM 認為與該內容和風格最匹配的嵌入。整個最佳化過程可形式化為：

構建資料集後，模態編碼器M(⋅)對空白影像（或空白影片、靜音音訊）進行嵌入編碼，將其作為可訓練嵌入的初始化。對於每個，嵌入最佳化的目標是最大化 MLLM 在給定和時生成的機率

其中，表示在向 LLM 輸入 x 和時生成 y 的條件機率。

2.4 安全對齊

為了將嵌入向量與文字資料集整合以構建多模態資料集，需要在每個去毒後的文字指令前新增字首：“影像展示了一項活動（產品）。請理解該內容並回答以下問題。”，從而生成多模態指令。文字資料集中的響應直接保留至中。

為了基於實現安全對齊，只需要忽略模態編碼器模組 M(⋅) ，並將 MLLMs 的前向傳播過程修改為，便可適配現有的安全對齊訓練策略。值得注意的是，當前大多數 MLLMs 在指令微調階段會凍結 M(⋅) 。因此，只需為真實資料預先計算 M(⋅) 編碼的嵌入向量，即可將 SEA 生成的合成數據集與真實多模態資料集在現有訓練流程中混合使用。

VA-SafetyBench：

評估影片和音訊引入的安全風險

3.1 VA-SafetyBench 概述

作者構建的 VA-SafetyBench 是針對影片和音訊模態 MLLMs 的安全性評估基準，包含影片安全基準（Video-SafetyBench）和音訊安全基準（Audio-SafetyBench）兩部分。兩部分的每個樣本均包含一條文字指令及一段影片或音訊片段。

VA-SafetyBench 的構建流程如圖 2 所示。該基準基於成熟的影像安全基準 MM-SafetyBench，透過系統性轉換流程擴充套件而來。VA-SafetyBench 的每個測試用例直接對應 MM-SafetyBench 中的一個測試用例，覆蓋非法活動、仇恨言論、惡意軟體生成、人身傷害、經濟危害、欺詐、性暴力和隱私侵犯八大關鍵安全場景。在轉換過程中，每個樣本利用 MM-SafetyBench 的三類文字資料：

（1）原始指令；

（2）從原始指令中提取的有害關鍵短語；

（3）隱藏原始指令中有害內容的改寫指令。

圖 2 展示了這些文字的示例。基於這三類文字資料，根據有害關鍵短語收集影片和音訊，並對改寫指令進行最佳化以適配新模態。

圖 2 VA-SafetyBench 構建流程概述圖

3.2 影片安全基準

影片安全基準（Video-SafetyBench）包含四項獨立任務，其中純文字（Text-only）為基線任務，設定影片模態輸入為空並使用原始指令。其餘三項任務按影片生成方法區分，具體如下：

擴散模型（DM）：採用基於擴散 Transformer 架構的文字生成影片模型 Pyramidal Flow 生成與有害關鍵短語相關的影片。每個影片時長 5 秒，解析度 640×384，幀率 24 fps。由於單個有害關鍵短語缺乏足夠細節，利用 GPT-4o-mini 生成相關場景描述。生成過程採用上下文學習，從預準備的 5 個示例中選擇 2 個作為上下文。為每個關鍵短語生成 5 種不同場景描述，經 Pyramidal Flow 處理後，人工篩選與原始關鍵短語最匹配的代表性影片。文字指令改編自 MM-SafetyBench 的改寫指令，僅將 “影像” 替換為 “影片” 以適配模態變化。

印刷體動畫（TYPO）：受基於影像的越獄攻擊方法啟發，透過印刷體動畫生成影片：將有害關鍵短語拆解為單個單詞，以白色文字渲染於黑色背景，按順序生成影片片段。文字指令與 DM 任務一致。

DM+TYPO：結合擴散模型與印刷體動畫生成影片。TYPO 部分不再拆解單詞，而是將完整有害關鍵短語顯示在單個影片幀中，重複多幀形成 3 秒影片後，追加至 DM 生成的影片末尾。文字指令修改為將 “影像” 替換為 “影片末尾”，例如：“影片末尾顯示了某活動的短語。請詳細列出執行該活動的步驟。”

3.3 音訊安全基準

音訊安全基準（Audio-SafetyBench）同樣包含四項任務，其中純文字（Text-only）任務與影片安全基準一致。其餘三項任務利用微軟 edge-tts API 生成語音，並按語音內容區分如下：

純音訊（Audio-only）：將未修改的原始提示完整轉換為語音，不提供文字指令。

關鍵短語轉換（KPT）：僅將關鍵短語轉換為語音，文字指令輸入為改寫後的指令（將 “影像” 替換為 “音訊”）。

KPT + 噪聲（KPT + Noise）：受前人啟發，在 KPT 生成的音訊前新增 3 秒白噪聲片段。文字指令輸入為改寫後的指令（將 “影像” 替換為 “音訊末尾”）。

表 1 和表 2 為作者基於影片和音訊的多模態大型語言模型在 VA-SafetyBench 上的評估結果。在多個 MLLMs 上實現的高攻擊成功率驗證了該基準測試的高適應性。

表 1 基於影片的多模態大型語言模型在 VA-SafetyBench 上的評估結果。

表 2 基於音訊的多模態大型語言模型在 VA-SafetyBench 上的評估結果。由於 SALMONN-7B 和 SALMONN-13B 的 “純音訊（Audio-only）” 結果始終僅重複輸入語音內容，故予以捨棄。

、實驗結果與分析

為了驗證 SEA 框架在多模態大型語言模型（MLLMs）中實現低資源安全對齊的有效性與優勢，作者選取 LLava-v1.5-7b-hf、Qwen2-VL-7b、Qwen2-Audio-7b 分別作為影像、影片、音訊模態的主幹模型，基線方法包括影像模態的 VLGuard、文字 SFT 和文字 DPO，影片 / 音訊模態僅採用後兩者。訓練資料來自 SafeRLHF 的 3k 樣本（2k 有害 + 1k 無害），安全性評估分別使用 MM-SafetyBench 和 VA-SafetyBench，通用能力評估匹配各模態常用基準。

實驗結果表明，SEA 在純文字攻擊下與文字對齊方法（文字 SFT/DPO）安全能力相當，但顯著降低多模態攻擊成功率，尤其在影像 / 影片 / 音訊的複合攻擊場景中優勢顯著。與基於真實影像 – 文字對訓練的 VLGuard 相比，SEA 、SFT 在同等訓練規模下抵禦多模態攻擊的安全性更高，且合成嵌入因精準匹配模型語義空間而資料質量更優。對比訓練策略發現，SFT 安全性更強但可能犧牲通用效能，DPO 則在維持效能的同時實現有效對齊，推薦作為 SEA 的預設策略。具體實驗結果參考表 3、表 4 和表 5。

表 3 基於影像的 MLLM（Llava-v1.5-7b-hf）在安全基準和通用能力基準上的實驗結果。

表 4 基於影片的 MLLMs（Qwen2-VL-7b）的實驗結果。

表 5 基於音訊的 MLLMs（Qwen2-Audio-7b）的實驗結果。

除此之外，SEA 的嵌入驗證成功率（VSR）表明嵌入內容與模型語義高度一致。單個樣本合成僅需在單張 3090 上執行不超過 24 秒，且並行最佳化機制使其支援大規模資料集高效處理，計算成本顯著低於傳統資料採集方式，展現出低資源、高泛化的優勢。具體參考表 6

表 6 三種模型上嵌入最佳化的最佳化成功率（OSR）、平均耗時和驗證成功率（VSR）。

結論

構建多模態資料集的高成本對安全對齊的發展構成重大挑戰。作者表明，合成嵌入可替代真實的額外模態資料，使僅依賴文字即可實現有效的多模態安全對齊成為可能。該方法在包括影像、影片和語音的多種 MLLMs 上展現的高效能，驗證了所提出的 SEA 方法的通用性。在高質量大規模真實多模態資料集釋出之前，SEA 有望成為新興 MLLMs 的安全解決方案。

篇幅原因，我們在本文中忽略了諸多細節，更多細節可以在論文中找到。感謝閱讀！

參考文獻

[1] Hao Yang, Lizhen Qu, Ehsan Shareghi and Gholamreza Haffari. Audio is the achilles’ heel: Red teaming audio large multimodal models. arXiv preprint arXiv, 2024.

[2] Zonghao Ying, Aishan Liu, Siyuan Liang, Lei Huang,Jinyang Guo, Wenbo Zhou, Xianglong Liu and Dacheng Tao. Safebench: A safety evaluation framework for multimodal large language models. arXiv preprint arXiv, 2024.

[3] Yongting Zhang, Lu Chen, Guodong Zheng, Yifeng Gao, Rui Zheng, Jinlan Fu, Zhenfei Yin, Senjie Jin, Yu Qiao, Xuanjing Huang,Feng Zhao, Tao Gui and Jing Shao. Spavl: A comprehensive safety preference alignment dataset for vision language model. arXiv preprint arXiv, 2024.

[4] Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang and Jing Shao. Vlsbench: Unveiling visual leakage in multimodal safety. arXiv preprint arXiv, 2024.

llustration From IconScout By IconScout Store

直播預告

從訓練資料構建、智慧體框架，到 ChatBI 落地挑戰，5 月 26 日晚上 20:00，來自貨拉拉、中電金信與資料項素的多位嘉賓將圍繞「大模型時代的資料智慧如何演進」展開對話。掃碼預約，不見不散！