
©作者 | 劉業鑫
單位 | 智源研究院、港科廣
研究方向 | 計算機視覺
多模態大語言模型(MLLMs)因其在視覺理解和推理方面的突出表現,例如生成詳細的影像描述和回答複雜的問題等,逐漸成為近期 AI 研究的熱點。
然而,Bunny 團隊的最新研究發現,儘管許多 MLLMs 對視覺內容能夠正確理解,但在面對誤導性的問題時卻容易給出錯誤答案,如圖 1 所示。團隊基於此揭示了一個隱藏現象:MLLMs 在視覺問答上的錯誤回答,不總是因為效能不足,還可能是由於對誤導性問題缺乏魯棒性。

▲ 圖1. 左圖展示模型能夠正確理解視覺內容,但對於誤導性問題回答錯誤。右圖展示現有的 MLLMs 在回答正向的問題和負向的誤導性問題還存在一定的鴻溝。
為全面衡量 MLLMs 的理解能力及其在正確理解視覺內容後面對誤導性問題時的表現,研究團隊提出了多模態魯棒性基準(MMR-benchmark)和針對魯棒性的評價指標。同時為了提升 MLLMs 針對誤導性問題的魯棒性,研究團隊精心設計了一個包含成對正向和負向視覺問答樣本的訓練集(MMR-data)。實驗結果表明,透過使用 MMR-data,MLLMs 在應對負面問題時的魯棒性得到顯著提升。

MMR benchmark構建及評測指標
MMR benchmark 構建
為了實現全面的定量評估和分析,MMR-benchmark 透過人工精心標註構建了 300 個正向問題和配對的 300 個帶有誤導性的負向問題,每個問題包含 4 個選項,且只有 1 個正確答案。正向問題用來評估模型正確理解視覺內容的能力,而負向問題則評估模型在面對誤導性問題時的魯棒性。如圖 2 所示,MMR-benchmark 涵蓋了字元、屬性和語境 3 個不同粒度層級,包含了總共 12 個類別。

▲ 圖2 MMR benchmark 示例
字元級問題提示識別字符或數字等元素,而屬性級問題則側重於顏色、質地和數量等屬性。語境層面的問題則涉及情感、文化和常識等更高層次的概念。例如,字元級的誤導性問題會改變字元或數字等元素,屬性級的問題會混淆屬性,而情境級的提示則會引入複雜的概念,從而徹底測試模型對誤導性資訊的抵禦能力。
評測指標
我們全面地考慮了 4 種結果型別:
1)理解且魯棒(UR),即正向問題和負向問題都答對
2)理解但脆弱(UF),即答對了正向問題但答錯負向問題
3)不理解但嚴謹(NR),即答錯了正向問題但答對負向問題
4)不理解且脆弱(NF),即正向問題和負向問題都答錯
為量化 MLLMs 對負面問題的魯棒性和實際理解能力,我們引入了“誤導率(MR)”和“魯棒性準確率(RA)”,誤導率(MR)能夠反映出模型面對誤導性問題時的魯棒性,魯棒性準確率(RA)能夠反映出模型在嚴格條件下答對問題的準確率。二者公式如下:

透過結合評估指標 MR 和 RA,我們的 MMR 基準不但可以準確反映模型的基本理解能力,而且能夠深刻揭示模型對具有誤導性提示的問題的魯棒性。

多模態大語言模型在MMR benchmark上表現
下表展示了 6 個閉源模型和 12 個主流開源 MLLMs 在 MMR 基準上的表現。結論如下:
1)儘管理解了視覺內容,但無論是開源還是閉源模型都對負面問題表現出脆弱性。在閉源模型中,GPT-4o 表現最佳;而在開源模型中,Mini-Gemini-HD-34B 以 69.0% 的 RA 指標領先。然而,與 Mini-Gemini-HD-34B 相比,GPT-4o 對負面問題更為敏感,其 MR 為 19.46%,而 Mini-Gemini-HD-34B 為 15.16%。
2)模型特別容易受到涉及字元級細節、數字、位置、背景、專業知識以及語境等問題的影響。
3)模型在具有較高正面理解能力的子類別上往往表現出更強的抗干擾能力。


指令調優資料集構造
為增強 MLLMs 的理解能力和魯棒性,我們提出了一種資料構建方法,利用 GPT-4V 生成成對的正面和負面樣本進行指導調優,如圖 2 所示。包括三個步驟:
1)資訊提取。我們從影像中隱式和全面地提取這些詳細資訊,包括文字、物體屬性、人物特徵、物體之間關係,人物之間關係,事件和整體感知。
2)指導調優資料生成。我們透過提取的資訊生成正面樣本,並構建直接與正面樣本相矛盾的負面樣本。
3)樣本過濾。透過關鍵詞匹配過濾樣本,去除包含不確定答案和冗餘短語的樣本。

▲ 圖3 指令調優資料集構造過程。

實驗結果
透過使用構建的資料集進行實驗,我們在 MMR 基準測試及其他通用基準測試中的結果如下表所示。實驗結果表明,與使用同類資料訓練相比,模型在使用構建的資料集訓練時表現出更優越的效能。這表明,構造的資料集能夠顯著提升模型理解能力和在面對誤導性問題時的魯棒性。


在現有資料集的基礎上,我們加入了一些其他對話資料,總共構建了 649k 的資料集,並使用不同的語言模型進行訓練。透過與其他模型的對比實驗,結果表明,所構建的資料集能夠顯著提升模型效能。具體實驗結果如下表所示。


結語
本研究深入探討了多模態大語言模型(MLLMs)在準確解讀視覺內容並應對負面問題時面臨的挑戰。我們發現,儘管 MLLMs 展示出對視覺內容細緻的理解,但在面對負面問題時往往會出現不準確的答案。
為了量化評估 MLLMs 的表現,我們引入了 MMR 評估框架,旨在全面衡量其對視覺內容的理解和抗負面問題的魯棒性。 同時,我們提出了一種資料構建方法,並引入了高質量的微調資料,以提升 MLLMs的魯棒性和理解能力。這項研究強調了改進評估方法和資料策略對於推動 MLLMs 在實際應用中效能提升的重要性。

資料,程式碼與模型均已開源

論文地址:
https://arxiv.org/abs/2406.10638
專案地址:
https://github.com/BAAI-DCAI/Multimodal-Robustness-Benchmark
benchmark和資料集下載地址:
https://huggingface.co/datasets/BAAI/Multimodal-Robustness-Benchmark
模型地址:
https://huggingface.co/AI4VR/Bunny-MMR-3B
https://huggingface.co/AI4VR/Bunny-MMR-4B
https://huggingface.co/AI4VR/Bunny-MMR-8B
線上demo地址:
http://mmr.dataoptim.org/
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
