

介紹
多模態大型語言模型(MLLMs)的高速發展彰顯了其在處理圖文資訊方面的強大潛力。然而,目前的多模態模型和方法主要集中於處理基礎視覺問答(VQA)任務,這些任務通常只涉及與問題強相關的有限圖片和文字資訊。
在實際應用中,尤其是文件理解領域,模型經常需要處理更為複雜的圖文混合輸入,這些輸入不僅長度更長,而且可能包含冗餘甚至誤導性的資訊。現有的主流 MLLMs 在處理此類複雜任務時表現不佳,且缺乏相應的 Benchmark 來評估模型在這些任務上的效能。
近日,來自廈門大學紀榮嶸團隊提出了一個全新的多模態任務——交錯圖文閱讀理解(Interleaved Image-Text Comprehension, IITC)。該任務要求模型處理包含複雜圖文交錯資訊的輸入,並在回答問題時明確指出其參考的圖片。為了有效評估和提升模型在 IITC 任務上的表現,他們構建了 VEGA 資料集。該資料集專注於科學論文的理解,包含超過 50,000 篇科學論文的圖文資料。
作者對 Qwen-VL-Chat 模型在 VEGA 資料集上進行了微調,並採用了一種多尺度、多工的訓練策略,得到 VEGA-Base 模型。實驗結果顯示,該模型在 IITC 任務中的影像關聯準確率方面達到了 85.8%,為 IITC 任務建立了一個強有力的 Baseline。目前,VEGA 資料集已全部開源,包含 593,000 條論文型別訓練資料,2 個不同任務的 2,326 條測試資料。

文章連結:
https://arxiv.org/pdf/2406.10228
專案連結:
https://github.com/zhourax/VEGA
資料集連結:
https://huggingface.co/datasets/zhourax977/VEGA

圖中展示了 VEGA 提出的 IITC 任務和常見的 VQA 任務的不同:
-
左邊:現有的 VQA 任務以少量的圖片和較短的本文作為輸入,且影像和文字資訊與問題往往強相關。
-
右邊:IITC 任務以更長更復雜的圖文交錯內容作為輸入,且包含冗餘和具有誤導性的資訊,模型在回答時要求指明其參考的影像。

方法
2.1 任務定義
我們共提出了兩個任務用於評估模型處理圖文交錯輸入的能力,其具體定義如下:

-
IITC 任務以包含冗餘資訊的圖文交錯的內容作為輸入,針對其中的一張圖片進行提問,要求模型在回答的時候指明其參考的圖片,最終以回答文字的 ROUGE、BLEU 和參考圖片的正確率共同衡量 IITC 任務的表現。該任務考驗模型根據指令關聯和提取正確文字和影像資訊的能力。
-
ITA 任務將來自多篇文章的文字影像對打亂作為輸入,要求模型回答影像和文字之間的對應關係,以對應關係的準確率來衡量 ITA 任務的表現。ITA 任務的訓練可以提升模型影像和文字之間的關聯能力,進而提升模型在 IITC 任務上的表現。
2.2 VEGA資料集
為了提升和評估模型在 IITC 和 ITA 任務上的表現,作者構建了 VEGA 資料集。VEGA 源自 SciGraphQA 資料集,後者是一個論文圖片理解任務的資料集,包含 295k 個問答對,作者在其基礎上進行了問題篩選;上下文構建;答案修改三個步驟,如下圖所示,得到 VEGA 資料集。

-
問題篩選:原資料集中部分問題缺乏明確的圖片指向,當將輸入的資訊拓展到多圖時會造成理解的混淆。
-
上下文構建:原資料集中問答僅針對一張圖片,且提供的上下文資訊較少。為了拓展文字和圖片的數量作者在 arxiv 上下載了相關論文的原始檔,並構建了 4k token 和 8k token 兩個長度的資料,每個問答對包含至多 8 張圖片。
-
答案修改:作者修改了原資料集中的答案,指明瞭回答時參考的圖片,以符合 IITC 任務的要求。

實驗
作者分別使用 4k token 和 8k token 長度的 VEGA 資料在 Qwen-VL-Chat 7B 上進行了微調,得到了 VEGA-Base-4k和 VEGA-Base-8k模型,使用 8k token 長度的 VEGA 資料及部分私有的圖文交錯資料訓練得到自研模型 VEGA-8k*。
這部分私有資料包含了更廣泛的圖文交錯的應用場景,這使得 VEGA-8k* 具備了更通用的文件圖文理解能力,不僅能夠完成科學論文的閱讀理解任務,在例如:操作手冊理解、遊玩攻略總結、金融財報分析等任務上也表現優異(具體樣例在文末展示)。
作者在 VEGA 的 IITC 和 ITA 子集上對現有的支援多圖輸入的主流 MLLMs 進行了測試,具體結果如下:

從結果中我們可以觀察到,Qwen-VL-Chat 在多個任務中的效能相對較弱,這主要歸因於它在遵循指令方面的不足。
相比之下,經過在 VEGA 資料集上微調的 VEGA-Base-4k 模型和 VEGA-8k* 模型,在 IITC 和 ITA 任務上均展現出了卓越的效能,甚至超越了一些主流的閉源模型,達到了 SOTA 水平。
這強有力地證明了 VEGA 資料集在提高模型處理圖文交錯輸入方面的有效性。
作者還分別使用 SciGraphQA 和 VEGA 資料集對模型進行訓練並測試其在 SciGraphQA 和 IITC 任務上的表現,其具體結果如下(表格中 VEGA* 代表了舊版本的 VEGA 資料集):

測試結果顯示,VEGA 資料集訓練的模型在兩個任務上的表現都較好,而經過 SciGraphQA 訓練的模型則無法很好地處理 IITC 任務,這表明經過 VEGA 資料集的訓練,不僅提升了模型處理長的圖文交錯輸入的能力,也維持了模型在處理傳統 VQA 輸入模式的能力。

效果展示
在本章節中,作者進一步展示了在實際場景中多模態閱讀理解模型 VEGA-8k* 的效果。作者選取了金融、汽車說明書以及旅遊介紹三類場景,設定了難點不同的場景任務 case,對比本文提出的 VEGA-8k* 以及一些開源模型產品的結果。
在實際測試過程中,作者將下列不同難點場景的 case 中 context 的內容轉換成 PDF 的形式分別對文心一言、通義千問、KimiChat、騰訊元寶、Gemini 和 Gemini 等多個多模態產品進行測試對比:
【Case 1】說明書場景中針對自然影像的閱讀理解
Case難點:使用者針對說明書文件中的自然影像進行提問,答案不存在於文件的文字描述中,因此,需要模型對自然影像進行理解後做出回答,並輸出對應影像。
從結果中不難發現,目前其他模型多模態模型產品均傾向於直接從文字中獲得答案而忽略了圖片中的內容。而 VEGA-8k* 則能對文字和影像內容進行聯合理解,並根據影像內容給出準確的答案。

【Case 2】說明書場景中輸入圖片進行提問
Case難點:聯合理解使用者輸入的圖片和文字內容,根據文件內容進行回覆。從結果中不難發現,目前,KimiChat 不支援輸入不帶有文字內容的影像,文心一言、通義千問和騰訊元寶的線上產品均僅支援圖文問答,即根據圖片內容回答使用者問題,而無法將輸入的圖片作為問題的一部分進行理解,並根據文件內容進行回覆。
目前,僅 VEGA-8k*、Gemini 和 GPT-4o 支援該功能。

【Case 3】金融場景中針對資料圖片的閱讀理解
Case難點:理解文字內容,結合影像裡的資料內容回答使用者問題。從該 case 的結果中可見,文心一言、騰訊元寶和 Gemini 均沒有對文件中的資料圖進行理解,而通義千問、KimiChat 雖然在【Case 1】中沒有理解文件裡的自然影像,但在該樣例中對於資料型別的影像有著較好的理解能力。
但除了 VEGA-8k* 之外,其他模型均不具備輸出相關影像作為輔助說明的能力。

【Case 4】旅遊介紹場景中總結全文的圖文關聯
Case 難點:聯合理解文字和圖片內容,根據文字和圖片之間的關聯性,總結文字摘要的同時,在正確的位置輸出圖片。從結果上來看,所有模型都有著較好的指令跟隨能力,能夠輸出指定的圖片格式 “[Picture *]。
但是,大部分的模型幾乎都是機械式地輸出文字附近的圖片下標,而沒有真正去理解圖片內容,Gemini甚至出現了幻覺([Picture 8, Picture 9])只有 VEGA-8k* 和 GPT-4O 能夠正確理解理解圖文之間的關聯性,給出出圖率和準確率都較高的回答。

【Case 5】論文場景中的資料圖理解
Case難點:論文資料圖的相似度較高,需要細節化理解圖片內容,找到正確的對應圖片。從結果中不難發現,騰訊元寶沒有正確跟隨指令,導致沒有輸出圖片佔位符,而其他模型對於相似圖片的區分度較低,且易受到文字內容的干擾,甚至於 GPT-4V 也出現了誤判情況,
例如:Figure 4 和 Figure 5 非常相似,但根據兩圖的 x 軸和 y 軸標籤,我們可以確認問題是針對 Figure 5 提出的。現有模型未能有效捕捉到圖片間的差異,因此未能給出正確的答案。而 VEGA-8k* 由於經過了較多的論文資料訓練,對於資料影像細節的區分度較高,輸出更加準確。
在一些問題指向更明確,圖片之間差異更大的樣例中,如第二個 case,大多數模型可以正確地找到圖片和問題之間的對應關係,少部分模型如文心大模型-3.5 和騰訊元寶,在指令跟隨和圖文關聯能力上存在不足,可能會出現拒答或無法關聯圖片的情況。


更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
·
