
©PaperWeekly 原創 · 作者 | 史文浩
單位 | 電子科技大學

論文題目:
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
論文連結:
https://arxiv.org/abs/2406.17294
開源連結:
https://github.com/HZQ950419/Math-LLaVA

動機和背景
近年來,大語言模型在數學推理中取得優異的表現,隨著多模態大模型的發展,模型能夠處理視覺語言輸入進行多模態數學推理。然而,現有的視覺指令資料集中,每張影像對應有限的問題答案資料對,沒有充分利用視覺資訊來增強多模態大模型的數學推理能力。
為此,我們從多種資料集中收集 4 萬張高質量影像和問答資料對。透過對影像各部分視覺資訊充分提問,以及對問題資料進行增強,構建了一個高質量、多樣化的合成多模態問答資料集,從而增強多模態大模型數學推理的能力。本項工作強調合成高質量的多模態問答資料集在提高多模態大模型數學推理能力方面的重要性。


資料集合成
2.1 源資料收集
我們針對五種需要高水平推理能力的問題任務型別收集了 24 個多模態視覺問答和數學推理源資料集,任務型別包括 Figure Question Answering(FQA),Geometry Problem Solving(GPS),Math Word Problem(MWP),Textbook Question Answering(TQA),Visual Question Answering(VQA)。
在獲取源資料集後,我們根據影像清晰質量和理解複雜度從中挑選高質量,理解難度分佈合適的影像集。具體地,我們使用 GPT4-V 對隨機均勻取樣的 1 萬張影像的清晰度和理解複雜度進行標註,對於影像清晰度,標籤 0 表示影像模糊質量差,標籤 1 表示影像清晰質量好。
影像理解複雜度取決於物體數量、位置關係、細節程度、紋理、材料屬性以及是否涉及數學計算,分值設為 0 到 3 分。之後根據影像標註資料微調影像分類器,分別對源資料集的影像清晰度和理解複雜度進行打分。如下表所示,包含每個源資料集的任務型別、視覺背景以及影像清晰度和理解複雜度的分佈。

我們過濾掉低質量的影像,按影像理解複雜度從簡單到複雜漸進地取樣,由於分值為 3 的影像數量最少,因此收集全部。最終我們根據複雜度 2:3:4:1 的比例均勻選取 4 萬張影像,這些資料的影像資訊多樣且難度逐步遞增。
2.2 資料增強
在收集的多模態問答資料中,每個影像對應有限的問題,沒有充分利用影像的視覺資訊。因此,我們使用 GPT-4V 以 few-shot 的方式為每幅影像生成更多問題答案對。具體地,對於屬於某任務類別的影像,首先將屬於該類別的每個源資料集內部的問題進行聚類,再從每個源資料集的每個聚類中隨機取樣一個問題來共同構建註釋參考。以此,GPT-4V 新合成與原始問題分佈接近,多樣的 20 萬個問答資料對。
我們再使用 GPT-4V 對原始問題進行增強,生成了 4 萬個更復雜的問題,4 萬個簡化的問題和 4 萬個邏輯一致的問題,以進一步提高模型的推理能力和魯棒性。最終我們構建了 36 萬高質量、多樣化的合成多模態問答資料集 MathV360K.

實驗結果
我們使用 MathV360K 對 LLaVA-1.5-13B 進行微調得到我們的模型 Math-LLaVA,並在 MathVista 和 MATH-Vision 資料集上進行了測試。其中 Math-LLaVA 在 MathVista minitest 中達到了46.6%,相對於 base model 提升了 19 個百分點。此外,在更困難的 MATH-Vision 資料集上達到 15.69%,超過了 Qwen-VL-Max(15.59%)。
MathVista minitest 資料集上不同方法模型的測試結果如下:

為了驗證 Math-LLaVA 的泛化性以及使用我們的合成數據微調不會削弱模型在其他領域的推理能力,我們在 MMMU 資料集上進行驗證。MMMU validation 資料集上不同方法模型的測試結果如下:

我們對資料收集和增強方式進行消融實驗,結果如下,說明我們的資料收集和不同增強方法都能提高多模態大模型的數學推理能力。

此外,為了探究對每種任務型別的源資料進行增強的有效性,結果如下:


總結
我們構建了一個高質量和多樣化的多模態問答資料集 MathV360K,可供社群在多模態大模型上使用,我們的合成數據集充分利用了影像的視覺資訊進行提問並對原始問題進行增強,提高了多模態數學問題的廣度和深度,可進一步提高多模態數學推理能力和模型魯棒性。
透過使用 MathV360K,我們對 LLaVA-1.5 進行微調得到 Math-LLaVA,顯著提高了其多模態數學推理能力,在 MathVista testmini 上取得 46.6% 的準確率,比基礎模型提高了 19%。在 MATH-Vision 資料集上達到 15.69%,超過了Qwen-VL-Max 的 15.59%。此外,Math-LLaVA 還在 MMMU 資料集上展現了一定的泛化性。對於未來的工作,我們將引入帶註釋的中間步驟,構建更全面、更高質量的資料集,進一步增強多模態大模型的推理能力。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
