
近期多模態大模型(MLLM)在視覺文字理解領域取得了顯著進展,比如開源模型 InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey,閉源模型 GPT-4o、Claude 等,甚至在某些方面展現了超越人類的能力。然而,當前的評估主要集中在英文和中文的語言環境中,對於更具挑戰的多語種環境,研究還相對缺乏。在全球化的今天,多語言環境越來越多的出現在人們日常生活中,也給人工智慧的發展帶來了很大的挑戰。
MTVQA(Multilingual Text-Centric Visual Question Answering)基準測試正是在這樣的背景下應運而生,專注於以多語言文字為中心的視覺問答,旨在填補現有評測基準在多語種視覺文字領域的空白。
MTVQA 涵蓋了阿拉伯語、韓語、日語、泰語、越南語、俄語、法語、德語和義大利語等 9 種語言,收集整理了自然場景和文件場景下的多語種富文字圖片,如選單、路標、地圖、賬單、PPT、論文、圖表等。問答對都經過人類專家的精心標註,以確保視覺文字與問題及答案之間的高度一致性。
在 MTVQA 基準的測試結果顯示,無論是開源模型還是最先進的閉源模型如 GPT-4o(Acc. 27.8%),準確率不到 30%,開源的文件類專家大模型表現也不盡如人意。
無論從哪方面來看,多語種文字理解能力都還有較大的提升空間。MTVQA 重點關注除中英文以外廣泛使用的語言,希望能促進多語種文字理解能力的發展,將多模態大模型的成果普及到更多的國家和地區。

論文連結:
https://arxiv.org/abs/2405.11985
專案連結:
https://bytedance.github.io/MTVQA/

▲ 圖1 MTVQA 中不同語種和場景樣例展示

背景介紹
視覺文字理解能力是多模態大模型能力中的一個關鍵維度,現有的 benchmark 如 DocVQA、TextVQA、STVQA 等在 GPT-4o、Gemini 、Internlm VL 等先進的閉源和開源 MLLMs 的測評中發揮了重要作用,評估了多模態大模型在不同維度的視覺文字理解能力,但是他們都專注於中英文能力的測評,缺少一個能夠測評其他語種理解能力的 benchmark。
針對這些不足,位元組和華科的研究者提出了 MTVQA,首個全面測評多場景多語種視覺文字理解能力的 benchmark。

MTVQA的構建過程
a)資料收集
測試集包括 1220 張泛文件類的圖片和 876 張自然場景的圖片,資料來源可分為三部分:
-
網路收集的圖片,如 PPT、paper、logo 等。
-
實地採集拍攝圖片,包括各種場景,時間跨度 2023 年 3 月到2024 年 3 月。
-
現有公開資料,從 ICDAR MLT19 的公開圖片中取樣了一些具有代表性的場景文字圖片。
b)資料標註
所有 QA 資料均為經過培訓的母語人士進行標註,並進行多輪交叉驗證,確保問題的豐富性和答案的準確性。
標註規則:
-
問題必須和圖片中的文字內容有關
-
每張圖片包括 3 個可以直接問答的問題和 2 個需要進行一定推理的問題
-
答案儘可能和圖片中的文字保持一致
-
答案儘可能簡短,不重複問題的內容

▲ 圖二 MTVQA 資料標註流程
交叉評估和修改:
-
評估問題和圖片中文字內容的相關性 -
評估答案的準確性和完整性 -
道德評估,判斷是否符合人類道德規範
c)資料集概覽

▲ 圖三 MTVQA 涵蓋的豐富場景以及不同語種的 QA 數量

▲ 圖4 Word Cloud

MLLMs在MTVQA Bench上的表現
在 MTVQA 上對 19 個先進的 MLLM 進行來測評,包括開源和閉源模型,測評結果如下:

實驗結果發現:
-
多語種文字理解現階段任然是非常有挑戰性的任務。儘管 GPT-4o 在大部分語種和總體成績上取得了第一名的成績,但是平均準確率只有 27.8,相比於多模態大模型的英文理解能力,差距明顯,更別談和人類的差距了。 -
開源模型和閉源模型存在較大的差距。最優的開源模型是 MiniCPM-V 2.5,取得了 18.9% 的成績,但距離頂尖的閉源模型如 QwenVL Max, Gemini Ultra, Claude3 Opus, GPT-4o 等還比較遠。 -
以文字理解為中心的多模態大模型並沒有明顯的優勢。研究者選取了最近的 3 個以視覺文字理解為中心的 MLLM,mPLUG-DocOwl 1.5,TextMonkey,TextSquare,發現最優的 TextSquare 相比通用 MLLM MiniCPM-V 2.5 並沒有優勢(15.6 vs. 18.9)。 -
不同語種的理解能力差距明顯。拉丁類的語種如義大利語、德語、法語的表現遠好於非拉丁類語種如日語、韓語、俄語。這應該是由於拉丁類語種在視覺和語義上都和英文更相似。


總結
來自字節跳動和華中科大的研究者們針對多語種視覺文字理解任務提出了新的測評基準 MTVQA Bench,並對多模態大模型的表現進行了測評和分析。研究發現,多語種視覺理解任務難度很大,當前多模態大模型表現較差,距離人類的水平還有很長的路要走。研究者們期待後續多模態大模型的研究和發展更加關注多語種場景,擴大多模態大模型的應用範圍,使得更多國家和地區的人們能夠參與其中,共享人工智慧帶來的便利。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
