多模態長文字理解測評首發：46款模型無一攻克128K難關

MMLongBench團隊投稿量子位 | 公眾號 QbitAI

多模態長文字理解有綜合性的評判標準了！

來自香港科技大學、騰訊西雅圖AI Lab、愛丁堡大學、Miniml.AI、英偉達的研究者聯合提出了MMLongBench，旨在全面評估多模態模型的長文字理解能力。

隨著多模態大模型的單次推理的文字視窗快速提升，長上下文視覺-語言模型（Long-Context Vision-Language Models; LCVLMs）應運而生，使模型能夠在單次推理中處理數百張影像與較長的交錯文字。

但當前，由於評估多模態長文字的基準測試稀缺，現有的測試集僅關注單個任務，比如大海撈針或者長文件問答。目前尚不清楚現有的模型在長上下文環境下的綜合表現，具體在哪些任務上存在短板，以及它們對不同輸入長度變化的適應能力究竟如何。

MMLongBench覆蓋5大型別任務的16個不同的資料集，包含13,331個長文字樣本，涵蓋Visual RAG、大海撈針 (needle-in-a-haystack)、many-shot in-context learning、長文件摘要和長文件VQA。同時，豐富的任務設計兼顧了多樣的影像型別，既包括自然影像（如實景照片），也涵蓋了各類合成影像（如diffusion生成的圖片和PDF文件截圖）。

該資料集還提供了跨模態長度控制：使用image patch和text token來計算上下文長度，嚴格標準化8K/16K/32K/64K/128K輸入長度。

其評測資料集以及評測程式碼現已全部開源。

作者對46個領先的多模態大語言模型進行基準測試，其中包括Gemini-2.5-Pro、Claude-3.7-Sonnet、GPT-4o和Qwen2.5-VL-72B。

結果顯示，無論閉源還是開源模型，在長上下文視覺-語言任務上都面臨較大挑戰，仍有巨大的提升空間。

此外，進一步的錯誤分析表明，(1) OCR能力和 (2) 跨模態檢索能力仍然是當前LCVLMs在處理長文字時的瓶頸。

多工多模態長文字測試集

多工的資料構建

MMLongBench是一個包含了13,331個多模態長文字樣例的大規模基準，涵蓋五大具有挑戰性的任務，分別是Visual RAG， Needle-in-a-Haystack，Many-Shot ICL，Summarization和Long-Document VQA。

這些任務旨在從多角度考察Long-Context VLMs (LCVLMs)對長文字下游任務的理解能力，提供一個完整詳細的評估。

MMLongBench充分利用了現有的高質量多模態資料資源，系統性地篩選和整合了16個公開的、多樣化的多模態資料集。所有問題和答案均來源於原始資料集。為了支援長上下文能力的評估，作者對原始資料進行了上下文長度控制，將原本較短的樣本擴充套件至8K-128K token的上下文長度，並將較長樣本進行截斷，以適配不同長度的測試需求。

例如在Visual RAG任務中，研究團隊從Wikipedia中檢索與問題相關的段落，將其拼接為長上下文，以模擬真實的Visual RAG應用場景。同時，在summarization任務中，作者選用長PDF文件作為輸入，並對文件末尾進行截斷，以滿足不同上下文長度的需求。

跨模態長度控制

現有多模態長文字資料集通常以圖片數量作為樣本長度的衡量標準，而忽略了不同圖片的尺寸差異以及問題中的文字內容。為了統一不同資料集的樣本長度，MMLongBench將文字Token和圖片patch共同計入總輸入長度，而不是僅以圖片數量粗略衡量樣本長度。

具體來說，作者採用Llama2的分詞器計算文字token數量，並將每張圖片劃分為14×14的patch，同時應用2×2的pixel unshuffle操作以壓縮視覺token數量。這種處理方式相容當前主流的多模態大模型，例如Qwen2.5-VL和InternVL3，能夠更真實地反映不同樣本的實際輸入長度，也使跨資料集的評估更加公平和標準化。

同時，MMLongBench為每個樣本都提供了8K、16K、32K、64K和128K五種長度的上下文，便於分析模型在不同長度下的表現變化。此外，這一設計也支援進一步擴充套件至更長的輸入長度，滿足未來模型發展需求。

總體來說，透過多工的資料構建和跨模態長度控制，MMLongBench為當前多模態大模型的長文字能力提供了更加完整和細緻的評估。以下是MMLongBench和現有資料集的對比:

效能評估

研究團隊對46個領先的LCVLMs進行了全面評估，其中包括閉源模型Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet，以及多種開源模型，例如Qwen2.5-VL-72B、InternVL3-38B。結果發現，無論是閉源還是開源的多模態大模型，在長上下文視覺-語言任務上都面臨較大挑戰，仍有巨大的提升空間。

發現1：所有模型在長上下文視覺-語言任務上都面臨較大挑戰

總體來看，所有模型在長上下文任務上都表現不佳。在128K token長度下，InternVL3-38B、Qwen2.5-VL-72B和Gemma3-27B這些頂尖的開源多模態大模型獲得的平均分僅為49.8、48.7和51.2。GPT-4o的平均分也只有62.9，並且得分最高的閉源模型Gemini-2.5-Pro也沒有超過80分。

發現2：推理能力更強的模型往往在長上下文任務中表現得更好。

團隊在評測中引入了 Gemini-2.0-Flash-T (gemini-2.0-flash-thinking-exp-01-21)，它是 Gemini-2.0-Flash 的推理版本。從結果來看，推理能力能夠在所有任務上持續提升 Gemini-2.0-Flash的表現。在summarization和DocVQA任務上的提升則分別達到了25.3%和10.1%。此外，Gemini-2.5系列模型作為原生的推理模型，表現則更為強勁。

發現3：單一任務的效能難以有效反映模型的整體長上下文能力

基於模型的分數，研究團隊計算了不同任務之間的 Spearman 相關係數。結果發現，不同類別之間的相關性普遍不高（低於0.85）。這表明，僅依賴單一任務的效能難以全面反映模型的整體長上下文理解能力，也進一步證明了MMLongBench採用多樣化下游任務進行評估的必要性。

錯誤分析 (Error Analysis)

研究團隊進一步針對模型在Long-Document VQA和Visual RAG任務上的表現進行了分析。

1. OCR能力是處理長文件輸入時的瓶頸

研究人員將PDF格式的文件透過OCR技術轉化為純文字（w/ OCR），再輸入到模型當中。總體來看，使用影像格式的PDF文件輸入和OCR提取的純文字輸入並沒有絕對的優劣。Qwen2.5-VL系列模型在大多數情況下對影像格式的PDF文件處理效果更佳，而Gemma3-27B則在較短輸入長度（≤ 32K）時更偏好純文字。

此外，研究團隊還根據答案來源將樣本細分為兩類：純文字 (text-pure) 和需要視覺理解 (vision-needed) 的樣本。結果顯示，在需要視覺理解 (vision-needed) 的樣本上，模型使用影像格式的PDF文件輸入能夠獲得更高的分數；而在純文字 (text-pure) 樣本上，尤其是在64K和128K的長輸入下，OCR提取的純文字輸入能帶來更好的效果。同時，當使用OCR提取的文字時，將LCVLMs替換為相應的純文字大語言模型 (Qwen2.5-7B和Qwen2.5-32B，圖中為w/ LLM），在text-pure樣本上能獲得更好的效果。

這表明，當前LCVLMs在處理長文件輸入時，OCR能力仍然是一個瓶頸。未來的工作可以考慮結合兩種輸入以進一步提升效能。

2、跨模態檢索能力限制長文字表現

研究團隊還對現有模型在Visual RAG任務中的錯誤來源進行了分析。研究團隊將ViQuAE (Visual RAG任務中的資料集) 中的圖片替換為對應命名實體的名稱，從而所有樣本都變為純文字輸入 (w/ name)。將這些純文字的問題輸入到LCVLMs中，結果顯示，所有模型的表現都有不同程度的提升，其中Gemma3-27B在128K長度下提升最大，達到了26.4。這表明現有的LCVLMs在跨模態資訊檢索方面存在瓶頸限制長文字能力。

此外，將這些問題輸入到Qwen2.5-VL對應的LLMs當中 (Qwen2.5-7B和Qwen2.5-32B，圖中為w/ LLM), 也能提升模型表現。這說明在LCVLMs訓練過程中，多模態能力與純文字的長上下文能力之間存在tradeoff。

論文：https://arxiv.org/abs/2505.10610主頁:https://zhaowei-wang-nlp.github.io/MMLongBench-page/程式碼:https://github.com/EdinburghNLP/MMLongBench資料集:https://huggingface.co/datasets/ZhaoweiWang/MMLongBench

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —