
如何有效評估大型視覺語言模型(LVLMs)的事實問答能力?傳統的端到端評估基準是否是最佳方案?如何有效標註具有挑戰性的多模態事實問答基準?
VisualSimpleQA 提供了一套解決方案。
有效評估 LVLMs 在 fact-seeking QA 任務中的表現對於其可靠性研究至關重要。目前,主流評測基準多采用端到端評估,即直接對比標準答案和模型生成的多模態問題的答案。
然而,模型由多個模態模組組成,例如用於視覺特徵提取的 ViT 和處理文字知識的 LLM。因此,模型產生的錯誤可能源於視覺識別不準確、文字知識不足,或二者共同作用。僅依賴端到端評估難以明確模型的弱點模組,因此,對模型的事實問答能力進行解耦評估尤為重要。
為此,團隊提出了面向事實查詢的多模態評測基準 VisualSimpleQA,包含 500 條人工標註的高質量評測樣本,其主要優勢包括:
-
簡明的解耦評估框架:提供簡單且易理解的方法,評估模型的語言模組和視覺模組,幫助分析亟待改進的弱點模組。
-
明確的樣本難度標準:相較於現有基準,VisualSimpleQA 明確了一套量化樣本難度的方法,並透過實驗驗證其有效性,這有利於指導標註人員合理控制樣本難度,提高基準的挑戰性。

論文題目:
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
論文連結:
https://arxiv.org/pdf/2503.06492
資料集連結:
https://huggingface.co/datasets/WYLing/VisualSimpleQA

解耦評估框架
樣本設計:解耦評估是 VisualSimpleQA 的核心之一,旨在評估 LVLMs 的特定模態模組。研究人員透過設計 VisualSimpleQA 的樣本形式來支援解耦評估。
圖 1 為一個 VisualSimpleQA 樣本的示例,每個樣本包含了一個多模態事實問答問題(multimodal question)、一個對應的純文字問題(text-only question)以及標準答案(answer)。

具體來說,標註者會對多模態問題標註一個回答依據(rationale),用於指示正確回答該問題所需從影像中識別的關鍵資訊。例如,在圖 1 所示的例子中,關鍵視覺資訊是卡通角色 “Jemima Puddle-Duck”。透過將 rationale 融入多模態問題,可生成改寫後的純文字問題,回答該純文字問題無需依賴任何視覺資訊。
評估方法:如圖 2 所示,語言模組的效能透過純文字問答的表現來衡量,較好的表現表明語言模組具備更好的事實性問答能力。相比之下,視覺模組的效能透過計算從純文字問答轉移到多模態問答的效能下降幅度(relative degradation, RD)來衡量。


樣本難度標準
設計思路:考慮到 LVLMs 的能力在不斷提升,評測基準中包含挑戰性的樣本是非常必要。然而如何標註難樣本呢?VisualSimpleQA 引入明確的標準來評價每個樣本的難度。由於 LVLMs 結合了視覺和語言模組,樣本難度標準涉及到視覺資訊識別和文字知識辨識兩個角度。
(1)視覺資訊識別相關標準
-
解析度(Resolution):影像解析度越低,模型越不容易識別影像中的紋理等視覺特徵,視覺識別難度越大。
-
ROI 佔比(Proportion of ROI):多模態問題的正確回答依賴於精確的視覺定位,即識別感興趣區域(Region of Interest,ROI)的能力。當 ROI 面積較小時,模型可能難以準確識別。
-
回答依據的粒度(Rationale Granularity):回答依據(rationale)是從 ROI 中提取的關鍵資訊,其粒度可以是粗粒度(如識別“熊貓”這一物種)或細粒度(如識別特定卡通角色“皮卡丘”)。一般而言,細粒度的 rationale 識別難度更大。
-
影像中是否存在有用文字(Presence or Absence of Text in Image):部分影像包含文字,可以幫助模型明確 rationale。當前 LVLMs 在 OCR 任務上的表現有明顯提升,正確識別影像中的文字能幫助回答問題。例如,如果影像中的 ROI 是動物園大門,上面寫有 “Singapore Zoo”,OCR 識別出的文字可以成為回答依據,從而簡化任務。
(2)文字知識辨識相關標準
-
知識流行度(Knowledge Popularity):語言模組的訓練語料(如 CommonCrawl、The Stack 和 The Pile)多來源於網際網路,其中包含大量常見的知識。模型對於這些高頻知識的學習通常更充分,因此涉及流行知識的問題難度相對較低,而涉及冷門知識的問題則可能更加困難。
樣本難度標準的驗證:以 GPT-4o 為例,透過對比圖 7 和圖 8 展示的實驗結果,可以驗證模型失敗的樣本傾向於具有更高的視覺識別難度,同樣地,這些樣本也表現出更高的語言知識難度。類似的結果可在其他模型上觀察到。



標註流程
流程概述:VisualSimpleQA 由多名具備至少一年大模型經驗的科研人員標註與驗證。根據影像來源的不同,設計了兩種標註流程(如圖 3 所示),以便於標註人員工作。
對於現有影像資料集,標註者隨機選取影像,並依據難度標準構造樣本。考慮到現有的多模態資料集可能會被用於 LVLM 的訓練,導致引入評測偏差,標註人員特別從網際網路採集了 200 張新影像(佔比 40%),以緩解可能的資料洩漏對評測的影響。

質量控制:參考 SimpleQA 的做法,標註者構建具有無爭議且簡短答案的問題,以便於更客觀和準確的自動評估,同時,需要涉及不同型別的主題,保證多樣性,同時為每個樣本提供證據,證據以官方或正規網頁 url 的形式提供,在網頁中我們能驗證標準答案。
每個樣本被檢查了兩次,低質量樣本被刪除或修改,最終形成 500 個可用樣本,樣本的主題分佈如圖 4 所示。

VisualSimpleQA-hard:基於所設計的難度標註,可以從 500 條標註樣本中提取 129 條更具挑戰性的樣本,組成子集 VisualSimpleQA-hard。

模型評估
主要結論:在 15 個典型的開閉源 LVLMs 上測試了多模態問題和純文字問題。結果顯示,VisualSimpleQA 是一個具有挑戰性的基準,能夠區分不同模型的事實性表現。
即使是先進的模型如 GPT-4o,在 VisualSimpleQA 的多模態問答中僅達到 60%+ 的正確率,在 VisualSimpleQA-hard 中僅達到 30%+ 正確率,且不同模型在基準上的表現差異明顯,證明了該基準在評估多模態事實問答能力上的有效性。RD 指標結果表明,當前前沿 LVLMs 的視覺模組仍有明顯提升空間。


結語
VisualSimpleQA 的提出為評估 LVLMs 的事實問答能力提供了新的思路。明確定義的樣本難度標準不僅提升了標註效率,還能幫助進行更細緻的結果分析。評估結果表明,主流 LVLMs 在視覺和語言模組均存在顯著的改進機會以提高模型事實性。
目前,VisualSimpleQA 已開源至 Hugging Face,期望能為 LVLMs 的事實性研究提供支援,推動該領域的進一步發展。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
