多模態大模型事實正確性評估:o1最強,模型普遍過於自信,最擅長現代建築/工程技術/科學

淘天集團未來生活實驗室 投稿

量子位 | 公眾號 QbitAI
OpenAI o1視覺能力還是最強,模型們普遍“過於自信”!
這個結果來自首個面向事實知識的中文視覺問答基準ChineseSimpleVQA
該基準測試包含2200個高質量問題,覆蓋了8個主要話題和56個子話題,這些問題涉及從人文到科學和工程等多個領域,由淘天集團未來生活實驗室團隊推出。
據介紹,這是第一個系統性地衡量視覺大模型事實準確性的中文評測集,可以全面探測模型在各個領域的視覺識別能力和知識水平。
也是繼提出Chinese SimpleQA 和Chinese SafetyQA之後,淘天集團演算法技術未來生活實驗室團隊再次提出面向多模態大模型的事實知識評測基準。

1100幅圖片和2200個問答對作為終版資料集

Chinese SimpleVQA貢獻了一個嚴謹的資料構建流程,其將視覺事實性解耦為兩個部分:
  • 觀察世界(即主體識別)
  • 發現知識
這種解耦方法方便分析多模態大模型的知識邊界及執行機制。
具體來說,Chinese SimpleQA的構主要分為自動化問答對生成和質量控制兩個階段:
第一階段,QA對生成。
為了建立基於事實知識的視覺問答對,研究者從維基百科的“每日圖片”欄目收集了6546個圖文對,每張圖片對應一個平均長度為723個字的百科類文字。
問答對的構建主要包括以下三個流程:
  • 物件識別問題:識別圖片中的主要物件並提出相關問題。
  • 知識問題生成:基於識別物件的百科文字,提出更深入的知識問題。
  • 合併問答:整合視覺和知識問題,形成複雜的兩跳問題。
在自動生成問答對時,需要遵循包括問題應僅基於圖片資訊、答案唯一且明確、基於事實知識及其難度等要求。
同時,需要保留每張圖片的首尾問答對作為最終評測集。
第二階段,質量控制。
包括自動驗證
研究團隊開發了一種多輪自動化方法驗證生成的問答對,重新生成或過濾不符合標準的問題。
透過該過程,該步共保留了5009幅圖片和10018個合格的問答對。
難度篩選
為了提升基準的難度和識別模型的知識邊界,作者們過濾掉了簡單問題。
具體來說,如果某個問題能被四個強大模型,即GPT-4o (0806)、Claude 3.5 Sonnet、Gemini 1.5 Pro和Qwen-VL-Max全部正確回答,則認為該問題過於簡單並被淘汰。
該步保留了3058幅圖片和6116個問答對。
人工驗證。
由23名標註人員進行資料驗證和重寫,確保問答對符合標準;6名工程師進行復核和篩選,確保資料高質量。
主要操作包括:1)驗證並重寫不符合標準的問題或答案;2)替換不合格或不具代表性的圖片;3)透過搜尋引擎核實答案的準確性。不符合標準的對被淘汰。
在這個步驟中,僅保留人工標註與自動驗證完全一致的問答對。
資料脫敏
為確保資料安全,研究者將最終資料集提交給6位安全審計員進行全面審查;每條資料至少由2位審計員交叉檢查,只有透過審查的資料才被保留。
經過上述處理後,最終挑選了1100幅圖片和2200個問答對作為終版資料集。

o1-preview表現最佳

Benchmark構建完成後,團隊對13個閉源模型和21個開源模型的全面評測和分析,並分別給出這些模型在影像主體識別和知識擴充套件問題上的排名情況。
其中,最佳表現模型為o1-preview
結果顯示,o1-preview在識別問題和知識擴充套件問題上表現最佳,其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。
在注重中文能力的模型中,Qwen-VL系列表現最為突出。
此外,研究團隊還觀察到三個現象:
知識擴充套件難於主體識別:模型在知識擴充套件類問題上的表現與識別問題上的準確率呈正相關。且影像識別準確率通常更高。這表明在一些模型能正確識別物件的情況下,獲取深層次擴充套件知識的能力受限。
知識能力隨模型規模提升:一般情況下,同一系列的模型規模越大,表現越優。例如,Qwen2-VL系列從2B增至72B後,最終問題的準確率從29.0%提升至50.6%。
幻覺問題仍是挑戰:大多數受測模型的錯誤率(IN)高於不嘗試回答的比率(NA),這表明模型更傾向於自信地提供錯誤資訊。幻覺問題仍是多模態大模型領域的一個重要挑戰。
同時研究測試顯示,ChinesesimpleVQA具有評估魯棒性,在使用不同的評測模型時(即使評測模型和受測模型是同一個),受測模型的排名保持穩定。
以下為部分研究發現摘錄:

更擅長哪種知識?

Chinese Simple VQA中的問題通常需要更專業的知識,這也考驗了模型的知識深度。
下圖給出了Top10排名的模型,在8個話題下的表現。
結果表明,這些模型在現代建築、工程技術和科學等主題上表現優異,在其他主題上稍遜一籌。

更缺乏哪種能力?

下圖分析了各模型的出錯時機。
結果顯示,對o1-preview、Gemini-1.5-pro、Caude3.5-sonet2和Qwen-vl-max來說,主要出錯時機(佔比超過50%)來源於知識擴充套件階段。
而其他模型,則在影像識別階段開始表現不佳。

是否過於自信?

一個理想校準模型的置信水平(%)應與預測準確性精確匹配。
研究透過提示模型在回答問題的同時給出其置信度(範圍0到100),並探索了模型的事實準確性與置信度之間的關係。
結果顯示,o1-preview表現最佳。
但總體而言,大部分模型的表現遠低於理想對齊線,這表明即使回答錯誤,模型也傾向於過於自信。

是否具有能力邊界?

下圖曲線展示了隨著推理次數增加,模型答案准確性(Best-of-N)的變化。
可以看出,大部分模型在1到30次嘗試範圍內,準確性隨推理次數增加而明顯提高。
然而,當推理次數超過30次時,模型表現趨於穩定。
這表明模型難以透過不停的探索而持續找到準確的知識,也代表著模型的知識能力邊界。

共5大特點

Chinese SimpleVQA主要有五個特點:
第一,多跳評估。
解耦視覺模型知識能力評估步驟,包括圖片主體識別和知識評估。
這種多跳評估策略讓使用者可以深入分析視覺大模型(LVLMs)的能力邊界和執行機制。
第二,多樣性。
評測集共有2200條高質量問答對,涵蓋了8個知識類別及56個細分主題,包括“自然”“科學”“工程技術”“人文社會”“生活、文化與藝術”等。
第三,高質量。
ChineseSimpleVQA擁有嚴格的構建流程,包括自動驗證、難度篩選和人工驗證。
共有23位標註同學和6位演算法同學進行質量把控,以及6位安全審查員進行資料風險審查。
第四,靜態一致性。
ChineseSimpleVQA具有持久可用性,所有的參考答案將不隨時間而發生改變。
第五,易於評估。
所有問題和答案均採用簡短格式,方便快速評估。
此外,ChineseSimpleVQA提供一鍵評測指令碼以協助研究人員開展工作。

One More Thing

該專案核心作者包括顧紀豪,王瑛瑤,不皮。
研究團隊來自淘天集團演算法技術-未來生活實驗室,該實驗室聚焦大模型、多模態等 AI 技術方向,致力於打造大模型相關基礎演算法、模型能力和各類AI Native應用。

arXiv:

https://arxiv.org/pdf/2502.11718v1
https://arxiv.org/abs/2411.07140
https://arxiv.org/abs/2412.15265

專案主頁:

https://chinesesimplevqa.github.io/ChieseSimpleVQA.github.io/

GitHub:

https://github.com/OpenStellarTeam/ChineseSimpleQA

—  —
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章