大模型全軍覆沒,中科院自動化所推出數學推理新基準|CVPR2025

MV-MATH團隊 投稿

量子位 | 公眾號 QbitAI
挑戰多圖數學推理新基準,大模型直接全軍覆沒?!
事情是這樣的。
近日,中國科學院自動化研究所推出多圖數學推理全新基準MV-MATH(該工作已被CVPR 2025錄用),這是一個精心策劃的多圖數學推理資料集,旨在全面評估MLLM(多模態大語言模型)在多視覺場景中的數學推理能力。
結果評估下來發現,GPT-4o僅得分32.1,類o1模型QvQ得分29.3,所有模型均不及格。
具體咋回事,下面接著看。

給大模型數學推理上難度

截止目前,多模態大模型在數學推理領域展現出了巨大的潛力。
然而,現有的多模態數學基準測試大多侷限於單一視覺場景(單圖推理),這與現實世界中複雜的多視覺數學應用(多圖推理)相去甚遠。
基於這一情況,多圖數學推理資料集MV-MATH應運而生。

MV-MATH介紹

MV-MATH包含2009個高質量數學問題,涵蓋了從K-12教育場景中提取的真實問題。
每個問題都結合了多個影像和文字,形成了圖文交錯的多視覺場景。
這些問題分為選擇題、填空題和多步問答題三種類型,覆蓋了11個數學領域,包括解析幾何、代數、度量幾何、組合學、變換幾何、邏輯、立體幾何、算術、組合幾何、描述性幾何和統計學,並分為三個難度級別。
下圖展示了MV-MATH與現有資料集的對比以及分佈情況:
(a)與現有數學基準的比較(圓圈大小代表圖片數量);(b)每個問題的長度分佈;(c)每個問題的影像數量分佈。

資料集特點

(1)多視覺場景
MV-MATH資料集中的每個問題都包含多個影像(2-8個圖片),這些影像與文字交織在一起,形成了複雜的多視覺場景。
MV-MATH中的每個問題都是從真實的K-12場景中收集而來,這種設計更接近於現實世界中的數學問題,能夠更好地評估MLLM在處理多視覺資訊時的推理能力。
(2)豐富的標註
為了確保資料集的質量和可靠性,每個樣本都經過了至少兩名標註者的交叉驗證。標註內容包括問題、答案、詳細分析以及影像關聯性,為模型評估提供了詳細的資訊。
(3)多樣化的數學領域
MV-MATH涵蓋了從基礎算術到高階幾何的11個數學領域,並根據詳細答案的長度劃分為3個難度等級,能夠全面評估MLLM在不同數學領域的推理能力。
(4)影像關聯性
MV-MATH首次引入影像相關性這一特徵標籤,根據據影像是否相關,資料集被分為兩個子集:相互依賴集(Mutually Dependent Set,MD)和獨立集(Independent Set,ID)。
在MD子集中,影像之間相互關聯,理解一個影像需要參考其他影像;而在ID子集中,影像之間相互獨立,可以單獨解釋。
例如,下圖中前兩個題目屬於相互依賴集,最後一個為題目屬於獨立集。

多圖推理綜合評估

研究團隊在MV-MATH上進行了廣泛的實驗,評測了24個主流開源和閉源多模態大模型。
實驗結果表明,即使是最先進的MLLM在多視覺數學任務中也面臨著巨大的挑戰,其表現與人類能力之間存在顯著差距。
從模型總體表現來看,在MV-MATH資料集上,表現最好的模型是Claude-3.5,其整體準確率為33.9%,遠低於人類水平(76.5%)。
其他表現較好的模型還包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%)。
值得注意的是,開源模型LLaVA-OneVision-Chat-72B取得了26.2%的準確率,僅次於Qwen-vl-max。類o1模型QVQ-72B-Preview效能為29.3%,僅次於GPT-4o,這說明慢思考系統在多圖推理任務上同樣有效。
此外,模型在不同領域的表現也存在差異
在算術領域,Claude-3.5的準確率最高,達到54.2%;而在組合幾何領域,其準確率僅為27.0%。
這表明MLLM在處理需要複雜影像理解和推理的領域時存在較大困難。
與此同時,團隊針對題目難度模型提示影像關聯性以及影像輸入方式四個維度對實驗結果進行了更細粒度的分析。
具體而言,如圖中(a)所示,在不同難度級別上,模型的表現也有所不同
在簡單問題上,GPT-4o的準確率最高,達到40.3%;而在中等難度問題上,Claude-3.5的準確率最高,為37.5%。在困難問題上,所有模型的表現都大幅下降,Claude-3.5的準確率僅為26.6%。
而圖(b)表明,對於閉源模型,CoT和few-shot對MV-MATH多圖推理並不一定有效。對於所有的開源模型,CoT和few-shot都會降點
在影像關聯性上,MD子集包含相互依賴的影像,需要更高水平的跨影像理解。
如圖中(c)所示,絕大多數模型在MD子集上的效能均低於ID子集,其中Gemini-1.5-pro的效能差距最大,達到 7.8%。
這一觀察結果表明,大多數模型在處理數學場景中的相互依賴影像任務上面臨挑戰,凸顯了MLLM在處理數學多視覺環境中跨影像相互依賴關係的潛在侷限性。
至於影像輸入方式,如圖中(d)所示,結果一致表明,在所有測試模型中,影像序列輸入的表現都優於合併輸入,這表明保留影像的位置和順序資訊對於多圖推理至關重要
序列輸入的高效能凸顯了結構化視覺資訊在增強模型解釋和處理複雜數學場景的能力方面的重要性。

小結

隨著最近OpenAI o1,DeepSeek-R1等模型的爆火,大家看到了慢思考模型在文字推理上的強大效能。然而目前視覺大模型的慢推理仍然沒有一個固定的正規化。
本研究透過大量實驗證實了MLLM在複雜多視覺感知與影像交叉理解上仍然存在困難,在多圖數學推理上存在極大的改進空間。
本研究旨在全面評估MLLM在多視覺場景中的數學推理能力,推動多圖數學推理的進一步發展。

論文連結:

https://arxiv.org/abs/2502.20808

主頁連結:

https://eternal8080.github.io/MV-MATH.github.io/

—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章