你正在做的大模型評測,可能有一半都是無用功|上海AILab&上交&浙大出品

上海AI Lab 投稿

量子位 | 公眾號 QbitAI
評估多模態AI模型的那些複雜測試,可能有一半都是“重複勞動”!
來自上海AI Lab、上海交大以及浙江大學最新研究顯示:當下流行的多模態大模型基準測試中普遍存在大量冗餘。
圖表 1 Quick Look
他們在超過20個主流多模態基準和100多個模型做了系統性掃描,結果有一些有意思的發現。
比如例項分析中,許多基準測試將例項數量減少一半,也不會顯著影響被測試MLLMs的排名。
而在具體任務中,像影像情感和社會關係這兩大任務,他們評估能力存在顯著的重疊。
而像名人識別這種基於知識的任務,與其他維度的任務保持相對獨立。

研究方法

訓練好的多模態大模型往往需要透過繁雜的基準測試才能讓研究人員評估出其具體的效能。
但是在許多測試環節中,團隊發現似乎多模態基準本身存在著明顯的冗餘性。
例如某些基準內的評測維度雖然名字叫法不同,但是測試的能力非常相似;
例如某些基準的評測例項可以視作“自我繁殖“,不同例項之間彼此高度相似,沒有提供額外的評價資訊;
例如某些垂類領域的多個不同的評測基準似乎彼此之間也較為類似。
於是,他們便開始嘗試思索提出一個衡量多模態基準冗餘度的框架。
首先,團隊定義了三類冗餘度:
  • 1、基準內的子維度之間的冗餘度;
  • 2、基準內的測試例項的冗餘度;
  • 3、單個垂類領域內不同基準的冗餘度。
從一個先驗出發,當在測試類似的多模態大模型能力時,其效能排序應該存在較強的相關性;反之,如果其效能排序相關性較低,這也就意味著測試的效能具備較強的獨立性。
基於上述先驗,針對性給出了對應的冗餘度框架。
圖表 2 冗餘度計算框架示意圖
基準內的子維度之間的冗餘度
假設我們在擁有m個子維度的基準上評測了一定數量的多模態大模型效能,並且我們記這些效能在這m個子維度上的排序為R1-Rm。那麼任意兩個維度之間的排序相似性就可以簡單理解為這兩個維度的冗餘性。將所有的排序相似性遍歷求和也就得到了此基準的平均冗餘度。
基準內的測試例項冗餘度
假設某個基準共有著n個測試例項,並且在這個完整的基準上了我們評測了一定數量的多模態大模型並獲得了最終的效能排序RGT,然後,我們隨機抽取例項的一個子集,佔總數的A%,並計算相應的MLLM效能排序,記為RA%。為了量化在A%抽樣比率下基準測試的冗餘,我們計算RA%與RGT之間的相關係數。這一相關性反映了抽樣子集對整個基準測試的代表性。為了減少隨機性的影響,抽樣過程重複進行T=100次,並記錄平均相關性結果。
單一垂類領域內的跨基準冗餘
假設某個垂類領域內(例如專注做數學能力評測)有l個基準,我們在這些基準上測試了一定數量的多模態大模型效能,並獲得了這些大模型在各個基準上的排序。那麼針對於某個特定基準,其效能排序與其餘基準排序的相關係數即可代表此基準在這個垂類領域內的冗餘度,也可也理解為此基準對此垂類領域的代表程度。
相關性指標
在這項工作中,我們採用了多種指標來描述兩組效能數字之間的相關性,包括斯皮爾曼排名相關係數(SRCC)、皮爾遜線性相關係數(PLCC)和R2分數。
  • SRCC 是一種評估指標,測量排名的相似性,捕捉兩個排名之間相對順序的一致程度。
  • PLCC 量化線性相似性,評估排名之間的線性關係緊密程度。
  • R2分數 則評估排名關係解釋的方差比例,作為擬合優度的衡量標準。
Top-K分析
考慮到頂級MLLMs的效能在基準測試中往往更受關注,我們可以透過僅關注給定基準測試中總體效能最高的Top-K MLLMs來簡化冗餘分析,而不是將所有MLLMs納入計算。透過選擇Top-K模型,我們可以更好地針對不同效能層級的基準測試冗餘進行分析。

實驗結果及分析

探索維度冗餘

為了全面展示我們冗餘框架在MLLM基準測試中的應用,我們使用廣泛採用且維度多樣的MMBench基準測試(v1.1)。其測試結果如圖所示,我們可以得到一些有趣的結果。
 圖表 3 MMBench Top-50 SRCC 子維度熱圖
根據圖表3(Top-50 指總排名正數50的MLLMs效能排序),我們可以快速分析哪些維度表現出高相關性。
例如,任務影像情感和社會關係顯示出強烈的冗餘(0.59),表明它們評估的能力存在顯著重疊。
同樣,結構化影像-文字理解與多個其他維度(如空間關係物理屬性推理(0.69)、OCR(0.56)和自然關係(0.49))表現出明顯的冗餘,這反映出執行結構化理解需要綜合運用視覺解析、符號識別、常識推理等多重能力。
另一個有趣的見解來自名人識別,這是一個基於知識的任務,與主要測量感知能力的其他維度保持相對獨立。因此,它表現出顯著較低的冗餘。
 圖表 4 MMBench Bottom-50 SRCC 子維度熱圖
圖表4(Bottom-50 指總排名倒數50的MLLMs效能排序)則揭示了截然不同的分佈模式。
與Top-50模型平均維度冗餘度相比,Bottom-50模型的平均維度冗餘度顯著增高,其中超過80%的維度對SRCC值超過0.6。這種系統性高冗餘現象源於Bottom-50模型基礎能力的整體薄弱性——當模型處於初級發展階段時,各維度的效能改進呈現強同步性,導致維度區分度顯著降低。
反觀Top-50模型,由於已建立較完備的基礎能力體系,其在不同複雜任務中的專項最佳化會引發維度表現的差異性增長,從而形成更清晰的維度區分特徵。

探索例項冗餘

 圖表 5 Top-50 例項平均冗餘度
圖表 6 Bottom-50 例項平均冗餘度
在實驗中他們納入了VLMEvalKit中18個公開可用的基準測試的評估結果,並展示了隨機取樣例項得到的效能排序與採用全部例項排序的平均冗餘度結果。
團隊採用0.95的相似性閾值進行劃分(SRCC和PLCC係數超過0.95的排名被認為幾乎相同,僅在極少數情況下存在微小差異),這得出一個結論:大多數現有MLLM基準測試在對Top-50和Bottom-50 MLLMs進行排名時,其例項表現出顯著冗餘,至少50%的例項是冗餘的。 這意味著許多基準測試可以將例項數量減少一半,而不會顯著影響被測試MLLMs的排名。團隊還比較了Top-50和Bottom-50 MLLMs之間的冗餘趨勢。
值得注意的是,在SRCC和PLCC的相同0.95閾值下,Bottom-50 MLLMs所需的例項數量顯著少於Top-50 MLLMs。這意味著準確排名高效能MLLMs(Top-50)需要更多例項,而排名低效能MLLMs(Bottom-50)可以用更少的例項實現。
因此,基準測試例項的冗餘與被評估MLLMs的能力密切相關: MLLMs能力越強,基準測試例項的冗餘越低

探索跨基準冗餘

為了分析跨基準冗餘,聚焦於數學領域,具體考察了幾個流行的數學基準測試:MathVista、MathVision、MathVerse和DynaMath。
利用OpenCompass推理排行榜上列出的37個MLLMs的可用評估結果來進行分析。

圖表 7 數學領域內的跨基準冗餘度熱圖
結果顯示,儘管這四個基準測試都旨在評估MLLMs的數學能力,但它們之間的相關性並不算特別強。其中,MathVista表現出最少的冗餘,與其他基準測試的相關性最低。相比之下,MathVerse和MathVision顯示出高冗餘,與其他基準測試表現出強相關性。這些差異表明它們的評估重點領域存在不同程度的重疊。
為了更好地理解基準測試之間的差異,團隊分析了它們任務的分佈。
結果發現MathVista包含30%-40%的非傳統數學問題,例如與科學圖表理解、通用VQA和圖表/表格/圖形問答相關的任務(示例見圖表8)。
圖表 8 基準內偏離核心數學能力的樣例
團隊認為低冗餘可能源於特定領域的獨特元素或無關任務,並將後者視為資料中的“噪聲”。
例如,通用VQA任務雖然廣泛適用,但其與評估數學能力的關係有限,可以歸類為這種噪聲。
為了量化其影響,他們從MathVista中移除通用VQA任務,並重新計算其與其他基準測試的冗餘。經過這一調整後,MathVista與其他數學基準測試之間的冗餘顯著增加,與它們任務特徵的契合度更高。
此外,我們還排除了MathVista中分類數學目標VQACLEVR衍生問題,這些問題與數學能力的關係也有限(示例見圖表8)。
經過處理,MathVista與其餘基準的冗餘度得到了進一步提高,也意味著處理後的MathVista更加專注在了“數學“能力的評測上。
因此,他們提出以下領域內基準設計的原則:
  • 旨在代表某一垂類領域核心能力的基準應與其他領域內基準表現出相對高的冗餘,反映對領域核心心能力的把握。
  • 專注於獨特的能力以填補垂類領域空缺的基準應與其他基準顯示較低的冗餘,從而為領域內特定主題提供獨特視角。

總結

本文重點探索了MLLM基準測試中普遍存在的冗餘問題,探索了三個層面識別了冗餘:維度冗餘、例項冗餘和跨基準冗餘。
透過提出的冗餘度框架,可以為社群帶來以下改進:
最佳化基準設計: 
  • 1). 確定基準內的某些維度是否需要單獨評估,或者可以合併;
  • 2). 識別準確評估所需的最小且足夠的例項數量;
  • 3). 評估在特定領域內引入新基準的必要性。
提升MLLM評估效率
  • 1). 確定某一基準是否偏離了領域的分佈;
  • 2). 識別評估領域內模型效能所需的錨定基準。
透過系統性地解決冗餘問題,不僅可以提升基準設計的原則,還能減輕MLLM評估的資源需求,創造一個更精簡有效的評估生態系統。
論文連結:
https://arxiv.org/abs/2501.13953
Github連結:https://github.com/zzc-1998/Benchmark-Redundancy
*本文系量子位獲授權刊載,觀點僅為原作者所有。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
一鍵關注 👇 點亮星標
科技前沿進展每日見

相關文章