
隨著多模態大模型(Large Multimodal Models, LMMs)的快速發展,其在語言、視覺等多領域展現出強大的理解能力。然而,近期 o1, R1, o3-mini 等推理模型的出現不禁使人好奇:最先進的 LMMs 是否也和 R1 一樣具備類似人類的推理能力?
為了回答這一問題,騰訊 Hunyuan 團隊提出了一個新的多模態推理基準測試框架——MM-IQ,旨在系統地評估多模態模型的抽象推理和邏輯思維能力。

論文標題:
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
論文地址:
https://arxiv.org/pdf/2502.00698
程式碼倉庫:
https://github.com/AceCHQ/MMIQ/tree/main/
專案主頁:
https://acechq.github.io/MMIQ-benchmark/
資料集地址:
https://huggingface.co/datasets/huanqia/MM-IQ
效果展示

▲ 圖1.1:多模態模型以及人類在 MM-IQ 基準測試中的表現

▲ 圖1.2: MM-IQ 的 8 類推理問題示例

研究背景
在人類認知能力的評估中,智商測試(IQ Test)一直被視為衡量抽象推理能力的重要工具。它透過剝離語言背景、語言能力和特定領域知識,專注於評估人類的核心認知能力。然而,目前在人工智慧領域,尤其是在多模態系統中,缺乏一個能夠系統量化這些關鍵認知維度的基準。
現有的多模態模型雖然在 OCR、目標定位和醫學影像分析等特定任務上表現出色,但這些任務的評估指標無法全面衡量多模態系統的核心推理能力。為了解決這一問題,騰訊 Hunyuan 團隊從人類 IQ 測試中汲取靈感,提出了 MM-IQ 基準,旨在透過語言和知識無關的評估,系統地衡量多模態模型的抽象推理能力。

MM-IQ 基準介紹
MM-IQ 基準包含 2,710 個精心策劃的測試專案,涵蓋了 8 種不同的推理正規化,包括邏輯運算、數學推理、二維幾何、三維幾何、空間關係、時間運動、視覺指令和具體物件。這些正規化不僅涵蓋了多模態模型需要掌握的核心推理能力,還透過多樣化的題目配置,全面考察多模態系統的認知水平。
2.1 資料集構建
MM-IQ 的資料收集過程分為三個階段。首先,團隊從中國國家公務員考試的公開題目中篩選出適合的題目,這些題目原本用於評估考生的抽象和推理能力,因此非常適合用於多模態模型的推理能力測試。其次,團隊對這些題目進行了分類,並對題目較少的推理正規化進行針對性補充,以確保每個推理正規化都有足夠的樣本。最後,透過去重和答案提取等步驟,確保資料集的準確性和有效性。
2.2 推理正規化
MM-IQ 的 8 種推理正規化如下:
-
邏輯運算:涉及邏輯運算子(如 AND、OR、XOR)的應用,需要模型識別圖形中的邏輯規則。
-
數學推理:評估模型對數量、數字和算術運算的推理能力。
-
二維幾何:涵蓋對二維幾何圖形屬性的理解和圖形拼接能力。
-
三維幾何:評估模型對三維幾何圖形的理解,包括多面體的檢視識別和立體圖形的截面識別。
-
空間關係:考察物體之間的靜態相對位置關係。
-
時間運動:關注物體的位置變化,包括平移、旋轉和翻轉。
-
視覺指令:透過視覺提示(如箭頭)引導模型解決問題。
-
具體物件:涉及對現實世界物體(如花瓶、葉子、動物)的分類。

實驗結果
騰訊 Hunyuan 團隊對多種開源和閉源的多模態大模型進行了評估,包括 Deepseek-vl-7b-chat、Qwen2-VL-72B-Instruct、QVQ-72B-Preview和 GPT-4o 等。結果顯示,即使是效能最好的模型,其準確率也僅為 27.49%,僅略高於隨機猜測的基線水平(25%),而人類的平均準確率則高達 51.27%。
3.1 模型表現
-
開源模型:LLaVA-1.6-7B 的準確率為 19.45%,Deepseek-vl-7b-chat 為 22.17%,Qwen2-VL-72B-Instruct 為 26.38%,QVQ-72B-Preview為 26.94%。
-
閉源模型:GPT-4o 的準確率為 26.87%,Gemini-1.5-Pro-002 為 26.86%,Claude-3.5-Sonnet 為 27.49%。
3.2 推理正規化分析
在不同推理正規化中,人類和閉源模型(GPT-4o)在具體物件推理中表現更好,準確率分別為 65.79% 和 50%。這可能是因為具體物件推理需要額外的知識。而邏輯運算正規化則是多模態模型的弱項,平均準確率僅為 23.69%,因為這一正規化需要模型識別更復雜的抽象規則。

失敗原因分析
為了深入瞭解多模態模型在 MM-IQ 上的表現不佳的原因,團隊對三個有代表性的模型 Claude-3.5-Sonnet、Qwen2-VL-72B-Instruct 和 LLaVA-1.6-7B 的錯誤答案進行了人工標註分析。結果顯示,錯誤主要集中在以下幾個方面:
-
推理正規化出錯:模型傾向於依賴簡單的規則進行推理,而不是提取更復雜的抽象規則。
-
視覺理解錯誤:模型在複雜視覺正規化(如邏輯運算和空間關係)上的表現較差,這表明需要提升模型對複雜視覺細節的感知能力。
-
直接給出最終答案:一些模型直接給出答案時表現更差,而生成詳細推理鏈的模型表現更好。

研究意義
MM-IQ 基準的提出填補了多模態領域缺乏系統推理評估基準的空白。它不僅揭示了當前多模態模型在抽象推理能力上的巨大不足,還為未來的研究方向提供了明確的指引。透過提升模型的結構化推理能力、抽象模式識別能力和視覺理解能力,有望推動 AGI 的發展。

總結
MM-IQ 基準為多模態模型的推理能力評估提供了一個全新的視角。它透過多樣化的抽象推理正規化和高質量的資料集,系統地衡量了多模態模型的抽象推理能力。
實驗結果表明,當前的多模態模型在這一任務上表現不佳,與人類水平相去甚遠。未來的研究需要在模型架構、訓練方法和資料多樣性等方面進行更多探索,以縮小這一差距。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
