VisuLogic:聚焦視覺推理評估的全新基準!DeepSeek-R1等全面潰敗!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

VisuLogic中題目示例
論文共同一作為 徐煒燁(中國科學技術大學研究生), 王家浩(西安交通大學本科生)。論文通訊作者為代季峰(清華大學電子工程系副教授)、祝金國(上海人工智慧實驗室青年研究員)。 
隨著以o1、Deepseek-R1等純文字推理模型的爆火,越來越多的模型著力於「多模態推理能力」的探索,例如近期OpenAI釋出的o4-mini,o3模型。這些模型已經展現出對於視覺輸入令人驚歎的深度思考能力,例如理解影像中的深層內容,利用思維鏈(Chain-of-Thought)進行推理、反思與修正,甚至解決競賽難度的幾何問題。
與此同時,同樣有一些Benchmark致力於衡量模型在視覺層面的推理能力。然而,一些工作發現,很多Benchmark評測的並不是視覺推理能力,而依然是文字層面的推理能力!例如一些學科類題目,視覺能力僅起到將影像內容「翻譯」成文字表述的作用,剩餘的過程依然是以文字的形式進行推理。
如何使得Benchmark擺脫依賴文字推理的形式?如何衡量大模型在真正聚焦於視覺層面的推理能力?
為了解決上述問題,本篇論文提出了VisuLogic,一個聚焦于衡量模型真正的視覺能力的Benchmark。測評結果表示,包括o3-mini、Gemini2.0在內的所有模型的測評點數均小於30%,僅僅比隨機選擇的結果(24.9%)略高,遠遠小於人類水平(51.4%)! 
此外,為了進一步推動模型在視覺推理能力的研究,該論文還提出了一個和Benchmark同源的訓練集,並且使用強化學習(RL)的方法在7B、38B兩個規模的模型上進行了實驗驗證。結果表示強化學習的方法具有提升模型在視覺推理能力的潛力,其中38B的模型在RL訓練後取得了VisuLogic的「SOTA」結果,一舉超越了Gemini2.0、InternVL3等眾多先進模型。
論文的所有資料集、程式碼、模型權重全部開源,詳見專案主頁連結。其中訓練程式碼基於「OpenRLHF」框架開發,並同時支援Qwen-VL、InternVL兩個系列模型訓練。此外,「VLMEvalKit」已支援該Benchmark測評。

A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
論文:https://arxiv.org/abs/2504.15279
專案主頁:
https://visulogic-benchmark.github.io/VisuLogic/ 
研究背景——視覺推理or文字推理?
推理能力作為人類智慧的重要組成部分,也已經成為大模型重點發展的方向之一。現階段推理模型已經從純文字推理逐漸發展成到多模態推理。然而,如何評估模型的視覺推理能力,仍然是一個重要的問題。 
現有的視覺推理的評測存在著諸多問題。一些工作利用傳統的Benchmark進行評估,例如REC、VQA等等,這類方法往往較為淺顯,並不能衡量出模型深度推理的能力。最近一些新的測評榜單聚焦於更有挑戰性的推理問題,例如數學類、學科類評測等等。然而,此類模型依然存在重大的問題:「儘管測評題目是由多模態的輸入組成,其依然可以透過影像描述+文字推理的方式解決,難以評測出模型真正的多模態能力。」 
為解決這一問題,本篇工作提出了VisuLogic,一個全新的視覺邏輯推理Benchmark。測評題目聚焦於影像本身的細節特徵以及變化規律,難以透過文字描述的方法解決。從而能夠真正測評出模型多模態推理的能力。 
下圖展示了一個主流的基準測試(MMMU)的例子和VisuLogic的對比,可以看到儘管MMMU中的題目具有推理挑戰性,透過模型對於影像的描述卻可以準確描述出影像中的問題,進而可以僅僅透過文字上形式推理解決問題。而VisuLogic中的問題細節豐富、影像內容之間的變化細微。因此,「模型生成的影像描述難以覆蓋住所有細節,進而無法僅僅根據影像描述解決題目,迫使模型時刻聚焦於視覺資訊進行推理,達到測評出模型真正的多模態推理的目的。」
資料集構建——人類參與的構造管線 
下圖展示了Visulogic的資料構造流程,包含了原始資料收集、質量控制、資料分類三個步驟。
經過上述步驟,最終獲得了1000道題目。並且由人類專家將題目分為六類,對應不同的推理所需能力。除此之外,論文還提供了一個同源的「訓練資料集」,並同樣透過上述步驟進行質量控制與資料去重。 
實驗結果——多角度的模型推理能力分析
論文測試了多個開源/閉源LLM、MLLM在榜單上的能力,並引入隨機選擇與人類志願者的分數進行對比。測評的主要結果如下:
當前的主流模型均缺乏足夠的視覺推理能力
在測評結果上可見,一方面,LLM中的最高點數是Qwen2.5-78B-Instruct的28.0%,證明了基於文字推理的方式並不能解決VisuLogic中複雜的視覺問題;另一方面,MLLM中最高僅有28.1%正確率,先進的模型例如o3-mini和GPT-4o也分別僅僅取得24.6%和26.3%的點數。不僅遠遠落後於人類水平(51.4%),甚至只略高於隨機選擇(24.9%)!這證明現有模型的視覺推理能力仍處在「較弱」的水平。
下面是具體的模型表現例子分析。下圖中的題目是根據棋子組成的圖形的變化規律,預測最可能的下一個影像。參考的解答是,黑塊在內環中心的位置保持不變,另外兩個黑塊每次順時針(逆時針)移動4個方格,進而推出答案是C。具體題目和參考解答如下:

對於LLM的測評,論文中採用GPT-4o生成影像描述代替原本的影像作為模型輸入。對於文字模型,主要問題是LLM由於依賴於外部生成的影像描述,通常會忽略多步驟邏輯推理所需的關鍵視覺細節,進而導致錯誤的推理。 
例如o3-mini依據GPT-4o生成的影像描述對題目的解答。可以看出在影像描述方面,影像細節就已經嚴重丟失,對題乾的描述僅僅是“由黑色和白色網格組成。前四個網格遵循指定模式,而第五個網格丟失(用“?”表示)”,對於選項之間的細微區別更是含糊不清。

在此描述的基礎上,模型的輸出就更加離譜,只能在本就錯誤的資訊中亂分析一氣,嚴重偏離正確答案,甚至開始“想象”影像是什麼樣子:

對於多模態模型,MLLM通常能夠正確描述影像的一般性內容,卻無法推斷形狀之間不斷演變的關係。模型知識訴諸於表面物件的分析,往往不能正確地對元素間關係進行推理。
例如GPT-4o對題目的解答,只能關注到“白點和黑點以均勻分佈在網格上的方式交替”這樣粗淺的內容,無法觀察到具體的每一個棋子是怎麼變化的,最終的答案也是偏差很遠。

強化學習的方法顯著提升模型視覺推理能力
當前模型視覺推理能力這麼弱,怎麼才能夠增強這部分能力呢?這篇論文給出了答案——透過強化學習(RL)的手段!
論文基於Qwen2.5-VL-7B-Instruct和InternVL2.5-38B兩個模型,在自行構建的訓練資料集上進行RL訓練。令人驚喜的是,RL訓練能夠帶來VisuLogic上大幅度的點數提升。其中InternVL2.5-38B的模型在RL訓練後一舉超越了Gemini2.0、InternVL3等眾多先進模型,取得了VisuLogic的「SOTA」結果!
點數提升反映到具體的表現上,強化學習後的模型能夠進行更深入、細緻的邏輯推理。同樣的題目下,RL模型成功捕獲了圖形之間的變化規律(圖中棋子的移動方式)並準確預測後續的情況。模型甚至還學會了對選項進行嘗試與反思,直到出現合適的結論。這一發現無疑是對強化學習方法潛力的進一步證明。

論文已經將所有的訓練程式碼及資料集開源,連結詳見專案主頁。值得一提的是,訓練程式碼基於OpenRLHF的高效能框架做了Qwen-VL和InternVL兩個系列模型的適配,可供開源社群做進一步的研究開發。 
總結
論文提出了VisuLogic,一個新的評測Benchmark,旨在評估多模態大型語言模型(MLLM)的視覺推理能力。該基準由1000個以視覺為中心的推理任務組成,這些任務分為六個不同的類別。論文在此基準上對幾個最先進的LLM和MLLM進行了綜合評估,並對其效能進行了深入分析。實驗結果表明,即使是最先進的模型也不能匹配人類的表現,強調了視覺邏輯推理能力的提升空間。透過進一步的實驗,該論文發現強化學習是提高MLLM視覺推理能力的有效方法。為了促進進一步的研究和創新,論文開源了與此工作相關的測試程式碼、訓練指令碼和資料集。
何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章