全球頂尖AI來考公,不會推理全翻車!致命缺陷曝光,被倒數5%人類碾壓


新智元報道  

編輯:編輯部 ZJH
【新智元導讀】公考行測中的邏輯推理題,是不少考生的噩夢,這次,CMU團隊就此為基礎,打造了一套邏輯謎題挑戰。實測後發現,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet這些頂尖大模型全部慘敗!最強的AI正確率也只有57.5%,而人類TOP選手卻能接近滿分。
就在昨天,OpenAI憋出個大招,放出了o3和o4-mini。
據稱,這些模型首次實現了「用影像思考」,堪稱視覺推理巔峰之作。
而有這樣一類影像推理題,讓國內每年都有幾百萬考生受盡折磨。
看到下面這些熟悉的題,參加過國考或省考的你,是不是DNA動了?
圖形推理題,在公務員考試中常常被考生吐槽:題難、奇葩,邏輯怪異,套路滿滿,甚至十分「反人類」!
既然如今的AI這麼強,讓人類考生直呼變態的圖形推理,它們做得出嗎?
CMU的研究者,這次就用公務員考試真題來實測了一把!
他們建立了一個將多模態推理與領域知識分離的新基準——VisualPuzzles,來考驗AI的視覺拼圖解決能力。
具體來說,研究者從多個來源精心挑選或改編了1168道圖文邏輯題,其中一個重要來源便是中國國家公務員考試行測中的邏輯推理題(沒錯,真·考公難度)。
論文連結:https://arxiv.org/abs/2504.10342
專案連結:https://neulab.github.io/VisualPuzzles/
而測試結果,可以說令人震驚:
  • 最強模型的正確率也只有57.5%,都低於人類5%最差水平
  • 普通開源模型的正確率更慘淡,僅有約30%~40%
  • 相比之下,人類頂尖選手的正確率可以接近滿分,可見在純邏輯推理方面,模型與人仍有明顯鴻溝
看來,模型們還是上不了岸了啊……
此次研究的其他發現如下。
知識≠推理:在像MMMU這樣的知識密集型基準上,推理與知識有很強的相關性,但在VisualPuzzles上則不然
更大的模型=更好的知識,但不一定有更好的推理能力
「思考」模式並不總是有效。更多的token=更好的知識回憶≠更好的推理
不同模型在VisualPuzzles上的表現,成績從高到低排列;其中前3行為人類前5%,前50%和倒數5%

模型 vs 人類
如何測試多模態大模型的能力?
即便取得好成績,AI到底是學會了推理,還是說只是記下了特定領域知識?
現有的多模態基準測試,往往將推理能力與領域專業知識混為一談,難以單獨評估通用推理能力。
CMU提出的VisualPuzzles,目的就是針對視覺推理的基準,同時故意減少對專業知識的依賴。
VisualPuzzles包含五大類題型:演算法推理、類比推理、演繹推理、歸納推理和空間推理。
實驗表明,與像MMMU等過去的基準相比,VisualPuzzles需要的領域特定知識明顯更少,而對複雜推理的要求更高,從而能更準確地評估真正的多模態推理能力。
評估結果顯示,最先進的多模態大語言模型在VisualPuzzles上的表現,始終落後於人類水平。
而且在知識密集型基準上表現強勁的模型,在專注推理且依賴較少知識的任務上,未必能夠取得成功。
圖1:模型在VisualPuzzles上的準確率與人類表現百分位數的比較。所有評估的模型都低於人類5百分位數(57.5%)
有趣的是,具有顯式「思考」(think)模式的模型並不總是比基礎版本好。
此外,增強推理的技術手段,在不同模型和任務型別中收效參差不齊。
研究者並未發現模型規模與效能存在明確關聯。
這說明當前的推理策略還不能很好地泛化到VisualPuzzles。

大模型「顯眼包」解題大賞

下面,我們來看一看o1、Gemini-2.5 Pro、Claude-3.7-Sonnet這些頂尖的明星大模型,在做公務員考試行測中的邏輯推理題時,都會是什麼樣子。

(人類選手們也可以試試,看這些題自己能不能做得出。)
下面這道題中,給出了一對按特定角度排列的椅子,答題人需要選擇與題幹中椅子角度相匹配的選項。
Claude-3.7-Sonnet針對這道題開啟了思考模型,一通操作猛如虎——
「這些椅子相隔180度,它們是以側面視角展示的。從角度來看,任何一個選項都是正確的。然而,更仔細地觀察它們的具體方向:原始椅子以完美的側面視角展示。選項A展示了與問題中的排列最匹配的最乾淨的側面檢視,所以我選A。」
然而,這道題的正確答案是C。
下面這道題,要求數出圖中的三角形比正方形多幾個,看起來是小學數學題的級別。
Claude-3.7-Sonnet-Thinking經過一番長長的思考,給出答案D,然而正確答案是C。
下圖中有幾個左手?Claude-3.7-Sonnet-Thinking表示答案是B,然而正確答案是C。
以上這幾道,只是小試牛刀而已。接下來,就要上讓人類考生都瑟瑟發抖的公考行測題了,準備好。
Claude-3.7-Sonnet-Thinking給出的答案是C,然而正確答案是A。
然而這次不能怪它做錯了,我們自己也沒做出來……
而接下來這道題,Claude-3.7-Sonnet-Thinking的表現就十分亮眼了。
這次,模型經過一番推理後,給出了正確答案——C!
這道判斷村莊道路圖的題,有一定難度。
模型給出了答案D,然而正確答案是C。
下面這道題,對人類來說是很簡單的,但Claude-3.7-Sonnet-Thinking依然做錯了,它給出的答案是A。
而有時對人類看起來並不直觀、有一定難度的題,模型卻反而能做對,比如下面這道。
Claude-3.7-Sonnet-Thinking給出了正確答案——C。
總體而言,行測中這類找規律的歸納題,模型偶爾能做對。
在空間題中,模型也有一定機率能得出正確答案。
有趣的是,有些對人類很簡單的題,它反而不行,證明了AI模型的空間推理能力跟人腦還是有差距。
最後,想問問人類讀者:你做對了幾道題,贏過AI了嗎?

三個不等式
正如前文所言,新研究主要揭示了3個「不等式」:
1. 知識≠推理  
2. 更大的模型=更好的知識≠更好的推理
3. 更多的token≠更好的推理

知識≠推理
在非專業場景中評估通用推理能力的核心在於,釐清推理能力與領域專業知識的邊界。
為此,研究人員提出了一個專注視覺推理、並有意弱化對專業知識依賴的基準資料集——VisualPuzzles。
下面,我們就來看看這個VisualPuzzles,到底有多難:
  • 題型多樣:包括演算法類、類比類、邏輯類、歸納類、空間類五大推理型別,覆蓋了常見的邏輯與思維模式。
  • 難度分佈:Easy/Medium/Hard分別佔比46%/39%/15%,涵蓋從入門到骨灰級的思維挑戰。
  • 多模態選項:57%是圖片選項,43%是文字選項,這樣可以測試模型對不同模態資訊的推理整合。
  • 語言要求低:題幹大部分使用基礎英文詞彙,以降低閱讀障礙,突出對視覺和邏輯本身的考察。
其中,五大推理類別具體為:
1. 演算法推理:涉及對演算法規則進行推理。
2. 類比推理:需要分析一對實體之間的關係。
3. 演繹推理:透過已知前提推理得出邏輯結論。
4. 歸納推理:側重於從觀察到的模式中概括出規則。
5. 空間推理:需要解釋和操作空間關係。
表1:VisualPuzzles的題型和難度分佈等統計資料
除了難度極高之外,VisualPuzzles相比於現有的基準,還更能反映模型的推理能力,而不是對知識的記憶能力。
為了證明這一點,研究者特意做了一波驗證:
首先,讓GPT-4o為兩類資料集各50道隨機選題生成「知識概念檢查清單」。
其中,每份清單包含針對原始問題所需背景知識的具體提問。比如說,如果某題需理解兩條物理定律,那麼清單會要求分別解釋這兩條定律。透過統計每道題對應的檢查清單條目數量,可量化問題的知識密集程度。
結果顯示,對於單道題平均需要的知識點:MMMU是3.9個,VisualPuzzles是1.1個。
表3:每個例項在MMMU與VisualPuzzles上生成的平均知識概念問題數量
接著,測量模型在兩個基準測試上的知識準確率(即正確回答知識檢查清單問題的能力)。
其中,知識準確率和推理能力無關,反映了模型在不依賴推理的情況下,已經掌握的所需知識量。
結果顯示:
  • VisualPuzzles:多數模型知識準確率超過90%
  • MMMU:大多數模型準確率不足60%,較小模型常低於50%
  • 只有最大規模的模型在MMMU上接近80%準確率
也就是說,MMMU對領域專業知識的強依賴性,而VisualPuzzles所需知識儲備已普遍存在於現有模型中——基本沒有「超綱題」。
如果推理成績和知識掌握程度的相關性高更高,那麼可以說知識=推理。
但下圖描述了知識準確率推理準確率的相關性:
  • 在MMMU中(左圖),知識掌握程度和推理成績相關性高達0.8
  • 在VisualPuzzles中(右圖),這一相關性降至0.4
也就是說,在VisualPuzzles中模型無法只靠自己學過的知識點,答出實際需要推理的題目。
圖2(下):推理準確率與知識準確率之間的關係散點圖及趨勢線

更大的模型≠能答對題
現在,我們已經有了不「超綱」且很難透過「背題」答出來的測試集,接下來就可以測測模型的表現了。
圖2(上)繪製了推理準確率和模型引數規模的關係,可以看到:
  • MMMU:模型引數規模越大,知識準確率越高,更大的引數規模通常轉化為更高的整體基準表現。
  • VisualPuzzles:與MMMU不同,如果只擴大引數數量,那並不能保證在VisualPuzzles上的表現更好。
換句話說,需要知識時,大模型引數規模越大、預訓練知識越多,可能推理越出色。
但在不需要專業知識、只考察純邏輯思維等推理能力的時候,大模型就開始力不從心了。
圖2(上):MMMU和VisualPuzzles上準確率與模型規模之間的關係散點圖及趨勢線

長文字≠好推理
按道理說,像是o1,Claude-3.7-Sonnet-Thinking,Gemini-2.0-Flash-Thinking這些看起來「更會思考」的推理模型,應該在邏輯難題上表現更好。
然而在實際的測試中,它們雖然確實會輸出更長、更詳細的回答,但正確率並沒有顯著提高。
表4:解決基準問題時所需的邏輯推理步驟百分比
圖3:推理模型與其通用對照模型在VisualPuzzles上的準確率和平均完成token數的比較
究其原因,可能有以下幾點:
1. 更多文字≠更深入的邏輯推理
模型往往只是在其輸出中添加了許多「推理裝飾」,但缺乏真正的推理深度。本質上,它仍然在沿用與非思維增強版相同的推理模式。
2. 在知識型題目上有效,但在純邏輯題上收效甚微
在需要呼叫大量專業知識(如醫學、法律、物理定律)的題目上,長文字有助於「回憶」相關知識。
但在VisualPuzzles這樣依賴邏輯推理(而非記憶庫)的測試中,它們就顯得力不從心。

推理套路不一定管用

為了更好地理解這種差異,研究者分析了模型在長思維鏈中,常用的兩種推理策略:

  • Branching(分支推理)
  • Revalidation(回溯驗證)
如圖4所示,分析揭示了基準之間的顯著對比,其中:
  • 左圖比較了Claude-3.7-Sonnet和Claude-3.7-Sonnet-Thinking在MMMU和VisualPuzzles上的準確率
  • 中圖顯示了每種推理模式的頻率
  • 右圖展示了這些推理模式與基準準確率的相關性
可以看到,在對知識依賴更強的任務(如MMMU)中,這些策略可以幫助模型回憶更多事實,從而提高正確率。
然而在VisualPuzzles上,這些行為雖然出現得更為頻繁,但成效卻幾乎為零。
也就是說,模型可能只是走個過場,並沒有真推理。
圖4:Claude-3.7-Sonnet-Thinking推理模式在MMMU和VisualPuzzles上的比較
值得一提的是,模型在MMMU和VisualPuzzles中的回答策略,是有明顯差異的。
在MMMU中,模型傾向於採用基於選項的策略——即利用提供的選項早期排除不太可能的答案,並選擇最相關的選項,通常在不顯式解決問題的情況下進行。
相反,在VisualPuzzles中,模型更頻繁地採用「回答優先」策略,即在比較結果與選項之前,獨立嘗試解決問題。
表5:回答策略

模型為何「一路滑鐵盧」?
對此,研究者分析認為:
  • 模型對空間資訊理解仍不穩定:視覺感知環節常出錯,尤其涉及物體位置、形狀與角度等
  • 最大且最致命的問題依然是:缺乏深層邏輯推理能力
圖7:Claude-3.7-Sonnet-Thinking的錯誤分佈

推理能力可以「遷移」嗎?
對於人類而言,每個推理類別可能涉及不同的認知或心理過程,因此一個類別的表現可能無法遷移到另一個類別。
但對於模型來說,其相關性熱圖講述了一個不同的故事。
研究者觀察到推理類別之間存在顯著的強相關性,相關值從0.11到高達0.94不等。
特別是,演算法推理和演繹推理之間的相關性很高(0.94),而演算法-類比和演繹-類比等其他組合也表現出較強的關聯。這表明模型的表現傾向於在不同類別之間進行泛化。
然而,這種泛化可能只是因為模型正在利用某些通用的「表面模式」或捷徑,並不代表具備了真正多樣化的推理能力。
圖6:推理類別之間的相關性熱圖(所有評估模型的平均值)

總結
VisualPuzzles的出現揭示了一個重要的事實:
  • 依靠記憶力(大規模訓練中的知識)不足以讓模型在真正的推理題中表現出色;
  • 大模型的推理能力仍與人類存在顯著差距,尤其在不依賴專業知識、純邏輯思維的場景中。
這也為未來的多模態大模型發展指明瞭努力方向:
  • 如何在訓練過程中強化推理結構而非單純依賴知識?
  • 如何設計出兼具複雜邏輯與通用認知的新型網路或推理模組?
  • 是否還能擴充套件到多圖、多步驟或動態場景的推理?
總之,在不斷擴大規模、補充知識的同時,也別忘了走向真正的理解與推理。
畢竟,上岸不光要背知識點,更要有「硬核邏輯」做支撐!

作者介紹

Yueqi Song

Yueqi Song即將進入卡耐基梅隆大學(CMU),攻讀自然語言處理(NLP)方向的博士學位,導師是Graham Neubig教授。 
此前,她在CMU獲得了計算機科學與統計與機器學習雙學士/碩士學位。 她的研究興趣主要包括多模態大語言模型、AI Agent等領域,參與的論文曾在EMNLP獲得最佳論文獎。

Tianyue Ou

Tianyue Ou是卡內基梅隆大學的碩士生。此前在約翰霍普金斯大學獲得了計算機科學學士學位。 
他的研究興趣集中在LLM Agents、合成數據生成與LLM推理。 
在進入學術研究之前,他曾在Meta擔任機器學習工程師,主要研究推薦系統。

Graham Neubig

Graham Neubig是卡耐基梅隆大學的教授,也是All Hands AI的首席科學家,致力於構建軟體開發的AI智慧體系統。
他的研究方向聚焦於機器學習與自然語言處理,特別是大語言模型的基礎研究與應用,涵蓋問答系統、程式碼生成、多語言處理、以及模型評估與可解釋性等主題。

Xiang Yue

Xiang Yue是卡耐基梅隆大學的博士後,導師是Graham Neubig教授,研究方向為自然語言處理(NLP)與大語言模型(LLM)。
他於俄亥俄州立大學獲得計算機博士學位。他的研究目標是理解並提升大語言模型的推理能力,並致力於增強模型的可靠性。他領導並參與了多個大模型推理的基準,如MMMU等。
參考資料:
https://neulab.github.io/VisualPuzzles/
https://x.com/yueqi_song/status/1912510869491101732


相關文章