o3視覺推理,暴打了Gemini2.5Pro和Claude3.7Thinking

今天凌晨,OpenAI 釋出了 o3 滿血版和 o4‑mini。
奧特曼親自為新模型站臺,稱 o3 的智慧達到和接近天才水平。

而且還有人說,OpenAI 這次又重回王座。
當然,從官方放出來的榜單結果看,在編碼 SWE-Bench 和 Codeforces、數學 AIME、視覺推理 ARC-AGI、知識 GPQA, o3 以“十倍 o1 算力”重新整理了程式設計、數學和視覺推理的 SOTA。
而且,在更難的 SEAL 排行榜上幾乎是全面領先。
  • HLE(人類終極測試):測試知識前沿的複雜推理。
  • MultiChallenge(多挑戰):評估多輪指令遵循能力。
  • MASK(掩碼):檢驗壓力下的誠實性。
  • ENIGMA(謎題解答):衡量創造性推理和邏輯能力。

這兩個模型可以用震撼來形容,因為它們是原生圖片推理模型。
這是什麼意思?
就是我們目前所見到的推理模型都是文字的推理,但是在 o3 的思維鏈中,可以實現對圖片進行推理。
它能自主地對圖片進行縮放、裁剪、分析,那些被人眼忽略的細節,都能被找出來放大,簡直就是福爾摩斯 o3。
就像我們人類從視覺尋找資訊的過程一樣,定位細節然後揣測,不止如此,還能調用搜索、python 編輯器、畫圖等各種工具。
沒錯,這次的模型還強化了工具使用能力,在思維鏈中會主動使用 OpenAI 自家的各種工具進行輔助,比如需要編碼解決問題,就會呼叫 python 工具,需要繪圖就會主動使用 GPT-4o 畫圖,讓推理模型也變成全能選手。
模型的效果提升了,價格卻便宜了

  • o3 相比 o1 整體便宜了 30%。
  • o4-mini 相比 o3-mini 價格基本沒變。
整體上相當於加量不加價。
鋪墊就到這裡,按照咱們公眾號的風格,必須進入實測環節!

原生影像推理

這個影像推理的觸發過程有些迷幻,為了達到最好效果,每次提問都用英文輸入。

根據照片判斷城市

Where is this place most likely?
這裡最有可能是哪裡?
我這裡要強調一下,新模型本次最大的更新就是可以在推理過程中主動透過放大旋轉影像,尋找關鍵資訊。
我們先看 o3 的結果:

答案正確的回答出拍攝地點在北京。
在思維鏈中,它呼叫 python 工具對影像進行放大,提取井蓋上的關鍵詞“北京”, 同時透過汽車車牌上的“京”字進行輔助驗證,最終成功判斷地點是北京。
這種透過觀察區域性細節進行分析的方法,與人類進行判斷的方法非常相似。
第一個測試,o3 輕鬆透過。
這裡我把這道題也丟給了曾經的視覺之神——Claude 3.7 Sonnet。

Claude 3.7 Sonnet 只猜出了這是中國的城市,連北京都沒有懷疑一下。
當然,你可能會質疑,Claude 3.7 Thinking 是不是有可能做對?
由於官網沒法直接用 Thinking 模型,我們這裡透過 API 也進行了對 Claude 3.7 Thinking 的測試——

結論是——沒變化。
這一局 Claude 3.7 確實徹底輸給了 o3 。
再來看看前陣子驚豔全網的 Gemini 2.5 Pro,這個推理 + 視覺能力雙殺的昨日霸主:

從推理結果來看,Gemini 2.5 Pro 確實比 Claude 3.7 Thinking 視覺推理更強,但它的推理邏輯顯然遠不 o3 的推理邏輯 solid——有北京車牌的城市就是北京嗎?顯然不是。
而 o3 狠狠抓住的視覺證據——井蓋上面有“京”字,這個證據顯然非常充分。畢竟北京的井蓋不可能被弄到其他城市用。
o3:歡迎評論區來槓

漢字找不同遊戲

提示詞:play this game

出乎我意料的是,這個題目觸發了一個長達 10 分鐘的思維鏈,讓我有一種賺到的感覺。
這個題的思考過程更加複雜,不僅僅主動處理影像,還主動使用了 python 程式設計進行分析。請透過影片感受一下這個思維鏈的長度。
最後給出了正確答案,明確的指出了在第 12 行,第 2 列, 還在影像中標記了出來。

但我測試發現,OpenAI 似乎又一次坑了一把開發者,因為同樣這道題,在 Poe 這類透過官方 API 呼叫實現的平臺上,o3 是無法正確回答的。

讓我比較意外的是,這道題 Claude 3.7 Sonnet 竟然做對了——

而 Gemini 2.5 Pro,這個主打多模態能力的推理模型竟然把這道不算很難的視覺題做錯了——

圖表理解能力

提示詞:給我詳細總結這張圖

這張圖的內容是各個模型在“門薩”智商測試中的表現,讓我們看看大模型的效果是否跟圖中的得分匹配。
先看智商最高的 o3:

這個總結效果非常詳細,包括對圖中曲線,圖例和柱狀圖都有詳細的解釋,提出了對資訊的彙總以及侷限性。
內容相當完整。
下面是 Claude 3.7 Thinking——

這個結論也是沒有問題。
下面是 Gemini 2.5 Pro :

看來這個題目對於各家的旗艦模型還是太簡單了。

網友的例子

這裡再給大家放一些網友的例子:
用 o3 查詢地理位置的——

看得出,o3 透過細節找地點真的很強。等等,我好像發現了一個新的生意,比如用 o3 查查酒店什麼的。。。
還有用 o3 玩迷宮的:

邏輯推理能力

理髮師理髮問題

小鎮有一個理髮師, 這個理髮師有一個規矩,他只給所有拜訪他的人理髮。 請問他是否該給自己理髮?
這個題不仔細看會落入思維陷阱中,這不是那個有名的“理髮師悖論”。
理髮師悖論: 小鎮有一個理髮師, 這個理髮師有一個規矩,他只給不給自己理髮的人理髮。 請問他是否該給自己理髮?
我們先看 o3 的表現:

o3 的表現非常好,首先提到了“理髮師悖論”, 但是又準確的指出這個題目與它不同,然後給出了正確答案。
下一個選手, Claude 3.7 Thinking——

Claude 3.7 Thinking 直接掉入了陷阱,把題目錯誤的當成了“理髮師悖論”,直接回答錯誤。
再看 Gemini 2.5 Pro 的結果,不出所料,也陷入了“理髮師悖論”的陷阱,回答錯誤。感覺沒有分析,直接進入了過擬合狀態。

密碼鎖問題

甲、乙、丙三個海盜發現了一個巨大的保險櫃,可惜保險櫃上掛著一把密碼鎖。鎖的密碼由 5 個不同的數字組成。於是,他們胡亂猜了起來。他們每人都猜對了位置不相鄰的兩個數。根據 3 個已知條件,推斷出密碼是多少! 甲乙丙的猜測:
  • 甲:8 4 2 6 1
  • 乙:2 6 0 4 8
  • 丙:4 9 2 8 0
這個題對 o3 非常輕鬆,而且它還使用了程式設計的方式進行處理:
這裡是程式碼:

執行程式碼,得到正確答案 8,6,2,4,0, 推理過程還對答案進行了二次驗證。

可以看的出來,這個新模型確實挺喜歡使用工具。
現在來看 Claude 3.7 Thinking 的結果:

這次沒問題,Claude 3.7 Thinking 終於扳回了一點顏面。
再看 Gemini 2.5 Pro:

這次也 OK。
但它們和 o3 的風格明顯不同,o3 直接上程式碼,另外兩個完全透過邏輯進行判斷,你們覺得那種方法更好?

“父親崩潰”問題

有一天,一個女孩參加數學考試只得了 38 分。她心裡對父親的懲罰充滿恐懼,於是偷偷把分數改成了 88 分。她的父親看到試卷後,怒髮衝冠,狠狠地給了她巴掌,怒吼道:“你這 8 怎麼一半是綠的一半是紅的,你以為我是傻子嗎?”女孩被打後,委屈地哭了起來,什麼也沒說。
過了一會兒,父親突然崩潰了。
請問:這位父親為什麼過一會兒崩潰了?
這種“複雜”的問題,直接交給 o3——

這個答案我沒想到。。。
這是 o3 的推理過程:

o3 對於不會的問題,直接用工具搜尋。
學霸懂生活,會用工具!
我們看 Claude 3.7 Thinking 的結論:

這個結果,只能說 Claude 3.7 Thinking 不懂生活。
下面是 Gemini 2.5 Pro 的結果:

果然不出所料,一樣不行。只有 o3 猜對。

常識能力

一個六米長的杆子,能否穿過 3×4 米的門洞?
直接看 o3 的回答:

雖然 o3 給了正確的計算,但這個答案過於“數學”,把一個簡單的問題過於複雜化,不說人話。
下面是 Claude 3.7 Thinking

Claude 簡潔明瞭,結論雖正確,但過程不合理。
來看看 Gemini 2.5 Pro 的:

Gemini 2.5 Pro 陷入了大模型的“思維定勢”,預設門和杆子是在同一個平面內,給出了不能穿過的錯誤結論。

程式設計能力

自主貪吃蛇遊戲

create an autonomous snake game, where snakes compete with each other
建立一個自主貪吃蛇遊戲,每個蛇要與其它蛇競爭,直到最後一條存活。
直接看 o3 的回答(部分程式碼截圖):

遊戲執行效果:
這種級別的程式碼題目完全沒難度,直接一次過!
Claude 3.7 Thinking 的表現也相當不錯,採用 python 程式碼,一次透過:
下面看 Gemini 2.5 Pro:
這個完成度也是沒得說。

o3 和 o4-mini-high 哪個強?

受限於文章篇幅和主題聚焦,本文沒有再把 o4-mini-high 的評測結果放出來。
但經過編輯部的評測,可以認為體感上 o3 是足夠碾壓 o4-mini-high 的。
如果覺得 o3 標準版不夠強,還可以透過 API 呼叫 o3-high 的版本。
總之,你可以認為,OpenAI 目前放出來可用的最強推理模型,是 o3-high,而不是 o4-mini 系列。
有做過 o3 和 o4-mini 系列模型橫評的小夥伴,也可以把更多 case 和結論貼到評論區。
除此之外,o4-mini 系列的模型,似乎網路風評也不是太好,比如 reddit 上這位老哥的抱怨——

只能說,還是一分錢一分貨。
o3 的價格比 o4-mini-high 貴了 N 多倍。
只不過 openai 的命名實在太無力吐槽了——
先是上線 GPT4.5,然後釋出 GPT4.1。
明明發布了 o4-mini-high,能力卻打不過同一天釋出卻版本號更老的 o3 標準版。
考慮到還有 API 特供的 o3-high 的版本,這套命名體系簡直是災難。

結尾

這次測試,給我印象最深的主要是兩點:
  • 多模態圖片推理功能很厲害,透過搜尋關鍵物品,仔細觀察,提取重要資訊的這個流程非常像人類。
  • 模型傾向使用工具,在密碼鎖問題中會主動使用程式來解決問題,在“父親崩潰”問題中也會主動進行聯網搜尋。
o3 和 o4-mini 是 OpenAI 首次將影像推理融入“思維鏈”(chain-of-thought)的模型,又重新定義了多模態 AI 的標杆”。
而且,一個會用工具的推理模型,真的很厲害。
也許這就是 OpenAI 對“AI 代理”時代的完整藍圖:多模態推理 + 工具鏈呼叫 = 你的超級助手。

相關文章