白交 發自 凹非寺量子位 | 公眾號 QbitAI
又一個讓大模型幾乎全軍覆沒的難題出現了。
注意看,這張圖畫的是誰?

如果不夠明顯,那再眯著眼睛看呢。沒錯,就是蒙娜麗莎。
這張來自日本藝術家北岡秋吉前幾天創作的一張圖,結果直接把一眾大模型難倒了。
ChatGPT只能分辨出這是一張臉。。

Gemini則是直接識別錯了人。

網友:懂了,大模型不會眯眼睛。

大模型不會眯眼睛?
為了驗證這一推論,咱們也進行了一波簡單實測。既然直接問「畫的是誰」問不出來,那給一點提示,讓它可以嘗試眯著眼睛。

首先來看ChatGPT的表現。
它能準確判斷出這是一張視覺錯點陣圖,也透過「眯著眼睛」識別出來了具體的臉部輪廓,結果在最後關頭識別錯了。

而再讓它深度思考一下,答案給不出來了。

Gemini的回答則還停留在各種顏色的條紋,也辨認出這是個側臉的輪廓。

Grok則直接表示無法辨認,讓我提供一張更清晰的照片,emmm…

再來看看國產玩家的表現,還是挑出三個來看看。
豆包的回答與Gemini類似,能夠判斷出影像的風格、人臉輪廓,但是無法判斷具體任務。
但選擇深度思考之後,它深入研究了故障藝術的通道分離特性,然後從黑色輪廓中判斷出這是愛因斯坦(????
可能這蓬鬆的長髮不是一個型別的吧。

將這個問題交給Qwen。負責回答這個問題的是Qwen3-235B-A22B,在完成深度思考之後,它發現了這是個人的側臉剪影。但還是沒有判斷出畫的這個人是誰。

而元寶、訊飛的回答如下:

△元寶

△訊飛星火
但o3-Pro一次性回答對
不過在一眾模型全軍覆沒之際,也還是有得分選手。
比如o3-Pro。

網友進一步分析了原因。這可能與模型推理軌跡有關。比如像o3(非pro版)思考鏈路裡,它通常會在 Python 中旋轉、增加對比度、裁剪等。而o3-pro顯然推理能力更強。

但有人懷疑了,它是不是用搜索了。
不過這被發現者駁回了。首先o3也可以用搜索,但無法做到這一點。而且從o3-pro的推理摘要中看,它只有在模糊後才能看到它(可能是透過使用工具)。而且如果只問“這是什麼?”,它也不起作用。
還有嘗試了三次的GPT-4o。

不過這合理懷疑,只是它偶然猜對了。
因為網友在它第一次打錯之後,就給模型提示說這是一張著名的畫作。於是就莫名玩起了「海龜湯」的遊戲。。。

又或者讓o4-mini-high先人為地模糊影像以使其“眯眼”,然後就能識別影像。

好了,感興趣的朋友可以去嘗試一下。有挑戰成功的友友,可以在評論區分享下提示詞經驗~
參考連結:[1]https://x.com/svpino/status/1940924964431188137[2]https://x.com/goodside/status/1941296192656376297
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —


🌟 點亮星標 🌟