OpenAI的「看圖思考」被玩壞了！我把工位照片給o3，隱藏屬性都被扒出來……

2025-06-28 16:46 APPSO

知道大模型接下來要卷視覺推理，但沒想到這麼卷——數學試卷都快要不夠用了。

常看推理小說的朋友們都知道：推理也分不同的型別，有專注於邏輯的，也有演繹類的。

既然 GPT 都更新到 o3了，還加入了圖片推理，那就都-得-有。

邏輯推理，但視覺版

視覺推理並不新鮮，各家都在做。這講究得不僅僅是從圖片中識別元素，還得理解這些元素，並且進一步沿用到與使用者的互動、解決工作任務中。

在 o3 之前，Gemini 2.5 在視覺推理上有非常驚人的表現，我們之前也有過測評，速測了一下 o3 的識圖能力。

不過凌晨剛釋出的時候，o3 可能沒睡醒，一個簡單的武康大樓認不出來。等到下午再測，「智力」就恢復了。

同時還引用了外鏈，保證了核查環節。這種識圖能力還是很實用的，比如我們做了兩個驗證碼識別。

之前爆火的 Manus 以及同類型的通用型 Agent 產品，可以實現自主透過驗證碼，現在這是一個應用潛力比較大的能力。

不過，在大模型流行之前，傳統搜尋引擎也可以完成識圖的工作。驗證碼、識圖這種小 case，不太能準確反應 o3 的能力。

於是我們找了真-圖形推理題：2021 年國家公務員考試模擬考題。

建議想考公的朋友們，都別直接滑下去，先自己做一做。這樣的圖形題，考察的是歸納推理的能力，即根據已有的內容推斷出下一步。

果然真題就是不一樣，o3 的推理超過了六分鐘，思維鏈長達 5 千字，不僅有圖片推理，還結合了程式碼幫助它自己理解。

然後水靈靈地答錯了——正確答案是 D，每個圖形都有且只有一個封閉區域，故選 D。o3 想了一大堆，最終錯選了 C 😊

雖然題目答錯了，不過能看出來 o3 的確如所承諾的那樣，推理是基於圖片素材進行的。

這種歸納推理的方式，有什麼實用價值嗎？——可大了，這下可以用 AI 對狙 AI。

這一陣在小紅書上流行的「極其平庸的 AI 圖」挑戰，裡面都是晃動的鏡頭、模糊的焦點，「彷彿從口袋中掏出手機時意外按下快門拍下的」。

老實說就上面這些個圖，也太難以懷疑了。AI 檢測 AI 生成文字很常見了，現在也可以讓它檢測 AI 圖片。

o3 說，它懂 GAN 生成對抗網路，它還懂分析 EXIF，它可以來總結歸納 AI 圖片的特點。

有幾分道理。可以看到它的推理分析方式是轉換成程式碼語言——在面對純邏輯推理的時候，幾乎都會轉換成程式碼語言。比如下面這個迷宮解題：

在這個迷宮問題中，o3 考慮使用 PIL、numpy 和 skimage 來進行形態學處理，並且編寫了 python 來解決。基本上，這等於是在 ChatGPT 的對話窗口裡呼叫不同的工具來輔助。

迷宮對 o3 的挑戰非常大，推理時間去到了 2 分鐘，效果也比較一般：最後試圖生成的路徑解法，但是一條無法點選的空連線。

再給其它的迷宮題，o3 同樣轉化成程式碼語言來理解。不過，這題它也沒有解出來，而且直接棄賽了。

總結一下：在歸納推理方面，o3 透過識別視覺元素、總結圖片特點，並且呼叫外部工具，進行比對識圖，這些能力都覆蓋了。

準確率和響應都有待提升，尤其是推理時間久、思維鏈條長，最後還是錯誤答案的話，換哪個使用者都要不開心的。

基本演繹法，但 AI 版

除了歸納型推理，還有演繹推理。這需要 AI 綜合上述所有的能力，並且有一點「發散思維」。

這是相當讓人興奮的部分，我們設計了一套「看工位，猜 MBTI」的挑戰活動，交給 o3。

結果相當有意思，雖然到底是 I 人還是 P 人，工位未必能完全體現出來——但這不就是 o3 要挑戰的嗎？接下來奉上內容部門同事們的桌面，以及 o3 對他們的「判定」。

【P人主編】

主編的 P 屬性非常明顯，還非常 P 得非常穩定，桌面兩年沒有變化，這點 o3 都發現了：不太花時間收拾。

【J人社媒編輯】

社媒編輯的桌面由於過於系統、技術含量過高，觸發了 o3 呼叫程式碼工具——好可怕的 J 人。

【P人實習生】

實習生的桌面東西不多但資訊量不少，尤其是顯示屏上貼了一串小紙條，原以為是便利貼，結果全是奶茶標……

這觸發了 o3 的「逐 part 分解」，每一個細節都放大來看。不過，這樣的觸發並不是每次都能出現，暫時還沒有看到明確的觸發方式。

【P人硬體及影像編輯】

工位主人表示 o3 判錯了，他明明是 P 人——只是沒有反映在工位佈置上。只能說 GPT 有時比人更瞭解人自己。

【J人汽車編輯】

在 prompt 中，我們沒有規定 o3 的返送方式，不過每次它都會拉成表格，結合 MBTI 的不同維度，分點給出線索和相對應的推理。

總結一下：演繹推理是 o3 頗為讓人興奮的地方。尤其是思維鏈開啟，可以看到針對不同的案例，呼叫不同的工具和方式。

明顯可以看到「agent」思維，直接應用在了 ChatGPT 當中。這是是本次大版本更新中，除了模型的基礎能力之外，最讓人興奮的地方。

整體上是一個可玩性非常高的版本，尤其是圖片推理的潛力，相當值得期待。但是用圖片推理來搞賽博開盒什麼的，完全不可以啊喂！

我們正在招募夥伴

📮 簡歷投遞郵箱[email protected]

✉️ 郵件標題「姓名+崗位名稱」（請隨簡歷附上專案/作品或相關連結）

更多崗位資訊請點選這裡🔗

相關文章

奧特曼被逼急：深夜上線o3-mini，甚至免費，網友：還是選DeepSeek

奧特曼被逼急：深夜上線o3-mini，甚至免費，網友：還是選DeepSeek

重磅！OpenAI推o3-mini新模型，被DeepSeek逼急？定價仍打不過

重磅！OpenAI推o3-mini新模型，被DeepSeek逼急？定價仍打不過

OpenAI釋出最強推理模型o3！影像深度思考首秀，開源程式設計智慧體已攬5k+star

OpenAI釋出最強推理模型o3！影像深度思考首秀，開源程式設計智慧體已攬5k+star

OpenAI震撼釋出o3/o4-mini，直逼視覺推理巔峰！首用影像思考，十倍算力爆表

OpenAI震撼釋出o3/o4-mini，直逼視覺推理巔峰！首用影像思考，十倍算力爆表

Altman因DeepSeek“認錯”：在開源上OpenAI站在了歷史的錯誤一方

Altman因DeepSeek“認錯”：在開源上OpenAI站在了歷史的錯誤一方

首個OpenAI免費推理模型釋出！DeepSeek讓奧特曼反思：不開源我們錯了

首個OpenAI免費推理模型釋出！DeepSeek讓奧特曼反思：不開源我們錯了

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI程式設計神器，史上最大收購曝光

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI程式設計神器，史上最大收購曝光

o3視覺推理，暴打了Gemini2.5Pro和Claude3.7Thinking

o3視覺推理，暴打了Gemini2.5Pro和Claude3.7Thinking

謝謝Deepseek，o3-mini釋出即免費！程式設計斷崖式領先，思考過程冰冷而客觀

謝謝Deepseek，o3-mini釋出即免費！程式設計斷崖式領先，思考過程冰冷而客觀

o3和o4-mini雙模登場！首次加入圖片推理、工具呼叫

o3和o4-mini雙模登場！首次加入圖片推理、工具呼叫

Copyright © 2025 | WordPress Theme by MH Themes