OpenAI的「看圖思考」被玩壞了!我把工位照片給o3,隱藏屬性都被扒出來……

知道大模型接下來要卷視覺推理,但沒想到這麼卷——數學試卷都快要不夠用了。
常看推理小說的朋友們都知道:推理也分不同的型別,有專注於邏輯的,也有演繹類的。
既然 GPT 都更新到 o3了,還加入了圖片推理,那就都-得-有
邏輯推理,但視覺版
視覺推理並不新鮮,各家都在做。這講究得不僅僅是從圖片中識別元素,還得理解這些元素,並且進一步沿用到與使用者的互動、解決工作任務中。
在 o3 之前,Gemini 2.5 在視覺推理上有非常驚人的表現,我們之前也有過測評,速測了一下 o3 的識圖能力。
不過凌晨剛釋出的時候,o3 可能沒睡醒,一個簡單的武康大樓認不出來。等到下午再測,「智力」就恢復了。
同時還引用了外鏈,保證了核查環節。這種識圖能力還是很實用的,比如我們做了兩個驗證碼識別。
之前爆火的 Manus 以及同類型的通用型 Agent 產品,可以實現自主透過驗證碼,現在這是一個應用潛力比較大的能力。
不過,在大模型流行之前,傳統搜尋引擎也可以完成識圖的工作。驗證碼、識圖這種小 case,不太能準確反應 o3 的能力。
於是我們找了真-圖形推理題:2021 年國家公務員考試模擬考題。
建議想考公的朋友們,都別直接滑下去,先自己做一做。這樣的圖形題,考察的是歸納推理的能力,即根據已有的內容推斷出下一步。
果然真題就是不一樣,o3 的推理超過了六分鐘,思維鏈長達 5 千字,不僅有圖片推理,還結合了程式碼幫助它自己理解。
然後水靈靈地答錯了——正確答案是 D,每個圖形都有且只有一個封閉區域,故選 D。o3 想了一大堆,最終錯選了 C 😊
雖然題目答錯了,不過能看出來 o3 的確如所承諾的那樣,推理是基於圖片素材進行的
這種歸納推理的方式,有什麼實用價值嗎?——可大了,這下可以用  AI 對狙 AI
這一陣在小紅書上流行的「極其平庸的 AI 圖」挑戰,裡面都是晃動的鏡頭、模糊的焦點,「彷彿從口袋中掏出手機時意外按下快門拍下的」。
實說就上面這些個圖,也太難以懷疑了AI 檢測 AI 生成文字很常見了,現在也可以讓它檢測 AI 圖片。
o3 說,它懂 GAN 生成對抗網路,它還懂分析 EXIF,它可以來總結歸納 AI 圖片的特點。 
有幾分道理。可以看到它的推理分析方式是轉換成程式碼語言——在面對純邏輯推理的時候,幾乎都會轉換成程式碼語言。比如下面這個迷宮解題:
在這個迷宮問題中,o3 考慮使用 PIL、numpy 和 skimage 來進行形態學處理,並且編寫了 python 來解決。基本上,這等於是在 ChatGPT 的對話窗口裡呼叫不同的工具來輔助。
迷宮對 o3 的挑戰非常大,推理時間去到了 2 分鐘,效果也比較一般:最後試圖生成的路徑解法,但是一條無法點選的空連線。
再給其它的迷宮題,o3 同樣轉化成程式碼語言來理解。不過,這題它也沒有解出來,而且直接棄賽了。
總結一下:在歸納推理方面,o3 透過識別視覺元素、總結圖片特點,並且呼叫外部工具,進行比對識圖,這些能力都覆蓋了。
準確率和響應都有待提升,尤其是推理時間久、思維鏈條長,最後還是錯誤答案的話,換哪個使用者都要不開心的。 
基本演繹法,但 AI 版
除了歸納型推理,還有演繹推理。這需要 AI 綜合上述所有的能力,並且有一點「發散思維」。
這是相當讓人興奮的部分,我們設計了一套「看工位,猜 MBTI」的挑戰活動,交給 o3。
結果相當有意思,雖然到底是 I 人還是 P 人,工位未必能完全體現出來——但這不就是 o3 要挑戰的嗎?接下來奉上內容部門同事們的桌面,以及 o3 對他們的「判定」。 
P人主編】
主編的 P 屬性非常明顯,還非常 P 得非常穩定,桌面兩年沒有變化,這點 o3 都發現了:不太花時間收拾。 
【J人社媒編輯】
社媒編輯的桌面由於過於系統、技術含量過高,觸發了 o3 呼叫程式碼工具——好可怕的 J 人。
【P人實習生】
實習生的桌面東西不多但資訊量不少,尤其是顯示屏上貼了一串小紙條,原以為是便利貼,結果全是奶茶標…… 
這觸發了 o3 的「逐 part 分解」,每一個細節都放大來看。不過,這樣的觸發並不是每次都能出現,暫時還沒有看到明確的觸發方式。
【P人硬體及影像編輯】
工位主人表示 o3 判錯了,他明明是 P 人——只是沒有反映在工位佈置上。只能說 GPT 有時比人更瞭解人自己。
【J人汽車編輯】
在 prompt 中,我們沒有規定 o3 的返送方式,不過每次它都會拉成表格,結合 MBTI 的不同維度,分點給出線索和相對應的推理。
總結一下:演繹推理是 o3 頗為讓人興奮的地方。尤其是思維鏈開啟,可以看到針對不同的案例,呼叫不同的工具和方式。
明顯可以看到「agent」思維,直接應用在了 ChatGPT 當中。這是是本次大版本更新中,除了模型的基礎能力之外,最讓人興奮的地方。 
整體上是一個可玩性非常高的版本,尤其是圖片推理的潛力,相當值得期待。但是用圖片推理來搞賽博開盒什麼的,完全不可以啊喂!
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)
更多崗位資訊請點選這裡🔗

相關文章