剛剛,OpenAI最強推理模型o3釋出!首次能用圖片思考,奧特曼:天才水平|附實測細節

o3 達到或接近天才的水平。」

就在剛剛,OpenAI o3/o4 mini 模型終於正式推出。直播用時接近 30 分鐘,節奏快到飛起,資訊量卻滿滿當當。
o3 的釋出歷程本身也極具反轉,今年 2 月,OpenAI 曾宣佈擱置 o3 的獨立釋出計劃,技術會打包塞進 GPT-5 裡。到了 4 月初,深諳「飢餓營銷」 的 Altman 卻宣稱計劃有變:
o3 要先上,GPT-5 反而得等等,最快也得幾個月後。
劃重點,OpenAI o3/o4 mini 亮點如下:
o 系列迄今最智慧的模型,推理能力大幅提升,思考時間越長,效果越好。
首次將影像直接融入思維鏈,用圖片「思考」,能直接呼叫工具處理圖片。
首次全面支援網頁搜尋、檔案分析、Python 程式碼執行、視覺輸入深度推理和影像生成等功能。
成本效率上優於前代,o3 在相同延遲和成本下效能更強。
在模型選擇器上取代 o1 等模型,ChatGPT Plus、Pro 和 Team 使用者即日起可使用 o3、o4-mini 和 o4-mini-high,企業與教育使用者一週後獲訪問許可權。o3-pro 預計數週內釋出。
免費使用者可透過「Think」模式使用 o4-mini,速率限制不變。
開發者則透過 Chat Completions API 和 Responses API 訪問,支援推理摘要和函式呼叫最佳化,即將支援網頁搜尋等內建工具。
OpenAI 最強推理模型 o3 釋出,GPT-5 還會遠嗎?
最新發布的 o3 和 o4-mini,是 o 系列迄今最智慧的模型。
這兩款模型在推理能力、工具使用和多模態處理上表現出色,能夠更長時間思考複雜問題,首次全面支援網頁搜尋、檔案分析、Python 程式碼執行、視覺輸入深度推理和影像生成。
上至高階研究人員,下至普通使用者,新模型適用的場景也更廣泛。
OpenAI o3 和 o4-mini 可以呼叫 ChatGPT 中的工具,並透過 API 中的函式呼叫訪問自定義工具。
透過強化學習,OpenAI 還訓練了這兩個模型如何使用工具 ——不僅知道如何用、何時用,還能以正確格式快速生成可靠答案,通常耗時不到一分鐘。
比如,當被問及加州夏季的能源使用量與去年相比如何時,能上網查詢公共能源消耗資料,寫 Python 程式碼預測,生成圖表或圖片,並解釋預測依據,流暢串聯多種工具。
整個推理搜尋過程也勝在靈活多變:模型可多次調用搜索引擎,交叉驗證結果;若自有知識不足,還能進一步挖掘資訊、整合跨型別輸出。
在今天凌晨的直播環節,OpenAI 總裁 Greg Brockman 也罕見露面。OpenAI 演示者則展示了新模型如何結合使用者興趣,發現使用者可能感興趣但尚未知道的內容。
新模型啟用「記憶」功能後,能夠了解演示者的興趣愛好——跳傘和音樂。
不是簡單分別討論兩個愛好,新模型找到了一個將兩者聯絡起來的研究領域:科學家錄製健康珊瑚礁的聲音,然後用水下揚聲器回放這些錄音,這種聲音回放加速了新珊瑚和魚類的定居,能夠幫助珊瑚礁更快地癒合和再生。
內容建立過程中,模型還自動建立了一篇完整的部落格文章,先是使用資料分析工具生成視覺化,用 Canvas 建立部落格文章,並附上提供了引用和來源。
作為最新的旗艦推理模型,o3 在程式設計、數學、科學和視覺感知領域創下新紀錄,例如 Codeforces、SWE-bench 和 MMMU 基準測試,視覺任務準確率達 87.5%,MathVista 也有 75.4%。
外部專家評估顯示,o3 在程式設計、商業諮詢和創意構思的重大錯誤率也比 o1 低 20%,在生物學、數學和工程領域能生成並批判性評估新穎假設,適合複雜查詢。
o4-mini 「體型更小」,優化了快速、低成本推理,在 AIME 2024 和 2025 數學測試中準確率分別為 92.7% 和 93.4%,在非 STEM 和資料科學任務中優於 o3-mini,效率高,能處理更多請求,也更適合需要快速響應的場景。
向左滑動檢視更多內容
效能對比顯示,o3 和 o4-mini 在 AIME、Codeforces、GPQA 和 MMMU 等測試中全面超越前代,且指令遵循和響應質量也都顯著提升,結合記憶功能和歷史對話引用,回答更個性化、更相關。
在 OpenAI o3 的整個開發過程中,OpenAI 觀察到大規模強化學習呈現出與 GPT 系列預訓練中相同的 「計算量越大,效能越好 」的趨勢。
沿著這一路徑(強化學習),OpenAI 在訓練計算量和推理時間方面都提升了一個數量級,但仍然看到了明顯的效能提升,在跟 o1 相同的延遲和成本下,o3 的表現更強,而且給它更多時間思考,效果還能更好。
不忘畫餅的 OpenAI 也表示,o3 和 o4-mini 已經展現了 o 系列推理能力與 GPT 系列自然對話和工具使用的融合趨勢,而未來模型(GPT-5)預計將進一步整合這些優勢,為使用者提供更智慧、實用的體驗。
能用圖片「思考」,就是偶爾會「想太多」
OpenAI o3 和 o4-mini 還是 o 系列最新的視覺推理模型。
怎麼理解視覺推理模型呢?據官方介紹,模型首次將影像直接融入思維鏈,開啟了一種融合視覺與文字推理的全新問題解決方式。
配合 Python 資料分析、網路搜尋和影像生成等工具,還能應對更復雜的任務。
上傳白板照片、教科書圖表或手繪草圖,即便影像糊了、反轉或質量不佳,模型也能準確解讀,並直接呼叫工具處理圖片,裁剪、旋轉、縮放等操作都不在話下。
重點是,這些功能是原生的,無需依賴單獨的專用模型。

博主 @danshipper 透過一張模糊的照片找到了一個嬰兒車品牌,從畫面上看,整個過程也搜尋了數十個網頁。
我也上傳了武康大樓的圖片,o3 準確識別到了建築位於淮海路附近,不過,回答卻並沒有給出建築的名字。
當然,這種思考方式也不是沒有「缺陷」:
想得太多:模型可能過於依賴工具或影像處理,導致推理思維鏈冗長。
看走眼:即使工具使用正確,視覺誤解也可能導致答案錯誤。
不穩定:同一問題多次嘗試,模型可能採用不同推理路徑,部分結果出錯。
Codex CLI 免費開源,OpenAI 真 open 了?
o3 和 o4-mini 在成本效率上優於前代,2025 年 AIME 測試中價效比完勝 o1 和 o3-mini,更智慧也更划算。
o3 輸入每百萬 tokens(大約 75 萬個詞,長度超過《指環王》系列)的費用為 10 美元,輸出每百萬 tokens 的費用為 40 美元。
o4-mini 輸入每百萬 tokens 的費用為 1.10 美元,輸出每百萬 tokens 的費用為 4.40 美元。
向左滑動檢視更多內容
前不久,OpenAI 被曝安全測試時間從數月縮水到了幾天。而 o3 和 o4-mini 的系統卡則顯示,OpenAI 重建了安全訓練資料集,新增生物威脅、惡意軟體生成和越獄攻擊的拒絕提示。
根據最新的《準備框架》,o3 和 o4-mini 在生物與化學、網路安全及 AI 自我改進領域風險均低於「高」閾值。

附 Codex CLI GitHub 地址:https://github.com/openai/codex

Agent 雖遲但到,OpenAI 還推出了一款輕量級終端編碼 Agent——Codex CLI。
基於 o3 和 o4-mini 的推理能力,Codex CLI 支援多模態輸入,已在 GitHub 開源。此外 ,OpenAI 還啟動 100 萬美元計劃支援相關專案,接受 2.5 萬美元 API 積分資助申請。
OpenAI 這回是真 open 了。
據介紹,Codex 有兩種執行模式,一種是「建議模式」(預設):提出命令供使用者確認,另一種是「全自動模式」:停用網路訪問,讓 Agent 自主工作但保持安全。
直播演示中,OpenAI 研究員將螢幕截圖拖入終端,Codex CLI 透過多模態推理分析影像,訪問使用者檔案,最終生成 HTML 檔案,打造了一個 ASCII 藝術生成器,併成功添加了網路攝像頭 API。
值得一提的是,據彭博社報道,OpenAI 擬以約 30 億美元收購 AI 程式設計工具公司 Windsurf,如果收購成功,這將成為 OpenAI 迄今為止規模最大的收購案。
報道指出,一旦交易達成,OpenAI 將能夠與 Anthropic、微軟旗下的 Github 和 Anysphere 等公司展開更直接的競爭,從而在快速增長的 AI 程式設計工具市場中佔據一席之地。
「天才級」o3 引 Altman 轉發力挺,但這些題卻答不對…
一些 X 平臺博主提前拿到了新模型的體驗資格,並分享了使用體驗。
體驗一週的 @danshipper 表示,o3 速度快、很有「行動力」、極其聰明,而且整體感覺非常棒。最喜歡的用法包括:
制定了一個簡潔的機器學習小課程,並每天早上提醒博主學習
透過一張模糊的照片找到了一個嬰兒車品牌
用超快的速度寫出了一個全新的 AI 基準測試程式
像 X 光一樣分析了 Annie Dillard 的一篇經典作品,挖掘出博主以前從未注意到的寫作技巧
檢視會議記錄,敏銳捕捉博主試圖迴避衝突的情況
分析組織架構後,建議推出什麼樣的產品,以及短板在哪
醫學博士 @DeryaTR_ 認為 o3 很聰明,「當我向 o3 提出具有挑戰性的臨床或醫學問題時,它的回答聽起來就像是來自頂級醫生:準確、全面、基於證據且充滿信心,表現得非常專業,完全符合我們對這個領域專家的期望。」
Altman 也轉發引用了他的說法「o3 達到或接近天才的水平」。
在 @DeryaTR_ 看來,o4 mini 則稍微「低調」一些,回答細節上沒有 o3 那麼詳細,可能更簡潔、流暢,給人一種優雅的感覺,甚至可能更具「情感」。
當然,我們也上手測試了一些問題。
從前有一位老鐘錶匠,為一個教堂裝一隻大鐘。他年老眼花,把長短針裝配錯了,短針走的速度反而是長針的12倍。裝配的時候是上午 6 點,他把短針指在「6」上,長針指在「12」上。老鐘錶匠裝好就回家去了。人們看這鐘一會兒 7 點,過了不一會兒就8點了,都很奇怪,立刻去找老鐘錶匠。等老鐘錶匠趕到,已經是下午 7 點多鐘。他掏出懷錶來一對,鍾準確無誤,疑心人們有意捉弄他,一生氣就回去了。這鐘還是 8 點、9 點地跑,人們再去找鐘錶匠。老鐘錶匠第二天早晨 8 點多趕來用表一對,仍舊準確無誤。請你想一想,老鐘錶匠第一次對錶的時候是 7 點幾分?第二次對錶又是 8 點幾分?
o3 回答錯誤 ❌
U2 合唱團在 17 分鐘 內得趕到演唱會場,途中必需跨過一座橋,四個人從橋的同一端出發,你得幫助他們到達另一端,天色很暗,而他們只有一隻手電筒。一次同時最多可以有兩人一起 過橋,而過橋的時候必須持有手電筒,所以就得有人把手電筒帶來帶去,來回橋兩端。手電筒是不能用丟的方式來傳遞的。四個人的步行速度各不同,若兩人同行則 以較慢者的速度為準。Bono 需花 1 分鐘過橋,Edge 需花 2 分鐘過橋,Adam 需花5分鐘過橋,Larry 需花 10 分鐘過橋。他們要如何在 17 分鐘內過橋呢?
o4 mini 回答正確 ✅
如下實測,雖然 o3 給出了完整的推理步驟,但回答卻也再次出錯。
o3 回答錯誤 ❌
在 OpenAI 上新之際,細心的網友也發現新款 Gemini 將於下週(4 月 22 日)釋出。
DeepSeek R2、Anthropic 的 Claude 4 以及馬斯克劇透的「GroK-3.5」 也預計將在本月陸續釋出。
即便往前看,4 月也是 AI 最為「內卷」的一個月,很大程度上決定未來一年 AI 行業的發展走向,而更強的模型、更低的成本、更廣的場景也將給我們帶來更智慧、更普惠的未來。
附 OpenAI 團隊在 X 平臺上舉辦的 AMA 總結:
OpenAI 計劃在未來幾個月釋出一個出色的開放模型,新的影像生成功能將很快在 API 中推出。
o3 現已在 API 中提供,而更先進的 o3-pro 模型正在開發中,預計很快釋出。
強化學習微調(Reinforcement fine-tuning)很快會全面開放,允許公開進行微調或使用推理模型進行強化學習(RL)。
在 Responses API 中,開發者訊息與系統訊息之間的切換是自動處理的;將系統訊息傳送給 o3 或將開發者訊息傳送給 GPT-4.1 會自動轉換。
目前,ChatCompletions 或 Responses API 不支援託管工具
在 o3 和 o4-mini 的推理階段,Web 搜尋、檔案搜尋和程式碼直譯器等工具會被積極使用;這些工具目前在ChatGPT中已被支援,但尚未在 API 中支援——預計很快會新增支援。
OpenAI 正在積極開發 Agents SDK 中的執行緒支援,以改善對話歷史和記憶。
OpenAI認為低程式碼平臺在 Agents SDK 中的建議很有趣,並歡迎開發者就最有用的功能提供反饋。
Codex CLI 包括多個文件化的審批模式,允許使用者為每個操作或會話選擇模式。
Codex CLI 並不是用來替代 Cursor、Windsurf 等 IDE 工具;它的設計目的是在使用者使用主要 IDE 時執行後臺任務。
比較 Codex 的編碼能力和深度研究能力取決於選擇的模型(o3 或 o4-mini);Codex 特別利用函式呼叫,直接在使用者計算機上執行命令。
新模型主要訓練於通用瀏覽、Python/程式碼執行工具和對開發者有用的使用者定義工具。
雖然 GPT-4.5 更強大,但它更慢且計算密集,GPT-4.1 為開發者提供了一個更快且更具成本效益的選擇。
GPT-4.1 的一些改進已經整合到 ChatGPT 中,更多改進將在未來推出。
OpenAI 承認「4o」和「o4」等模型名稱之間存在命名混淆,並計劃很快簡化模型命名。
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)

相關文章