
作者丨鄭佳美
編輯丨馬曉寧
今天凌晨,奧特曼突然發文宣佈推出自家最新的 o 系列模型:滿血版 o3 和 o4-mini,同時表示這兩款模型都可以自由呼叫 ChatGPT 裡的各種工具,包括但不限於影像生成、影像分析、檔案解釋、網路搜尋、Python。
總的來說,就是比前一代的效能更強而且價格更低。

訊息一齣,馬上就有網友曬出了兩個模型的“小球測試”結果,並配文:“這確實是迄今為止看到的最好的測試結果了。”

也有網友曬出了滿血版 o3 和 o4-mini 在 HLM 基準的中的排名,其中 OpenAI 的兩款新模型僅用了幾個小時的時間就穩穩的“盤”上了榜單前三,引得網友大呼震驚。


除了網友們的測評結果外,我們也來看一下 OpenAI 給出的兩個模型的官方資料。
首先,o3 在多個基準測試中表現優異,包括 Codeforces、SWE-bench 和 MMMU 等,重新整理了多項紀錄。除此之外,o3 在應對複雜現實任務時,比 OpenAI o1 減少了 20% 的重大錯誤,尤其在程式設計、商業諮詢和創意構思領的方面能力最為突出。

o4 mini 這邊,別看它體量不大,但專為快速、高效的推理任務而設計,可以支援比 o3 更高的使用頻率。
在數學、程式設計和視覺任務上的表現依然非常亮眼。在 2025 年 AIME 數學競賽中,藉助 Python 直譯器的幫助,o4-mini 取得了99.5%的高分,幾乎達到了該測試的滿分水平。專家評估同樣顯示,它在非 STEM 任務以及資料科學領域的表現已經超越了 o3-mini。

此外,o3 和 o4-mini 首次實現了將影像直接融入思維鏈的能力,它們不僅“看得見”影像,更能“透過影像思考”。這帶來了視覺與文字推理的全新融合方式,顯著提升了它們在多模態任務中的表現。
關於這點,OpenAI 影像推理研究員 Jiahui Yu 發文稱:“自最初推出 o 系列以來,“影像思考”始終是我們在感知領域的核心戰略之一。早期釋出的 o1 vision,曾為這一方向提供了初步的探索與預覽;而如今,隨著 o3 和 o4-mini 的釋出,這一戰略終於以更為成熟和完整的形式落地。多模態能力的持續演進,不僅推動了模型在理解世界方式上的躍升,也成為 OpenAI 實現 AGI 願景中不可或缺的關鍵一環。”

模型效能毋庸置疑,而關於這兩款模型可以自由呼叫 ChatGPT 裡的各種工具的能力,OpenAI 首席研究官 Mark Chen 也發文表示:一旦推理模型學會了端到端地使用工具,它們就會變得更加強大,而最新的 o 系列模型正在“向未來邁出的質的一步”。

所謂“質的一步”,無非是將大模型的能力擴充套件到目前最火的 Agent 領域,值得一提的是,這已經不是 OpenAI 第一次向 Agent 領域進發了。
今年年初,OpenAI 接連推出 Operator 和 Deep Research 兩個產品宣告向 Agent 進發,在此之前,他們還推出過一個類似於代辦助手的 Agent 產品 —— ChatGPT tasks,來試了試水花。
而這次的滿血版 o3 和 o4 mini 則是支援直接呼叫 ChatGPT 裡的各種工具,從之前的“聰明大腦”直接進化為了“靈巧雙手”。
有網友在試過了 o3 最新模型的呼叫能力後表示,模型幫他做了一些需要跨工具才能完成的工作,這讓他感覺到了 Agent 給人們帶來的便捷。

關於如何才能做出真正的 Agent,目前坊間的主流觀點是:強化學習加基座模型。
但在 Agent 的實際研發中,大多數專注於 Agent 的公司並不具備自研基座模型的能力,能夠組建強化學習團隊的更是鳳毛麟角。它們唯一的機會,往往在於依靠強悍的工程能力持續打磨產品體驗,或透過差異化定位,探索某些功能層面的創新。
然而,由於缺乏底層模型的掌控權,這樣的努力終究只是為自己在與大模型公司的賽道上爭取些許緩衝時間。正因如此,那些具備訓練基礎模型能力的公司,在開發 Agent 時,往往能夠實現事半功倍的效果,佔據天然優勢。
巧合的是,Deep Research 團隊曾在多次訪談中強調,他們認為基於強化學習的端到端訓練是當前 Agent 技術變革的關鍵所在,原因在於強化學習能夠有效突破傳統 AI 系統在複雜場景中面臨的靈活性不足和泛化能力受限的問題。
在此基礎上,疊加 OpenAI 本身在基礎模型上的強大優勢,或許不久之後,Agent 就會被吃進 ChatGTP 的某個版本之中。

一位長期從事 Agent 方向的研究人員曾對 AI 科技評論表示:“用強化學習訓練 Agent,本質上更像是將語言模型的能力在特定環境中進行定向強化和適配。也就是說,強化學習更多是在幫助語言模型在某一特定場景中“訓得很好”。然而,目前許多學術研究仍停留在使用較基礎的 base model 進行環境內訓練,這樣的工作即便做到極致,其成果也往往只是某個環境下的“特化版本”,難以實現跨環境的泛化能力,因此其實際意義和應用價值仍然有限。”
順著這個點往下看,不難發現其實 OpenAI 已經同時掌握了基礎模型和訓練方式,擁有從底層能力到上層產品的完整控制權,也因此在定價方便擁有了更大的自主權。
例如,Deep Research 的 Agent 以每月 200 美金的價格對外訂閱,全部收入可以留在體系內部,而那些依賴第三方模型的獨立 Agent 團隊,不僅受到 API 成本和模型效能波動的限制,在產品定價上也顯得捉襟見肘。
“略知皮毛”不如洞徹本質,“套殼”並不是長久之計,這麼一看,OpenAI 做 Agent,就得天獨厚。
新模型之外,OpenAI 還開源了一款原生代碼智慧體:Codex CLI。它是一個輕量級的編碼助手,可直接在使用者的終端命令列中執行,為的是充分發揮 o3、o4-mini 等模型的推理能力,緊密連線本地開發環境,未來還會支援 GPT 4.1 等其他模型。
值得一提的是,它甚至支援透過截圖或手繪草圖進行多模態程式設計,直接重新整理了程式碼互動與內容理解的邊界。

為了測試這個功能,在釋出會的直播中,開發人員還現場用 Codex CLI 展示了一波實施攝影的 ASCII 畫面,讓不少直播間網友大呼:“Intresting!”

參考連結:
https://x.com/sama/status/1912558495997784441
https://news.ycombinator.com/item?id=43707719#43711155
https://github.com/openai/codex
https://x.com/jhyuxm/status/1912562461624131982



更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
