o3和o4-mini雙模登場!首次加入圖片推理、工具呼叫

在今天凌晨的線上釋出會上,OpenAI 一次推出兩款全新模型 o3 與 o4‑mini ,並宣佈它們立即向 ChatGPT Plus、Pro 與 Team 訂閱者開放,引入了可直接“用圖片思考”的多模態推理、完整呼叫 ChatGPT 瀏覽器與 Python 等工具鏈,以及本地開源編碼代理 Codex CLI。這場 40 分鐘的直播,被外界視作 OpenAI 從“聊天助手”邁向“通用智慧代理”生態的關鍵一步。

釋出會核心亮點

雙模登場:o3 被官方稱為“迄今最強推理模型”,在數學、科學與編碼任務上相較 o1 正確率提高 20% 以上;而 o4‑mini 在速度與成本之間實現平衡,面向開發者的輕量級場景。

上圖展示 o3 模型和其前任 o1 模型在準確率和成本上的對比。

上圖展示 o4-mini 模型和其前任 o3-mini 模型在準確率和成本上的對比。
多模態推理:兩款模型首次把視覺資訊直接注入“思考鏈”,可對草圖、幻燈片或白板照片進行縮放、旋轉並參與推理。
上面的影片是專門展示新模型的視覺推理能力。模型對影像也會有長時間的思維鏈,會在思維鏈中自動對影像進行放大,旋轉等操作。
全工具呼叫:o3 與 o4‑mini 能自主呼叫 ChatGPT 的網頁瀏覽、Python 執行、檔案解析與影像生成等全部工具,官方稱之為邁向“智慧代理”的里程碑。
上面影片展示的是 o3 模型的工具呼叫能力。

新模型效能

o3 —— “深思熟慮”的旗艦

  • 在 Codeforces、SWE‑bench 等基準創下新 SOTA,複雜程式設計任務得分 69.1%。
  • 外部評測顯示,困難現實任務重大錯誤率較 o1 降低 20% 以上。
  • 支援把模糊、倒置的影像納入推理並即時操作(旋轉、縮放)。

o4‑mini —— 速度/成本之選

  • 在 AIME 2025 數學賽配合 Python 直譯器取得 99.5% 得分。
  • 輸入費用 4.40/百萬 token,與 o3‑mini 相同但效能顯著提升。
  • 另有 o4‑mini‑high 版本,延長推理時間以換取更高可靠性。

上圖展示的是新模型在基準測試上取得不錯的成績。

o4‑mini 主打“高性價比”,官方稱其在多數推理任務上接近 o3 表現,但成本顯著下降,方便第三方應用接入。

Codex CLI

Codex CLI:釋出會同步推出本地命令列代理,可在終端直接呼叫 o3 / o4‑mini 執行程式碼、除錯與檔案操控,定位為“輕量級開源編碼助手”。
上圖展示 Codex CLI 工具實際執行效果。
目前該專案已在 Github 上開源。

未來路線:智慧代理

代理化願景:官方將 o3 / o4‑mini 視作“可自行規劃、執行多步驟任務的第一代模型”,下一階段重點是讓模型穩健呼叫外部 API 與私有資料來源。

結語

此次釋出會不僅帶來了效能更強、價格更靈活的兩款模型,也首次展示了 OpenAI 對“AI 代理”時代的完整藍圖:多模態推理 + 工具鏈呼叫 + 本地執行。隨著 GPT‑5 臨近,OpenAI 正在把自家生態從聊天助手升級為可自主完成複雜工作的數字同事,行業競賽由此再次提速。

相關文章