

編譯 | 程茜
編輯 | 雲鵬
智東西4月17日報道,今日凌晨,OpenAI重磅釋出兩大視覺推理模型OpenAI o3和o4-mini,這也是OpenAI o系列中首次可以使用影像進行思維鏈推理的模型。OpenAI還開源了輕量級程式設計Agent Codex CLI,釋出不到7個小時,Star數已超5500。

這兩個模型的區別在於,OpenAI o3是最強大的推理模型;OpenAI o4-mini是一個針對快速、成本效益推理進行最佳化的較小模型。新模型首次將影像融入思維鏈過程,還能自主呼叫工具,在一分鐘內生成答案。

OpenAI開源的程式設計Agent Codex CLI能最大化模型推理能力,可在端側部署。今日OpenAI還在AI程式設計領域曝出重磅收購交易。據外媒報道,OpenAI正在洽談以30億美元(約合人民幣219億元)收購AI輔助程式設計工具Windsurf(前身為Codeium),這將是OpenAI迄今規模最大的一筆收購。
今天起,ChatGPT Plus、Pro和Team使用者可以使用o3、o4-mini和o4-mini-high,這些模型會取代o1、o3-mini和o3-mini-high。ChatGPT企業和教育使用者將在一週後獲得訪問許可權。免費使用者可以在提交查詢前選擇“思考”來嘗試o4-mini。OpenAI預計在幾周內釋出OpenAI o3-pro,並配備完整工具支援。目前Pro使用者仍可訪問o1-pro。o3和o4-mini透過Chat Completions API和Responses API向開發者開放。

OpenAI聯合創始人兼CEO Sam Altman在社交平臺X上發文盛讚o3、o4-mini是“天才水平”。

正在被OpenAI洽談收購的Windsurf,正式名稱為Exafunction Inc.,成立於2021年,已籌集超過2億美元的風險投資資金,估值30億美元,近期與其洽談融資事宜還包括Kleiner Perkins和General Catalyst在內的投資者。去年11月,Windsurf釋出了全球首個智慧體IDE。

▲Windsurf釋出全球首個智慧體IDE(Agentic IDE)
近期AI程式設計創企融資火爆,Cursor背後的初創公司Anysphere在今年早些時候與投資者洽談以近100億美元(約合人民幣731億元)的估值獲得新融資。
此前OpenAI曾收購過向量資料庫公司Rockset和遠端協作平臺Multi。如果收購Windsurf的新交易完成,OpenAI將進一步補充AI程式設計助手實力,與Anthropic、微軟旗下Github、Anysphere等知名AI程式設計公司展開更直接的競爭。
交易條款尚未敲定,談判仍有可能發生變化。
01.
用影像思考
手繪草圖、顛倒文字都能處理
o3和o4-mini模型可以直接將影像整合到思維鏈中,用影像來進行思考,並且其還會被訓練推理在什麼時間點使用哪種工具。
具體來看,模型可以解讀人們上傳的白板照片、教科書圖表或手繪草圖,如果影像模糊、顛倒,模型也能借助工具即時操作影像,如進行旋轉、縮放或變換等,或者與Python資料分析、網路搜尋、影像生成等工具協同工作,這些都是模型推理過程的一部分。
如使用者上傳一張隨手拍的圖片,可以詢問模型圖片“最大船隻的名字、在哪裡停靠”等問題。

例如在使用內建文獻解決一道數學難題時,OpenAI o3可以在不使用搜索的情況下給出正確答案,o1則無法提供正確響應。

面對幫助使用者“收集區域旅行資料、經濟統計資料和酒店入住率,病直觀分析趨勢並推薦理想的擴張地點”這一複雜問題時,OpenAI o3的結果引用了更多與行業相關的來源,並提出了詳細計劃,同時預測現實世界的挑戰並提供主動的緩解措施。相比之下,01的結果更為寬泛。

在根據使用者上傳的一張“手持節目單”照片進行分析後,OpenAI o3能夠準確考慮日程安排並輸出可用的計劃,而o1存在不準確之處,某些節目時間錯誤。

模型能夠根據遇到的資訊做出反應和調整,例如,它們可以在搜尋提供商的幫助下多次搜尋網路、檢視結果,並在需要更多資訊時嘗試新的搜尋。這使得模型可以處理需要訪問超出模型內建知識、擴充套件推理、綜合和跨模態輸出最新資訊的任務。
02.
多模態任務大幅優於前代模型
視覺推理準確率高達97.5%
在成本和效能方面,OpenAI預計對於大多數實際應用,o3和o4-mini分別將比o1和o3-mini更智慧且更便宜。
o4-mini和o3-mini在成本和效能方面的對比:

o3和o1在成本和效能方面的對比:

OpenAI在一系列人類考試和機器學習基準測試中測試了OpenAI o3和o4-mini,其結果顯示,這些新的視覺推理模型在所有測試的多模態任務上都顯著優於前代模型。
其中,無需瀏覽的影像思維幾乎在其所有評估的感知基準測試中均取得了顯著提升。OpenAI o3和o4-mini在STEM問答(MMMU、MathVista)、圖表閱讀和推理(CharXiv)、感知原語(VLMs are Blind)和視覺搜尋(V*)方面均達到了新的最先進效能。在V*上,新模型的視覺推理方法達到了95.7%的準確率。
o3在分析影像、圖表和圖形等視覺任務上表現更好。外部專家的評估中,o3在困難、現實世界的任務上比OpenAI o1少犯20%的重大錯誤。早期測試者強調了其在生物學、數學和工程背景中分析嚴謹性問題的能力,以及可以生成和批判性地評估新穎假設的能力。
在專家評估中,o4-mini在非STEM任務以及資料科學等領域表現超過o3-mini。且o4-mini支援比o3高得多的使用限制,具備高容量、高吞吐量的優勢。
外部專家評估員認為這兩個模型都表現出比先前模型更好的指令遵循能力和更有用、可驗證的響應,此外,新模型在自然對話方面,可以參考記憶和過去的對話來使響應更加個性化的回答。

多模態能力的評估結果:

編碼能力的評估結果:

遵循指令和代理工具使用的評估結果:

03.
延續“更多計算=更好效能”思路
已開源輕量級程式設計Agent
在OpenAI o3的開發過程中,研究人員觀察到大規模強化學習呈現出與GPT系列預訓練中觀察到的“更多計算=更好效能”的趨勢相同。
他們透過在強化學習中追溯擴充套件路徑,在訓練計算和推理時間上又推進了一個數量級後,看到了模型明顯的效能提升,這驗證了隨著模型被允許進行更多思考,其效能仍在持續提升。
與OpenAI o1相同的延遲和成本下,o3在ChatGPT中實現了更高的效能,並且其在部落格中透露,研究人員已經驗證,如果讓模型思考更長的時間,其效能還會繼續提升。
研究人員還透過強化學習訓練了新模型使用工具,不僅包括如何使用工具,還包括如何推理何時使用工具。新模型可以根據期望結果部署工具,使得其在涉及視覺推理和多步驟工作流程等開放式情境的表現更好。
OpenAI還分享了一個輕量級的程式設計Agent Codex CLI,用來最大化o3和o4-mini等模型的推理能力,使用者可以直接在終端執行,OpenAI計劃支援GPT-4.1等更多API模型。
使用者可以透過傳遞截圖或低保真草圖到模型,結合對原生代碼的訪問,從命令列獲得多模態推理的好處。OpenAI認為這可以將模型與使用者及其計算機連線起來。今天起,Codex CLI已完全開源。

開源地址:github.com/openai/codex
同時,OpenAI啟動了一項100萬美元倡議,以支援使用Codex CLI和OpenAI模型的工程專案,其將評估並接受以25000美元API信用額度形式提供的補助金申請。
04.
仍有三大侷限性:
推理鏈過程、感知錯誤、可靠性不足
不過,在部落格中研究人員也提到,影像推理目前存在以下侷限性:
過長的推理鏈:模型可能會執行冗餘或不必要的工具呼叫和影像處理步驟,導致過長的思維鏈;
感知錯誤:模型仍然可能犯基本的感知錯誤。即使工具呼叫正確推進推理過程,視覺誤解也可能導致最終答案不正確;
可靠性:模型可能在多次嘗試解決問題時嘗試不同的視覺推理過程,其中一些可能導致錯誤的結果。
在安全方面,OpenA重建了安全訓練資料,在生物威脅(生物風險)、惡意軟體生成和越獄等領域添加了新的拒絕提示。這使得o3和o4-mini在其內部拒絕基準測試中表現較好。
OpenAI還開發了系統級緩解措施,以標記前沿風險區域中的危險提示。研究人員訓練了一個推理大模型監控器,該監控器基於人類編寫的可解釋安全規範。當應用於生物風險時,該監控器成功標記了人類紅隊行動中約 99%的對話。
研究人員更新了應急準備框架,對o3和o4-mini在框架涵蓋的三個跟蹤能力領域進行了評估:生物和化學、網路安全和AI自我改進。根據這些評估的結果,其確定o3和o4-mini在所有三個類別中均低於框架的“高”閾值。
05.
結語:發力視覺推理
邁向多模態推理
OpenAI o3和o4-mini顯著提升了模型的視覺推理能力,這些模型在視覺感知任務上的提升,使其能夠解決之前模型難以觸及的問題,標誌著模型向多模態推理邁出的重要一步。
OpenAI在部落格中提到,他們將o系列的專業推理能力與GPT系列的自然對話能力和工具使用能力相結合,未來可以實現模型能支援無縫、自然的對話,同時能主動使用工具並解決更為複雜的問題。
此外,研究人員也在不斷最佳化模型使用影像進行推理的能力,使其更加簡潔、更少冗餘、更可靠。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
