機器之心編輯部
奧特曼能不急嗎?
被 DeepSeek 狂轟亂炸了一週後,終於在今天釋出了新的模型 o3-mini。
此次釋出,o3-mini 包含 low、medium 和 high 三個版本。
OpenAI 表示,今天釋出的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上線 ChatGPT 和 API 。
我們開啟 ChatGPT,o3-mini 和 o3-mini-high 兩個新模型已然上線。
不過 o3-mini 目前還不支援視覺功能,因此開發者需要繼續使用 OpenAI o1 進行視覺推理任務。
在使用許可權上,ChatGPT Plus、Team 和 Pro 使用者從今天起就可以訪問 OpenAI o3-mini,企業版訪問許可權將在一週內開放。
作為此次升級的一部分,OpenAI 將 Plus 和 Team 使用者的速率限制從 o1-mini 的每天 50 條訊息提高到 o3-mini 的每天 150 條訊息。此外,o3-mini 現在可以使用搜索功能,提供帶有相關網路來源連結的最新答案。這是其在推理模型中整合搜尋功能的早期原型。
從今天開始,免費使用者也可以透過在訊息編輯器中選擇「推理」或重新生成響應來試用 OpenAI o3-mini。這是 OpenAI 首次向 ChatGPT 的免費使用者提供推理模型。

雖然 OpenAI o1 仍然是更廣泛使用的通用知識推理模型,但 OpenAI o3-mini 為需要精確性和速度的技術領域提供了專門的替代選擇。在 ChatGPT 中,o3-mini 使用中等推理級別來提供速度和準確性之間的平衡。所有付費使用者還可以在模型選擇器中選擇 o3-mini-high,從而獲得需要更長時間生成響應但智慧水平更高的版本。Pro 使用者將可以無限制地訪問 o3-mini 和 o3-mini-high。
對於此次釋出,網友反饋如何?
知名播客主理人 Lex Fridman 表示,OpenAI o3-mini 雖然是一個很好的模型,但 DeepSeek r1 的效能相似,而且更便宜,並揭示推理過程。

他甚至給出了「DeepSeek moment」這樣一個詞形容 DeepSeek 帶來的深遠影響。
接下來,就讓我們看下 o3-mini 的效能指標:
快速、強大且針對 STEM 推理最佳化
與其前身 OpenAI o1 類似,OpenAI o3-mini 針對 STEM 推理進行了最佳化。o3-mini-medium 在數學、程式設計和科學領域的表現與 o1 相當,同時響應速度更快。專家測試人員的評估顯示,o3-mini 產生的答案比 o1-mini 更準確、更清晰,推理能力更強。測試人員在 56% 的情況下更偏好 o3-mini 的響應,並觀察到 o3-mini 在困難的現實問題上重大錯誤減少了 39%。o3-mini-medium 在一些最具挑戰性的推理和智慧評估(包括 AIME 和 GPQA)上與 o1 的表現相當。
競賽數學(AIME 2024):

競賽數學:o3-mini-low 與 o1-mini 的表現相當。o3-mini-medium 達到與 o1 相當的表現。o3-mini-high 超過了 o1-mini 和 o1,上圖中灰色陰影區域為 64 個樣本的多數投票(共識)。
博士級科學問題(GPQA Diamond):

博士極科學問題:o3-mini-low 的表現優於 o1-mini。o3-mini-high 的表現與 o1 相當,在博士級生物學、化學和物理問題上都顯示出顯著進步。
研究級數學(FrontierMath):

研究級數學:o3-mini-high 在 FrontierMath 上的表現優於其前代產品。使用 Python 工具時,o3-mini-high 能夠在首次嘗試時解決超過 32% 的問題,包括超過 28% 的具有挑戰性的(T3)問題。
競賽程式設計(Codeforces):

在 Codeforces 程式設計中, o3-mini 隨著推理努力級別的提高獲得了越來越高的 Elo 分數,均優於 o1-mini。o3-mini-medium 達到了與 o1 相當的表現。
軟體工程(SWE-bench Verified):

軟體工程:o3-mini 是 OpenAI 釋出的在 SWEbench-verified 上表現最好的模型。o3-mini-high 使用開源 Agentless 框架可達到 39% 的準確率,使用內部工具可達到 61% 的準確率。
LiveBench 編碼:

LiveBench 編碼:即便是 o3-mini-medium 也超過了 o1-high,突顯了其在編碼任務中的效率。o3-mini-high 進一步擴大了領先優勢,在關鍵指標上取得了顯著更強的表現。
普通知識問題:

普通知識問題:o3-mini 在各個一般性知識領域的評估中都優於 o1-mini。
人類偏好評估:

人類偏好評估:外部專家測試人員的評估顯示, o3-mini 產生的答案比 o1-mini 更準確、更清晰,推理能力更強,特別是在 STEM 領域。測試人員在 56% 的情況下更偏好 o3-mini 的響應,並觀察到 o3-mini 在困難的現實問題上重大錯誤減少了 39%。
模型速度和效能
o3-mini 在保持與 OpenAI o1 相當的智慧水平的同時,提供了更快的效能和更高的效率。除了上述 STEM 評估外,o3-mini-medium 的其他數學和事實性評估中也展現出優越的結果。在 A/B 測試中,o3-mini 的響應速度比 o1-mini 快 24%,平均響應時間為 7.7 秒,而 o1-mini 為 10.16 秒。

延遲:o3-mini 的首個 token 生成時間平均比 o1-mini 快 2500 毫秒。
安全
OpenAI 教導 o3-mini 安全響應的主要技術之一是審慎對齊(deliberative alignment),這種對齊方式訓練模型在回答使用者提示之前,先對人工編寫的安全規範進行充分的思考和推理。與 OpenAI o1 類似,研究人員發現 o3-mini 在具有挑戰性的安全性和越獄評估上顯著超越了 GPT-4o。在部署之前,OpenAI 使用了與 o1 相同的準備方法、外部紅隊測試和安全性評估來仔細評估 o3-mini 的安全風險。
違規內容評估結果

越獄評估結果

未來展望
OpenAI o3-mini 的釋出標誌著 OpenAI 在推進高性價比智慧方面又邁出了一步。透過最佳化 STEM 領域的推理能力,同時保持低成本,OpenAI 正在使高質量 AI 變得更加容易獲取。該模型延續了其降低智慧成本的記錄 —— 自 GPT-4 推出以來,每個 token 的定價降低了 95%—— 同時保持頂級推理能力。隨著 AI 應用的擴充套件,OpenAI 仍然致力於在前沿領域引領,構建即使在大規模部署和使用的情況下,也能保持智慧、效率與安全平衡的模型。
– EOF –
關注「程式設計師的那些事」加星標,不錯過圈內事
點贊和在看就是最大的支援