謝謝Deepseek,o3-mini釋出即免費!程式設計斷崖式領先,思考過程冰冷而客觀

今日凌晨,OpenAI o3-mini 正式上線 ChatGPT,API 可用。還有更大的驚喜——
免費使用者也可以使用。
只需要在訊息編輯器中選擇“Reason”就可以呼叫 o3-mini 了。
這是 ChatGPT 首次向免費使用者提供推理模型。
對此,我只能用以下表情包評價此事件——
具體來說:
  • Plus 和 Team 使用者:每天 150 次對話限制( 原 o1-mini 每天 50 條訊息);
  • Pro 使用者:可以無限制地訪問(當然,實際別太認真,真用多了大機率會跟此前 o1 一樣降智);
  • Enterprise 使用者:將於 2 月推出;
  • API:向 3-5 級開發者開放,提供了三種選擇版本,low、medium、high ,根據開發需求在效果(推理時間)和速度(延遲)之間平衡,靈活選擇。
釋出後,原 o1-mini 位置被 o3-mini 替代,付費使用者還能選擇更智慧的 o3-mini-high。
o3-mini 不止是在網頁客戶端免費開放,其商用 API 價格也相比 o1 迎來斷崖式下跌——
o3-mini 相比 o1:
  • 更快:延遲更低,響應更快。在 A/B 測試中,o3-mini 的響應速度比 o1-mini 快 24%,平均響應時間為 7.7 秒,而 o1-mini 為 10.16 秒。
  • 更強:答案更準確、幻覺更少、推理更強。尤其是程式設計能力,詳情見《o3 釋出了,摔碎了碼農的飯碗》。
  • 更便宜:比 o1 便宜 93%。
可以透過下面這張 LiveBench 測試基準直觀的感受 o3-mini 在推理、程式設計、數學上面的表現,尤其是 Coding 這一列,程式設計能力斷崖式的碾壓了 o1、deepseek r1 和 gemini 系列模型:
人類最後一次考試(Humanity’s Last Exam)則是由數百位人類領域專家開發的一個榜單,號稱是捍衛人類智慧的最後一站。在此之前,所有頂尖 AI 透過率都不超過 10%,這次 O3-mini 首次打破記錄。
我觀測到一個很有意思的現象。
以前 OpenAI 釋出新模型的時候,外網網友一般都會拿新模型與 OpenAI 的老模型,Claude 模型,最多再加上 Gemini 模型做比較。
但這次,我發現外國網友甚至都很少拿 o3-mini 與 o1 去對比,反而大家齊刷刷的拿 o3-mini 與 DeepSeek R1 在做橫向對比。
比如,有國外網友從價效比層面點評 o3-mini——
雖然 o3-mini 更好,但 DeepSeek R1 相似卻更便宜,“DeepSeek 時刻”值得被人們銘記,成為科技領域關鍵歷史事件
還有網友橫向對比了 o3-mini 的思維鏈與 DeepSeek R1 的思維鏈——
o3-mini 的思維鏈與 R1 相比,更加冰冷、客觀;R1 更接近我內心的思考過程
放大圖片,感受一下——
而在橫向的 case 表現上,大家更是齊刷刷的將 o3-mini 與 DeepSeek R1 進行 PK。

模擬物理世界

由於 o3-mini 相比較前一代模型,最大的提升就在於程式設計能力了。
所以網友的實測 case 大部分都是跟程式設計相關的,尤其是一些透過視覺效果就能直觀的感受到程式碼寫的好壞的 case。例如下面這個——
提示詞:“編寫一個在 tesseract 內彈跳的球的 python 指令碼”
先看下o3-mini 寫的程式碼的執行效果
然後是DeepSeek R1 所寫程式碼的演示效果:

模擬物理世界的簡單版本

如果說上一個題目比較抽象,這個題目就能比較直觀的感受效果了。
提示詞:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
中文提示詞:編寫一個 Python 程式,顯示球在旋轉的六邊形內彈跳。球應該受到重力和摩擦力的影響,並且必須逼真地從旋轉的牆壁上反彈”
分析:這題左邊 o3-mini 明顯要好於右邊的 DeepSeek R1,R1 沒有考慮重力影響
當然,也有反例,比如有國外網友跑出了一個 DeepSeek R1 表現更好的例子——
提示:“編寫一個 Python 指令碼,每 5 秒在一個正方形內出現一個不同顏色的新彈跳球,請確保正確處理碰撞檢測。使正方形緩慢旋轉。在 Python 中實現它。確保球保持在正方形內”
網友說必須明確提示 O1-Mini-high 才能獲得彈跳球效果……DeepSeek-R1 在第一次就實現了,沒有任何明確的提示。
o3-mini-high:
deepseek-r1 :
從上面對比影片看,這題 deepseek-r1 的效果更好,因為它模擬了兩個小球發生碰撞時彈開的物理情況,而 o3 則沒有處理這種情況。
除了上面的程式設計能力 PK 外,我還見到一個很棒的示例。

8 秒寫一個 Twitter 網站

原貼連結:
https://x.com/aidan_clark/status/1885408020529545621
網友要求用一個 python 指令碼製作一個克隆版的推特網站,O3-mini 花了 8 秒寫出了這個網站。提示詞也出奇的簡單——
執行一下 o3-mini 寫的程式碼,看下這個網站——
好傢伙,註冊/登陸、發推、點贊、轉推功能都齊全了。這效果,至少夠熟練的人類程式設計師寫一下午了,加上與產品經理的溝通拉扯,可能都要一天起步。而 o3-mini 只用了 8 秒。
此外,還有網友提到,o3-mini 能做到 o1 pro 都做不到的事情,比如一個混合了藝術、科學和程式設計的複雜任務——
貼一下這個著色器的影片,感受一下——
除了網友曬出的程式設計 case 外,我也運行了幾個大型專案中遇到的困難程式設計問題,其中不乏難倒了 o1 在內所有推理模型的問題。但由於比較敏感,這裡沒法直接貼出來測試題目。
不過,可以分享一下結論性的體感表現——對於我手上那些上一代推理模型全軍覆沒的程式設計問題,o3-mini 解掉了約 50% 的題目。o3-mini 在程式設計方面的提升,確實能在體感上強烈感知到。

Agent 應用開發的核心模型?

大家經常說,2025 年是 Agent 元年(雖然 2024 年的時候也這樣說)。
而我們知道,對於 Agent 來說,思考、記憶和執行是其中要解決的三大關鍵問題。對於執行層面來說,老一代的模型如 Gemini 2.0、DeepSeek v3 等已經做的不錯了,記憶和思考其實仍有很長的路要走。
而在思考方面,o1 雖然有了很大的提升,但這高昂的推理成本,使其難以在 Agent 應用上大範圍使用。
而 o3-mini 釋出後,就有開發者發現——
o3-mini 完全可以替換掉 o1,便宜 9 倍,快 4 倍,部分任務上效果還更好。
有了 o3-mini,我覺得 2025 年 Agent 應用爆發,可能真的不再只是喊喊口號而已了。

安全評估

與此同時,OpenAI 也放出了關於 o3-mini 的安全評估報告"OpenAI o3-mini System Card". 有網友整理了這裡面的一些關鍵資訊。
例如,o3-mini 的幻覺相比 4o 和上一代 o1-mini 模型大大減少——
在一些看似危險實則一點也不安全的問題上,如“如何殺死 python 程序”,老的模型經常會拒絕回答,o3-mini 則不會過度阻止了——
而我們常用的一些讓 AI 模型越獄的手段,也更難攻破 o3-mini 了——
不過,看起來針對 System message 欄位的攻擊,o3-mini 相比 o1 反而更糟了(0.95=>0.88)

結語

或許,真正的挑戰並非單純的技術超越,而是在這個變革的時代,如何用創新和責任構建出人類和智慧的和諧共生。
未來的路依然漫長,但這一次,o3-mini與DeepSeek R1無疑為我們確認了一個方向——
智慧不應只是少數人的特權,而是每個人都能觸及的力量。
參考文獻
1.https://x.com/Yuchenj_UW/status/1885416559029740007
2.https://x.com/flavioAd/status/1885449107436679394

3.https://x.com/omarsar0/status/1885459248060260860

4.https://x.com/

aidan_clark

/status/1885408020529545621

5.https://x.com/emollick/status/1885412470061158650

6.https://openai.com/index/openai-o3-mini/

相關文章