OpenAI 的12 天連續釋出走到尾聲,突然拿出一個炸場產品——新一代推理模型 o3。
這一次的更新不但產品代號直接從o1跳到o3,推理效能、程式設計以及數學等方面都有顯著進步。
朋友圈裡有充滿了AGI即將到來的訊息,歡呼也好,擔憂也罷,一切似乎又回到了2022年底。
冷靜下來,我們還是得問一個問題:o3展示了AI技術的又一次進步,但它真的代表了AGI嗎?
或者說得更簡單一些,AI產業的進化我們究竟該關注什麼?
關於這個問題,11月21日的直播中王煜全已經有詳細回答,今天我們藉著OpenAI的o3模型繼續聊聊,也站在產業視角,好好看看今天的AI格局。
11月前哨PPT報告,現在加入立即解鎖
o3 模型:超強效能通向AGI?
OpenAI 此次釋出的 o3 系列模型,命名上跳過了 "o2",直接對標上一代 o1 模型。
有人認為o3是為了象徵技術飛躍,然而據 The Information 的報道,這是為了避免與英國電信服務商 O2 產生商標衝突,算是一個大眾理解與行業八卦之間的小分歧。
o3 模型確實有令人驚豔的效能進步,拿兩個典型領域看:
數學方面,o3在 Frontier Math 資料集上的表現堪稱飛躍。這個資料集包含的是前所未見的、難度極高的數學問題,即使是頂尖的數學家也需要數小時甚至數天才能解決一個問題,陶哲軒曾認為AI要花很久的時間才能有所建樹。
o3 上手解決了 25.2% 的問題,而此前 AI 的最好成績只有 2%。
程式設計領域,o3 在 Codeforces 上的得分達到了 2727 分,這相當於該平臺程式設計大神榜單的第 175 名。
o3程式設計效能進步

做個簡單對比,OpenAI 現任首席科學家以前也喜歡刷榜,他此前的歷史最高分是 2655 分,這意味著 o3 在程式設計方面的能力已經超過了自己的創造者,程式設計領域或許很快就會迎來一次AI屠榜。
這一系列進步都是大家驚呼AI真要取代人的原因,我們這裡先說一個好訊息,那就是o3比人貴多了,我們大多數人都還不值得用AI取代(心酸)。
o3模型這次的引數多了三個算力檔次,分別是low,medium 和 high,你可以簡單當作AI思考越久效果越好,但是成本也會越高。
根據OpenAI釋出的資料做測算,o3-low級別的成本是 o1-low 的 10 倍,搞定一個任務可能要花 20 美元,這聽著還好,換成更高檔呢?
o3-high的成本達到了o1-high 的 2000 倍!它回答你一個問題的成本可能會超過 3500 美元,花 2 萬人民幣聽個答案,不知道你想問什麼問題。
o3 離 AGI 還有多遠?
OpenAI作為掀起AI變革的領頭羊,已經和AGI(通用人工智慧)概念繫結在了一起,所以它每次有大的技術改進都會引發相關的討論。
回到技術的本質,我們還是要看看這輪o3的進步真的是通用智慧嗎?
其實11月底的兩次直播中已經給出了判斷:AI的進步從未停止,未來2年會是AI變革的關鍵時點,但AGI並不是這個發展曲線的簡單延伸。
ARC-AGI 測試,由 Keras 的創始人 François Chollet 在 2019 年提出的,旨在評估 AI “學習” 能力。
ARC測試評分&成本

ARC-AGI 已經參與到了o3的效能測試中,創始人分享了測試結果,在第一版確實有驚人的成績,如果用high檔位正確率已經達到了88%,但他也提到面向即將更新的下一版本測試o3的正確率已經掉到了30%,聰明一些的人類則能做到95%。
更重要的是,o3在一些簡單問題上反而效果很差。這不禁讓我們反思,AI 的 “智慧” 究竟是什麼?
AI技術的核心要點是「學習」和「搜尋」兩個要素,此前的GPT正規化拓展了學習的邊界,現在的推理正規化讓AI有更多時間“思考”和“判斷”,提供了更廣闊的搜尋空間,打開了技術進步的新視窗。
這是一個非常值得關注的新指標,但它絕不是觀察AI進步和產業格局的唯一標杆。
OpenAI的大對頭們
在 OpenAI 釋出 o3 的同時,它的兩大競爭對手谷歌和Anthropic也各自發布了新東西,在我們看來他們的動態更能幫助我們開啟觀察AI進化的新維度。
Anthropic發文分享了他們在構建Agent 方面的經驗。他們強調,成功的 Agent 實現並不依賴於複雜的框架,而是透過簡單、可組合的模式構建。
Anthropic 將 Agent 系統分為兩種:工作流(Workflows)和 Agent。工作流是指透過預定義的程式碼路徑協調 LLM 和工具的系統,而 Agent 則是指 LLM 動態地指導自身過程和工具使用的系統,自主地完成任務。
他們認為,構建 LLM 應用時,應儘可能選擇最簡單的解決方案,只有在必要時才增加複雜性,因為太複雜的框架化可能會導致成本增加和難以除錯。
在現實世界中,一個簡單的解決方案往往比複雜的方案更可靠,也更容易維護,也更符合AI進化的規律。

Google的動態更加直接,OpenAI的各路產品要麼收費很貴,要麼都是期貨,我直接給你。
新一代 AI 模型 Gemini 2.0 Flash直接釋出,並且能夠直接使用。這款新模型能夠進行高階推理,還能原生輸出影像、語音、文字等多模態資訊,是一位真正的 “全能選手”。
谷歌的做法不只是挑戰OpenAI的領先地位,更重要的是他們證明了多模態、剪枝等技術仍然有巨大的潛力可挖。
OpenAI、Anthropic 和 Google 三家公司,代表了當前 AI 領域最前沿的技術方向,顯然他們走在了相似又不同的道路上。
相似的是他們都在同一條路徑上競爭,不同的是OpenAI開始加註推理方向,Anthropic則向Agent生態佈局,谷歌開始砸重金全都要。
從他們三家身上,我們才能看到更全面些的產業圖景:
2025年AGI百分百不會來,2025年AI百分百會迎來更波瀾壯闊的時代,推理、多模態、Agent齊頭並進,會有更多的新東西值得關注。
如果你還想了解更多最新、最詳細的科技產業解讀,歡迎長按下方二維碼,加入前哨科技特訓營。
