


作者:cage, haozhen

我們在 2025 年 Q1 的大模型季報中提到,在 AGI 路線圖上,只有智慧提升是唯一主線,因此我們持續關注頭部 AI Lab 的模型釋出。上週 OpenAI 密集釋出了 o 系列最新的兩個模型 o3 和 o4-mini,開源了 Codex CLI,還推出了在 API 中使用的 GPT 4.1。本文將著重對這些新發布進行解讀,尤其是 o3 agentic 和多模態 CoT 新能力。
我們認為 OpenAI 在數次平淡的更新後,終於拿出了有驚豔表現的 o3。融合了 tool use 能力後,模型表現已經覆蓋了 agent 產品常用的 use case。Agent 產品開始分化出兩類路線:一類是像 o3 那樣把 tool use 透過 CoT 內化到模型中,模型可以用寫程式碼呼叫的方式執行任務;另一類是類似 Manus,把工作流程外化成人類 OS 中的 computer use。同時 OpenAI 已經把 agent 產品作為了未來產品商業化收入佔比的大頭,我們有理由擔心通用 agent 產品在大模型公司主航道上被覆蓋。
長線看,RL Scaling 是進步斜率最大的方向,上週兩位 RL 教父 Richard Sutton 和 David Silver 釋出了一篇很重要的文章 Era of Experience,強調了 AI agent 的進步將依賴於他們在環境中自主學習的經驗。這個和我們最近研究中經常提及的 online learning 能力不謀而合,我們也會在文章中深入總結分析什麼是 agent 的體驗時代。
Insight 01
o3 和 o4-mini 最驚豔的是
agentic 和 multimodal 能力的完整性
OpenAI 在 4 月 16 日釋出了 o 系列最新的兩個模型:o3 和 o4-mini。我們研究後判斷,o3 是目前最先進的推理模型,有最全面的推理能力、最豐富的 tool use 方式和全新的多模態 CoT 能力,儘管在 tool use 能力上 Claude 3.7 能力一直是最強的,但是在 C 端消費級產品中很難感受到。
o4-mini 則是一款專為高效推理而最佳化的小模型,在一些 benchmark 上的表現也不錯,甚至在有些競賽上的得分比 o3 的得分更高。在實際使用中我們能感受到 o4-mini 和 o3 有明顯的差距,o4-mini 的思考時間明顯更短。
和 o3 的釋出模式一樣,OpenAI 的 reasoning model 都是先訓練出一個 mini reasoning 版本,再 scale 到一個 long inference time、full tool use 能力的模型上。而之前 GPT 模型總是先訓練出最大的模型,再蒸餾到小模型上。這個策略值得探討其原因,我們的猜測是 RL 演算法比較脆弱,需要更長的時間來訓練出 long inference time model,在大的 base model 上訓練成功的難度也更大,所以 OpenAI 會選擇這樣的釋出策略,但是這個命名策略實在令人費解,新發布的 o3 是最強模型,反而 o4 是高性價比。
總的來說,我們認為這兩個模型最驚豔的是在 agentic 和 multimodal 能力上的完整性,這兩個模型可以實現:
1)Agentic 地瀏覽網路,多次迭代搜尋來找到有用的資訊;
2)用 Python 執行和分析程式碼,並且畫圖進行視覺化分析;
3)在 CoT 中對圖片進行思考推理,並且對圖片做裁剪、旋轉等增強生成圖片
4)讀取檔案和 memory。
這次釋出是 OpenAI 對推理模型的全面升級,所有付費使用者都能直接體驗 o3、o4-mini 和 o4-mini-high,而原本的 o1、o3-mini 和 o3-mini-high 則已下架。
之後 o3 除了 RL Scaling 外,還有什麼低垂果實可以進步的?我們認為主要有兩個:
1)thinking process 過程中可以生成圖片;
2)vibe coding,在 agentic 工作流中加入更全棧的開發能力,o3 能自己開發一個 web app。
Insight 02
o3 的進步讓 ChatGPT
從 Chatbot 進化到 agent
Agentic 能力是 o3 和之前 o 系列模型區別最大的地方,o3 已經接近我們對 agent 的想象了。o3 在很多工上的工作方式以及實現效果都和 Deep Research 非常接近:給模型一個任務,模型可以在 3 分鐘內給到一個很不錯的搜尋結果。
而且 o3 在 tool use 上的使用體驗是無縫的:內建在 CoT 過程中的 tool use 速度很快,比 Devin、Manus 等做了外接複雜框架的產品會快很多,而且 tool use 非常自然。同時,模型能進行思考和推理的過程更長,不會截斷,這突破了原本 o 系列模型能力的約束。
有一個值得討論的問題是:agent 產品是否在走向兩種技術路線?OpenAI 路線更黑盒化,和人的工作方式不同,更依賴端到端訓練,以及 agent 自己構建程式碼和思考完成任務的能力;Manus 的方式更白盒化,用虛擬機器模仿人類的工作方式。前者透過端到端的一體化模型,將 tool use 內化到模型裡面,這種 agent 產品在環境上相對有約束,但智慧比較強,能端到端做 RL 訓練;後者有一定的複雜工作流和外接介面,透過模型和呼叫外部工作流和環境的方式,來完成任務。
能力測試
為了更真實地體會 o3 的 agentic 能力,我們用 Manus 第一次釋出時官網展示的兩個經典 use case 來測試 o3,看看 Manus 能夠實現的事情,o3 是否能夠完成?
Test case 1: Visit the official YC website and compile all enterprise information under the W25 B2B tag into a clear, well-structured table. Be sure to find all of it.(訪問 YC 官方網站,並將所有在 W25 B2B 標籤下的企業資訊整理成一個清晰、結構良好的表格,確保找齊所有資訊。)
這個測試任務需要在 YC 官網同時點上 W25 和 B2B tag,總共有 90+ 家公司。這個問題的難點在於完成度,非 agent 產品通常之前無法把資訊篩選和收集全,因此,之前除了 Deep Research,其他模型一般都無法完成。
在結果上,Manus 輸出時有清晰的 to-do list,並且每收集 5-10 家公司會和使用者彙報一下進度,最後 Manus 成功收集到了完整公司列表,但速度偏慢。

而 o3 第一次執行只找到了 25 家公司,經過再一次 prompt 提示之後,才成功完成了任務。


Test Case 2: Here's last month's sales data from my Amazon store. Could you analyze it thoroughly with visualizations and recommend specific, data-driven strategies to boost next month's sales by 10%?(這是我上個月 Amazon 店鋪的銷售資料。你能對其進行深入分析並提供視覺化圖表,同時根據資料提出一些具體的策略,幫助下個月的銷售額提高 10% 嗎?)
這個問題的難點在於需要用程式設計做資料視覺化並解決問題提出建議。結果 Manus 和 o3 都能完成任務,但相比之下,Manus 給的結果比較長,重點不夠突出,而 o3 在更簡潔、重點突出的情況下,視覺化的效果也較好,更像一個專業分析師給出的策略建議。
Manus 實現:

o3 實現:



Use Case
我們還從網際網路上選取了一些比較有代表性的用例:
有一個使用者看 Youtube 影片到某一個位置之後,讓 o3 去解釋這個部分的背景知識,結果 o3 能夠自己找到 transcript,定位到正確的位置,並進行分析和進一步搜尋,非常像一個完整的 agent 做任務的方式。

數學等科學領域也有很多正面的反饋:青年數學家 Daniel Litt 在 twitter 上發文稱 o3 能自動呼叫 code‑interpreter,完成高階代數證明草稿。免疫學專家 Derya Unutmaz 認為 o3 模型有“近乎天才的水平”。


Insight 03
多模態 CoT 解鎖新的應用機會
OpenAI 這次釋出的 o3 和 o4-mini 模型首次實現了將影像直接融入 CoT 中。模型不僅能“看到”影像,更能“看懂”影像、用影像思考,融合了視覺與文字推理,在多模態理解 benchmarks 中展現出領先的效能。
這次的模型更新沒有像 4o 那樣在 creative tasks 上更進一步,但是在多模態理解這樣的 factual tasks 上有了很大的進步。這讓模型在需要事實可靠性的任務可用性大大增強,我們在使用體驗後感覺 o3 很像是一個“私人偵探”。
多模態 CoT 過程類似於我們思考過程中反覆看某一張圖片。在使用過程中,使用者可以上傳白板照片、教材插圖或手繪草圖,即使影像模糊、反轉或質量較低,模型也能理解其內容。藉助 tool use,模型還能動態操作影像,比如旋轉、縮放或變形,作為推理過程的一部分。雖然目前思維過程中還不能生成圖片或者用程式碼視覺化,但我們判斷這會是下一步的重要方向。
能力測試
我們用一張模糊的截圖,做了一個針對 o3 影像增強功能的測試,要求模型從這張照片中看出來我們在看的什麼劇。o3 收到我們的指令後,就開始對這張照片做裁剪和定位來找到關鍵人物。這個圖片上的人是《絕命毒師》和《風騷律師》中都出現的重要人物“炸雞叔”Gus Fring,o3 在定位之後給出了準確的回答。

o3 的技術報告中還提到模型有專門對地理位置資訊做了訓練,於是我們又特意找了幾張沒有地區標誌性特徵的圖,問 o3 和 o4-mini 這些圖片是在哪裡拍攝的,來測試模型的多模態推理能力。o3 和 o4-mini 能夠透過圖片上的地貌、文字、動植物型別等資訊,來給出的一個很不錯的回答,成功識別出了圖一的埃及尼羅河上熱氣球和圖二的馬來西亞婆羅洲地貌,這些照片都是比較模糊、我們自己看相簿都覺得很難判斷地點資訊的。

o3

o4-mini-high
專家評論
DiT 的發明人、多模態學者謝賽寧老師在 o3 能力上提出了更高的要求和假設。他認為在這個 vision 下,傳統視覺識別模型已走向終結,但是視覺領域迎來了著更廣的研究空間。現在的視覺工具呼叫還是比較侷限的,應該把更強的端到端視覺 search、tool use 能力訓練內化到 multimodal LLM 中,讓他們成為模型的一部分。

Insight 04
o3 如何變可靠:
學會拒絕自己能力邊界外的任務
OpenAI 在這次模型的釋出中提到,在外部專家評估中,o3 在實現困難任務的時候能比 o1 少犯 20% 的重大錯誤。o3 可以意識到有些問題是自身無法解決的,這個能力對實際落地幫助很大,代表著模型幻覺減少、可靠性增加。
模型拒絕回答問題的這個能力的提升代表著 o 系列模型正在對自己所能解決問題的邊界有著更清晰的理解。
能力測試
在 AI 初創公司 CEO Dan Shipper 做的 o3 測試中,我們看到了一個很有意思的反饋,當 Dan 提出了一個問題的時候,模型能夠思考 Dan 當前給的資訊是否足以回答問題。在模型拒絕回答問題之後,Dan 發現自己確實忘了上傳一個最關鍵的 transcript。

我們用前文測試多模態功能的 use case 圖片(讓模型透過圖片判斷我們在看哪部劇)進行進一步追問:你能否識別出這是這部劇的第幾季第幾集。模型思考後,表示自己無法解決,並希望我們能給出更多已知資訊。

Insight 05
OpenAI 開源 Codex CLI 的目的是
把競對產品普及化
OpenAI 還開源了一個全新的實驗專案:Codex CLI,這是一款輕量級的 coding agent,可以直接在本地電腦執行,專為最大化 o3 和 o4-mini 等模型的推理能力而設計,未來也支援 GPT-4.1 等更多 API 模型。使用者可以直接從命令列體驗多模態推理,比如向模型傳遞截圖或低保真草圖,結合原生代碼環境,讓模型參與解決實際程式設計任務。OpenAI 將 Codex CLI 視為一種最簡約的介面,目的是為了將 AI 模型與使用者的計算機無縫連線。

我們認為 OpenAI 開發和開源 Codex CLI 的思路非常巧妙:OpenAI 選擇在自身暫時落後的地方,比如 coding 和終端操作,先把競爭對手已有的產品普及化,從而佔領市場。
Codex CLI 有兩個最重要的特性。第一個特性是多模態推理能力。使用者可以直接透過螢幕截圖或手繪草圖和 coding agent 互動。這種能力為開發者與 AI 的互動開闢了新的可能性。例如,在除錯應用程式介面時,開發者可以直接截取出現問題的螢幕,並將截圖傳送給 Codex CLI,期望模型能夠識別問題並給出相應的程式碼修復建議。這種方式更加直觀和高效。同樣,開發者也可以透過繪製一個簡單的演算法流程圖或使用者介面草圖,讓 Codex CLI 理解自己的設計意圖,並生成相應的程式碼框架或實現方案。
第二個特性是與原生代碼環境的整合。作為一個命令列工具,它自然地融入了那些習慣於使用終端進行開發的開發者工作流程中。使用者可以透過簡單的命令來呼叫 Codex CLI 的功能,並可能透過指定檔案路徑或直接輸入程式碼片段的方式,讓模型訪問和處理原生代碼。這種整合方式使得 Codex CLI 能夠直接參與到實際的程式設計任務中,例如程式碼生成、程式碼重構或錯誤除錯。對於那些已經習慣於使用命令列進行版本控制、構建流程和伺服器管理的開發者而言,Codex CLI 的這種整合方式可能會被視為是現有工具鏈的自然延伸。
Insight 06
o3、o4-mini 的負面評價集中於
視覺推理和 coding
如前文所述,OpenAI 新推出的 o3、o4-mini 有許多驚豔之處,但我們在 Reddit 和 Twitter 上也觀察到了使用者的一些負面評價,總結下來主要有兩點:1)視覺推理能力仍不穩定;2)AI Coding 能力不強。
1)視覺推理能力仍不穩定:在 Reddit 和 Twitter 上,有測試者發現 o3、o4-mini 模型在處理數手指個數、判斷時鐘時間等特定的視覺推理任務時仍然常常出現系統性錯誤。
當用戶給了一張 6 個手指的圖片讓 o3 和 o4-mini 判斷有幾個手指的時候,o3 表示有 5 個手指。

資深 AI 工程師 Tibor Blaho 表示讓 o3 識別有點反光的時鐘上的時間依然非常困難,o3 一共花費了 7 分 21 秒,中間還進行了大量的推理思考,並多次編寫 python 程式碼片段來對圖片進行處理,但最終給出了正確答案。
Tibor Blaho 又用 o4-mini 進行了相同的測試,但 o4-mini 在思考了 30 秒後給出了錯誤答案。

2)AI Coding 能力不強:在 Reddit 和 Twitter 上,許多測試者對於 o3、o4-mini 模型的程式設計能力提出質疑,認為 o3、o4-mini 的 coding 能力比以前的 o1 pro 甚至 4o 模型都要弱。

Insight 07
在定價上,
所有一線模型可以視為在同一個水平上競爭
我們彙總了所有一線旗艦模型的 API 定價,可以發現,o3 模型比其他一線模型更貴。除了 o3 之外,Claude 3.7、Grok 3、Gemini 2.5 pro 這幾個效果在一個水平線上的模型是最貴的,而在這三個模型中,Claude 3.7 的定價相對較貴,Grok 3 對標 Claude 3.7 Sonnet 進行定價,而 Gemini 2.5 價格最低。
o4-mini 的定價是 o3 定價的 1/10,比 Claude 3.7 更便宜。當一個推理模型 base model 比較小,並進行充分最佳化的時候,價格會比較低。
還有一個值得關注的點在於,gpt-4.1-mini 和 gpt-4.1-nano 這兩個價格非常便宜的模型,最後到底會怎麼被開發者使用?
我們判斷 gpt-4.1 的價效比並不是很高,但如果能較好利用 gpt-4.1-mini 或 o4-mini,價效比還是比較高的。總體來看,這幾家模型的定價可以視為在同一個水平上競爭,Gemini 和 OpenAI 相對便宜。

Insight 08
RL Scaling 依然有效,
算力提升的收益依然清晰
在 o3 的開發過程中,OpenAI 發現 large-scale RL 呈現出與 GPT 系列 pre-training 相同的規律:more compute = better performance,即模型被允許“思考”得越久,表現就越好。在相同延遲和成本條件下,o3 在 ChatGPT 中的表現優於 o1。
OpenAI 透過 RL 訓練 o3 和 o4-mini 這兩個模型,讓這兩個模型學習如何使用工具,還讓它們學會判斷何時使用工具,從而在開放式任務中表現更出色,尤其是在視覺推理和多步驟工作流中。
此外,OpenAI 還提到在 o3 RL training 和 inference time scaling 投入的算力都比 o1 高了一個數量級,算力提升的收益比較清晰。

這次釋出中 OpenAI 對 RL Scaling 的討論比較侷限,那麼 RL 往後的進步路線是什麼呢?我們接下來將透過解讀 Era of Experience 找到一些答案。
Insight 09
Era of experience:
RL 的下一步,Agent 從經驗中自主學習
兩位強化學習教父 Richard Sutton 和 David Silver 在上週釋出了一篇文章 Welcome to the Era of Experience。David Silver 是 Google DeepMind 強化學習副總裁,AlphaGo 之父;Richard Sutton 是 2024 年圖靈獎得主,RL 演算法早期的發明人。他們兩位一直是強化學習甚至整個 AI 領域的指路明燈。

這篇論文中強調的幾個觀點非常值得關注,和我們之前在研究中經常提到的 online learning 思路類似:
1. 模仿人類資料只能接近人類水平;
2. 新一代 agent 需要從 experience 中學習來達到 superhuman 水平;
3. Agent 會不斷和環境互動形成經驗資料,而且有長期且連續的 experience stream;
4. Agent 能根據先前的經驗自我修正,可以實現長期目標,即使短期不見成效,也能持續修正來達到突破,類似人類實現健身等目標一樣。
下面這張論文裡的圖,橫軸展示了時間,縱軸展示了人們對 RL 的關注度,可以看到在 ChatGPT 剛釋出的時候,RL 處於受關注的低點。我們現在正處於 Era of Experience,RL 的重要性將不斷提升到比 ALphaZero 更高的地位,去達到最終目的:讓 agent 能夠不斷和環境互動,實現 lifelong online learning。

文章中對獎勵和規劃能力的論述也很有意思,我們也在這邊進行了總結:
獎勵 Rewards
目前的 LLM 多依賴人類專家的“先驗判斷”來提供反饋——專家在不知道動作後果的情況下進行評判,這固然有效,卻人為設定了 performance 上限。必須轉向“真實環境訊號”為基礎的獎勵,比如:
· 健康助手可根據心率、睡眠時長和活動量評估建議成效;
· 教育助手可用考試成績衡量教學質量;
· 科學 agent 可以用二氧化碳濃度或材料強度等實測指標作為回報訊號。
此外,還可透過二級最佳化(bi‑level optimization)將人類反饋與環境訊號結合,讓少量人類資料驅動大量自主學習。這個討論其實不只是演算法設計,更多涉及到了產品人機互動的設計。
規劃與推理 Planning and Reasoning
如今的 LLM 透過 CoT 在語境中模擬人類推理,但人類語言並非最佳計算語言。體驗時代的 agent 將有機會自我發現更高效的“非人類思維”方式,例如符號化、分散式或可微分計算,並將推理過程與外部世界緊密結合。
一種可行途徑是構建“世界模型”(world model),預測其動作對環境的因果影響,並結合內部推理和外部模擬,實現更有效的規劃。在他們的敘事中,world model 並不只是多模態物理規則的需求,強化學習的提升也極度依賴對世界環境的模擬。



排版:Doro
延伸閱讀









