


作者:Cage、Yongxin、Siqi
編輯:Siqi
DeepSeek R1 催化了 reasoning model 的競爭:在過去的一個月裡,頭部 AI labs 已經發布了三個 SOTA reasoning models:OpenAI 的 o3-mini 和deep research, xAI 的 Grok 3 和 Anthropic 的 Claude 3.7 Sonnet。隨著頭部 Al labs 先後釋出自己的 reasoning model,新正規化的第一輪競賽暫時告一段落。
各家 reasoning model 各有長板,但都沒有拉開大的領先優勢:OpenAI 和 xAI 有著最強的 base model 和競賽解題能力,Anthropic 更關注真實世界的工程問題,Claude 3.7 Sonnet 的混合推理模型可能會成為之後各家釋出新模型的標準操作。
在這一波新模型密集釋出後的間隙,我們對已有的 reasoning models 釋出進行了總結梳理,除了平行比較各些模型的實際能力和長板外,更重要的目標是識別出本輪發布中的關鍵訊號。
整體上,我們還處於 RL Scaling 的早期階段,就在昨天, Dario 也暗示了 Sonnet 4 即將到來,RL 正規化下整個領域還在高速進化,顛覆式的大變化尚未出來。我們也會這個領域保持密切追蹤,輸出思考。
Insight 01
Reasoning model 還沒有出現全面明顯領先的 SOTA
今天我們還處於 RL Scaling 的早期階段,通用智慧第二幕的激烈競爭剛剛開始。
截止到目前,市場上已經發布的 reasoning models 中,還沒有一個全方位領先的 SOTA。o3-mini 在推理和數學解題能力上有優勢,新發布的 Grok 3 Think 已經追上了 o3-mini ,而 Claude 3.7 Sonnet 在 agentic coding 方面延續並擴大了 Anthropic 的優勢:
• o3-mini,沒有甩開身位差距的領先者:
o3-mini-high 在數理解題能力上是最強的,但在多樣化的創作內容能力上不如 Grok 和 DeepSeek 模型。Grok 3 用和 ChatGPT 一個水平的 base model 也達到了同一水平的數理解題能力,這代表著 OpenAI 目前已開放的模型領先優勢是不明顯的。
• Grok 3 Think,充裕資源下的最快追趕者:
xAI 追趕到 o3-mini SOTA 水平的時間比 DeepSeek 更短, Grok 3 Think 各項評分水平接近於 o1-pro,處於 reasoning model SOTA 水平,優於 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。而且 Grok 3(Think) 的推理速度非常快,體驗上比 Gemini 2.0 Flash Thinking 還稍快。不過考慮到這是 20 萬卡開發出來的 SOTA 模型,所以有些遺憾的是還沒有揭示對新正規化有啟發意義的地方。
• Claude 3.7 Sonnet,解決真實世界問題最好的模型:
我們可以把程式碼能力分為兩類,第一類是 engineering code,即如何解決現實世界的程式碼問題,Claude 3.7 Sonnet 在 coding 和 agentic tool use 上跑分(參考 SWE-bench)大幅領先,並且在解決實際問題中也表現最好;第二類是 competitive code,解決最難的演算法競賽問題,在這類問題上 o3-mini 和 Grok-3 是表現更好的(參考 Codeforce)。Claude 3.7 擅長的能力是對 AI Coding Agent 產品應用更為關鍵的。
• Gemini 2.0 Flash,受關注較少的遺珠:
Gemini 2.0 Flash 的模型能力被低估了。作為“水桶型”模型,它的 reasoning 能力在實際表現中沒有明顯的長板和短板,不容易受到使用者關注 。值得關注的是,他們在多模態理解能力上是絕對的領先者,但多模態融合目前還沒有湧現出更高階的能力,可以作為一個觀測 Gemini 的側重點。
• DeepSeek R1,有限資源下的開源創新:
DeepSeeK在有限的叢集資源下做了很多創新,並把技術擴散給了整個業界。但當前 R1 的表現暫時落後於其他 top lab,這個落後可能來自 base model 能力的落後。拿短時間的落後去對比其他模型是不公平的,畢竟 DeepSeek 在時間和算力上都有明顯的侷限, 我們更期待 R2、R3 的持續進步。

Insight 02
最強 LLM base model 之爭:Grok 3 可能上限更高
上週 xAI 和 OpenAI 先後放出了自己的最新一代模型,我們也都第一時間使用和收集使用者評價後明顯感覺 Grok 3 在 base model 的能力上很可能已經領先 GPT 4.5 了。而業界也對於 GPT 4.5 的失望聲音居多。
作為同一引數量級的模型, Grok 3 在很多工上的表現和風格更有優勢,下一步更重要的是如何用 RL、 post-training 把 base model 的能力激發出來,畢竟目前 Grok DeepSearch 的使用者反饋還不如 OpenAI Deep research 來得好。

Insight 03
底座模型預訓練依然關鍵
GPT-4.5 和 Grok 3 的出現市場質疑 base model pre-training 的邊際收益是否已經枯竭,但我們認為,這個質疑其實沒有考慮到以下兩個因素:
1. 高質量的 base model 是強化學習做 reasoning model 的基礎,這件事在 DeepSeek R1 論文中已經被驗證。要在 RL Scaling 中保持領先還是需要最好的 base model,因此大家不會停止在 base model capbility 上的探索。
2. 今天激發和評估模型能力的方法其實已經遠遠跟不上模型智慧的提升。現在的大部分 benchmark 對模型評估已經進入了“你好我也好”的狀態,很難把頂尖模型的能力邊界探索出來,”天才只能答 100 分是因為試卷只有 100 分“,模型可能已經表現出了某種未被發現的“暗智慧”,需要業界用 RL、post-training 甚至是互動形態來激發出來。
Insight 04
Claude 3.7 Sonnet 的混合推理會成為後續模型釋出標配
Claude 3.7 sonnet 的混合推理模型(Hybrid Reasoning Model)是 LLM 和 reasoning model 的結合的新正規化,之後大機率所有 AI labs 的模型釋出模型都會以類似形式,社群也不會再單獨比較 base model 和 reasoning model 的能力。
使用 Claude 3.7 Sonnet 時,使用者可以透過“extended thinking” 的設定選擇是否需要輸出長 CoT:
•開啟 extended thinking,則輸出 CoT step-by-step 思考,類似開啟了人類的 Slow thinking 並且其思考長度是可以選擇的,因此 extended thinking 並不是 0 或 1,而是一個可以拖動的光譜,
•關閉 extended thinking,則和 LLM 一樣直接輸出。

Claude 的這種模式使用者只需在最新的模型下
自行選擇快思考 vs. 慢思考
這個設計其實 Dario 很早就暗示過,在他看來:base model 與 reasoning model應該是個連續光譜。Claude System Card 中提到,extended thinking 的開關與長短是透過定義 system prompt 來實現的。我們推測要實現這樣的融合模型,應該需要在 RL 訓練之後透過 post training 讓模型學會什麼時候應該 step by step thinking,如何控制推理長度。
對於這個新正規化,我們的預測是:
1. 之後的 hybrid reasoning model 需要在 fast thinking 和 slow thinking 的選擇上更加智慧,模型自己具備 dynamic computing 能力,能規劃並分配解決一個問題的算力消耗和 token 思考量。Claude 3.7 Sonnet 目前還是將 inference time 的開啟和長短交由使用者自己來決定,AI 還無法判斷 query 複雜度、無法根據使用者意圖自行選擇。
2. 之後所有頭部 research lab 釋出模型都會以類似形式,不再只是發 base model。
其實現在開啟 ChatGPT 上方的模型選擇,會彈出五六個模型,其中有 4o 也有 o3,使用者需要自行選擇是用 LLM 還是 reasoning model,使用體驗非常混亂。因此,hybrid reasoning model 從智慧能力和使用者體驗看都是下一步的必然選擇。

ChatGPT 的模式需要使用者在不同的 LLM 和 LRM 中做選擇
Insight 05
Claude 3.7 Sonnet 延續並擴大了
3.5 的領先優勢
Sonnet 3.5 釋出後推動了一波 AI Coding 產品能力的升級,3.5 是開發者首選的 coding 模型,Sonnet 3.7 延續、且進一步擴大了這一領先優勢,SWE-bench accuracy 相比 Sonnet 3.5 和其它家模型都領先了 20%+。

AI Coding 領域還有一個很重要的 benchmark 是“模型單次可以輸出多長的可靠程式碼”。當時 Sonnet 3.5 可以做到 200 行,而 Sonnet 3.7 我們這次初步測試下來可以輸出 1000-1500 行程式碼,是第一個可靠程式碼長度上千行的模型,所以對於 Sonnet 3.7 推動 AI Coding 產品解鎖一波新的 use case 這件事我們相當期待且有信心。
以上這些 benchmark 可能都不足以反應 Sonnet 3.7 在程式設計應用上的提升,因為 Sonnet 3.7 更在乎解決真實世界問題,而非最佳化數學或程式設計競賽題目。
Devin,Cursor 等 AI coding 產品都在第一時間接入了 Sonnet 3.7,我們觀察到 B 端使用者的使用反饋主要有幾個:
1. Sonnet 3.7 是解決真實世界問題的 SOTA,對於 debug、codebase search、agentic workflow planning 等一系列的任務都是最好的模型(Cursor、Cognition、Perplecity、Vercel 反饋);
2. Canva 和不少個人開發者都反饋 Sonnet 3.7 的程式碼在前端的設計品味更好了,能生成更 production-ready、且更美觀的前端應用。


Insight 06
Claude Code 不是 AI IDE 的直接競對
而是 AI Coding 產品的重要基建
在這次釋出中,Anthropic 終於推出了自己的 coding 產品:Claude Code。Claude Code 的產品形態是命令列產品,也就是 GUI 出現之前的作業系統互動介面。這個介面初看起來對使用者的使用門檻很高,只有專業開發者才能用起來,讓人覺得 Claude 又做了一個比較極客的產品嚐試。
但仔細理解產品後,我們認為 Claude Code 其實是 AI Coding 產品走向 AI-native 的核心元件,它並不是只面向人類使用者設計的。
也就是說,Anthropic 釋出這個產品,不是為了和 AI IDE 或 Coding Agent 直接競爭終端使用者,而是給他們、以及領域其他競爭者提供重要的基建。這一產品定位確實也符合 Anthropic 一直以來的風格, OS 級別的問題 > 具體 application。
Claude Code demo 展示出的是一個命令列版的 Cursor Composer 或者 Windsurf Cascade。使用者可以輸入自然語言需求,Claude 就會基於其強大的 tool use 能力,開始理解完整的程式碼庫、並修改檔案,實際程式設計中有一定的自我更正能力。
因為 3.7 Sonnet 的 action scaling 能力, Claude Code 又展現出了 Devin 水平的 agentic 能力,可以像一個開發實習生一樣去主動探索程式碼庫,找到需要重點理解和使用的程式碼模組。
這帶來的優勢是 Claude Code 正在幫助 AI onboard 人類傳統程式碼庫。只有讓 AI Agent 在大型程式碼庫中紮根更深,才能讓 AI Coding 不再只是從 0 到 1 prototype 用來生成軟體 prototype 的工具,而能夠直接形成 AI-native 開發工作流,開始更深入地參與到 CI/CD。
再往前推演一步,“MCP +Claude Code + Computer use agent”的組合有潛力成為新一代的 Coding Agent OS:reasoning model 在這個環境中進行 long horizon reasoning,包括任務規劃、執行、驗證和迭代。之前 Anthropic computer use agent 的步子邁得太大,AI 很難一下子理解整個 GUI 作業系統。而現在命令列是更 AI-native 的互動介面,一直是一個適合 heavy machine operation 的環境,這個環境的輸出都是高度 veifiable 的,因此這是一個適合給 AI agent 進行協同開發的環境,面向的不只是普通使用者。
Insight 07
Agent playbook 再升級:action scaling ,verifiable environment 和 online learning
Claude 3.7 部落格中提到了一系列新的關鍵能力, action scaling,能夠連續做 function call 和 tool use ,並持續根據環境的反饋迭代,直到把一個開放式問題解決。其中的幾個關鍵詞為我們揭示了 AI Agent 要落地未來的關鍵 roadmap:
• RL 帶來的 action scaling 能力:
這個能力中包含了兩部分,tool use 和 long horizon reasoning。Tool use 的可靠性是讓一個連續行為能夠可靠的必要條件。要實現可靠的 action scaling,每一個 tool use 步驟必須比較準確,不然過程中的錯誤會以乘法形式累加:例如一個 10 步的推理任務,如果每一步的準確率是 90%,但疊加起來 10 步任務的準確率就只有 35%。同時 long horizon reasoning 保證了當發生了錯誤之後,能讓 Long CoT 回到正確的軌跡上。
• RL 需要構建 verifiable environment:
如果我們定義中的 AI Agent 是要解一個開放性的問題,能夠充分在各個 open-ended 領域泛化,那麼單純的 RL Scaling 並不足以實現 AI Agent 的目標。
這是因為 RL 最擅長在 verifiable environment 中不斷增強能力解決一個端到端的問題,但現實世界的問題往往太過開放沒有這樣的環境。潛在由高上限的 AI agent 環境主要是集中在這幾個領域:OS browser、Coding、遊戲、科研、搜尋,這幾個環境都有比較明確可用的訊號。
• 持續學習能力 online learning/ iterative RL:
個性化智慧的 agent 需要模型自己根據新的環境做動態的 RL fine-tuning。實現這樣持續學習的 agent 有兩個明顯的瓶頸:
其一,暫時沒有看到成熟的 RL fine-tuning 演算法能像 LoRA 那樣更新部分引數(LoRA 也不夠好,學習到的知識無法泛化,只能用來做個性化需求);
其二,模型智慧程度不夠:沒法在新環境中自己試錯,並做好 rejection sampling 來找到好的資料更新自己的引數。
Insight 08
OpenAI Deep Research 是 RL scaling 正規化下
第一個PMF 的產品形態
Deep research 是第一個高度可用的 agent 原型,其完成任務的準確性是比 Devin 要高很多的。其實 Gemini 其實是最早釋出這個產品形態的,但當時模型可用性還比較低。
說到產品形態,Deep research 是 RL scaling 正規化下第一個 PMF 的產品形態,就像 ChatGPT 出現時一下打開了 chatbot 類產品形態一樣。Grok、Perplexity 等公司的積極跟進是對這個產品形態的認可。
我們收集了使用者對 OpenAI Deep research、Gemini、Perplexity Deep Research 和 Grok DeepSearch 的評價,發現 OpenAI Deep research 的使用者體驗有一定領先,在深度研究上做得更好:
• 對網頁內容理解深度出色,超越 perplexity/google 式的簡單索引,猜測是對網站內容做了更完整的語義理解;
• 資訊幻覺少,大部分來源都經過嚴謹的 reference;
• 在生成回答前會先問 Follow-up,能對使用者意圖做比較好的識別。這是一個很好的 Fast thinking + Slow thinking 結合思路;
• 更長的提示可以促使 AI 生成更長、更詳細的報告,說明未來使用者可以調整某種引數,控制 AI 生成答案的回答深度。
在 Deep research 團隊與紅杉的訪談中,團隊提到 Deep research 是基於 o3 對 research 任務做了端微調。開源領域也有很多個版本,基於 DeepSeek R1 或 o3 api,在不微調的情況下也做到了不錯的效果,這些系統普遍有以下元素:
• 不斷迭代研究:透過迭代生成 query、處理結果並根據發現進行深入研究,執行深度研究。
• 深度與廣度控制:可配置的引數控制研究的廣度(廣泛性)和深度(深入性)。
• 智慧 follow-up:生成跟進問題,以更好地理解使用者意圖。
• 並行處理:高效地處理多個搜尋和結果處理任務。
Insight 09
RL Fine-tuning 是 Reasoning model 落地的 downside 保證;但 RL Scaling 的效果更好
垂直領域 Fine-tuning 效果到底如何?這個功能最早是 OpenAI 在 2024 年 12 月釋出會的第二天公佈的,釋出演示很驚豔,不需要太多資料點就能做到不錯的效果。但實際情況似乎有些出入:
1.
之後實際能看到的客戶資料點很有限。
2.
OpenAI 最近釋出的 Competitive Programming 報告反而表明:
reasoning model 做通用 RL scaling 比 domain RL finetuning 效果更好。
具體模型的表現如何?o3 在 competitive coding 上的能力比在 IOI 資料上 finetune 的 o1 模型效果更好。也就是說,RL finetuning 只能對有專有資料的細分場景有優勢,通用場景可能還是很難比過 RL scaling。所以從通用智慧的角度來說,我們有信心對 o4 保持樂觀。另外,OpenAI 對微調資料的量級及組成 Setting 隻字不提,雖然這是 OpenAI 的一貫操作,但很難判斷這是否是面向投資者、避免被 R1 Finetuning 超越的說辭。

o1 使用 Domain-specific RL fine-tuning paired 配合 advanced selection heuristics(a simple filter rejecting any solution that failed public tests),提升效果顯著

不過,至少 RL Fine-tuning 能夠保證 Reasoning model 落地的 downside:Competitive Programming 文章中做了一個有意思的嘗試:在 o1 微調的模型上,他們做了比較完善的 test time strategy:將每個 IOI 問題分解為其組成子任務,為每個子任務從 o1-ioi 中取樣 10,000 個解決方案,然後採用基於聚類和重新排序的方法來決定從該集合中提交哪些解決方案。在這樣的策略下,o1 能做到接近 o3 的水平,o3 可以做到接近人類最高水平。所以,從垂直領域落地來說,R1 和 R2 開源 fine-tuning 也是十分值得關注的訊號。




排版:楊樂樂
延伸閱讀









