
本週是釋出會周,終於等到了最後一天!今天的主角是 Anthropic。
Anthropic 舉辦了首屆開發者大會。
大會主題是:Code with Claude
不像微軟講平臺、講架構、講開源。
不像 Google 談模型、談服務、談硬體。
Anthropic 說,且只說一點:
程式設計。
不像有的公司喜歡把好東西留在後面,也沒有 One More Thing 的設計。
上臺的是 CEO Dario Amodei,沒有寒暄,沒有鋪墊,開場第一句就點燃全場:
“Claude Opus 4 和 Claude Sonnet 4,今天正式上線。”
臺下掌聲雷動,開發者們的期待被瞬間引爆。

小細節:以前叫 Claude 3 Opus,現在數字後置,改叫 Claude Opus 4 了
Claude 4 正式釋出
一句話總結:
這倆模型,完全針對編碼、高階推理和AI Agent任務設計。
-
Claude Opus 4:號稱全球最強編碼模型,擅長處理複雜的程式設計問題,可以自主程式設計數小時,表現出色且穩定。 -
Claude Sonnet 4:作為 Claude Sonnet 3.7 的升級版,相比 Opus 4,更輕量更快速,適合即時響應的場景,在推理和程式設計能力上依然吊打其他模型,重點是:免費使用者可用。
兩個模型均可以在推理過程中使用工具,在推理和工具使用之間交替進行,並且可以並行使用工具。
先看榜單表現——

根據官方提供的 SWE-bench 測試結果,Opus 4 和 Sonnet 4 在基礎測試上分別取得 72.5% 和 72.7% 的準確率,超過 Sonnet 3.7 的 62.3%。
當測試方式改為“並行測試”時, Opus 4 和 Sonnet 4 分別取得 79.4% 和 80.2% 的高分,同樣的,也超過了 Sonnet 3.7 的 70%。
SWE-bench Verified: 真實軟體工程任務效能基準測試。
意思就是:Opus 4 和 Sonnet 4 是最強的程式設計模型。
除了程式設計,在其它領域也很強:

在研究生級別的推理領域(Graduate-level reasoning)、多語言問答(MMMLU) ,與 OpenAI o3 不分上下,並列第一。
在工具使用(Agentic tool use)領域遙遙領先,比第二 OpenAI o3 將近高 10% 的準確率。
要說不足的,那就要算視覺推理部分(Visual Reasoning),與上一代 Sonnet 3.7 基本持平,屬於墊底那個。
除了效能更強以外,Claude 4 還有下列改進:
-
可以同時使用多個工具,加強了指令遵循能力,顯著提高了記憶能力。
Claude Opus 4 和 Sonnet 4 是混合模型,可以提供兩種模式:近乎即時的響應和用於更深層次推理的擴充套件思考。
Opus 4 對付費使用者開放,包括 Pro、Max、Team 和 Enterprise Claude 套餐,Sonnet 4 面向免費使用者開放。
而且透過 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供 API 支援。
定價與之前的 Opus 和 Sonnet 模型保持一致:
-
每百萬 Token 輸入分別為:15 美元和 3 美元。 -
每百萬 Token 輸出分別為:75 美元和 15 美元。
總結一下,就是:
程式碼能力繼續領先,其它方面也不落後。
Claude Code 正式釋出
除了模型本身,本次釋出會另一個大篇幅講解的是程式設計 Agent——Claude Code:

Claude Code 不但可以在終端中使用,還可以在 IDE 中使用,目前已經整合在 Vscode 和 Jetbrain 中。

同時,還發布了 Claude Code SDK,開發者可以直接在自己的程式中呼叫 Claude Code 的核心。
基於 Claude Code SDK 開發的 Agent 已經被整合進了 Github,現場演示了讓 Claude Code 在 Github 中進行文件撰寫,並進行合併請求(Pull Request)操作。

而且還請來了 Github 的 CEO 站臺:

如果說 Claude 4 模型是 Anthropic 的基石,那 Claude Code 則是 Anthropic 的生態。
基石 + 生態=護城河。
其它亮點

藉助新的 Code Execution Tool 和 Files API,Claude 4 不僅僅是執行程式碼,而是可以讀取結果,並根據結果進行修正,還可以重構程式碼,進行提交。最終的結果就是 Claude 4 可以在無人干預的情況下,連續自動工作 7 個小時!
要知道,這可是 100% 投入,0% 摸魚的 7 個小時啊!
Anthropic 的首席產品官 Mike Krieger 還介紹了一個它們的內部資料,在廣泛使用 AI 工具後,新員工平均上手時間從 2 到 3 周,大幅縮短到 2 至 3 天。

還介紹了 API 平臺,

透過對 MCP 的自動化編排,模型可以根據任務的需求,自動的按步驟呼叫合適的工具。
實測效果炸裂
目前社群已經有人開始用 Claude 4 跑例子了,大家的評價及其統一:牛 x!
一句話,生成一個可用的瀏覽器代理,把小哥驚的直接爆粗口:

一句話,一次生成一個可工作的俄羅斯方塊遊戲。不僅僅可玩,UI 也不含糊,甚至在方塊上有高光區域。

還有這個,一句話生成了複雜的,可互動的三維空間:

一句話,生成一個可工作的 CRM 儀表盤:

上面這四個例子,都有個共同的特點:一句話。
我不敢說程式設計的正規化從此徹底改變這麼大的話。
但,你真的要重視 AI 程式設計的發展趨勢和速度。
“淘汰你,與你何干”。
Anthropic 在直播中提到:
“程式設計的發展歷史就是從低階語言,不斷地切換到高階語言。隨著 AI 和程式設計代理的發展,現在只需要用語言來描述需求。”
看 Claude 4 的表現,我覺得他們確實有底氣這麼講。


