Claude4釋出！不止程式設計，超級Agent時代可能真的來了

2025-07-31 06:08 夕小瑤科技說

本週是釋出會周，終於等到了最後一天！今天的主角是 Anthropic。

Anthropic 舉辦了首屆開發者大會。

大會主題是：Code with Claude

不像微軟講平臺、講架構、講開源。

不像 Google 談模型、談服務、談硬體。

Anthropic 說，且只說一點：

程式設計。

不像有的公司喜歡把好東西留在後面，也沒有 One More Thing 的設計。

上臺的是 CEO Dario Amodei，沒有寒暄，沒有鋪墊，開場第一句就點燃全場：

“Claude Opus 4 和 Claude Sonnet 4，今天正式上線。”

臺下掌聲雷動，開發者們的期待被瞬間引爆。

小細節：以前叫 Claude 3 Opus，現在數字後置，改叫 Claude Opus 4 了

Claude 4 正式釋出

一句話總結：

這倆模型，完全針對編碼、高階推理和AI Agent任務設計。

Claude Opus 4：號稱全球最強編碼模型，擅長處理複雜的程式設計問題，可以自主程式設計數小時，表現出色且穩定。
Claude Sonnet 4：作為 Claude Sonnet 3.7 的升級版，相比 Opus 4，更輕量更快速，適合即時響應的場景，在推理和程式設計能力上依然吊打其他模型，重點是：免費使用者可用。

兩個模型均可以在推理過程中使用工具，在推理和工具使用之間交替進行，並且可以並行使用工具。

先看榜單表現——

根據官方提供的 SWE-bench 測試結果，Opus 4 和 Sonnet 4 在基礎測試上分別取得 72.5% 和 72.7% 的準確率，超過 Sonnet 3.7 的 62.3%。

當測試方式改為“並行測試”時， Opus 4 和 Sonnet 4 分別取得 79.4% 和 80.2% 的高分，同樣的，也超過了 Sonnet 3.7 的 70%。

SWE-bench Verified: 真實軟體工程任務效能基準測試。

意思就是：Opus 4 和 Sonnet 4 是最強的程式設計模型。

除了程式設計，在其它領域也很強：

在研究生級別的推理領域（Graduate-level reasoning)、多語言問答（MMMLU），與 OpenAI o3 不分上下，並列第一。

在工具使用（Agentic tool use）領域遙遙領先，比第二 OpenAI o3 將近高 10% 的準確率。

要說不足的，那就要算視覺推理部分（Visual Reasoning），與上一代 Sonnet 3.7 基本持平，屬於墊底那個。

除了效能更強以外，Claude 4 還有下列改進：

可以同時使用多個工具，加強了指令遵循能力，顯著提高了記憶能力。

Claude Opus 4 和 Sonnet 4 是混合模型，可以提供兩種模式：近乎即時的響應和用於更深層次推理的擴充套件思考。

Opus 4 對付費使用者開放，包括 Pro、Max、Team 和 Enterprise Claude 套餐，Sonnet 4 面向免費使用者開放。

而且透過 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供 API 支援。

定價與之前的 Opus 和 Sonnet 模型保持一致：

每百萬 Token 輸入分別為：15 美元和 3 美元。
每百萬 Token 輸出分別為：75 美元和 15 美元。

總結一下，就是：

程式碼能力繼續領先，其它方面也不落後。

Claude Code 正式釋出

除了模型本身，本次釋出會另一個大篇幅講解的是程式設計 Agent——Claude Code：

Claude Code 不但可以在終端中使用，還可以在 IDE 中使用，目前已經整合在 Vscode 和 Jetbrain 中。

同時，還發布了 Claude Code SDK，開發者可以直接在自己的程式中呼叫 Claude Code 的核心。

基於 Claude Code SDK 開發的 Agent 已經被整合進了 Github，現場演示了讓 Claude Code 在 Github 中進行文件撰寫，並進行合併請求(Pull Request)操作。

而且還請來了 Github 的 CEO 站臺：

如果說 Claude 4 模型是 Anthropic 的基石，那 Claude Code 則是 Anthropic 的生態。

基石 + 生態=護城河。

其它亮點

藉助新的 Code Execution Tool 和 Files API，Claude 4 不僅僅是執行程式碼，而是可以讀取結果，並根據結果進行修正，還可以重構程式碼，進行提交。最終的結果就是 Claude 4 可以在無人干預的情況下，連續自動工作 7 個小時！

要知道，這可是 100% 投入，0% 摸魚的 7 個小時啊！

Anthropic 的首席產品官 Mike Krieger 還介紹了一個它們的內部資料，在廣泛使用 AI 工具後，新員工平均上手時間從 2 到 3 周，大幅縮短到 2 至 3 天。

還介紹了 API 平臺，

透過對 MCP 的自動化編排，模型可以根據任務的需求，自動的按步驟呼叫合適的工具。

實測效果炸裂

目前社群已經有人開始用 Claude 4 跑例子了，大家的評價及其統一：牛 x！

一句話，生成一個可用的瀏覽器代理，把小哥驚的直接爆粗口：

一句話，一次生成一個可工作的俄羅斯方塊遊戲。不僅僅可玩，UI 也不含糊，甚至在方塊上有高光區域。

還有這個，一句話生成了複雜的，可互動的三維空間：

一句話，生成一個可工作的 CRM 儀表盤：

上面這四個例子，都有個共同的特點：一句話。

我不敢說程式設計的正規化從此徹底改變這麼大的話。

但，你真的要重視 AI 程式設計的發展趨勢和速度。

“淘汰你，與你何干”。

Anthropic 在直播中提到：

“程式設計的發展歷史就是從低階語言，不斷地切換到高階語言。隨著 AI 和程式設計代理的發展，現在只需要用語言來描述需求。”

看 Claude 4 的表現，我覺得他們確實有底氣這麼講。

相關文章

最強編碼模型Claude4！7小時不間斷寫程式碼，連玩24小時寶可夢，GitHub已選為Copilot底層模型

最強編碼模型Claude4！7小時不間斷寫程式碼，連玩24小時寶可夢，GitHub已選為Copilot底層模型

Claude4釋出：替代人類程式設計師所需的條件，現在它都有了

Claude4釋出：替代人類程式設計師所需的條件，現在它都有了

全球最強編碼模型Claude4震撼釋出：自主編碼7小時、給出一句指令30秒內搞定任務，絲滑無Bug

全球最強編碼模型Claude4震撼釋出：自主編碼7小時、給出一句指令30秒內搞定任務，絲滑無Bug

地表最強程式設計AI誕生！Claude4連續自動程式設計7小時，實測細節驚豔程式設計師

地表最強程式設計AI誕生！Claude4連續自動程式設計7小時，實測細節驚豔程式設計師

已卷瘋！距上次更新僅隔三月，Anthropic又釋出Claude3.5Sonnet

已卷瘋！距上次更新僅隔三月，Anthropic又釋出Claude3.5Sonnet

超越GPT-4o，Claude3.5一夜封王！10倍編碼速度逆天，全網最全實測來了

超越GPT-4o，Claude3.5一夜封王！10倍編碼速度逆天，全網最全實測來了

DeepSeek震動矽谷AI圈，GPT-5還秘而“不發”？7千億利潤奧特曼都看不上了

DeepSeek震動矽谷AI圈，GPT-5還秘而“不發”？7千億利潤奧特曼都看不上了

揭秘OpenAI最大競爭對手！Claude為何讓它焦慮？

揭秘OpenAI最大競爭對手！Claude為何讓它焦慮？

LLM進化分岔口：多模態、成本、程式碼推理

LLM進化分岔口：多模態、成本、程式碼推理

全網翹首盼望的Claude4，重磅登場；奧爾特曼：OpenAI的下一款主要產品是一款小巧的無屏裝置丨AIGC日報

全網翹首盼望的Claude4，重磅登場；奧爾特曼：OpenAI的下一款主要產品是一款小巧的無屏裝置丨AIGC日報

Copyright © 2025 | WordPress Theme by MH Themes