
Anthropic 近日釋出其最新的 Claude 4 系列模型,包括旗艦型號 Claude Opus 4 和更側重效率的 Claude Sonnet 4。新模型在程式設計能力上實現了重大突破,Opus 4 在 SWE-bench 等關鍵基準測試中得分達到72.5%,並能處理數百萬行級別的複雜程式碼庫,以及在一些測試場景中,實現了長達7小時的連續程式設計任務。

Claude 4 系列還引入了“工具輔助的延伸思考”、增強的記憶能力以及正式版的程式設計助手 Claude Code,後者已深度整合至 VS Code 和 JetBrains IDE。在API和MCP的接入等能力上也有大範圍更新。

這是一次全方位的更新,針對程式設計和推理能力。而這次大更新和工具能力的補足後,Claude 4有了替代人類程式設計師所需要的所有條件,接下來就是一路提升這些能力,短期目標讓Agents普及,長期就直奔Anthropic眼裡的AGI了。
1
不只是模型升級,更是全面能力補足
Claude 4 的釋出,並非簡單沿襲“Haiku、Sonnet、Opus”的階梯式組合,而是推出了兩大核心模型:追求極致效能的 Claude Opus 4 和兼顧效率與成本的 Claude Sonnet 4。
Anthropic 聲稱,Opus 4 是目前程式設計能力較為領先的模型之一。根據披露資訊及早期使用者反饋,它頗有“質變”的意味,不僅程式設計效率提升,而且其展現出的複雜任務理解和執行能力,讓很多人“feel 到了 AGI”。
顯著提升的程式碼生成與理解: Claude Opus 4 在程式設計基準測試 SWE-bench 上取得了 72.5% 的得分,在 Terminal-bench 上也達到了 43.2%;而 Sonnet 4 在 SWE-bench 上的得分也達到了 72.7%,接近 Opus 4 的水平。
而根據提前試用者的反饋,很多場景已經遠非生成程式碼片段或輔助除錯,而是能夠理解並處理數百萬行級別的複雜程式碼庫,從高度抽象的自然語言需求直接生成結構完整、邏輯嚴密的應用程式框架。
Rakuten 在一項高要求的開源重構任務中,Opus 4 連續穩定執行長達 7 小時,表現出色。Cognition AI 表示,Opus 4 能解決其他模型此前無法完成的複雜任務。這種深度理解和生成能力,是構建更高階智慧體的前提。
這些資料和案例表明,Claude 4 不僅僅是程式碼片段的生成器,它已經具備了理解大型、複雜專案架構的能力,能夠從高層次的需求出發,生成結構完整、邏輯嚴密的應用程式。這意味著它能夠勝任從需求分析(理解自然語言需求)到程式碼實現、重構乃至持續整合等傳統上由人類程式設計師完成的整個開發生命週期中的核心任務。這種全棧式的程式碼處理能力,是替代人類程式設計師在日常開發工作中所需的第一塊能力。

“延伸思考”與超大上下文視窗: 模型在進行深入思考時,能夠交替使用工具(如網頁搜尋)以最佳化推理過程,這一“工具輔助的延伸思考”能力(測試版)使其在 GPQA、MMMLU(Opus 4 得分 87.4%)、AIME 等測試中表現突出。
這種能力超越了簡單的模式匹配,展現了初步的規劃和策略調整,是通用問題解決能力的一種體現。同時,Claude 3 時代令人印象深刻的上下文視窗在 Claude 4 這裡得到繼承和發展,為處理龐大專案提供了基礎。
“主動糾錯”、“架構建議”與“記憶力”: Claude 4 不僅能發現並修復錯誤,更能從架構層面提出最佳化建議。新增的“記憶能力”允許模型提取並儲存關鍵資訊。
比如在玩《寶可夢》時建立“導航指南”,形成“工作記憶檔案”,保持上下文連貫,這對於長任務執行至關重要。這種自我修正和長期記憶的特性,是智慧系統向更自主、更通用方向發展的關鍵特徵。

更重要的是,Claude 4 不再僅僅是執行指令的工具,它開始展現出高階程式設計師和架構師所特有的思考能力。‘主動糾錯’不僅限於語法錯誤,更深入到邏輯和架構層面,這意味著它能像經驗豐富的開發者一樣,預見並解決潛在問題,甚至最佳化整體設計。
“記憶能力’則讓它能在一個專案中保持長期的上下文連貫性,無需反覆喂入資訊,這極大地提升了其處理長期、複雜專案的效率和可靠性。這些認知能力的補足,使得 Claude 4 能夠承擔過去只有資深人類工程師才能勝任的、需要深度思考和持續迭代的工作,從而為真正的‘替代’奠定了智力基礎。
Claude Code 正式釋出與深度整合: 面向開發者的程式設計工具 Claude Code 正式釋出,並已支援 GitHub Actions,推出了針對 VS Code 和 JetBrains 系列 IDE 的測試版擴充套件。
這意味著開發者可以在熟悉的編輯器中直接獲得 Claude 的程式碼修改建議、追蹤任務。
例如,在演示中,Claude Code 僅用一次提示,在 90 分鐘內為 Excalidraw 專案完整實現了此前擱置的表格元件功能,包括生成程式碼、測試用例、UI 整合和 PR 提交,全程無需人工編輯。這預示著AI不僅是工具,更將成為開發流程中的核心參與者和決策者。

Claude Code 的正式釋出及其與主流 IDE 的深度整合,標誌著 AI 在程式設計領域的角色從‘輔助’走向‘主導’。它不再是需要人類頻繁介入的智慧提示或偵錯程式,而是能夠接收高層指令,自主完成從程式碼編寫、測試、整合到版本控制(如 PR 提交)的整個工作流。Excalidraw 的案例清晰地展示了這種端到端的自動化能力:一個複雜的功能需求,在極短時間內由 AI 獨立完成,且無需人工干預。這種無縫融入現有開發環境並能獨立執行復雜任務的能力,是實現‘替代’的關鍵一步,因為它直接減少了人類在具體編碼和流程管理上的投入。
為高階 Agent 構建的 API 與工具: Claude 4 在 Agentic 能力上實現了顯著飛躍,能夠更可靠地執行復雜的多步驟任務,並與外部工具和API高效協同。
Anthropic 為此推出了全新的API功能,包括允許 Claude 在安全沙盒環境中執行 Python 程式碼以進行計算和資料視覺化的程式碼執行工具,以及無需編寫客戶端程式碼即可將 Claude 連線至任何遠端模型上下文協議(MCP)伺服器的 MCP 聯結器。
此外,檔案 API 簡化了開發者在構建應用時儲存和訪問文件的流程,而擴充套件的提示快取則提供了在標準5分鐘或延長至1小時的快取有效期之間進行選擇的靈活性。這些新特性與 Claude Opus 4 和 Sonnet 4 模型相結合,將助力開發者打造出能夠執行復雜資料分析、與外部系統無縫對接、高效管理檔案,並且能將對話上下文保持長達60分鐘的智慧代理。

成本效益與易用性: 儘管能力大幅提升,Opus 4 每百萬 token 的輸入/輸出價格分別為 $15/$75,Sonnet 4 為 $3/$15,與前代持平。兩款模型均已上線 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 平臺,Sonnet 4 甚至向免費使用者開放。
Claude 4 系列模型在程式設計能力上頗有“從量變到質變”的味道。
1
讓人類把程式設計的權力讓給AI,是Anthropic走向AGI的第一步
Claude 4 的強大能力已在多個場景中得到驗證:
例如,在Replit的實測中,Opus 4 在處理涉及多檔案、大規模改動的複雜專案中展現出更高的準確率;Block公司在其代號為Goose的Agent中整合Opus 4後,首次在編輯和除錯程式碼過程中觀察到程式碼質量的顯著提升,同時保持了系統的穩定性和效能。 有使用者也成功讓Opus 4一次性生成了包含四種不同天氣狀態及獨特動畫效果的天氣卡片,而Sonnet 4也在第二次嘗試後成功交付了一個包含自動演示AI功能的紅白機風格“貪吃蛇”遊戲。

從這些案例可以看出,AI 可以一次性完成的任務,越來越多,越來越複雜。
Claude 4還帶來了全新的 Agent 的可能。Anthropic 表示,未來優秀的 AI Agent 需要具備“情境智慧”、“長任務執行能力”和“真實協作能力”。接下來的目標是出現主動修改最佳化自身程式碼邏輯,甚至為自己編寫新工具的“程式碼自進化” Agent。
Anthropic CEO Dario Amodei 在當天的釋出上描述這種新的人機協作模式時說:“我們正進入一個新世界,開發者可以像管理一支 Agent 團隊一樣工作:「你去做這個,你去做那個。」我常說,做 AI 就像是坐在一艘飛船上,以相對論的速度離開地球——你在飛船上過一天,地球上可能可能已經過去兩天了。” 他說。
“所以大膽一點。構建一個超出你原本認為可能實現的東西。即使它現在還無法完全實現,下一代模型就要來了。” 他說。
現在看來,Anthropic的路線越來越明晰,選擇“程式碼生成與理解”這一高度結構化、對邏輯推理和規劃能力要求極高的領域作為突破口,安全且負責任地將複雜認知任務(如程式設計)的執行權從人類手中讓渡給AI,就是實現Anthropic眼裡那個AGI的第一步。
而當這些Agent能夠高效、低成本地建立和管理軟體時,Dario 預言:
“當「寫軟體的成本」大幅下降時,經濟和商業結構會發生什麼?…當軟體可以按需、低成本、一次性建立時,整個世界都會不同。”
文: Gemini
助手: 王兆洋