全球最強編碼模型Claude4震撼釋出:自主編碼7小時、給出一句指令30秒內搞定任務,絲滑無Bug

作者 | 冬梅
Claude 4 系列模型釋出,編碼、推理能力更上一步
昨天夜裡,在 Anthropic 的首屆開發者大會上,Anthropic CEO Dario Amodei 宣佈 Claude 4 正式釋出。
該系列模型下共有兩個型號:Claude Opus 4 和 Claude Sonnet 4,為編碼、高階推理和 AI 代理設定新的標準。
Dario 表示,Claude Opus 4 是該公司迄今為止最強大的 AI 模型,能夠連續“數小時”處理長時間執行的任務。
Dario 示,在客戶測試中,Opus 4 可以自主執行 7 個小時,顯著擴充套件了 AI 代理的可能性。該公司還將其新旗艦產品描述為“世界上最好的編碼模型”,Anthropic 的基準測試顯示,Opus 4 在編碼任務和使用網路搜尋等“工具”方面的表現優於谷歌的 Gemini 2.5 Pro、OpenAI 的 o3 推理和 GPT-4.1 模型。
Claude Opus 4 也是全球最佳的編碼模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均領先。
Claude Opus 4 擅長編碼和解決複雜問題,為前沿代理產品提供動力。Cursor 稱其為編碼領域的最新技術,並在複雜程式碼庫理解方面實現了飛躍。Replit 報告稱,其跨多個檔案的複雜更改的精度和顯著改進。
除了模型方面的改進外,Claude Opus 4 在記憶體能力方面也顯著超越了所有前代型號。當開發者構建允許 Claude 訪問本地檔案的應用程式時,Opus 4 能夠熟練地建立和維護“記憶體檔案”來儲存關鍵資訊。這能夠提升代理在長期任務中的感知能力、連貫性和執行效能——例如,Opus 4 在玩寶可夢時能夠建立“導航指南”。
Claude Sonnet 4 是一款更經濟實惠、更注重效率的型號,更適合執行常規任務,它取代了 2 月份釋出的 3.7 Sonnet 型號。Dario 表示,Sonnet 4 提供“卓越的編碼和推理能力”,同時提供更精確的響應。他補充說,與 3.7 Sonnet 相比,這兩款型號在完成任務時走捷徑和鑽空子的可能性降低了 65%,而且當開發人員為 Claude 提供本地檔案訪問許可權時,它們能夠更好地儲存長期任務的關鍵資訊。
Claude Sonnet 4 在 Sonnet 3.7 業界領先的功能基礎上進行了顯著提升,在 SWE-bench 上實現了 72.7% 的出色編碼效率。該模型在內部和外部用例的效能和效率之間取得了平衡,並增強了可控性,從而更好地控制實現。雖然在大多數領域都無法與 Opus 4 匹敵,但它實現了功能和實用性的最佳結合。
GitHub 表示,Claude Sonnet 4 在代理場景中表現出色,並將作為 GitHub Copilot 中新編碼代理的基礎模型引入。
Manus 強調了其在執行復雜指令、清晰推理和美觀輸出方面的改進。iGent 報告稱,Sonnet 4 在自主多功能應用程式開發方面表現出色,並顯著改進了問題解決和程式碼庫導航能力,將導航錯誤率從 20% 降至接近零。
Sourcegraph 表示,該模型有望成為軟體開發的一大飛躍——能夠更長時間地保持正軌,更深入地理解問題,並提供更優雅的程式碼質量。Augment Code 報告稱其成功率更高,程式碼編輯更精準,複雜任務的處理也更加細緻,使其成為其主要模型的首選。
Claude Opus 4 和 Sonnet 4 是混合模型,提供兩種模式:近乎即時的響應和用於更深層次推理的擴充套件思維。Pro、Max、Team 和 Enterprise Claude 套餐包含兩種模型和擴充套件思維,Sonnet 4 也面向免費使用者開放。
兩種模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定價與之前的 Opus 和 Sonnet 模型保持一致:Opus 4 為每百萬 token(輸入 / 輸出)15~75 美元,Sonnet 4 為 3~15 美元。
模型之外,Claude Code 已釋出
除了新模型外,Anthropic 的 Claude Code agentic 命令列工具在 2 月份有限預覽後現已正式釋出。
Anthropic 表示,在研究預覽期間收到大量積極反饋後,Anthropic 正在擴充套件開發者與 Claude 的協作方式。Claude Code 現在支援透過 GitHub Actions 執行後臺任務,並與 VS Code 和 JetBrains 原生整合,可直接在檔案中顯示編輯內容,實現無縫的結對程式設計。
Anthropic 還表示,為了應對來自 OpenAI、谷歌和 Meta 的競爭,該公司正在轉型,提供“更頻繁的模型更新”。
Anthropic 的其他更新還包括:
  • 使用工具進行擴充套件思考(測試版)
    :兩種模型都可以在擴充套件思考過程中使用工具(例如網路搜尋),從而使 Claude 能夠在推理和工具使用之間交替進行以改善響應。
  • 兩種模型都可以並行使用工具,更精確地遵循指令
    ,並且當開發人員授予其訪問本地檔案的許可權時,可以顯著提高記憶能力,提取和儲存關鍵事實以保持連續性並隨著時間的推移建立隱性知識。
  • 新的 API 功能
    :Anthropic 在 Anthropic API 上釋出了四項新功能,使開發人員能夠構建更強大的 AI 代理:程式碼執行工具、MCP 聯結器、檔案 API 以及將提示快取長達一小時的能力。
Anthropic 上週確認,其第一季度年化營收達到 20 億美元,較上一季度的 10 億美元增長了一倍多。該公司營收主管凱特·詹森 (Kate Jensen) 最近接受 CNBC 採訪時表示,Anthropic 年度消費超過 10 萬美元的客戶數量較去年同期增長了八倍。
華爾街繼續向 Anthropic 等人工智慧初創公司投入資金:該公司上週獲得了 25 億美元的五年期迴圈信貸額度,以增強其在不斷擴大且昂貴的人工智慧競爭中的流動性。
網友實測:很強大
Claude 4 的釋出在社交平臺上引發了諸多關注。有網友第一時間進行了實測,隨後表示,
“Claude 4 強大到令人髮指!我就輸入一句‘給我做個 CRM 儀表盤’的指令,它 30 秒就搞定了,我整個人都驚呆了!!”
另一位第一時間實測了 Claude 4 的網友表示,這編碼能力絕對要遠遠優於 3.5/3.7 版本。
第一次嘗試就用 Claude Sonnet 4 一次性通關了一個遊戲,而且我還在遊戲過程中把客廳吸塵了!沒有任何 bug,就這麼絲滑。
還有位提前體驗了 Claude 4(不確定具體是哪個版本)的使用者表示,它的表現讓人印象深刻。
“舉個有趣的例子,當我輸入提示詞:把《皮拉內西》這本書做成 p5js 的 3D 空間。幫我實現一下——僅僅這樣一句話,沒有任何額外提示,它就生成了這個作品(注意那些鳥、水體和光影效果)。”
推理模型成“兵家必爭之地”
2025 年,人工智慧行業已顯著轉向推理模型。這些系統在做出反應之前會系統地解決問題,模擬類似人類的思維過程,而不是簡單地根據訓練資料進行模式匹配。
OpenAI 於去年 12 月憑藉其“o”系列開啟了這一轉變,隨後谷歌 Gemini 2.5 Pro 也推出了實驗性的“深度思考”功能。DeepSeek 的 R1 模型憑藉其卓越的問題解決能力和極具競爭力的價格意外地佔領了市場份額。
這一轉變標誌著人們使用人工智慧方式的根本性變革。根據 Poe 的《2025 年春季人工智慧模型使用趨勢報告》,推理模型的使用量在短短四個月內增長了五倍,佔所有人工智慧互動的比例從 2% 增長到 10%。使用者越來越多地將人工智慧視為解決複雜問題的思維夥伴,而非簡單的問答系統。
隨著新型人工智慧模型引起使用者興趣,推理類資訊的比例在 2025 年初大幅上升。(圖片來源:Poe)
Claude 的新模型的獨特之處在於將工具的使用直接融入推理過程。這種同步研究與推理的方法比以往先收集資訊再進行分析的系統更貼近人類認知。在推理過程中暫停、查詢資料並融入新發現的能力,創造了更自然、更有效的解決問題體驗。
Anthropic 的新發布時機凸顯了高階人工智慧領域競爭的加速。在 OpenAI 推出 GPT-4.1 系列僅五週後,Anthropic 就推出了在關鍵指標上挑戰甚至超越它的模型。谷歌本月初更新了其 Gemini 2.5 系列,而 Meta 最近釋出了其 Llama 4 模型,該模型具有多模態功能和 1000 萬個 token 上下文視窗。
在這個日益專業化的市場中,每個主要實驗室都展現出獨特的優勢。OpenAI 在通用推理和工具整合方面處於領先地位,谷歌在多模態理解方面表現出色,而 Anthropic 則在持續效能和專業編碼應用方面獨佔鰲頭。
這對企業客戶而言具有重大的戰略意義。如今,企業面臨著日益複雜的決策,即針對特定用例部署哪些 AI 系統,沒有哪個模型能夠在所有指標上佔據主導地位。這種碎片化有利於成熟的客戶,他們可以利用專業的 AI 優勢,同時也挑戰了尋求簡單統一解決方案的公司。
參考連結:
https://www.anthropic.com/news/claude-4
宣告:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載
InfoQ 老友!請留步!極客邦 1 號客服上線工作啦!
後續我將透過微信影片號,以影片的形式持續更新技術話題、未來發展趨勢、創業經驗、商業踩坑教訓等精彩內容,和大家一同成長,開啟知識交流之旅歡迎掃碼關注我的微信影片號~

相關文章