

來源丨量子位(ID:QbitAI)
作者丨白交 衡宇
圖源丨Anthropic
AI圈子好熱鬧。今天凌晨,Claude終於迎來了它的重大版本升級——Claude 4來了!
此次主要釋出的有兩個模型:Claude Opus 4和Claude Sonnet 4。
一經面世,就在編碼、高階推理和AI Agent重新定義了新的標準,直接實現SOTA。

GitHub已經宣佈,將使用Claude Sonnet 4作為 GitHub Copilot新編碼Agent的基礎模型。
而兩個模型裡最為人所津津樂道的是旗艦模型Claude Opus 4,它最引人注目的就是持續的幹活,一身用不完的牛勁。
比如,它可以在連續24小時暢玩寶可夢,而之前版本Claude 3.7 Sonnet只能連續玩 45 分鐘。
其客戶之一,日本樂天集團(Rakuten)使用Claude Opus 4進行了一個高強度的開原始碼重構任務。
誰也沒想到,Opus 4直接吭哧吭哧獨立執行並持續編寫程式碼長達7小時,而且效能極、其、穩、定。
單這一個例子,就能看出它非常強的持久工作能力,以及上下文理解能力。
看遍評論區,發現使用過Claude 4幾乎都給予了它高度評價,尤其是對Opus 4(不愧是旗艦模型哇)。
有人說,“Opus 4是我用上的第一個不用自己動手改,就生成高質量內容的第一個大模型”。

此外,有位最近一直用Opus搞程式設計的網友表示,Benchmark上的成績完全不能代表Claude 4的成就:
它在保持進度、編寫可維護的程式碼以及按照我的意願和期望進行工作方面,帶來了徹底的變革。
這不是簡單的極客行為。團隊做得非常出色!

已經有網友開始直接用Claude 4來做了個俄羅斯方塊,一次性就完成的那種。

值得關注的一點,今天起,所有付費使用者都可以開始使用Claude 4系列模型了。
免費使用者也不要慌,Anthropic給大家準備了Claude Sonnet 4。
值得一提的是,伴隨Claude 4的問世,為了讓開發者們能構建更強大的AI Agent,Anthropic在自家API方面上新了3個新功能,分別是:程式碼執行工具、MCP聯結器、檔案API,以及長達一小時的快取提示能力。
至於API的定價也沒變,和之前系列的Opus和Sonnet一樣:
-
Claude Opus 4:每百萬Token,輸入為15美元,輸出為75美元 -
Claude Sonnet 4:每百萬Token,輸入為3美元,輸出為5美元

全球最強編碼模型Claude 4:
可獨立執行7小時
此次釋出兩個模型Opus 4和Sonnet 4,升級的重點各有側重。
Opus 4針對編碼和長期執行的Agent工作流進行了最佳化。
Sonnet 4與Opus 4類似,但針對推理進行了最佳化,並在效率方面進行了平,這意味著它的執行成本更低。作為Sonnet 3.7的重大升級,它能精準地響應你的指令。
他們倆都是混合模型,提供兩種操作模式:一種用於快速響應,另一種用於“更深層次的推理”。
旗艦模型Opus 4,在SWE-bench(72.5%)和 Terminal-bench(43.2%)上均實現領先。它在需要專注投入和數千個步驟的長時間執行任務中表現出色,能夠連續工作數小時,其效能遠超所有 Sonnet 模型,並顯著擴充套件了 AI Agent的功能。
Claude Sonnet 4其實也不差,它在SWE-bench 上實現了 72.7% 的得分。

兩個模型在編碼、推理、多模態能力和Agent任務方面均表現出色。

那新模型到底怎麼強?以旗艦模型為例,看看各種前沿Agent產品咋說——
Cursor稱其為編碼領域的最新技術,並在複雜程式碼庫理解方面實現了飛躍。
Block稱其為第一個在其Agent(代號 goose)中在編輯和除錯過程中提高程式碼質量,同時保持完整效能和可靠性的模型。
Rakuten透過獨立執行 7 小時且效能穩定的高要求開源重構驗證了其功能。
除了模型本身強大,他們還提供了一些新的功能和改進:工具使用、並行工具執行和記憶體改進,以及思維摘要功能,記憶體能力的提升。
工具使用(Beta版):兩種模型都可以在擴充套件思考過程中使用工具(例如網路搜尋),這樣Claude一邊思考推理一邊使用工具交替進行。
並行工具使用,這樣一來,模型可以更精確地遵循指令,並且在開發人員允許訪問本地檔案時,能顯著提高記憶能力,提取並儲存關鍵事實,以保持連續性並隨著時間的推移建立隱性知識。
他們還引入思維摘要功能,使用較小的模型來濃縮冗長的思考過程。不過只有大約 5%的情況下需要這種總結,大多數思維過程都很短,足以完整顯示。
記憶體能力方面,Claude Opus 4顯著超越之前所有的模型。當開發者構建允許 Claude 訪問本地檔案的應用程式時,Opus 4 能夠熟練地建立和維護“記憶體檔案”來儲存關鍵資訊,以幫助改進遊戲體驗。
這能夠提升代理在長期任務中的感知能力、連貫性和執行效能——例如,Opus 4在玩寶可夢時能夠建立“導航指南”。

幾個月前,Anthropic推出了一場名為“Claude Plays Pokémon”的直播,以展示Claude 3.7 Sonnet 在《寶可夢紅版》中的能力。
該演示旨在秀肌肉,比如在極少量的人類干預下,Claude如何分析遊戲,並逐步做出決策。
Anthropic技術團隊的成員表示,選擇《寶可夢紅版》來搞事情,是因為這個遊戲“是一個簡單的遊樂場”,回合制,且不需要及時反映。終極目標則為了研究如何讓Claude像Agent一樣,獨立地為使用者執行復雜任務。
Claude 3.7 Sonnet玩這款遊戲時遇到了不少的困難,比如在一個城市中困了幾十個小時,並且難以識別非玩家角色,這極大地阻礙了它在遊戲中的進展。
但Opus 4就不一樣了,它在長期記憶和規劃能力上有所提高。與此同時,當Opus 4意識到需要某種特定的能力才能繼續前進後,它花了兩天時間提升它的技能,然後繼續玩遊戲。
此外,他們還顯著減少了模型使用捷徑或漏洞完成任務的行為。在處理一些容易受到捷徑和漏洞影響的Agent任務中,這兩個模型出現此類行為的可能性都比 Sonnet 3.7 低 65%。

智慧程式碼助手Claude Code
正式全面開放
除此之外,Anthropic還正式釋出了Claude Code。
這是一個智慧程式碼助手工具,旨在幫助開發者透過自然語言命令理解、瀏覽和修改整個程式碼庫,讓你能夠將修復bug、實現新功能、程式碼重構、編寫測試、跨檔案修改等大量工程任務交給AI完成。
今年2月時,Anthropic曾在首屆“Code with Claude”開發者大會上宣佈推出Claude Code。
現在,它正式上線,並且已經整合進更多開發工作流程中:終端,IDE,或者使用Claude Code SDK在後臺執行。
我們詳細來看——首先是Claude Code整合到IDE。
此次,Anthropic推出了新的VS Code和 JetBrains Beta擴充套件。
這一舉措直接把Claude Code整合到了IDE裡,也就是說,它已經和開發者們熟悉的程式碼編輯器無縫結對。
至此,大家對著Claude提出的修改內容會被直接嵌入到檔案裡,從而簡化了程式碼審查和跟蹤過程。
其次,Anthropic還發布了一個可擴充套件的Claude Code SDK。
利用Claude Code SDK,朋友們可以用和Claude Code相同的核心Agent來構建自己的Agent和應用程式啥的。
目前,Claude Code在GitHub上放出了Beta版本。
在GitHub上Pull Request的時候,只需要「@Claude Code」,就可以回應評審人員的反饋、修復持續整合錯誤或修改程式碼。
如果想安裝它的話,大家記得執行“/install-github-app”,就可以安裝Beta版的外掛了。

Anthropic產品負責人Scott White表示,Claude Code不僅適合公司——它們希望旗下的軟體工程師們使用AI來提高自身專業技能,也適合個人——包括那些不懂程式設計的人。
如果一位產品經理想出了一個新點子,就不用費勁地用文字來解釋概念了。
直接找Claude Code,就能創造關於這個新點子的雛形。

“去年年底就停止了
對聊天機器人的投資”
之所以能在程式設計能力上如此驚豔,與Anthropic戰略轉向有關。
Anthropic首席科學官Jared Kaplan接受採訪時表示,該公司於去年年底停止對聊天機器人的投資。
現在的重點很明確——專注於提高Claude執行復雜任務的能力,例如研究和程式設計,甚至編寫整個程式碼庫。
去年起,Anthropic就開始訓練Claude 4系列,“訓練過程中,內部確實存在一些困難。因為我們在訓練這些模型時使用的一些新基礎設施,使得團隊在啟動所有系統方面非常緊張。”
Jared Kaplan承認,任務越複雜,模型脫軌的風險就越大。
因此他們真正致力於解決這個問題,以便人們可以一次性將大量工作委託給給Claude。
不過,首席產品官Mike Krieger此前也表示過,Anthropic沒有僅僅針對程式設計來進行迭代。
他的原話是這樣說的:我們在兩個方面都在不斷開拓創新。
一方面涉及到程式設計部分以及整體的自主行為,這為許多程式設計初創企業提供了強大的動力。
另一方面,我們也在探索這些模型如何能夠真正從經驗中學習,並且能夠成為非常有用的寫作夥伴。
Mike Krieger表示,Claude 4之前,他僅僅是把大模型作為一個思考夥伴,大部分寫作還是他自己親自上手的。
但現在,Claude 4出現後,他幾乎已經把寫東西這個事完全委託給Claude Opus 4了,並且“難以辨認是我寫的還是AI寫的”。
華爾街等方面應該是對Anthropic的選擇表示了滿意與支援——
上週,Anthropic獲得了一筆25億美元、為期五年的迴圈信貸額度,用來增強AI競爭的底氣,畢竟研究和訓練真的非常花錢。
同樣也是上週,Anthropic公開了營收額:其第一季度年化營收達到20億美元,較上一季度的10億美元增長了一倍多。
而Anthropic年度消費超過10萬美元的客戶數量,較去年同期增長了八倍。

Opus 4喜歡錶情符號
模型剛釋出,人類就發現了它有一些特殊的「愛好」,比如熟練地使用一些表情符號。
在 Anthropic技術報告中,他們研究了Opus 4 在“開放式自我互動”中的表現——也就是與自己對話,結果發現,一對Opus 4 模型進行了 200 次、每次 30 輪的互動,模型使用了數千個表情符號。

根據報告,Opus 4 使用“頭暈”(

)表情符號最多(佔 29.5%),其次是“閃亮的星星”(

)和“雙手合十”(

)。
不過,模型還是對“旋風”(

)表情符號很感興趣。一份記錄顯示,它們輸入了2725次。

在幾乎每一次開放式的自我互動中,Opus 4最終都會開始進行“意識的哲學探索”以及“抽象而愉悅的精神或冥想表達”。
而“旋風”表情符號最能捕捉到,它想要表達的意思。
參考連結:[1]https://www.anthropic.com/news/claude-4[2]https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/[3]https://www.techmeme.com/250522/p30#a250522p30[4]https://techcrunch.com/2025/05/22/anthropics-latest-flagship-ai-sure-seems-to-love-using-the-cyclone-emoji/[5]https://www.cnbc.com/2025/05/22/claude-4-opus-sonnet-anthropic.html