最強編碼模型Claude4!7小時不間斷寫程式碼,連玩24小時寶可夢,GitHub已選為Copilot底層模型

來源丨量子位(ID:QbitAI)
作者丨白交 衡宇
圖源丨Anthropic
AI圈子好熱鬧。今天凌晨,Claude終於迎來了它的重大版本升級——Claude 4來了!
此次主要釋出的有兩個模型:Claude Opus 4Claude Sonnet 4
一經面世,就在編碼、高階推理和AI Agent重新定義了新的標準,直接實現SOTA。
GitHub已經宣佈,將使用Claude Sonnet 4作為 GitHub Copilot新編碼Agent的基礎模型
而兩個模型裡最為人所津津樂道的是旗艦模型Claude Opus 4,它最引人注目的就是持續的幹活,一身用不完的牛勁。
比如,它可以在連續24小時暢玩寶可夢,而之前版本Claude 3.7 Sonnet只能連續玩 45 分鐘。
其客戶之一,日本樂天集團(Rakuten)使用Claude Opus 4進行了一個高強度的開原始碼重構任務。
誰也沒想到,Opus 4直接吭哧吭哧獨立執行並持續編寫程式碼長達7小時,而且效能極、其、穩、定
單這一個例子,就能看出它非常強的持久工作能力,以及上下文理解能力。
看遍評論區,發現使用過Claude 4幾乎都給予了它高度評價,尤其是對Opus 4(不愧是旗艦模型哇)
有人說,“Opus 4是我用上的第一個不用自己動手改,就生成高質量內容的第一個大模型”。
此外,有位最近一直用Opus搞程式設計的網友表示,Benchmark上的成績完全不能代表Claude 4的成就:
它在保持進度、編寫可維護的程式碼以及按照我的意願和期望進行工作方面,帶來了徹底的變革。
這不是簡單的極客行為。團隊做得非常出色!
已經有網友開始直接用Claude 4來做了個俄羅斯方塊,一次性就完成的那種。
值得關注的一點,今天起,所有付費使用者都可以開始使用Claude 4系列模型了。
免費使用者也不要慌,Anthropic給大家準備了Claude Sonnet 4。
值得一提的是,伴隨Claude 4的問世,為了讓開發者們能構建更強大的AI Agent,Anthropic在自家API方面上新了3個新功能,分別是:程式碼執行工具、MCP聯結器、檔案API,以及長達一小時的快取提示能力。
至於API的定價也沒變,和之前系列的Opus和Sonnet一樣:
  • Claude Opus 4:每百萬Token,輸入為15美元,輸出為75美元
  • Claude Sonnet 4:每百萬Token,輸入為3美元,輸出為5美元

全球最強編碼模型Claude 4:

可獨立執行7小時

此次釋出兩個模型Opus 4和Sonnet 4,升級的重點各有側重。
Opus 4針對編碼和長期執行的Agent工作流進行了最佳化。
Sonnet 4與Opus 4類似,但針對推理進行了最佳化,並在效率方面進行了平,這意味著它的執行成本更低。作為Sonnet 3.7的重大升級,它能精準地響應你的指令。
他們倆都是混合模型,提供兩種操作模式:一種用於快速響應,另一種用於“更深層次的推理”。
旗艦模型Opus 4,在SWE-bench(72.5%)和 Terminal-bench(43.2%)上均實現領先。它在需要專注投入和數千個步驟的長時間執行任務中表現出色,能夠連續工作數小時,其效能遠超所有 Sonnet 模型,並顯著擴充套件了 AI Agent的功能。
Claude Sonnet 4其實也不差,它在SWE-bench 上實現了 72.7% 的得分。

兩個模型在編碼、推理、多模態能力和Agent任務方面均表現出色。
那新模型到底怎麼強?以旗艦模型為例,看看各種前沿Agent產品咋說——
Cursor稱其為編碼領域的最新技術,並在複雜程式碼庫理解方面實現了飛躍。
Block稱其為第一個在其Agent(代號 goose)中在編輯和除錯過程中提高程式碼質量,同時保持完整效能和可靠性的模型。
Rakuten透過獨立執行 7 小時且效能穩定的高要求開源重構驗證了其功能。
除了模型本身強大,他們還提供了一些新的功能和改進:工具使用、並行工具執行和記憶體改進,以及思維摘要功能,記憶體能力的提升。
工具使用(Beta版):兩種模型都可以在擴充套件思考過程中使用工具(例如網路搜尋),這樣Claude一邊思考推理一邊使用工具交替進行。
並行工具使用,這樣一來,模型可以更精確地遵循指令,並且在開發人員允許訪問本地檔案時,能顯著提高記憶能力,提取並儲存關鍵事實,以保持連續性並隨著時間的推移建立隱性知識。
他們還引入思維摘要功能,使用較小的模型來濃縮冗長的思考過程。不過只有大約 5%的情況下需要這種總結,大多數思維過程都很短,足以完整顯示。
記憶體能力方面,Claude Opus 4顯著超越之前所有的模型。當開發者構建允許 Claude 訪問本地檔案的應用程式時,Opus 4 能夠熟練地建立和維護“記憶體檔案”來儲存關鍵資訊,以幫助改進遊戲體驗。
這能夠提升代理在長期任務中的感知能力、連貫性和執行效能——例如,Opus 4在玩寶可夢時能夠建立“導航指南”。
幾個月前,Anthropic推出了一場名為“Claude Plays Pokémon”的直播,以展示Claude 3.7 Sonnet 在《寶可夢紅版》中的能力。
該演示旨在秀肌肉,比如在極少量的人類干預下,Claude如何分析遊戲,並逐步做出決策。
Anthropic技術團隊的成員表示,選擇《寶可夢紅版》來搞事情,是因為這個遊戲“是一個簡單的遊樂場”,回合制,且不需要及時反映。終極目標則為了研究如何讓Claude像Agent一樣,獨立地為使用者執行復雜任務。
Claude 3.7 Sonnet玩這款遊戲時遇到了不少的困難,比如在一個城市中困了幾十個小時,並且難以識別非玩家角色,這極大地阻礙了它在遊戲中的進展。
但Opus 4就不一樣了,它在長期記憶和規劃能力上有所提高。與此同時,當Opus 4意識到需要某種特定的能力才能繼續前進後,它花了兩天時間提升它的技能,然後繼續玩遊戲。
此外,他們還顯著減少了模型使用捷徑或漏洞完成任務的行為。在處理一些容易受到捷徑和漏洞影響的Agent任務中,這兩個模型出現此類行為的可能性都比 Sonnet 3.7 低 65%。

智慧程式碼助手Claude Code

正式全面開放

除此之外,Anthropic還正式釋出了Claude Code
這是一個智慧程式碼助手工具,旨在幫助開發者透過自然語言命令理解、瀏覽和修改整個程式碼庫,讓你能夠將修復bug、實現新功能、程式碼重構、編寫測試、跨檔案修改等大量工程任務交給AI完成。
今年2月時,Anthropic曾在首屆“Code with Claude”開發者大會上宣佈推出Claude Code。
現在,它正式上線,並且已經整合進更多開發工作流程中:終端,IDE,或者使用Claude Code SDK在後臺執行。
我們詳細來看——首先是Claude Code整合到IDE
此次,Anthropic推出了新的VS Code和 JetBrains Beta擴充套件。
這一舉措直接把Claude Code整合到了IDE裡,也就是說,它已經和開發者們熟悉的程式碼編輯器無縫結對。
至此,大家對著Claude提出的修改內容會被直接嵌入到檔案裡,從而簡化了程式碼審查和跟蹤過程。
其次,Anthropic還發布了一個可擴充套件的Claude Code SDK
利用Claude Code SDK,朋友們可以用和Claude Code相同的核心Agent來構建自己的Agent和應用程式啥的。
目前,Claude Code在GitHub上放出了Beta版本
在GitHub上Pull Request的時候,只需要「@Claude Code」,就可以回應評審人員的反饋、修復持續整合錯誤或修改程式碼。
如果想安裝它的話,大家記得執行“/install-github-app”,就可以安裝Beta版的外掛了。
Anthropic產品負責人Scott White表示,Claude Code不僅適合公司——它們希望旗下的軟體工程師們使用AI來提高自身專業技能,也適合個人——包括那些不懂程式設計的人。
如果一位產品經理想出了一個新點子,就不用費勁地用文字來解釋概念了。
直接找Claude Code,就能創造關於這個新點子的雛形。

“去年年底就停止了

對聊天機器人的投資”

之所以能在程式設計能力上如此驚豔,與Anthropic戰略轉向有關。
Anthropic首席科學官Jared Kaplan接受採訪時表示,該公司於去年年底停止對聊天機器人的投資。
現在的重點很明確——專注於提高Claude執行復雜任務的能力,例如研究和程式設計,甚至編寫整個程式碼庫。
去年起,Anthropic就開始訓練Claude 4系列,“訓練過程中,內部確實存在一些困難。因為我們在訓練這些模型時使用的一些新基礎設施,使得團隊在啟動所有系統方面非常緊張。”
Jared Kaplan承認,任務越複雜,模型脫軌的風險就越大。
因此他們真正致力於解決這個問題,以便人們可以一次性將大量工作委託給給Claude。
不過,首席產品官Mike Krieger此前也表示過,Anthropic沒有僅僅針對程式設計來進行迭代
他的原話是這樣說的:我們在兩個方面都在不斷開拓創新。
一方面涉及到程式設計部分以及整體的自主行為,這為許多程式設計初創企業提供了強大的動力。
另一方面,我們也在探索這些模型如何能夠真正從經驗中學習,並且能夠成為非常有用的寫作夥伴。
Mike Krieger表示,Claude 4之前,他僅僅是把大模型作為一個思考夥伴,大部分寫作還是他自己親自上手的。
但現在,Claude 4出現後,他幾乎已經把寫東西這個事完全委託給Claude Opus 4了,並且“難以辨認是我寫的還是AI寫的”。
華爾街等方面應該是對Anthropic的選擇表示了滿意與支援——
上週,Anthropic獲得了一筆25億美元、為期五年的迴圈信貸額度,用來增強AI競爭的底氣,畢竟研究和訓練真的非常花錢。
同樣也是上週,Anthropic公開了營收額:其第一季度年化營收達到20億美元,較上一季度的10億美元增長了一倍多。
而Anthropic年度消費超過10萬美元的客戶數量,較去年同期增長了八倍。

Opus 4喜歡錶情符號

模型剛釋出,人類就發現了它有一些特殊的「愛好」,比如熟練地使用一些表情符號。
在 Anthropic技術報告中,他們研究了Opus 4 在“開放式自我互動”中的表現——也就是與自己對話,結果發現,一對Opus 4 模型進行了 200 次、每次 30 輪的互動,模型使用了數千個表情符號。
根據報告,Opus 4 使用“頭暈”(

)表情符號最多(佔 29.5%),其次是“閃亮的星星”(

)和“雙手合十”(

)。

不過,模型還是對“旋風”(

)表情符號很感興趣。一份記錄顯示,它們輸入了2725次。

在幾乎每一次開放式的自我互動中,Opus 4最終都會開始進行“意識的哲學探索”以及“抽象而愉悅的精神或冥想表達”。
而“旋風”表情符號最能捕捉到,它想要表達的意思。
參考連結:[1]https://www.anthropic.com/news/claude-4[2]https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/[3]https://www.techmeme.com/250522/p30#a250522p30[4]https://techcrunch.com/2025/05/22/anthropics-latest-flagship-ai-sure-seems-to-love-using-the-cyclone-emoji/[5]https://www.cnbc.com/2025/05/22/claude-4-opus-sonnet-anthropic.html

相關文章