2025.05.23

本文字數:1870,閱讀時長大約4分鐘
作者 | 第一財經 呂倩
大模型時代,幾乎每次谷歌大會前夕,OpenAI都會以新品“狙擊”其釋出節奏。但此次,由於OpenAI備貨不足,GPT-5尚未完成,Anthropic接棒了這項“任務”。
當地時間5月22日,谷歌I/O大會結束次日,Anthropic釋出 Claude 4 系列大模型,包括旗艦版Claude Opus 4 與普適版Claude Sonnet 4,直接衝擊谷歌Gemini 2.5 Pro在程式設計領域的熱度。

重新整理AI程式設計模型熱度
由OpenAI 前員工們創立至今,逐漸發展為OpenAI最大競品之一的Anthropic,主要定位為安全優先的AI解決方案提供商,專注於企業級市場,在混合推理模型與程式設計能力方面具備一定行業優勢。此次新模型產品進一步加深其在程式設計領域的影響力。
技術層面,據Anthropic方面表示,Claude Opus 4作為編碼模型,在複雜、長時間執行任務和智慧體工作流中擁有持續的高效能;Claude Sonnet 4是Sonnet 3.7 的升級版,提供更強的程式碼和推理能力,同時更精確地響應使用者指令。
兩款模型新品均採用混合模型架構,提供快速響應和用於更深層次推理的擴充套件思維模式,均可在Anthropic API、亞馬遜雲科技Bedrock和Google Cloud的Vertex AI上使用。兩相對比,Opus 4是Anthropic截至目前最強模型,專為複雜、長時間任務設計,適合需要深度推理和高階代理能力的場景。而Sonnet 4平衡了效能與效率,響應速度更快,適合日常開發和高流量任務,同時提供了更高的價效比。
目前AI程式設計賽道的明星公司Cursor與Claude繫結較深,Cursor中有四個Claude4模型可選——Claude Sonnet 4、Claude Sonnet 4 thinking、Claude Opus 4、Claude Opus 4 thinking。
此前谷歌釋出的Gemini 2.5 Pro作為旗艦AI模型,優化了程式設計能力,在程式碼生成、除錯和上下文理解等方面已表現出色。“小貓補光燈”開發者花生經過對比測評發現,Gemini 2.5 Pro在複雜長程式碼方面表現偶爾不錯,但對指令的理解和遵從能力相比Claude稍差,視覺審美也比較糟糕,常常會有莫名其妙的表現。對比之下,Claude Sonnet 4原型細節內容更豐富,適合日常程式設計選擇。
Opus是比Sonnet更大的模型,花生表示,在非程式設計的數學、推理等任務方面比Sonnet模型更好,但也更貴。尤其在Cursor中是需要啟用Max模式,也就是每一次回答都需要單獨計費的。但在常規的程式設計任務表現上並沒有顯著優於Sonnet模型,相對更適合上下文長度非常長的大型複雜專案,或者重構專案。
北理工前沿交叉科學研究院研究生丁紀翔也是在Cursor內體驗的Claude 新模型,他對記者表示,Cursor裡Opus屬於Max標記的模型,需要單獨付費,且相對速度較慢,小專案使用Sonnet足夠了。


AI程式設計兩大發展方向
5月以來,AI程式設計領域熱點事件頻發。
5月3日,蘋果與Anthropic聯手開發由AI驅動的Vibe Coding(氛圍程式設計)平臺;6日,OpenAI被曝將以30億美元收購AI程式設計創業公司Windsurf;17日,OpenAI推出程式設計智慧體Codex,可實現自動生成、除錯和最佳化程式碼;20日,美團宣佈將上線一款AI程式設計類工具“NoCode”;21日,騰訊披露公司已有約85%的程式設計師使用騰訊雲程式碼助手CodeBuddy。
另在19日至23日,海外頭部廠商微軟、谷歌、Anthropic各自舉辦的大會均披露新模型在AI程式設計方面的技術與產品進展,AI程式設計行業經過多年發展,終於走向產品交付。
在峰瑞資本合夥人陳石看來,整個AI程式設計行業發展起始於2022年年底GPT-3.5的釋出,同時行業也分拆為兩大方向——其一是Copilot助手,人主導、AI輔助,如Github Copilot、Cursor、Windsurf、Trae等產品;其二是Agent智慧體,AI主動執行,人類扮演監督者角色,如Devin。
錦秋基金合夥人臧天宇回顧過去半年多的投資專案發現,近60%的專案分佈在應用層,其中,Agent方向佔比近40%,也屬於目前行業討論最熱烈的方向。Agent方向可分為兩類,其中之一就是Coding Agent,專注於解決程式碼問題。長期來看,臧天宇認為,行業有望藉助程式碼這一通用工具向更通用的智慧Agent發展。
此次Anthropic大會現場,Anthropic CEO Dario Amodei(達里奧・阿莫代伊)表示:“我們不再教AI寫程式碼,而是讓它開始獨立完成專案。過去建模型,現在我們在建產品。”矽谷AI程式設計獨角獸Replit CEO Amjad Masad(阿姆賈德・馬薩德)此前表示,“AI 的下一個階段不再是我們告訴它怎麼做,而是我們告訴它想做什麼,它自己決定怎麼做。AI不只是幹活,而是開始決定任務怎麼被拆解,流程怎麼被安排。”
Anthropic的新模型為程式設計Agent完成產品交付打了個樣,但整個行業的發展仍面臨技術成熟、認知匹配,以及安全性等方面的待完善。陳石表示,Agent技術上目前面臨模型能力、上下文收集能力兩方面制約,Copilot這種協作類產品比較容易率先開啟市場。
在丁紀翔的體驗中,AI程式設計產品顯著提高了工作效率,原本需要三週時間完成的工作量,現在疊加AI工具的輔助,三天即可完成。但目前AI程式設計的不足在他看來,主要在於機器還沒有“自我意識”,需要人類先提出核心要點與任務方向,AI無法直接提供一個有價值的創意點。
“AI coding這個市場非常大,大家都處在早期,還看不到終局。”陳石表示,創業公司要做一些艱難的選擇,找一些非共識的方向,Agent是一個可以考慮的選擇。
微信編輯 | 夏木
推薦閱讀