
新智元報道
新智元報道
編輯:編輯部 JHNY
【新智元導讀】就在剛剛,Anthropic祭出首個混合推理Claude 3.7 Sonnet,堪稱擴充套件思考模式的最強模型。在最新編碼測試中,新模型暴擊o3-mini、DeepSeek R1,AI編碼王者出世了。
憋了大半年,Anthropic終於放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登場!
這是Claude系列中,迄今為止最智慧的模型,幾乎能夠及時響應,並進行可擴充套件的、逐步的思考。

簡言之,一個模型,兩種思考方式。
假設你想破解一個博弈論數學問題——蒙提霍爾問題,扔給Claude 3.7 Sonnet,然後同時選擇「Extended」模式。
它便會展示詳細CoT過程,用時52秒就完成了。

最關鍵的是,Claude 3.7 Sonnet目前所有人免費可用,目前「擴充套件思考」模式還沒有上線。
在多項基準測試中,「擴充套件思考」模式加持下的Claude 3.7 Sonnet,在數學、物理、指令執行、程式設計等重新整理SOTA。
相較於上一代Claude 3.5 Sonnet,數學、編碼能力更是暴漲10%以上。
除了數學,Claude 3.7 Sonnet(64k extended thinking)幾乎完全碾壓o3-mini,DeepSeek R1,與Grok 3不相上下。

API使用者可以精確控制模型的思考時間
可以說,Claude 3.7 Sonnet完全是一個最強「軟體工程AI」。在SWE-bench上,創下了70.3%的高分。

與此同時,首款「智慧體程式設計」工具Claude Code(預覽版)也在今天問世了。
如今,它已經成為Anthropic內部,不可或缺的工具。在早期測試中,Claude一次性就完成人類需要45分鐘的任務。
也就是說,你做產品經理,AI給你打工寫程式碼。

雖沒有Claude 4,Anthropic這波突如其來的打法,實屬給AI界又一震撼。
這半個月,註定是2025開年以來AI含金量最高的。
Grok 3上週剛釋出,這周DeepSeek連續開源5天,OpenAI GPT-4.5據稱也要上線,再加上Claude 3.7 Sonnet,大模型領域的混戰又開始了。

全球首款「混合推理」模型誕生
在官方博文中,Anthropic稱,Claude 3.7 Sonnet是Anthropic迄今為止最智慧的模型,也是市場上首個混合推理模型。

Claude 3.7 Sonnet能夠產生幾乎即時的響應或逐步展示思考過程的詳細步驟,這些步驟對使用者是可見的。API使用者還可以精細控制模型的思考時間。
在編碼和前端網頁開發方面,Claude 3.7 Sonnet得到顯著提升。
除此之外,他們還推出了一款名為Claude Code的命令列工具,用於智慧體編碼。
目前,Claude Code僅作為有限的研究預覽版提供,它使開發人員能夠直接從他們的終端將大量的工程任務委託給Claude。

推理,是一個LLM整體能力
Claude 3.7 Sonnet的設計理念與市場上其他推理模型不同。
Anthropic相信,就像人類使用一個大腦來處理快速反應和深度思考一樣,推理應該是前沿模型的整體能力,而不是一個完全獨立的模型。這種統一的方法為使用者提供了更流暢的體驗。
Claude 3.7 Sonnet在幾個方面體現了這一理念。
首先,Claude 3.7 Sonnet既是普通的語言模型(LLM),也是一個推理模型:可以選擇在什麼時候希望模型正常回答,什麼時候希望它在回答之前思考更長的時間。
在標準模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版本。
在擴充套件思考模式下,它在回答之前進行自我反思,這提高了在數學、物理、指令遵循、編碼和其他許多工上的效能。
通常,兩種模式對模型的提示效果相似。
其次,透過API使用Claude 3.7 Sonnet時,使用者還可以控制思考的預算——
你可以告訴Claude在回答時最多思考N個tokens,N的最大值為128K tokens的輸出限制。這使得使用者可以在速度(和成本)與回答質量之間進行權衡。
第三,在開發推理模型時,Anthropic在數學和計算機科學競賽問題上的最佳化程度稍微降低,而是將重點轉向了更能反映企業實際使用LLM的現實世界任務。

Claude 3.7 Sonnet在SWE-bench Verified上刷線SOTA,該評測旨在評估AI模型解決現實世界軟體問題的能力

Claude 3.7 Sonnet在TAU-bench上重新整理SOT,TAU-bench是一個測試AI智慧體在複雜現實世界任務中與使用者和工具互動能力的框架
如前所述,Claude 3.7 Sonnet幾乎在各大基準測試中,效能得到了顯著提升。
相較於最新Grok 3 Beta模型,Claude 3.7 Sonnet(64k extended thinking)在推理方面幾乎打成平手。而在數學、視覺推理方面,又略遜色於Grok 3 Beta。
與o3-mini、DeepSeek R1相比,除了數學,帶有擴充套件思考模式的Claude 3.7 Sonnet拿下最高分。

Claude 3.7 Sonnet在任務指令跟隨、通用推理、多模態能力和自主程式設計方面表現出色,擴充套件思考模式在數學和科學領域帶來了顯著提升。除了傳統基準測試外,它甚至在寶可夢遊戲測試中超越了所有先前模型
AI編碼智慧體,一次完成45分鐘任務
自2024年6月以來,Sonnet系列一直是全球開發者的首選模型。
今天,Anthropic的首個智慧體編碼工具Claude Code誕生,目前以限量研究預覽的形式釋出。
Claude Code主動與人協作,能夠搜尋和閱讀程式碼、編輯檔案、編寫和執行測試、提交併將程式碼推送至GitHub,以及使用命令列工具——同時確保使用者在每一步都能參與其中。

此外,本次更新還改進了Claude.ai上的編碼體驗。
現在,所有Claude套餐都支援GitHub整合——開發者能夠將程式碼倉庫直接連線到Claude。
作為Anthropic迄今為止最強大的編碼模型,Claude 3.7 Sonnet能更深入地理解個人專案、工作專案和開源專案,並一舉成為修復bug、開發新功能以及編寫GitHub文件的強大助手。

目前,Claude Code還處於早期階段,但已經成為Anthropic團隊不可或缺的工具,尤其是在測試驅動開發、除錯複雜問題和大規模重構方面。
在早期測試中,它能夠一次性完成了通常需要手動工作45分鐘以上的任務,顯著減少了開發時間和工作量。
在接下來的幾周裡,Anthropic計劃根據使用情況不斷改進它:提升工具呼叫的可靠性、增加對長時間執行命令的支援、改進應用內渲染效果,並擴充套件Claude對自身能力的理解。
全新的測試時Scaling

Claude作為AI智慧體
Claude 3.7 Sonnet具備了一項被稱為「行為擴充套件」(action scaling)的新特性——這種改進使其能夠迭代呼叫函式、響應環境變化,並持續操作直到完成開放式任務。
例如在計算機使用方面:Claude能夠透過發出虛擬滑鼠點選和鍵盤按鍵來代替使用者完成任務。與前代相比Claude 3.7 Sonnet能夠在計算機使用任務中投入更多的互動次數,同時配備更充足的時間和計算資源,因此往往能取得更好的結果。
這一進步在OSWorld評估中得到了充分體現,這是一個用於評估多模態AI智慧體能力的測試平臺。
Claude 3.7 Sonnet在初始階段就展現出了較好的表現,而隨著其持續與虛擬計算機互動,其效能優勢還會隨時間推移而不斷擴大。

Claude的擴充套件思考模式與AI智慧體訓練相結合,不僅幫助它在OSWorld等眾多標準評估中取得了更好的表現,還讓它在一些其他意想不到的任務中實現了重大突破。
以玩遊戲為例——特別是在Game Boy掌機經典遊戲「口袋妖怪:紅」中的表現。他們為Claude配備了基礎記憶能力、螢幕畫素輸入功能,以及按鍵操作和螢幕導航的函式呼叫能力,使其能夠突破常規上下文限制,持續進行遊戲,實現長達數萬次的持續互動。
在下圖中,他們對比了具備擴充套件思考能力的Claude 3.7 Sonnet與之前版本的Claude Sonnet在口袋妖怪遊戲中的進度。
如圖所示,早期版本在遊戲伊始就難以推進,Claude 3.0 Sonnet甚至無法走出故事起點真新鎮的初始小屋。
而Claude 3.7 Sonnet憑藉改進後的AI智慧體能力取得了顯著進展,成功挑戰並擊敗了三位道館館主,獲得了相應的徽章。
Claude 3.7 Sonnet在嘗試多種策略和重新審視既有假設方面表現出色,這使它能夠在遊戲過程中不斷提升自身能力。

序列與並行測試時計算Scaling
當Claude 3.7 Sonnet運用其擴充套件思考能力時,可以說它利用了「序列測試時計算」機制。
具體而言,它會在生成最終輸出之前,執行多個連續的推理步驟,並在此過程中持續增加計算資源投入。
總體來看,這種機制能夠以可預測的方式提升其效能表現:例如,在數學問題求解方面,其準確率會隨著允許取樣的「思考Token」數量的增加呈對數增長。

Claude的研究人員還在探索使用並行測試時計算來提升模型效能。
具體方法是透過取樣多個獨立的思維過程,並在不預先知道正確答案的情況下選擇最佳結果。這可以透過多數表決或共識投票機制來實現,即選擇出現頻率最高的答案作為「最佳」答案。
另外也可以使用另一個LLM來驗證其工作成果,或採用經過訓練的評分函式來選擇最優答案。
這些最佳化策略(及相關研究工作)已在多個AI模型的評估報告中得到驗證。
在GPQA評估中,他們透過並行測試時計算Scaling取得了突破性進展。
具體而言,透過呼叫等同於256個獨立樣本的計算資源,結合訓練最佳化的評分模型,並設定最大64,000個Token的推理限額,Claude 3.7 Sonnet在GPQA測試中達到了84.8%的總體得分(其中物理學部分高達96.5%)。
值得注意的是,即使超出常規多數表決的限制範圍,模型效能仍在持續提升。
下圖列出了評分模型方法和多數表決方法的詳細結果。

這些方法能夠提升Claude回答的質量,而且通常無需等待其完成推理過程。同時進行多個不同的深度思維運算,Claude能夠探索更多問題解決思路,顯著提升正確答案的輸出頻率。
三步路線圖,Claude合作者已來
Claude 3.7 Sonnet和Claude Code標誌著,向真正增強人類能力的人工智慧系統邁出的重要一步。
憑藉其深入推理、自主工作和有效協作的能力,它們讓我們更接近一個未來,在那裡人工智慧豐富了人類所能實現的事情。
如今,Claude合作者已來。

最新版,可以免費用了
值得一提的是,Claude 3.7 Sonnet目前已經在Claude.ai平臺上線,Web、iOS和Android使用者皆可免費體驗。
對於希望構建自定義AI解決方案的開發者,可以透過Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI進行訪問。
在標準模式和擴充套件思考模式下,Claude 3.7 Sonnet的價格與其前代產品相同:3美元/百萬輸入token,15 美元/百萬輸出token ——這其中包括了思考token的費用。

Anthropic套餐定價
AI大佬測試
賓夕法尼亞大學沃頓商學院的教授Ethan Mollick已經在過去幾天對Claude 3.7進行了測試,
Claude 3.7經常給他帶來與第一次使用ChatGPT-4時相同的感覺:既驚歎不已,又對它們的能力感到一絲不安。以 Claude的原生編碼能力為例,我們現在可以透過自然對話或文件獲得可執行的程式,而無需任何程式設計技能。
例如,他向Claude提供了一份關於新型AI教育工具的提案,並在對話中要求它「以3D形式展示所提議的系統架構,並使其具有互動性」。結果,它生成了我們論文中核心設計的互動式視覺化效果,沒有任何錯誤。
這些圖形雖然很簡潔,但並不是最令人印象深刻的部分。真正讓人驚歎的是,Claude自主決定將其製作成一個逐步演示來解釋相關概念,而這並不是我們要求它做的。
這種對需求的預判和對新方法的思考是AI領域中的一項新突破。

再舉一個更有趣的例子,Ethan Mollick告訴Claude:「給我做一個互動式的時間機器裝置,讓我可以穿越回過去,併發生一些有趣的事情。挑選一些不尋常的時間點讓我回去…」 以及 「新增更多影像。」
僅僅這兩條提示之後,就出現了一個功能齊全的互動式體驗,甚至還配有粗糙但迷人的畫素影像(這些影像實際上令人驚訝地印象深刻——AI必須使用純程式碼「繪製」這些影像,而無法看到它正在建立的內容,就像一個被矇住眼睛的藝術家。

參考資料:
https://www.anthropic.com/news/claude-3-7-sonnet
https://x.com/alexalbert__/status/1894093648121532546
https://x.com/AnthropicAI/status/1894092430560965029
https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37


