中文比R1絲滑、玩寶可夢還賊溜？全球首個混合推理模型Claude3.7Sonnet太驚豔，網友直呼“孤獨求敗”！

作者｜褚杏娟冬梅

當地時間 2 月 25 日，Anthropic 正式釋出了 Claude 3.7 Sonnet，“這是迄今為止我們最智慧的模型，也是市場上首個混合推理模型。”Anthropic 官方表示。

簡單來說，Claude 3.7 Sonnet 既能提供近乎即時的響應（標準模式，standard），也可以向用戶直觀展示其長時間的逐步思考過程（擴充套件思考模式，extended thinking）。API 使用者還可以對模型的思考時長進行細粒度控制。

簡而言之，該模型最大的特點就是使用者能控制模型在做出反應前“思考”的時間，這是一項前所未有的技術創新。

Claude 3.7 Sonnet 現已全面登陸所有 Claude 訂閱服務，包括免費版、專業版、團隊版和企業版——以及 Anthropic API、Amazon Bedrock 和谷歌雲 Vertex AI 平臺。除免費版 Claude 外，擴充套件思考模式在所有版本中均可使用。

無論是標準模式還是擴充套件思考模式，Claude 3.7 Sonnet 都保持了與之前版本相同的定價標準：3 美元 / 每百萬輸入 token，15 美元 / 每百萬輸出 token——該費用已包含思考 token 的消耗成本。

Anthropic 表示，自己開發 Claude 3.7 Sonnet 的核心理念與市場上其他推理模型截然不同。“正如人類用同一個大腦既進行快速反應又進行深度思考，我們認為推理能力應該是前沿模型的整合能力，而非完全獨立的模型。這種統一方法也為使用者創造了更無縫的體驗。”

而 Claude 3.7 Sonnet 則透過以下方式體現這一理念：

首先，該模型集普通大型語言模型與推理模型於一體。使用者可以選擇何時需要模型即時響應、何時需要它經過更長時間思考後再作答。在標準模式下，Claude 3.7 Sonnet 代表著 Claude 3.5 Sonnet 的升級版本；而在擴充套件思考模式下，它會在回答前進行自我反思，從而顯著提升在數學、物理、指令遵循、程式設計等多領域的表現。Anthropic 發現，模型的提示方式在兩種模式下基本通用。

其次，透過 API 使用 Claude 3.7 Sonnet 時，使用者可自主控制模型的“思考預算（budget for thinking）”：使用者可指定 Claude 的思考過程不超過 N 個 token（N 最高可達 128K token 的輸出上限）。這一機制允許使用者在回答質量與推理速度（及成本）之間進行靈活權衡。

最後，在開發推理模型的過程中，Anthropic 戰略性地略微減少了對數學 / 計算機科學競賽類題目的專項最佳化，轉而將研發重點投向更能體現企業實際需求的現實任務，這些任務更能真實地反映大模型在業務場景中的應用方式。

Claude 3.7 Sonnet 在編碼和前端網頁開發領域展現出尤為突出的改進。同步推出的還有專為代理式編碼設計的命令列工具 Claude Code。Claude Code 現以限時研究預覽版形式開放，使開發者能夠直接在終端介面上將大量工程任務委派給 Claude 來完成。

Anthropic 如何進行推理

Anthropic 的擴充套件思考模式不是透過切換到不同策略模型上實現的，而是讓同一個模型有更多思考時間和計算資源。

Claude 3.7 Sonnet 受益於 Anthropic 稱之為“動作擴充套件（action scaling）”的增強能力，這種改進使其能夠迭代式呼叫函式、響應環境變化並持續執行直到完成開放式任務。此類任務的典型案例是計算機操作：Claude 可發出虛擬滑鼠點選和鍵盤敲擊指令來代替使用者解決問題。相較於前代版本，Claude 3.7 Sonnet 在計算機使用任務中可分配更多操作輪次（以及更長時間與算力資源），其執行結果通常也會更出色。

OSWorld 評估（該基準用於衡量多模態 AI 代理的能力），Claude 3.7 Sonnet 初始表現略有優勢，但隨著模型持續與虛擬計算機的互動，其效能差距會隨時間逐漸擴大

此外，Anthropic 將 Claude 的擴充套件思考模式與智慧體訓練協同作用，意外地在場景應用中實現了突破性提升。

以執行 Game Boy 經典遊戲《Pokémon Red》為例：Anthropic 為 Claude 配置基礎記憶模組、螢幕畫素輸入介面及按鈕操作函式呼叫，使其突破常規上下文限制，透過數萬次互動維持遊戲程序。

下圖對比顯示，未搭載擴充套件思考模式的 Claude Sonnet 舊版本（如 Claude 3.0 Sonnet）在遊戲初期即陷入停滯，甚至未能走出故事開始所在的 Pallet Town。然而，Claude 3.7 Sonnet 改進後的智慧體大大推進了遊戲程序，成功挑戰了三位寶可夢道館館主（遊戲中的首領）並贏得徽章。Claude 3.7 Sonnet 善於透過多策略驗證與預設條件動態修正機制，在遊戲程序中持續最佳化自身行為能力。

當 Claude 3.7 Sonnet 啟用推理能力時會採用“序列測試時計算（serial test-time compute）”機制，即在生成最終輸出前，執行多個連續的推理步驟，透過動態疊加計算資源方式來實現深度思考。這種機制通常以可預測的方式提升效能：例如數學問題的準確率與允許取樣的“思維令牌（thinking tokens）”數量呈對數增長關係。

Anthropic 研究團隊還在探索透過“並行測試時計算（parallel test-time compute）”來提升模型效能。該方法核心機制為：並行取樣多個獨立思維鏈，在未知正確答案的前提下選取最優解。典型實現路徑包括：多數 / 共識投票機制‌：將高頻出現的結果判定為最優解；自檢最佳化機制‌：呼叫輔助語言模型（如第二個 Claude）進行工作校驗，或透過訓練評分函式實現質量評估。

在 GPQA 評估中透過使用並行測試時計算拓展取得了顯著改進

與各大主流模型對比，效能如何？

基準資料支援了 Anthropic 的雄心壯志。在擴充套件思考模式下，Claude 3.7 Sonnet 在研究生級推理任務上實現了 78.2% 的準確率，挑戰了 OpenAI 的最新模型，並超越了 DeepSeek-R1。

人工智慧模型對比顯示，Claude 3.7 Sonnet 在各項任務中的表現均優於其前代產品，其擴充套件思考能力顯著提升。（來源：Anthropic）

在數學解題（MATH 500）方面，Claude 3.7 Sonnet 64K 擴充套件思考模型表現優異，及格率較上代模型有了很大提升，但仍不及 OpenAI o1、OpenAI o3-mini High、DeepSeek R1 32K Extended Thinking。

值得一提的是，Claude 3.7 Sonnet 在程式設計領域的表現尤為突出。Claude 3.7 Sonnet 只借助 bash 編輯器工具和 “思維工具” 進行單次嘗試修補，不額外花時間計算時，透過率能達到 62.3%。要是用上內部評分和自定義框架這些 “特殊手段”，透過率直接漲到 70.3% 。

OpenAI 的 o1 模型透過率是 48.9%，o3-mini (high) 透過率為 49.3%，但和 Claude 3.7 Sonnet 比還有一些差距。DeepSeek R1 的透過率是 49.2% ，表現同樣不如 Claude 3.7 Sonnet。

這麼一對比就能發現，在這次 SWE-bench Verified 程式設計測試裡，不論是正常測試，還是用了最佳化方法之後，Claude 3.7 Sonnet 的成績都優於其他模型。這就說明它在處理軟體工程專案相關的程式設計任務時，能力更強，能滿足更多的程式設計需求。

網友怎麼看？

Claude 3.7 的釋出在 Hacker News 上引發了熱議。有使用者讚揚 Claude 的簡潔易用，為其工作和學習提供了很多幫助。只是服務的穩定性較差，希望可以改進服務。

“Claude 是我在學習大模型課程時的首選工具。雖然聽起來可能有點老套，但它確實極大地擴充套件了我的學習範圍。現在，我正在嘗試閱讀一些古老的哲學文字（我沒有任何相關背景），如果沒有 Claude 的幫助，我早就放棄了。它能夠用簡單的語言解釋那些晦澀難懂的內容，和我討論其中的思想，提供歷史背景，解釋作者的寫作意圖，並將這些古老的思想與現代觀點進行對比。

在工作中，我每天都會多次使用 Claude 來輔助開發。與其他大模型相比，它的簡潔模式讓我感到非常舒適。它幫助我在外部程式碼庫中發現錯誤，向我解釋技術棧，編寫 Bash 指令碼，為我節省了大量的時間和精力。它讓我能夠完成那些因為時間緊張而無法完成的任務。

唯一的缺點是它的服務穩定性比其他工具稍差一些，有時我不得不切換到其他服務。這個問題可能不太好解決，但我還是想問：是否有計劃改進這一點？”

還有使用者稱 Claude 在程式設計方面優勢太明顯了，甚至改變了自己的生活和工作方式。

“在編碼方面，Claude 的一個顯著優勢是，當你透過網頁介面使用它時，它不依賴於檢索增強生成（RAG）。雖然這會消耗更多的 token，但模型能夠直接看到所有內容，從而以更高質量的方式回覆。

我想知道，Claude Code 是否也採用了類似的方式，只是改用了文件級別的 RAG？也就是說，如果一個文件是相關的，並且適合上下文視窗，那麼整個文件都會被載入進去。如果是這樣，那就太棒了！這也意味著將大型程式碼庫拆分為更小的、可管理的檔案會變得越來越有意義。

最後，我想對 Claude Sonnet 表達由衷的感謝。在過去的幾個月裡，它徹底改變了我的工作方式，讓我能夠完成更多的事情。非常感謝！”

Claude Code 團隊的 Boris 在 Hacker News 上線上給網友答疑，他表示：“Claude Code 目前不使用 RAG。我們在測試中發現，對於人們使用 Code 進行的事情，Agentic Search 的表現優於 RAG。”

阿里不經意間“接招”了？

恰巧，阿里雲 Qwen 團隊也在今天推出了全新推理模型系統"深度思考（QwQ）"，該系統由處於測試階段的 QwQ-Max-Preview 驅動。據介紹，該 AI 架構基於 Qwen2.5-Max 模型進行深度最佳化，也在在數學解析、程式碼生成和智慧體開發等領域展現出顯著提升的認知能力與創新思維。

該預覽版本整合了雙重功能模組：一方面構建了深度推理引擎，另一方面接入了即時網路資訊檢索介面。在互動設計上，系統採用了類似 Claude Artifacts 的多視窗介面方案，透過獨立內容展示區實現創作過程與主對話流的分離式呈現。

在功能擴充套件性方面，QwQ 系統實現了模組化工具呼叫機制，現已支援影像合成、動態二維碼生成、即時氣象資料獲取等多樣化服務，並具備多工具並行呼叫能力。開發團隊透露，正式版 QwQ-Max 將同步推出移動端應用程式（涵蓋 Android/iOS 平臺），且計劃依據 Apache 2.0 開源協議向技術社群開放 QwQ-Max 及 Qwen2.5-Max 的模型引數。

值得關注的是，該系列還將推出面向邊緣計算場景的輕量化版本，其中 QwQ-32B 模型專為本地化部署設計，可在終端裝置實現高效執行。