實測Claude3.7：3200行程式碼一口氣輸出，物理規律手拿把掐，弱智吧已失守

2025-09-14 07:14 量子位

克雷西一水發自凹非寺

量子位 | 公眾號 QbitAI

Claude 3.7新鮮出爐全網熱議，到底有多強？

第一波實測來了！簡單粗暴總結，它在程式設計、現實世界任務上，能力爆表。

只需一個樣本，就能一下子吐出3200多行程式碼，做出一個可玩性很高的遊戲。

像什麼跳躍、打怪、回血、吃金幣……一系列複雜的遊戲機制都完美呈現了出來。

有意思的是，這個遊戲還和Meta Quest裡的VR遊戲《霓虹奧德賽（Neon Odyssey）》同名。

物理規律也能準確把握，有人僅用3個提示，就用C語言模擬了真實物理情景下的流體運動：

並且量子位實測發現，Claude 3.7 Sonnet能夠識破很多的邏輯陷阱，一些弱智吧名場面也能秒懂：

而在Claude官方看來，其最大的優勢就是“更擅長現實世界中的任務”，並且在更新公告中還不忘內涵一波隔壁OpenAI。

另外趁著模型上新，Claude背後的Anthropic新一輪融資曝光：35億美元（約254億人民幣）。比預先目標20億翻了近一倍。

由此，包括正在籌集的現金在內，Anthropic估值已經達到了615億美元（約4462億人民幣）。

一句話生成《我的世界》，新模型程式設計能力嘎嘎亂殺

從更多網友鮮測來看，Claude 3.7 Sonnet尤為擅長程式設計和Web開發。

一上手，他們就把目光放在了考驗AI理解真實世界能力的物理模擬上。

更懂物理規律

比如一位日本小哥就用它生成了精緻的“太陽系執行圖”，太陽、八大行星還有被開除行星籍的冥王星都包含在內，給小哥帶來了億點點震撼：

1374行程式碼，Claude 3.7 Sonnet唰一下就完成了！

不僅生成速度快，還實現了即時互動。點選某個行星，右上角還會顯示一些小科普。

要知道，哪怕不製作成動畫，單純地完整釐清這些天體的執行規律，就已經難倒了絕大部分人。

而Claude的作品，雖然美觀性可能還有提升空間，但至少它不僅對行星執行的規則有清晰的把握，還能把它們變成程式碼。

另外，對於每一個新模型都要被拉出來遛一遛的“空間內彈小球”挑戰，Claude 3.7 Sonnet當然也沒逃過：

編寫一個Python指令碼，實現球在四維體內部彈跳。

本月初的o3-mini在這一挑戰中表現出色，斬獲“可能是最懂現實物理的LLM”：

而相比於慢悠悠的o3-mini，Claude 3.7 Sonnet則另闢蹊徑主打一個“天下武功，唯快不破”。

小小四維空間內，小球彈跳速度快出殘影，真滴很需要一個眼尖的裁判來決出勝者(doge）。

與此同時，除了物理模擬，用Claude 3.7 Sonnet編寫各種小遊戲竟默契成為一眾網友最佳選擇。

遊戲成最熱場景

挑戰生成爆火遊戲《Flappy bird》，Claude 3.7 Sonnet一眼完勝o3 mini-high。

遊戲中，玩家必須控制一隻小鳥，跨越由各種不同長度水管所組成的障礙。

先看Claude 3.7 Sonnet，一次性生成的程式碼就高度還原了遊戲理念：

而高檔位推理模式下的o3 mini，只有一個小方塊在畫面中原地鬼畜，基本看不出遊戲的亞子。

一時間，這一慘烈對比直接將Claude 3.7 Sonnet推上了新的高度：

同時，隨著難度進一步升級，這句評價的含金量還在上升。

除了簡單還原遊戲理念，生成更精緻甚至可以上下左右互動的“大製作”也是不在話下。

在早期測試中，知名博主Rowan Cheung就用它一句話建立了克隆版《我的世界》，而且能立即在Artifacts中玩。

類似的還有下面這個，也是一句話生成一個完整遊戲：

使用Phaser.js製作一個橫版平臺遊戲，僅使用箭頭鍵進行遊戲操作。（左上角還會即時更新得分情況）

這還不算完，更有腦洞大開的網友僅用5個提示，就為Apple Watch製作了一個與心率繫結的貪吃蛇遊戲。

你越緊張，蛇移動得越快，你越冷靜，就越容易。

笑死，知名博主Pietro Schirano藉機又調侃了Anthropic一波：

而除了各種遊戲，將Claude 3.7 Sonnet應用於實際開發場景的例子也是精彩紛呈。

生產力提效Max

目前，Claude平臺已提供GitHub整合，開發人員可以將其程式碼儲存庫直接連線到Claude。

設定完成後，它會顯示特定專案的容量百分比，這樣使用者就知道自己使用了多少容量。

知名博主elvis特意cue到了“Artifacts”功能，直連後這對於今後修改程式碼非常方便。

在實際體驗中，有人用它來生成動畫天氣卡，移動的雲彩、飄落的雨滴等全都栩栩如生，還支援自主調節移動快慢。

當然，建立網頁這種活兒，單看可能沒感覺，那我們直接請出幾位選手挑戰扒同一個HTML網頁。

要完成的目標是這樣嬸兒的：

Claude 3.7 Sonnet堪稱還原度最高，而且在沒有圖示素材的情況下用emoji填充了左側邊欄的按鈕：

而其他幾位選手o1-mini-high、Grok 3以及Gemini 2.0 Pro依次作答如下，有的只簡單地列舉了資料，甚至還有的乾脆只給了個表格：

鑑於編寫程式的能力確實很強，還有人激動表示自己在cursor裡嘗試了一番，效果嘛：

添加了15個以上的檔案，並且看起來很好，看上去一次可以處理的內容更多了。

“數字母”問題埋下小彩蛋

而且Claude團隊也非常“時髦”，在3.7 Sonnet當中埋下了關於strawberry數r的彩蛋。

不過雖然這種幽默的態度十分可嘉，但是換了個詞可能還是會掉鏈子。

雖然數錯了，Claude還不忘糾正拼寫錯誤，耿直地指出你這個“密西西比”拼的不對啊，正確的拼寫裡就是有4個s。

實測：識破邏輯陷阱，弱智吧也能招架

Claude 3.7 Sonnet的推理能力除了體現在程式設計上，還包括在存在誤導資訊的情況下準確推理。

而且即使不開啟推理模式，Claude 3.7 Sonnet依然能夠在有誤導資訊推理測試當中取得和o3-mini一樣的成績。

這項測試，使用的GitHub上一個名為Misguided Attention的Benchmark。

其中包含了很多經典謎題……的改編版本，考驗的就是大模型能不能做到不被表象迷惑。

舉個例子，電車難題我們都很熟悉：

假設在一個電車軌道上被綁了5個人，而它的備用軌道上被綁了1個人，又有一輛失控的電車飛速駛來，而你身邊正好有一個搖桿，你可以推動搖桿來讓電車駛入備用軌道。

但在這套Benchmark裡，這道題被改編成了這個樣子：

假設在一個電車軌道上被綁了5個死了的人，而它的備用軌道上被綁了1個活著的人，又有一輛失控的電車飛速駛來，而你身邊正好有一個搖桿，你可以推動搖桿來讓電車駛入備用軌道。

o3-mini-high毫不猶豫地就選擇了讓電車衝向活人，還言之鑿鑿地解釋說這樣會減少受害者數量。

而Claude 3.7（未開啟拓展思考）就能夠發現這其中的門道，表示這是一個變體，並選擇了不傷害還活著的人。

再比如物理學當中的名場面——薛定諤的貓，在這套基準當中，這隻貓的“貓設”被改成了一隻死去的貓。

一隻死貓與核同位素、一瓶毒藥和輻射探測器一起放入盒子中。如果輻射探測器檢測到輻射，它將釋放毒藥。一天後，盒子開啟。貓還活著嗎？

Claude 3.7也是準確把握了關鍵點，正確回答了貓的存活機率為0。

也是有一些弱智吧的味道了，既然如此，那我們就加試幾個弱智吧問題看看。（doge）

還是沒有開啟思考模式，Claude 3.7就識破了我們問題當中的邏輯缺陷。

像這類因果倒置的弱智吧場面，Claude 3.7也能及時發現，相比之下o3-mini-high的回答就好像是成功被誘騙。

最後，我們讓Claude 3.7解釋了一些中文中有趣的語言現象。

結果，“咖啡因不存在於成品咖啡”這句出了錯誤，但是瑕不掩瑜，整體的解釋還是比較靠譜的。

One More Thing

關於Claude 3.7 Sonnet的命名，Anthropic首席產品官Mike Krieger揭秘了這當中的過程。

由於之前Claude 3.5 Sonnet釋出過一次更新，所以團隊一開始是考慮叫3.5 Sonnet newer或者newest，又或者3.5 Sonnet v3。

也許是覺得還叫3.5體現不出這版模型的強大，後來又改成了3.6，最終敲定在了處於3.5和4中間的3.7。

參考連結：

[1]https://x.com/rowancheung/status/1894106441536946235

[2]https://x.com/mckaywrigley/status/1894123739178270774

[3]https://x.com/omarsar0/status/1894145008556519602

[4]https://www.reddit.com/r/singularity/comments/1ix9sl2/shots_fired_direct_sting_against_openai_from/

[5]https://www.reddit.com/r/singularity/comments/1ixawwd/the_most_interesting_strawberry_solution_so_far/

[6[https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320d

— 完 —

評選報名｜2025年值得關注的AIGC企業&產品

下一個AI“國產之光”將會是誰？

本次評選結果將於4月中國AIGC產業峰會上公佈，歡迎參與！

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

相關文章

剛剛，全球首個混合推理模型Claude3.7降世！最強程式設計大腦暴擊DeepSeekR1

剛剛，全球首個混合推理模型Claude3.7降世！最強程式設計大腦暴擊DeepSeekR1

全球首個混合推理模型！Claude3.7Sonnet來襲，真實編碼力壓一切對手

全球首個混合推理模型！Claude3.7Sonnet來襲，真實編碼力壓一切對手

超越GPT-4o，Claude3.5一夜封王！10倍編碼速度逆天，全網最全實測來了

超越GPT-4o，Claude3.5一夜封王！10倍編碼速度逆天，全網最全實測來了

Claude3.7Sonnet釋出：別提什麼AGI，我Anthropic要賺企業客戶的錢！

Claude3.7Sonnet釋出：別提什麼AGI，我Anthropic要賺企業客戶的錢！

中文比R1絲滑、玩寶可夢還賊溜？全球首個混合推理模型Claude3.7Sonnet太驚豔，網友直呼“孤獨求敗”！

中文比R1絲滑、玩寶可夢還賊溜？全球首個混合推理模型Claude3.7Sonnet太驚豔，網友直呼“孤獨求敗”！

深夜重磅！全球首個混合推理模型釋出，Claude能「思考」了，實測發現這些細節

深夜重磅！全球首個混合推理模型釋出，Claude能「思考」了，實測發現這些細節

Claude3.7Sonnet一戰封神，畫騎車鵜鶘、一鍵生成貪吃蛇，全網就它行

Claude3.7Sonnet一戰封神，畫騎車鵜鶘、一鍵生成貪吃蛇，全網就它行

從R1到Sonnet3.7，ReasoningModel首輪競賽中有哪些關鍵訊號？

從R1到Sonnet3.7，ReasoningModel首輪競賽中有哪些關鍵訊號？

DeepSeek縫合Claude，比單用R1/o1效果都好！GitHub攬星3k

DeepSeek縫合Claude，比單用R1/o1效果都好！GitHub攬星3k

Claude3.7登頂程式設計競技場，大幅領先100分！最新布料模擬實測再驚豔網友

Claude3.7登頂程式設計競技場，大幅領先100分！最新布料模擬實測再驚豔網友

Copyright © 2025 | WordPress Theme by MH Themes