Claude3.7登頂程式設計競技場,大幅領先100分!最新布料模擬實測再驚豔網友

西風 發自 凹非寺

量子位 | 公眾號 QbitAI
公認的程式設計開發能力第一!Claude 3.7 Sonnet剛剛登頂WebDev競技場榜首
大幅甩第二名100多分,在榜單前十的其它相鄰模型分差僅為幾分、幾十分的情況下。
那第二名是誰呢?還是Claude自己——Claude 3.5 Sonnet。
WebDev榜單與我們所熟知Chatbot Arena榜單“同宗同源”,也是由LMArena(LMSYS Org)打造,不過更專注於AI程式設計、網頁應用開發能力。
值得一提的是,DeepSeek R1作為榜單前十唯一的開源模型排名第三,超越early-grok-3、o3-mini-high、Claude 3.5 Haiku等。
對於Claude 3.7 Sonnet高分登頂,有網友表示並不驚訝。
畢竟,這兩天網友們瘋狂實測Claude 3.7,一次又一次被驚豔到,最新實測更是再次重新整理網友對Claude 3.7的認知。

Claude 3.7最新實測

比如前兩天下面這個Claude 3.7 Sonnet用p5js編寫布料模擬效果在網上瘋傳:
有位學者看到後,還曬出了自己1986年在MIT的碩士論文,主題正是“布料外觀建模”。他提到,過去完成這項工作需要數天時間,而現在AI只需幾分鐘就能超越他,不禁感嘆:
雖然他們現在還付我薪水,但這樣的日子還能持續多久呢?
現在,更扎心了老鐵。
網友又做出了另一版,還是帶有明暗關係的那種:
網友表示“這種效果即使是在高階圖形學課中,也很少有教怎麼做的”。
除此之外,Reddit上一位老哥的最新分享也引發網友熱議。
他表示突然想起一個自己在1997年用Visual Basic 4編寫的古老應用程式,於是將這個27年前的EXE檔案上傳到了Claude 3.7並請求轉換為Python程式碼,結果Claude不僅分析了檔案元件,還在5分鐘內用Pygame寫出完美轉換且可執行的Python程式碼。
這位老哥還曬出了自己與Claude 3.7的聊天記錄:
網友get新玩法後紛紛開始效仿。
另外,有網友體驗了Claude 3.7的新GitHub整合功能後表示“它改變了工程師理解軟體的方式”:
可以Frok一個程式碼庫選擇一個特定的資料夾,然後向它提問關於程式碼的任何問題,Claude還會顯示每個資料夾在上下文視窗中所佔的百分比,幫助你更好地理解程式碼結構和內容。
比如,Claude 3.7可視化了yt-dlp(一個YouTube下載器)的工作流程:

沃頓商學院教授Ethan Mollick也放出了最新實測。
例如,基於“Bartleby the Scrivner”故事建立的小遊戲:
還可以用Claude 3.7製作一個互動式的“時光機道具,能夠穿越回過去”:
Ethan Mollick特意寫了一篇Blog介紹Claude 3.7。
有意思的是,這篇Blog被Anthropic官方注意到了,官方表示Claude 3.7沒有那麼大(花幾千萬美元訓練的那種)。但之後的模型規模會增長。
參考連結:
[1]https://x.com/lmarena_ai/status/1894840263379689490
[2]https://x.com/deedydas/status/1894871849269633162
[3]https://x.com/deedydas/status/1894841573311197239
[4]https://x.com/deedydas/status/1894576702749381082
[5]https://x.com/emollick/status/1894258450852401243
評選報名2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章