全面屠榜!谷歌最強程式設計模型提前釋出,碾壓Claude3.7

1419.95分登頂AI程式設計榜首,Gemini 2.5 Pro“I/O”版效能飆升,影片理解能力“逆天”。
編譯 |  王涵
編輯 |  漠影
谷歌史上最強程式設計模型來了!
智東西5月7日訊息,北京時間5月6日晚,谷歌DeepMind AI研究部門正式推出Gemini 2.5 Pro “I/O”特別版,回應開發者社群對實際程式設計和介面設計效能的強烈需求,給全球使用者提前“嚐鮮”。
WebDev Arena Leaderboard基準測試最新榜單顯示,自2022年底ChatGPT引爆生成式AI競賽以來,谷歌首次在關鍵程式設計基準測試中超越Claude,實現全面領先。新版模型代號“Gemini-2.5-pro-preview-05-06”已取代03-25版本,目前可透過Gemini API、Vertex AI、AI Studio平臺獲取,普通使用者可以透過Gemini聊天機器人應用體驗。
▲資料來源於Imarena.AI
新模型定價與Gemini 2.5 Pro模型相同,每百萬token輸入和輸出費用分別為1.25美元和10美元(約合人民幣9元和72元)(支援20萬token上下文),相較Anthropic的Claude 3.7 Sonnet模型的3美元和15美元(約合人民幣22元和108元)更具價效比。
谷歌DeepMind執行長戴密斯·哈薩比斯(Demis Hassabis)在海外社交媒體X平臺盛讚其為“我們迄今構建的最強程式設計模型”。
01.
程式設計能力首次超越Claude
AI程式設計“頭把交椅”或將易主
這次的特別款是三月釋出的大熱模型Gemini 2.5 Pro的升級新版本,谷歌Gemini API高階產品經理Logan Kilpatrick在技術部落格中確認,本次升級重點優化了函式呼叫功能,降低錯誤率並提升觸發可靠性。據谷歌部落格內容,Gemini 2.5 Pro“I/O”特別版在程式設計和構建互動式網頁應用方面的能力有“顯著”提升,在程式碼轉換(即修改程式碼以實現特定目標)等任務上的表現也更好。
▲資料來源於WebDev Arena Leaderboard
部落格文章中提到了Gemini 2.5 Pro“I/O”特別版在WebDev Arena Leaderboard基準測試(衡量模型建立美觀且功能完備的網頁應用的能力)中的表現。在最新排名中,Gemini 2.5 Pro Preview (05-06)以1419.95分超越Claude 3.7 Sonnet(1357.10分)登頂,相較前代03-25版本1272.96分的表現,新版實現了146.99分的提升。
谷歌DeepMind執行長哈薩比斯對此十分自豪,還狠狠“凡爾賽”了一番:
此外,本次升級最突出的能力在於根據單條文字提示生成完整互動式網頁應用或模擬程式。Gemini應用內的演示顯示,使用者可將視覺圖案或主題提示直接轉化為可用程式碼,大幅降低設計導向型開發者的入門門檻。
02.
影片理解超強
領跑視覺基準測試
Gemini 2.5 Pro“I/O”特別版在影片理解方面也具備超高效能,谷歌在其部落格中稱該版本在VideoMME基準測試中獲得84.8%的分數,佔據榜首。據谷歌官方部落格透露,該模型還驅動著Gemini移動應用的Canvas畫布等核心功能。
▲資料來源於Imarena.AI
在Gemini 95等應用中,新模型能自動統一視覺元素的風格匹配。其工作流支援將YouTube影片轉化為功能完備的學習應用,並可快速生成響應式影片播放器、動態聽寫介面等高度風格化元件,幾乎無需手動編寫CSS程式碼。
03.
結語:谷歌Gemini模型
向實用生產力工具轉型
AI程式設計工具企業Cursor的執行長Michael Truell透露,內部測試顯示Gemini 2.5 Pro“I/O”特別版的工具呼叫失敗率顯著下降。目前Cursor已將Gemini 2.5 Pro整合至其code agent系統。

程式碼託管平臺公司Replit的總裁Michele Catasta也評價稱該模型是“平衡效能與延遲的最先進模型”。

雖然谷歌未公開Gemini 2.5 Pro的架構細節,但其核心目標始終是提供更快速、更直觀的開發體驗。透過強化程式碼生成和多模態輸入優勢,Gemini 2.5 Pro正從研究性創新轉向解決實際程式設計挑戰的生產力工具。此次提前釋出讓谷歌DeepMind在重大會議前滿足開發者需求、保持市場勢頭的意圖更加明確。
來源:TechCrunch,VentureBeat,Google Blog,Imarena.AI
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章