碾壓Cursor?谷歌突發Gemini2.5Pro預覽版,編碼能力全網第一

整理|冬梅、核子可樂
I/O 前夕,谷歌突發 Gemini 2.5 Pro 預覽版
昨晚,谷歌在 I/O 大會之前宣佈推出 Gemini 2.5 Pro Preview(I/O 版)。作為其旗艦產品 Gemini 2.5 Pro AI 模型的升級版本,搜尋巨頭宣稱該模型在多項主流基準測試中均名列前茅。
Gemini 2.5 Pro Preview(I/O 版)可透過 Gemini API 以及谷歌的 Vertex AI 與 AI Studio 平臺獲取,價格則與升級前的 Gemini 2.5 Pro 模型相同。預覽版也被引入到谷歌的 Gemini 聊天機器人應用當中,主要供 Web 及移動裝置端使用。
谷歌 DeepMind CEO Demis Hassabis 在 X 上發帖稱:“非常高興能與大家分享我們迄今為止構建的最佳程式設計模型!今天,我們釋出了 Gemini 2.5 Pro Preview 的‘I/O 版’,其程式設計能力得到了大幅提升。此版本在 LMArena 程式設計類別中排名第一,在 WebDev Arena 排行榜上同樣拔得頭籌。”
這套模型的釋出正值谷歌年度 I/O 開發者大會(因此得名「I/O 版」)召開在際。預計谷歌將在大會上釋出一系列模型以及 AI 驅動的工具和平臺。在這場殘酷的 AI 競賽中,谷歌正奮力奪取市場份額與使用者關注;OpenAI 及 xAI 等競爭對手也即將釋出效能強大的同類模型。
最新版模型實際上能做些什麼?
根據谷歌的介紹,Gemini 2.5 Pro Preview(I/O 版)在編碼和構建互動式 Web 應用方面實現了“顯著”提升。此外,新版本模型在程式碼轉換(即修改一段程式碼以實現特定目標)與程式碼編輯等任務上同樣表現出色。
谷歌在一篇博文中指出,Gemini 2.5 Pro Preview(I/O 版)在 Web Arena 排行榜(旨在衡量模型建立美觀且功能強大的 Web 應用的能力)上名列前茅,比上一版本高出 147 個 Elo 積分。該排行榜衡量了人類對模型構建美觀且功能強大的 Web 應用的能力的偏好。它還繼續鞏固了其在原生多模態和長上下文方面的堅實基礎。
WebDev Arena 由 LMArena 開發,是一項即時 AI 編碼競賽,模型在 Web 開發挑戰中展開正面交鋒
影片轉程式碼
值得一提的是,新版本模型在影片理解方面同樣擁有一流表現,在熱門基準測試 VideoMME 上取得 84.8% 的得分。
結合編碼功能,Gemini 2.5 Pro Preview 實現了之前版本無法實現的全新流程。憑藉更強大的影片理解能力和更完善的使用者介面,升級後的 Gemini 2.5 Pro 模型比之前的簡單示例提供了更豐富的功能體驗。
谷歌在博文中寫道,“對於正在使用 Gemini 2.5 Pro Preview 的開發者們來說,此次釋出的新版本不僅能夠提升程式設計效能,還將解決開發者提出的多項關鍵反饋,包括減少函式呼叫中的錯誤並提高函式呼叫的觸發率。預設情況下,該模型既能保持良好的可操控性,也真正體現出對 Web 開發的審美追求。”
讓功能開發更簡單
Gemini 2.5 Pro Preview 在前端 Web 開發方面表現優異。實現新功能意味著使用者需要手動深入設計檔案,檢查元件以匹配顏色、字型、內邊距、外邊距和邊框等樣式屬性,然後手動編寫所需的 CSS 程式碼來準確複製這些視覺屬性。想象一下,在 IDE 中使用 Gemini 2.5 Pro Preview,並讓模型生成新功能,例如新增一個與 Gemini 95 入門應用中其他應用風格相同的影片播放器。
讓創意更易落地
Gemini 2.5 Pro Preview 讓創意落地變得簡單高效,它既提供強大的實用功能,又擁有優雅的使用者介面。以全新升級的聽寫入門應用為例,該應用基於最新模型構建,充分展現了 Gemini 2.5 Pro Preview 的優勢。
值得關注的是其精緻的細節設計:動態波長動畫、流暢的響應式佈局,以及巧妙的按鈕懸停互動效果。這一模型天然具備現代化的 Web 開發風格,在確保視覺美感的同時,更注重操作便捷性,幫助開發者快速將概念轉化為可實際執行的 Web 應用。
例如,Gemini 2.5 Pro Preview 能夠為聽寫應用智慧設計麥克風 UI 動畫,並自動生成相應程式碼,顯著提升開發效率。
外界如何評價?
Gemini 2.5 Pro Preview 釋出後立即在社群中引發熱議,AI 編碼工具 Cursor CEO Michael Truell‌也忍不住稱讚 Gemini 2.5 Pro Preview 讓編碼能力更進一步。
“我們對最新的 Gemini 2.5 Pro Preview 感到非常興奮,它在其強大的實際程式設計能力基礎上進一步提升。我們內部觀察到,新型號呼叫工具失敗的情況顯著減少,我們相信使用者會發現這一改進使 2.5 Pro Preview 在 Cursor 中的效率比以前更高。”
在 Hacker News 上,有使用者認為 Gemini 2.5 系列比其他模型要可靠,但仍然無法與人類開發者媲美:
“前在使用其他模型程式設計時,我經常遇到一個令人頭疼的問題:它們有時會生成根本不存在的 API。相比之下,Gemini 2.5 系列(包括 Pro 和 Flash 版本)在這方面表現要好得多,比我所嘗試過的任何其他模型都更可靠。
當然,它仍然存在一些明顯的侷限性。無論怎樣最佳化提示詞,當前的模型在抽象思維和系統架構方面還是無法與人類開發者相媲美。但即便如此,我發現 Gemini 已經能夠替代我日常的很多搜尋和 StackOverflow 查詢,顯著提升了我的程式設計效率。”
有使用者贊同了上述觀點,認為即使 Gemini 2.5 Pro Preview 在智慧編碼方面已經足夠出色,但目前仍無法媲美人類,不過,他認為 AI 在編碼能力方面超越人類只是時間問題。
“很明顯,在程式碼設計領域,人類被超越只是時間問題(至於這是 1 年還是 5 年後的事,其實並不重要)。與其糾結於這些無法改變的趨勢,不如把精力放在更有價值的問題上:在這個即將到來的新世界裡,我們能做些什麼? 我們需要更多建設性的想法,而這裡正是推動這些討論的最佳場所。”
一位每日都在使用大模型輔助程式設計的開發者表示:
“我每天都在使用大語言模型輔助程式設計。多年來,LLM 的程式設計能力確實有了顯著進步,但主要集中在"自然語言到程式碼"的對映能力上。這種能力雖然強大,使用時仍需注意:需要精心管理上下文以保持模型專注;必須主動引導模型考慮效能最佳化和系統架構等關鍵因素。我對大模型的推理能力仍持保留態度。這並非否定其價值,而是要認識到其固有侷限。我認為,要實現真正類人智慧,我們可能需要探索完全不同於 LLM 的技術路徑。”
但也有 X 使用者認為,Gemini 2.5 Pro Preview 只有編碼技能略有提高。其他一切都略有下降。因此,這只是一個專為編碼而生的大模型,不適合一般用途(與之前的版本相比)。
參考連結:
https://blog.google/products/gemini/gemini-2-5-pro-updates/
宣告:本文為 AI 前線翻譯整理,不代表平臺觀點,未經許可禁止轉載。
活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

相關文章