Gemini2.0霸榜,價格卷哭DeepSeekV3,價效比新王誕生!

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 夕小瑤科技說
谷歌 Gemini 2.0 家族終於湊齊了!出手即霸榜。
在 Deepseek、Qwen 和 o3 的圍追堵截下,今天凌晨,谷歌一口氣連發了三款模型:Gemini 2.0 Pro、Gemini 2.0 Flash ,Gemini 2.0 Flash-Lite:
在大模型 LMSYS 排行上,Gemini 2.0-Pro 衝到了第一名,Gemini-2.0 家族都挺進了前 10。

先看模型效能

這次釋出的 Gemini 2.0 三個模型效能上都有各自的亮點!

Gemini 2.0 Pro (Experimental)

作為 Gemini 系列的旗艦模型,Pro 版本代表了當前 Google 最先進的 AI 能力,尤其在編碼和推理方面表現出類拔萃的效能:
  • 超大上下文視窗:支援高達2M tokens 的上下文處理能力
  • 工具整合能力強大:深度整合 Google 搜尋與程式碼執行功能
  • 可用性說明:已在 Google AI Studio、Vertex AI 以及 Gemini Advanced 平臺以實驗版本形式上線

Gemini 2.0 Flash

這款模型定位為“高效主力模型”,設計上側重於速度與效能的平衡,旨在為需要低延遲響應的應用場景提供理想支援:
  • 百萬級上下文視窗:支援 1M tokens 上下文
  • 優秀的多模態推理能力:擅長處理多模態資料,目前支援多模態輸入和單模態文字輸入
  • 未來功能拓展:影像生成與文字轉語音功能即將推出
  • 可用性說明:已在 Vertex AI Studio 和 Google AI Studio 平臺正式釋出,可透過 Gemini API 接入。

Gemini 2.0 Flash-Lite (Preview)

作為“最具成本效益”的模型,Flash-Lite 在速度、成本和效能之間實現了最佳平衡點。
  • 高性價比優勢:與 1.5 Flash 相同速度和成本的前提下,多數基準測試中超越 1.5 Flash。
  • 百萬級上下文視窗:同樣支援 1M tokens 上下文處理能力。
根據谷歌放出來的效能評估對比可以看出,Gemini 2.0 Pro Experimental 版本在幾乎所有基準測試中都取得了最高分,表現出色:
尤其是在程式碼生成任務(如 LiveCodeBench v5)和複雜數學問題(如代數、幾何和微積分)上的表現尤為出色。此外,在複雜的長文件理解測試中,成績也顯著提升。

再看定價

從 API 價效比看,谷歌也是良心大廠。
Gemini 2.0 Flash 的百萬 Token 輸入一塊錢都不到。。。。支援多模態,支援聯網搜尋,更牛的是,前無古人的上下文視窗。
作為對比的 Deepseek V3, 目前的價格是百萬輸入 1 塊錢,R1 推理是 4 塊錢。
ps:不過還是要感謝 DeepSeek 把價格打下來,能打下來價格的就是家人 hhh
這真的太便宜了!相比效能,我覺得 Gemini 被忽略的是價格!

case 表現

既然號稱和 Deepseek 一樣能打,我們肯定要看看實際 case 表現咋樣,看看各路網友們的測試整活兒吧 ~

基於物理引擎的彈球遊戲

先看看這個爆火的 case,使用物理引擎模擬逼真的碰撞、摩擦、重力等效果。
提示詞:編寫一個 Python 程式,顯示球在旋轉的六邊形內彈跳。球應該受到重力和摩擦力的影響,並且必須逼真地從旋轉的牆壁上反彈
這是 Deepseek R1 和 o3-min 的表現:
Gemini 2.0 Pro Experimental 生成的版本:
文如老狗!和 o3 mini 不相上下。
Gemini 2.0 Flash:
呃,翻車了。
Gemini 2.0 Flash-Lite :
一上來就翻。
難度加倍!讓小球變成 100 個小球!
提示詞:為球體內 100 個彈跳的亮黃色球編寫指令碼,確保正確處理碰撞檢測。使球體緩慢旋轉。確保球保持在球體內。在 p5.js 中實施
嗯!不錯呀!球體緩慢旋轉很流暢,模擬物理規律也很優秀,100 個小球也在“各司其職”地穩穩碰撞 ~
再來一個:
編寫一個 p5.js 指令碼,模擬在一個圓柱形容器的真空空間中反彈的 25 個粒子。每個球使用不同的顏色,並確保它們留下軌跡來顯示它們的運動。新增容器的緩慢旋轉,以便更好地觀察場景中發生的事情。確保建立適當的碰撞檢測和物理規則,以確保粒子保持在容器內。新增一個外部球形容器。為整個場景新增一個緩慢的放大和縮小效果。

繞不過去的草莓考題

還有聰明(狡猾)的網友又甩出了經典的草莓考題:
How many r's are there in strawberry
但是!結果非常令人意外,Gemini 2.0 Pro Experimental 竟然答錯了!
而 Gemini 2.0 Flash Thinking Experimental 卻答對了:

谷歌大佬 Jeff Dean 親自下場測試程式設計能力

Google DeepMind 和 Google Research 的首席科學家 Jeff Dean 還測試了一波 Gemini 2.0 Pro 的程式設計能力:
讓模型完成經典的 Boggle 遊戲,第一次生成的程式碼就完成了在 “字母方塊” 的遊戲中找到所有有效的單詞:
而且,Jeff Dean 說這個程式碼完成的耗時只有 18.9 秒,速度非常快。
谷歌 DeepMind CEO 對這次模型的大更新信心滿滿,稱這次釋出的工作是為谷歌實現未來的未來智慧體工作奠定了基礎:
Google CEO 桑達爾·皮查伊之前明確表示,2025 年將是谷歌在 AI 領域加速發展的關鍵時期。感覺這次釋出後,谷歌的路線更加清晰了!
相較於其他巨頭的路線,谷歌的 AI 路線 更注重實用,直接提供多版本選擇,就像 一個 AI 工具箱,任你挑選,按需選擇,靈活方便,各種需求都能滿足 ~
家人們用上新模型了嗎?歡迎評論區和我們一起討論 ~

參考文獻

https://developers.googleblog.com/en/gemini-2-family-expands/?linkId=12807127

技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章