Gemini-2.5-Pro大戰Deepseek-V3-0324

這周谷歌 Gemini 2.5 Pro  Deepseek V3-0324 相繼釋出,成為了這兩天討論最多的兩個模型。
但是,這倆模型釋出的風格卻迥然不同。
Gemini 2.5 Pro ,以一種“屠榜式摧枯拉朽之勢”亮相。谷歌高調宣佈這是其“迄今最智慧”的模型,伴隨一系列耀眼的基準測試成績,橫掃數學、編碼、多模態推理等多個領域。
而 Deepseek V3-0324,則採用了低調務實的“悄然上線”風格,默默出現在 HuggingFace 上,README 空空如也,只有 641GB 的模型檔案。但是“潤物細無聲”的釋出依舊並未掩蓋光芒。
不少人對 Gemini 2.5 Pro 的評價集中在“多模態能力”和“超長上下文視窗”,Gemini 2.5 Pro 原生支援文字、影像、音訊、影片、程式碼的協同處理,不僅能萬字長文直出,複雜程式碼一遍過,而且能“看懂”影片,“聽懂”音訊,100 萬 token 的上下文容量(約 75 萬字)讓它能輕鬆處理超長文件。
Deepseek V3 雖不像 Gemini 高調,但實用性也讓它成為開發者心頭好!擁有超強編碼能力,新版模型在 LiveCodeBench 測試中超越 Claude 3.7 Sonnet,尤其在前端開發(HTML/CSS/JS)任務中表現突出。
兩個模型雖都有各自的“殺手鐧”,但是,光說不練假把式,是騾子是馬拉出來遛遛才知道!按照我們夕小瑤“不服跑個分,不行測到服”的老規矩,肯定要親自上手“盤盤”。

編碼能力是大模型的硬通貨,先測幾道程式設計題。

Round 1:跑酷遊戲

提示詞:
Make me a captivating endless runner game. Key instructions on the screen. p5js scene, no HTML. I like pixelated dinosaurs and interesting backgrounds.
中文提示詞:
為我製作一個引人入勝的無限跑酷遊戲。螢幕上顯示關鍵操作說明。使用 p5js 場景,無需 HTML。我喜歡畫素化的恐龍和有趣的背景。
先看 DeepSeek V3-0324:
再看 Gemini 2.5 Pro:
DeepSeek-V3-0324 幾乎完美交卷,提示、積分系統、障礙物一應俱全,碰撞邏輯和處理也做得滴水不漏,功能齊全到讓人挑不出大毛病。唯一的瑕疵是那隻恐龍,造型有點抽象,像隨便捏出來的。
而 Gemini 2.5 Pro 表現有點拉胯。雖然顏色清新,恐龍形狀也算還原,可惜連個障礙物都沒加,彈跳還高得離譜,完全沒遊戲性可言,是個半成品。
這倆都是一次生成的結果,用各自母語提問。Gemini 2.5 Pro 的表現尤其意外,畢竟這是官方例子所用的提示詞,本以為會驚豔,結果卻讓人失望。
DeepSeek V3- 0324 明顯更勝一籌。

Round 2: 小球彈跳

這個測試專案已經不是什麼新鮮專案了,我的預期是兩個模型都能一次無傷通關。
提示詞如下:
Create an effect using p5.js (no HTML needed) where 10 colorful balls bounce inside a rotating hexagon, taking into account gravity, elasticity, friction, and collisions.
使用 p5.js(無需 HTML)建立 10 個彩色球在旋轉六邊形內彈跳的效果,考慮重力,彈性,摩擦和碰撞。
先看 Gemini 2.5 Pro:
這是 DeepSeek-V3-0324:
Gemini 2.5 Pro 表現亮眼——顏色鮮豔、碰撞到位、摩擦順滑,需求全搞定。
DeepSeek-V3-0324 直接上演“開局即 GG”的戲碼,多邊形連最基本地碰撞都沒有實現,翻車翻得措手不及。
本局 Gemini 2.5 Pro 贏。

Round  3: 飛行模擬遊戲

提示詞如下:
In pure three.js, without downloading any assets or textures, create a flight simulator game where i can fly an airplane. Make sure it runs in the browser
先看 DeepSeek V3-0324
Gemini 2.5 Pro:
這輪較量,打得膠著,勝負難分。
兩者的操控都沒啥問題,開起來都還算順手,起碼不會讓人摔鍵盤。
DeepSeek-V3-0324 的畫面豐富,但是完全看不出飛機的影子,像個抽象派藝術品,整體效果不像飛行而像潛水。。
Gemini 2.5 Pro 這邊飛機的造型能認出來,但是地形設計略顯粗糙了。
這場比拼算 Gemini 險勝。

Round 4: 生成 Mandelbrot set 集

提示詞如下:
p5js to explore a Mandelbrot set.
用 p5js 生成 Mandelbrot set.
DeepSeek V3-0324 的效果——
Gemini 2.5 Pro:
這輪比拼的結果還真有點意思,DeepSeek-V3-0324 和 Gemini 2.5 Pro 都交出了可互動的 Mandelbrot 集,表面上看旗鼓相當,但細節裡藏著勝負。
DeepSeek-V3-0324 這次有點費勁,試了好多次,還換了好幾輪提示詞,折騰半天總算搞定,雖然結果能用,但過程磕磕絆絆,效率不太行。
反過來,Gemini 2.5 Pro 就輕鬆多了,一次提示直接命中,乾淨利落搞定,毫不拖泥帶水。光憑這點效率差距,這局 Gemini 2.5 Pro 穩穩拿下勝利!
雖然 DeepSeek-V3-0324 在傳統對話模型中,程式設計能力數一數二,但面對推理類模型,似乎還是在正規化上有些劣勢。

Round 5:  中文長文字輸出能力

提示詞如下:
以馬斯克和山姆奧特曼為主人公,寫一篇有關他們愛恨情仇的科技商戰小說。 要求:10000 字, 一次性輸出完整內容。
Gemini 2.5 Pro 輸出:

DeepSeek V3-0324 輸出——

小說內容的優劣我就不做評判了,畢竟天馬行空的想象力可以不受拘束地隨意編織故事。
Gemini Pro 2.5 在嚴格遵循指令方面表現得相當出色,能夠按照要求,穩定輸出 1 萬字的長篇內容。
DeepSeek V3-0324 試了好幾次,總是在 6K、7K 字附近徘徊,篇幅上無法遵循指令。
本局長文寫作測試,Gemini Pro 2.5 完勝!

Round 6: 文字總結能力

上傳一篇 PDF 論文和裡面的一張圖片,我們上一篇推文裡講過的。

提示詞: 文章中,失敗總體分為幾大類, 具體的錯誤有多少種,它們分別是什麼?圖一中的成功率,失敗率各是多少?
Gemini 2.5 Pro 的回答——

DeepSeek V3-0324 的回答——

Gemini 2.5 Pro 對於文字歸納和圖表的識別都對了。 DeepSeek V3-0324 文字歸納沒問題,但圖是完全沒看明白。
果然,Gemini 2.5 Pro 的多模態強不是蓋的,DeepSeek 在多模態上得加油啊。

Round 7:  智力推理題

提示詞:
一樓到十樓的每層電梯門口都放著一顆鑽石,鑽石大小不一。你乘坐電梯從一樓到十樓,每層樓電梯門都會開啟一次,只能拿一次鑽石。問怎麼才能拿到最大的一顆?
這是一個典型的“最優停止問題”(Optimal Stopping Problem),類似於“秘書問題”或“相親問題”。在這類問題中,我們需要在有限的選擇中,找到一個停止規則,以最大化選擇最優選項的機率。
稍微有一定難度,直接先上結論:
  1. 前 3 層不拿:即在一樓、二樓、三樓時,只觀察鑽石的大小,記錄下這三層中最大的鑽石大小,但不拿取。
  2. 從第四層開始:在四樓到十樓,一旦遇到比前三層中最大的鑽石還要大的鑽石,就立即拿取。
  3. 如果在第四層到第十層都沒有遇到比前三層最大的還要大的鑽石,那麼必須在第十層拿取(但此時無法拿到最大的鑽石)。
這種策略能夠使你拿到最大鑽石的機率最大,約為 39.87%。
先看 Gemini 2.5 Pro 的回答:

再看 DeepSeek V3-0324:

這兩個模型都答對了,但風格真是天差地別!
Gemini 2.5 Pro 懶得囉嗦,直接甩結論,像個酷酷的學霸:“答案就是這樣,愛信不信!”
DeepSeek V3-0324 則是完全相反,簡直是耐心過頭的學神,恨不得手把手教你,公式推導一步不落,每層機率算得清清楚楚,生怕你腦子轉不過彎,活脫脫一個“教學狂魔”!

Round 8:  海報生成

生成一張適合小紅書平臺的“金句海報”,內容為“Attention is All You Need”。用 html/css 設計。
Gemini 2.5 Pro 生成的海報:

DeepSeek V3-0324 生成的海報:

Gemini 2.5 Pro 就扔了個“Attention is All You Need”,乾巴巴的。
DeepSeek V3-0324 還貼心地加上了副標題和標籤,妥妥的小紅書友好型選手,但是也暴露了缺點,沒考慮這句話的出處和語境,理解成了另一層意思。

總結

Gemini 2.5 Pro 無疑是一位能力極其均衡的“六邊形戰士”。它的超長上下文處理能力和強大的多模態理解在實測中得到了充分驗證。如果你需要處理海量資訊、混合媒體內容,或者追求全面的 AI 能力,G2.5 Pro 無疑是最好的選擇。雖然 DS V3 程式碼能力強,但實測中 G1.5 Pro 程式設計實力更強勁,實打實的全能王。
但是 Gemini 2.5 Pro 作為推理模型,而 Deepseek V3-0324 作為非推理模型,嚴格來說,兩者定位不同。畢竟 Gemini 2.5 Pro 是谷歌砸出來的最強一代模型。 Deepseek 的優勢在於效率和開源屬性上。
選擇誰,關鍵看任務需求和時間檢驗。


相關文章