半夜真地震了!DeepSeekV3新版本,官方釋出跑分,擊潰GPT-4.5、Claude-3.7

昨天,DeepSeek 在毫無預告的情況下,悄悄上線了 DeepSeek-V3-0324——看似“小版本更新”的模型,經過一天的發酵,已經引發了一波地震。
但我沒想到的是,就在剛剛,發生了一波真的地震——

好傢伙,座標北京海淀的我,都快寫稿子寫睡著了,結果突然感覺到有人在晃我的床。
翻了翻朋友圈才知道,這 DeepSeek-V3 的震感這次是真的從精神層面傳導到我的肉體層面了…

當然,以上純瞎扯,物理地震與 DeepSeek 新模型釋出無任何關聯。但願震中地區的家人們無人受傷…
下面進入正題。
先貼官方給出的評測結果——

新版 DeepSeek-V3-0324 模型的百科知識(MMLU-Pro, GPQA)、數學(MATH-500, AIME 2024)和程式碼任務(LiveCodeBench)表現均有提升。
劃重點——
  • 全面超越 Claude-3.7-Sonnet
  • 在數學、程式碼類相關評測集上超過 GPT-4.5
作為一個沒有思維鏈的非推理模型,DeepSeek-V3-0324 模型在推理類任務上的表現可圈可點。
根據第三方評測,新版的 DeepSeek-V3 模型與 Grok-3 打平,並列傳統對話類模型榜首。

在真實世界程式設計基準 Arena 榜單上,有熱心網友整理了最新排名——

DeepSeek-V3-0324 模型在該測試基準上,表現僅次於 Claude-3.7-Sonnet-Thinking 和 Claude-3.5-Sonnet。領先 OpenAI o1、Gemini-2.0-Pro、Grok-3-Reasoning 等一眾海外知名的推理類&傳統對話類模型,當然,也包括 DeepSeek-R1。
如果你覺得 DeepSeek-V3-0324 模型在推理類任務上比肩 Claude-3.7-Sonnet,GPT-4.5 等海外模型還不夠刺激,那麼算一筆賬就明白為什麼這個模型會引發地震了。

好傢伙,效果差不多的模型,DeepSeek-V3-0324 的輸入價格是 Claude-3.7-Sonnet 的 1/11,GPT-4.5 的 1/277。

這直接把 OpenAI 公司和 Anthropic 公司的價格體系給卷崩了啊。
不止是傳統對話類模型,即便是 o3-mini 這種推理類模型,有網友評測,發現其也被 DeepSeek-V3-0324 在多種程式語言的測試基準 Aider Polyglot 上徹底擊碎了價效比…

要知道,o3-mini 是 OpenAI 放出來卷價格戰的,定價上依然要比 DeepSeek-V3 模型貴 4-8 倍。而且,用 o3-mini 的話,你還要為一大串不可見的思維鏈內容付費,在 DeepSeek-V3-0324 面前,再去用 o3-mini 簡直就成了冤大頭。
此外,不止是推理類的榜單測評,根據官方的介紹,DeepSeek-V3-0324 模型在諸多日常場景都有了不錯的提升。
  • 前端開發能力增強(官方 showcase)
有 X 網友用「難度升級版」的小球碰撞測試來驗證 V3 的程式設計技能,包括重力、摩擦力、彈性、旋轉速度控制,還有多邊形的邊數、尺寸調節。
此外,中文搜尋能力最佳化和中文寫作能力也做了升級。

根據官方介紹,新版 V3 在聯網搜尋場景下,對於報告生成類指令輸出內容更為詳實準確,且排版更加清晰美觀。

技術升級

根據官方的介紹,DeepSeek-V3-0324 模型引數量約 660B,不是網上謠傳的 680B。且僅改進了後訓練方法,便獲得了巨大的效果提升。

值得一提的是,官方在釋出該模型時,是先將模型開源,上傳 HuggingFace,然後才發的公告。可以看出 DeepSeek 勢必是要將開源貫徹到底的決心了。
此外,這次開源同樣是 MIT 許可證——可以免費用於商業用途。
而且,根據網友的測試,該模型在價值 10,000 美元的 Mac Studio M3 Ultra 上就能跑起來,吞吐率大概能達到每秒 20 個 Tokens,考慮到不需要等待思維鏈內容,日常是足夠用了。
2025 開始,是真正的 DeepSeek 時代。

相關文章