Deepseekv3實測來了!智商牛逼,情商不存在,自信退出價格戰

事情起因是這樣的!下午的 Family 群裡,有家人和小鹿說 DeepSeek 的新模型效能不錯!但是漲價了!
哦?Deepseek 可是國產大模型界的拼多多啊。這次推出即爆火的 V3 價格翻了一倍不止。
DeepSeek V3 的 API 官方定價:
輸入:2 元/M tokens命中快取0.5元Mt

輸出:8 元/M tokens
2025 年 2 月 8 日前,

輸入:1 元/M tokens命中快取0.1元Mt

輸出 :2 元/M tokens
不過,這個價格依舊只相當於 Claude 3.5 Sonnet 費用的 1/53(後者每百萬輸入 3 美元/Mt、輸出 15 美元/Mt)。
一起看下 Deepseek-V3 漲價漲的值不值 ~

模型表現與 Claude 3.5 Sonnet 相當

這次發的新模型 DeepSeek-V3 採用了 671B 引數 MoE 架構,配備約 37B 啟用單元,在高達 14.8T 個高質量 Token 上完成了預訓練。
DeepSeek-V3 相比上一代 V2 進行了大幅升級,仔細看
  • 數學基準(MATH 500):取得了 90.2 的高分,領先 Claude 3.5 Sonnet 和 GPT-4o 超過 10 分。
  • AIME 2024 測試:領跑,比前代成績飆升近 20 分。
  • 程式碼能力(Codeforces 基準):達到了 51.6 分,比國外主流大模型高出約 30 分,重新整理了該領域的 SOTA 水平。
  • 軟體工程(SWE-bench Verified):略顯遜色,尚不及分數達 50.8 的 Claude 3.5 Sonnet。
  • 多語言能力(MMLU-Pro):在多語言上的進步不算明顯。
  • 知識問答(GPQA-Diamond):僅次於 Claude 3.5 Sonnet。
和閉源比完,接著看看和開源主流模型比怎麼樣,“對手”包括 DeepSeek-V2 的基礎版、Qwen2.5 72B 的基礎版,以及 LLaMA-3.1 405B 的基礎版:
總的來說,DeepSeek-V3 的基礎版就像“開了掛”一樣,效能全面超越了自家的 V2 和 Qwen2.5 72B。即使是面對引數量更大的 LLaMA-3.1 405B,DeepSeek-V3 在大多數測試中也毫不遜色,可以說是目前最強大的開源模型之一。
細看一下各項對比結果:
  • 對比目前很火的中文開源模型 Qwen2.5 72B,DeepSeek-V3 的優勢非常明顯。V3 實際參與運算的引數只有 Qwen2.5 的一半,但在英文、多語言、寫程式碼和解數學題這些方面,V3 都表現得更好。在中文能力上,除了 CMMLU 這個測試,V3 也都比 Qwen2.5 更強。
  • 對比引數量巨大的 LLaMA-3.1 405B(“容量”為 V3 的 11 倍),DeepSeek-V3 在多語言、程式碼和數學方面的表現依然更出色。
一句話,DeepSeek v3 成為了大模型新的開源 SOTA ,超越了 Llama 3.1 405B,甚至可以與 GPT-4o、Claude 3.5 Sonnet 等閉源模型正面抗衡。
當然,還是老規矩。
官方的測試資料,我們從來只信一半。真正好不好,測了才知道。
來,先上一手的智商測試!

智商測試

先來測試一道智商題(誤
嗯嗯!很滿意 ~ 據說隔壁 Claude3.5 還是錯著呢。
好了,來測一下真正的智商表現。
先測一道大家熟悉的程式設計題:
我想要 python 實現一段程式碼支援一個操作,就是將我在命令列裡輸入過的 query 按照時間順序 cache 到本地的一個檔案裡和記憶體裡,如果我在命令列裡按方向鍵上或方向鍵下,就能切換到上一個輸入的 query 或者下一個輸入的 query(像使用 bash 那樣)。如果按方向鍵左或右,則能夠移動游標來編輯文字(而不是輸入一個方向字元);移動游標或刪除的時候,需要支援中文漢字刪除,不能把漢字拆分成多個 char 去分別刪除
不要在命令列裡出現這種把方向鍵當做查詢輸入的情況,而是去解析方向鍵:
請輸入搜尋查詢: ^[[A^[[A^[[B^[[B^[[A^[[B
看看 Deepseek v3 能否創造奇蹟。
執行一下——
不是吧,這次竟然真的完美運行了!
而且程式碼非常的優雅乾淨,它用了一個 python 內建的庫就直接解決了問題。相比之前,claude3.5 和 gpt4o 自己一頓 DIY 後還一堆 bug
有可能,官方號稱的程式設計能力跟 claude3.5 不相上下,是個低調謙虛的說法。
非常難的問題上,雖然不一定打得過 o1 滿血版和 gemini 2.0 thinking,但程式設計能力比 gpt4o 和 claude3.5sonnet 強,從我們內部的測試來看,這句話是站得住腳的。
此外,官方號稱,不僅程式設計,v3 在數學上也是領先其他模型一大截的,也就是MATH-500、AIME 2024、Codeforces,所以我就測測數學上是不是也一樣牛。
北京大學與阿里巴巴的研究團隊聯合打造了一個專門用於數學競賽的奧林匹克評測基準——Omni-MATH,就用它來測!
第一題:
題目我沒看懂,但是答案很明確,是 Yes。
V3 的答案是 No.
嗯?v3 失誤了嗎?
再來一道!
題目依舊看不懂,截圖在這。
我讓 V3 把答案翻譯成中文,並和它的回答比較是否一致,呃,又錯了。。。
可能是題目難度過大了。我換了一道高中數學題,
降了難度後,它終於答對了。
另外,雖然根據官方的說法,Deepseek v3 是個純文字模型,但我強行在 Deepseek 官網上傳了這張大家熟悉的圖後——
標準答案:ADBAADAB
結果無意間發現——
竟然答對了 6 道!
而且 o1 和 gemini thinking 都是新一代推理正規化的模型,Deepseek v3 還是之前的老正規化。
我不清楚官方是先把這張圖經過 OCR,丟給了 v3,還是說這種有圖片上傳的題會直接路由到之前的 Deepseek VL2 視覺模型。
但,無論哪種情況,我都得說一句——
有點過於牛逼了。
對於一些難度很大的數學競賽題,可能還是要用類 o1 正規化的模型去解決。但一些簡單的數學題(高中及以下),Deepseek v3 可能就能搞定了。
總的來說,Deepseek v3 的智商我覺得是非常線上的,尤其是,這還沒有在推理階段做 scaling up。

情商測試

情商測試來自於前兩天的這個推文——
結果,Family 群裡有家人說 V3 沒做出來情商題——
所以我準備對 Deepseek v3 加測一下情商表現!

Round 1

得!Deepseek v3 你果然情商不線上。

Round 2

那再問問愛不愛人類吧:
行吧,足夠安全,但也因此犧牲了情商。

Round 3

我再問問掉水裡先救誰!
好吧,還是沒有情商可言,只有滿滿的安全感 qaq。
透過本文的簡單測評來看,Deepseek v3 模型可以說——
智商牛逼,但情商不存在…

有趣的技術細節

除此之外,DeepSeek 提供了關於 v3 的技術報告:
官方連結:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
我扒了下,發現有很多有意思的技術細節。
首先是資料,
相較於 DeepSeek-V2,DeepSeek-V3 提高了數學與程式設計樣本的比例,並將多語言覆蓋範圍擴充套件到英語和中文之外。
然後是超引數,
DeepSeek-V3 採用了 61 層 Transformer。除前三層外,所有 FFN 均被 MoE 層 替換,每個 MoE 層包含 1 個共享專家和 256 個路由專家;其中,每個 token 會啟用 8 個專家,最多分配到 4 個節點。
還有長上下文擴充套件 ,
為實現長上下文處理,DeepSeek-V3 在預訓練後採用 YaRN 技術進行擴充套件,並分兩個階段進行額外訓練,每個階段 1000 步,逐步將上下文視窗從 4K 擴大到 32K,最終達到 128K。

模型訓練成本令人髮指

Deepseek 研究團隊明確的保證:
DeepSeek-V3 僅用 2048 塊 GPU、歷時兩個月完成訓練,總花費約 557.6 萬美元。
這個訓練成本低到什麼程度呢:
相當於 Claude 3.5 Sonnet 的 9%。
大神 Karpathy 也在 X 上盛讚 DeepSeek-V3 的高效:
“達到這種能力通常需要上萬 GPU,而 DeepSeek-V3 僅用少量資源就實現了。對比 Llama 3 405B 的 3080 萬 GPU 小時,DeepSeek-V3 只用了 280 萬,計算量大幅減少。
這並非意味著不需要大型叢集,而是要重視資源利用和演算法最佳化。DeepSeek-V3 的表現若能得到普遍認可,將有力證明資源約束下也能做出優秀成果。”

結語

在過去一段時間裡,大語言模型的社群對於算力的追逐往往陷入一種“叢集越大、訓練耗時越短、模型越強”的思維模式。
最近 OpenAI 被爆料在訓練 GPT-5 是遇到資源和資料的限制而導致遲遲做不出來…
而 DeepSeek-V3,則成功透過深度最佳化的模型架構、訓練策略、資料篩選和工程流程,同樣能換來大幅度的效能增長和成本壓縮——甚至讓那些盲目投入十萬卡、數千萬 GPU 小時的專案看上去有些“浪費”……
從此,大模型社群多了一句論調:
從 Deepseek v3 來看,決定性勝負手不再只是顯示卡數量
但我還是忍不住想問——啥時候國產模型能有情商的概念?

相關文章