2025.03.26

本文字數：1249，閱讀時長大約2分鐘

作者 | 第一財經劉曉潔

沒有任何公告和宣發，DeepSeek在開源平臺hugging face默默上新的V3迭代版本模型引起了不小的關注。

3月25日晚，官方終於在海內外官方賬號上正式宣佈V3模型完成小版本升級的訊息，並介紹了新版本DeepSeek-V3-0324模型的提升細節，包括推理、前端開發、中文寫作、中文搜尋幾個方面的能力最佳化。

值得一提的是，25日下午，海外專業AI模型評測機構Artificial Analysis釋出的最新排名顯示，新版V3模型現在是得分最高的非推理模型，超過xAI的Grok3和OpenAI的GPT-4.5（preview）。

“這是開放權重模型首次成為領先的非推理模型，對於開源來說是一個里程碑。”Artificial Analysis官方表示，此版本可以說比DeepSeek的R1模型更令人印象深刻，並且可能預示著R2模型將是另一個重大飛躍。

此次釋出的新版V3模型採用MIT許可（允許模型蒸餾、商用），意味著其可以被自由用於商業用途。

根據官方展示的對比圖，在數學、程式碼類相關評測集上新版V3模型分數排在第一，超過了GPT-4.5、Claude-Sonnet-3.7以及阿里雲的Qwen-Max，但在百科知識上新模型稍弱於GPT-4.5。

新版 V3 模型的百科知識（MMLU-Pro, GPQA）、數學（MATH-500, AIME 2024）和程式碼任務（LiveCodeBench）表現均有提升

DeepSeek介紹，新版V3模型借鑑DeepSeek-R1模型訓練過程中所使用的強化學習技術，大幅提高了在推理類任務上的表現水平。

此外，在 HTML等程式碼前端任務上，新版V3模型生成的程式碼可用性更高，視覺效果也更加美觀、富有設計感。官方例舉了一個用模型生成的程式，畫面是多個小球在指定空間範圍內運動，包含若干可以調整重力、摩擦力等引數的滑動按鈕。

在中文寫作和搜尋任務方面，新版V3模型提升了中長篇文字創作的內容質量，並且可以在聯網搜尋場景下，對於報告生成類指令輸出內容更為詳實準確、排版更加清晰美觀的結果。

官方還表示，新版V3模型在工具呼叫、角色扮演、問答閒聊等方面也有一定幅度的能力提升。

對於新模型，DeepSeek介紹，使用者登入官方網頁、APP、小程式進入對話介面後，關閉深度思考即可體驗。API介面和使用方式保持不變。如非複雜推理任務，官方建議使用新版本V3模型，可以有速度更流暢、效果提升的對話體驗。

根據Artificial Analysis的評測，V3新模型在智慧指數方面躍升了7個百分點，目前領先於所有其他非推理模型。儘管它在智慧指數方面落後於DeepSeek自己的推理模型R1，以及來自OpenAI、Anthropic和阿里的其他推理模型，但其成就仍然令人印象深刻。因為非推理模型可以立即做出回答，而無需花時間“思考”，這使得這一模型在對延遲較為敏感的場景中非常有用。

在V3新模型釋出後，有開發者立刻用其進行了寫程式碼實測，並認為新模型超越了DeepSeek-R1，甚至超越Claude-3.7，“難以想象這還不是一個推理模型。”這位開發者表示，在20個小球碰撞測試中，V3新模型有肉眼可見的進步，之前DeepSeek-V3的小球擠成一團，現在物理運動模擬得非常好。

也有海外開發者用DeepSeek新模型一次性建立了網站，編寫了800多行程式碼，且沒有出現任何故障。“很高興看到這些開源模型如何向大型科技公司施加壓力，以更低的成本構建更好的模型。”他在X上分享表示。

微信編輯 | 生產隊的驢（拉磨版）

推薦閱讀