2025.03.26

本文字數:1249,閱讀時長大約2分鐘
作者 | 第一財經 劉曉潔
沒有任何公告和宣發,DeepSeek在開源平臺hugging face默默上新的V3迭代版本模型引起了不小的關注。
3月25日晚,官方終於在海內外官方賬號上正式宣佈V3模型完成小版本升級的訊息,並介紹了新版本DeepSeek-V3-0324模型的提升細節,包括推理、前端開發、中文寫作、中文搜尋幾個方面的能力最佳化。
值得一提的是,25日下午,海外專業AI模型評測機構Artificial Analysis釋出的最新排名顯示,新版V3模型現在是得分最高的非推理模型,超過xAI的Grok3和OpenAI的GPT-4.5(preview)。

“這是開放權重模型首次成為領先的非推理模型,對於開源來說是一個里程碑。”Artificial Analysis官方表示,此版本可以說比DeepSeek的R1模型更令人印象深刻,並且可能預示著R2模型將是另一個重大飛躍。
此次釋出的新版V3模型採用MIT許可(允許模型蒸餾、商用),意味著其可以被自由用於商業用途。
根據官方展示的對比圖,在數學、程式碼類相關評測集上新版V3模型分數排在第一,超過了GPT-4.5、Claude-Sonnet-3.7以及阿里雲的Qwen-Max,但在百科知識上新模型稍弱於GPT-4.5。

新版 V3 模型的百科知識(MMLU-Pro, GPQA)、數學(MATH-500, AIME 2024)和程式碼任務(LiveCodeBench)表現均有提升
DeepSeek介紹,新版V3模型借鑑DeepSeek-R1模型訓練過程中所使用的強化學習技術,大幅提高了在推理類任務上的表現水平。
此外,在 HTML等程式碼前端任務上,新版V3模型生成的程式碼可用性更高,視覺效果也更加美觀、富有設計感。官方例舉了一個用模型生成的程式,畫面是多個小球在指定空間範圍內運動,包含若干可以調整重力、摩擦力等引數的滑動按鈕。
在中文寫作和搜尋任務方面,新版V3模型提升了中長篇文字創作的內容質量,並且可以在聯網搜尋場景下,對於報告生成類指令輸出內容更為詳實準確、排版更加清晰美觀的結果。
官方還表示,新版V3模型在工具呼叫、角色扮演、問答閒聊等方面也有一定幅度的能力提升。
對於新模型,DeepSeek介紹,使用者登入官方網頁、APP、小程式進入對話介面後,關閉深度思考即可體驗。API介面和使用方式保持不變。如非複雜推理任務,官方建議使用新版本V3模型,可以有速度更流暢、效果提升的對話體驗。
根據Artificial Analysis的評測,V3新模型在智慧指數方面躍升了7個百分點,目前領先於所有其他非推理模型。儘管它在智慧指數方面落後於DeepSeek自己的推理模型R1,以及來自OpenAI、Anthropic和阿里的其他推理模型,但其成就仍然令人印象深刻。因為非推理模型可以立即做出回答,而無需花時間“思考”,這使得這一模型在對延遲較為敏感的場景中非常有用。
在V3新模型釋出後,有開發者立刻用其進行了寫程式碼實測,並認為新模型超越了DeepSeek-R1,甚至超越Claude-3.7,“難以想象這還不是一個推理模型。”這位開發者表示,在20個小球碰撞測試中,V3新模型有肉眼可見的進步,之前DeepSeek-V3的小球擠成一團,現在物理運動模擬得非常好。
也有海外開發者用DeepSeek新模型一次性建立了網站,編寫了800多行程式碼,且沒有出現任何故障。“很高興看到這些開源模型如何向大型科技公司施加壓力,以更低的成本構建更好的模型。”他在X上分享表示。
微信編輯 | 生產隊的驢(拉磨版)
推薦閱讀