明敏 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
剛剛,大模型競技場榜單上再添一款國產模型——
來自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以總分1332的成績位列總榜第七。
同時還一舉超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

特別是在程式設計、數學等方面表現格外突出,能夠與滿血o1、DeepSeek-R1並列第一。

Chatbot Arena是由LMSYS Org推出的大模型效能測試平臺,目前集成了190多種模型,採用模型兩兩組隊交給使用者盲測,根據真實對話體驗對模型能力進行投票。
也正因此, Chatbot Arena LLM Leaderboard是全球頂級大模型的最權威、最重要的競技場。
在其新開的網頁應用開發WebDev榜單上,Qwen2.5-Max也衝進了前十。

對此lmsys官方評價說,中國AI正在快速縮小差距!

並且親身使用過的網友表示,相比之下Qwen的表現更加穩定。

還有人說,Qwen很快就會取代矽谷的所有普通模型。

四種單項能力登頂
綜合榜單前三名中第一、二名被谷歌Gemini家族包攬,GPT-4o和DeepSeek-R1並列第三。
Qwen2.5-Max則是和o1-preview一起並列第七名,稍遜於滿血o1。

接下來Qwen2.5-Max在各個單項中的表現。
在邏輯性較強的數學和程式碼任務當中,Qwen2.5-Max的成績都超過了o1-mini,和滿血o1以及DeepSeek-R1並列第一。
並且在數學榜單上並列第一的模型當中,Qwen2.5-Max是唯一一個非推理模型。

如果仔細觀察具體的對戰記錄,還可以發現,Qwen2.5-Max在程式碼能力上和滿血o1進行PK的勝率達到了69%。

複雜提示詞任務中,Qwen2.5-Max和o1-preview並列第二,如果僅限英文則可以排到第一,和o1-preview、DeepSeek-R1等平起平坐。

另外,Qwen2.5-Max的多輪對話能力也和DeepSeek-R1並列第一;長文字(不低於500tokens)則排行第三,超過了o1-preview。

此外,阿里還在技術報告中展示了Qwen2.5-Max在一些經典榜單上的表現。
其中指令模型的對比當中,Qwen2.5-Max在Arena-Hard(近似人類偏好)、MMLU-Pro(大學水平知識)等基準當中,都和GPT-4o以及Claude 3.5-Sonnet處於近似或更高的水準。
在開源的基座模型對比當中,Qwen2.5-Max的成績也全面超過了DeepSeek-V3,並遙遙領先於Llama 3.1-405B。

至於base model,Qwen2.5-Max在大多數基準測試中,也都展現出了顯著的優勢(閉源模型base model無法訪問,只能比較開源模型)。

程式碼/推理突出,支援Artifacts
Qwen2.5-Max上線後,大量網友都來實測。
目前發現它在程式碼、推理等方面的表現突出。
比如讓它用JavaScript寫一個象棋遊戲。
因為具備Artifacts功能,一句話開發的小遊戲,可立刻開玩:

它生成的程式碼往往更簡單易讀好用。
複雜提示詞的推理問題上,Qwen2.5-Max快速又準確:
您的團隊處理客戶請求共有3步:資料收集(階段A):每個請求需要5分鐘。處理(階段B):每個請求需要10分鐘。驗證(階段C):每個請求花費8分鐘。團隊當前按順序操作,但您正在考慮並行工作流。如果每個階段分配兩個人,並允許並行工作流程,則每小時的產出將增加20%。然而,新增並行工作流在操作開銷上要多花費15%。考慮到時間和成本,你是否應該使用並行工作流程來最佳化效率?
Qwen2.5-Max不到30秒就可以完成全部推理,將整體過程清晰分為5步:當前工作流分析、並行工作流分析、成本含義、成本效率權衡、結論。
最終很快得出結論:應該使用並行工作流程。
與同為非推理模型的DeepSeek-V3相比,Qwen2.5-Max的回答更簡潔迅速。
亦或是讓它生成一個由ASCII數字組成的旋轉球體,離視角最近的數字是純白的,最遠的逐漸變成灰色,背景是黑色。
數單詞中特定字母的數量更是不在話下。

如果你也想上手實測,Qwen2.5-Max已在Qwen Chat平臺上線,可免費體驗。
企業使用者可以在阿里雲百鍊呼叫Qwen2.5-Max模型的API。

感興趣的同學,速來嚐鮮吧~
— 完 —
一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!