
就在 DeepSeek v3 釋出一個月後,老牌霸主阿里雲通義千問團隊放出了 Qwen2.5 系列的最強旗艦模型——Qwen2.5-Max,在難以作弊的 Arena 榜單上,超越 DeepSeek V3。

這裡多扯一嘴,Arena 這個榜單可不是學術測試集,模型不僅無法提前知道題目,甚至參與測試的人員都無法提前知道在測的是哪個模型。
Arena 榜單採用匿名方式將大模型兩兩組隊,交給使用者進行盲測,使用者根據真實對話體驗對 模型能力進行投票。因此,Chatbot Arena LLM Leaderboard 成為業界公認的最公正、最權 威榜單之一,也是全球頂級大模型的最重要競技場。
不止是 Arena 榜單,包括 LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 在內的一眾基準測試,Qwen2.5-Max 都全面的超越了 DeepSeek-V3。

好傢伙,DeepSeek V3 的王座還沒坐熱乎呢,僅僅一個月就被通義的新旗艦端了嗎??
我注意到,這兩天咱們的各個 Family 群裡也陸續有家人發現這個 Qwen2.5-Max 有點牛逼了——


就連外網都出現了大量百萬閱讀量的討論帖:

還有老哥乾脆跟 ChatGPT 去"Say Goodbye"了——

根據阿里雲官方的說法,這個 Qwen2.5-Max 模型最牛逼的是在於數學和程式設計,還有一個不太常見的名詞“硬提示(Hard Prompts)”——

這個硬提示是 Arena 中的一項能力測試,你可以簡單理解成,考察模型對於一些模糊、抽象、開放、需要創造力的使用者指令,是否能很好的處理。
比如 “寫一首關於夏天的詩”,或者 “宇智波斑能打得過貝吉塔嗎”,這種 case 就非常考驗模型自身的知識儲備、創造力(腦洞)甚至推理能力。
最近特別火的 DeepSeek 的一個回答——

滿滿的家國情懷。
同樣的問題,我問了 Qwen2.5-Max——

好理科腦,又好奇地追問了第二偉大是什麼:

一個預料之外的答案,Qwen2.5-Max 我願稱你為理科狂魔…
你倆真的是一個理科腦,一個文科腦,我好想給 Qwen 和 DeepSeek 磕 CP 啊
當然,在這種考察 AI 腦洞的問題上,主要考察的是提問者的腦洞。所以,你可以在評論區秀出你和 Qwen2.5-Max 的腦洞。
差點忘了給你們貼 Qwen2.5-Max 的傳送門:
網頁端:
https://chat.qwenlm.ai/API 呼叫:在阿里雲百鍊平臺上可以直接呼叫 API 服務

這裡必須要提一嘴,開啟官網後,你能看到下面這個“Artifacts”功能。如果你準備跑一些線上執行的程式設計類問題,一定要勾選這個。
要我說,這次 Qwen2.5-Max 能打敗 DeepSeek-V3,不僅在於榜單和效果上全面超越,這個能即時渲染前端程式碼的 Artifacts 功能也是加了大分。
Qwen2.5-Max 強大的程式設計能力搭配上 Artifacts,玩法瞬間打開了,即使你完全不懂程式設計。
比如你可以直接讓 Qwen2.5-Max 給你線上寫程式碼放煙花——
提示詞:今年過年七彩祥雲的煙花特別火,我想要一個電子版的七彩祥雲煙花動畫
這不妥妥的來自程式設計師的浪漫嘛,哪個女生不心動!
如果覺得放煙花不過癮,想有更多參與感,你甚至可以讓他為你做一個更浪漫的互動式藝術作品——
提示詞:編寫一個程式,生成一幅動態藝術畫。畫布上隨機生成多個點,這些點會按照一定的規則移動(如隨機遊走、相互排斥、跟隨滑鼠等),並留下軌跡。最終生成一幅隨時間變化的動態藝術作品。
你們注意看,我的滑鼠移動到哪兒,這些五彩斑斕的小蝌蚪就跟到哪裡,突然感受到了一股情緒價值…
我甚至隱隱的覺得,如果有一天 AI 足夠強大,這類互動式的藝術作品可能演變為一種新的內容載體。
當然,上面這種輕應用只是好玩,實測讓 Qwen2.5-Max 寫功能性的應用也完全沒問題。
比如讓它生成一個記錄 TODO 列表的小應用。
提示詞:Help me create a to-do list app in JavaScript.

功能演示——
甚至你可以讓他直接寫一個國際象棋遊戲——
提示詞: 製作一箇中國象棋遊戲

這個提示詞真的沒法更簡單了。
看下效果——
實測了一下,象棋規則完整的實現為了正確程式碼,一個雙人對戰象棋遊戲就這樣一次過了。
好了,你可以解除安裝掉電腦上的聯眾世界了。
大火的物理模擬實測
眾所周知,前些天,推特上這條物理模擬的帖子引發了將近 400 萬圍觀。我準備拿來測一下 Qwen2.5-Max。

提示詞:寫一個程式,展示一個球在旋轉六邊形裡邊彈跳。球應受重力和摩擦的影響,它必須實際上從旋轉的牆壁上彈起
這道程式設計題的目標是,實現讓一個球在旋轉的六邊形內彈跳,小球跳動的過程中要遵循重力和摩擦力的影響,是一個逼真的物理模擬 case。下面這個影片是網友跑的 o3-mini 和 DeepSeek R1 的表現:
我加測了一下 Qwen2.5-Max——
哈,竟然翻車了。
不過,在經過人工提醒和一次修正後,它成功了!

效果如下:
小球成功的 duangduang 彈跳、碰撞起來了。
我實測下來,寫的應用專案越複雜,越需要最佳化提示詞,並配合“人工反饋 + 抽卡大法”。這一點像文生圖/文生影片賽道的特點了。
隨著大模型程式設計能力提升和 Artifacts 渲染邊界擴充套件,可能“人人都是程式設計師”的時代不遠了。
文學測試
雖然根據官方的宣傳和實測體感,Qwen2.5-Max 的理科能力非常強。但當我順手跑了一下文學題目後,發現它的回答同樣兼具溫度和智慧。
比如你們看這個——

有被感動到!它居然在寫信之前,告訴我們“每個人都有選擇自己生活的權利,包括生育”。而且,整封信都在用溫柔且開放的語氣,最後還提出建議調整標題。
我只能說:真的不是人,它一點也不刻薄!
壓軸:AI 專用變態測試系列
當然,文科理科並不能代表 AI 能力的全部。
既然你是個 AI,那一定少不了《AI 專用變態測試系列》題目。
比如這道 Family 群裡一位家人提出的倒裝句測試題,已經難崩了包括 DeepSeek、Gemini 等在內的一眾 AI——

我丟給 Qwen2.5-Max 後——

竟然真做對了!
這個還是蠻神奇的。雖然不是每句話的倒裝都能對,但我發現 Qwen2.5-Max 這方面的“抗壓能力”確實更勝一籌。
你如果質疑它看不懂倒裝句,還會收穫一條充滿情緒價值的回答——

最難的草莓測試
寫本文的時候,咱們剛好推送了 Gemini 2.0 全家桶釋出的文章,評論區逮到一個評論 ⬇️

好啊,兩年過去了,草莓測試還是這麼難嗎?
剛剛釋出的 Gemini 2.0 Pro 在這道題上也是翻車了——

草莓這道題,就好像大模型頭上的一個痦子,那麼小,又那麼礙眼。

雖說我三歲的小侄子都能數對,但是對於 2 歲(從 ChatGPT22 年 11 月算起)的大模型來說還是很難。
有專業的粉絲指出,帶反思的推理模型才能解的好。

但我順手丟給 Qwen2.5-Max 後——

竟然對了!
但要注意,我實測下來發現,不是每個單詞都能這樣一句話做對。但是,如果你在提示詞後面加一句“一個一個的數”,Qwen2.5-Max 數字母會非常穩。比如這道題——

但我發現,這個提示詞技巧,對大部分其他國產模型是不生效的,不得不說 Qwen2.5-Max 的指令遵循和綜合能力確實強,大家可以實測一下。
結語
在對 Qwen2.5-Max 深度評測後,我想到了一句話——
有人逐日,有人摘星。
DeepSeek V3 的釋出和爆火,讓我們看到了 MoE 模型的潛力,讓世界看到中國 AI 的鋒芒。
探索 AGI 的路上並不孤單,DeepSeek 和 Qwen 都是中國 AI 大模型的代表力量,當然還有很多優秀國產代表。
說個冷知識,DeepSeek 將 R1 蒸餾出的 6 個小尺寸模型,有 4 個用的是 Qwen 開源模型,李飛飛最新發布的 S1,也是用 Qwen2.5-32B 作為基座模型。
Qwen 在研發超大規模的 MoE 模型上一直在持續努力,2024 年 6 月 Qwen 就開源過一個 57B 的 MoE 模型,這次使用超過 20 萬億 token 的預訓練資料及精心設計的後訓練方案進行訓練,祭出了 Qwen2.5-Max 這個新的王炸。
為同一個 AGI 的目標努力,我們都是一家人。
逐日與摘星, 東方星空會更加璀璨。


