徹底爆了！阿里再次拿下第一！

你好，我是郭震

今天AI圈又傳來一個振奮人心的好訊息，國產大模型Qwen2.5-Max在權威大模型榜單登頂！

1 榜單分析

Chatbot Arena更新了最新一期大模型榜單，不久前剛釋出的Qwen2.5-Max在數學和程式設計領域排名第一，再次問鼎！再次捍衛了國產大模型的綜合實力。

如下榜單圖來自Chatbot Arena，我原封不動截圖過來。Qwen2.5-Max綜合排名第7名，DeepSeek-V3緊隨其後排名第8：

Chatbot Arena榜單說服力強不強？Chatbot Arena，在業界以測試方法嚴謹科學著稱。他們採用匿名、兩兩組隊的盲測方式，讓使用者根據真實對話體驗對模型投票。此榜單是目前AI界公認的最具權威、最有說服力的榜單。因此，這讓Qwen2.5-Max排名具有很強的說服力。看到這個榜單後，還是很為國產大模型自豪！

進一步再看Qwen2.5-Max與業界領先的其他大模型的得分對比，在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基準測試中，Qwen2.5-Max 表現超越 DeepSeek V3：

難怪國外的網友也認為Qwen2.5-Max 很牛，它用了super cracked來形容，如下截圖所示：

榜單總結，Qwen2.5-Max數學和程式設計排名第一，高難度提示詞排名第二，綜合排名第七，DeepSeek緊隨其後排名第八。

數學和程式設計能力很強的大模型，是最吸引人的，因為這些能力往往是我們平時日常工作需要的，因為只有這些能力強大了，才能更好地解決我們平時那些有挑戰性的任務需求。換句話說，日常簡單的任務我們自己就處理了，不需要大模型。

2 模型測試案例

在寫這篇文章前，我也深度使用了最新的Qwen2.5-Max模型，接下來我來總結使用感受和測試結果。

訪問入口：

https://chat.qwenlm.ai/

進去後，預設選擇的就是Qwen2.5-Max，如下圖所示：

包括 Artifcats, Web 搜尋，圖片生成，影片生成：

根據榜單，Qwen2.5-Max程式設計能力第一名。為了驗證其程式碼生成能力，以一個桌面遊戲叫它生成程式碼，看看它的@pass1成功率，也就是一次生成程式碼後，成功執行並滿足需求的透過率。按照如下方式提問它：

這是它回答的部分截圖：

配置好程式碼執行環境，複製所有程式碼到PyCharm中，如下PyCharm部分程式碼截圖，然後執行程式碼：

使用上下左右箭頭，控制蛇的運動方向，測試下游戲過程,錄製為GIF動畫，限於公眾號內GIF動畫幀數限制，只能展示開始前5幀：

根據鍵盤箭頭控制蛇上下左右運動，可以正常執行，並且吃到紅色色塊（代表食物）後，蛇形長度加1，遊戲邏輯實現沒有問題。

這個遊戲邏輯一次現場執行透過，還是挺棒的。為什麼這麼說呢？貪吃蛇的遊戲邏輯還是有些複雜的，就連精簡的Python寫貪吃蛇，程式碼都得110多行。大家可以試試其他大模型，未必能做到@pass1，我之前試過多個大模型都不行，有的一執行就出錯，有的遊戲過程邏輯不正常。

3 俄羅斯方塊

Qwen2.5-MAX除了直接生成程式碼外，還有直接生成Artifacts功能，可以直接執行生成的程式碼，得到程式碼作品，這就給很多不會搭建程式設計環境的朋友帶來了很大的便利。

接下來進一步加大測試難度，讓Qwen2.5-MAX生成一個俄羅斯方塊遊戲。

遊戲邏輯包括：1）生成不同顏色、不同形狀的色塊 2）不同方塊接觸檢測、單個色塊與遊戲邊界檢測 3）色塊自動下落同時支援旋轉調整方塊形狀 4）自動檢測是否消行（判斷行是否填滿），若滿足條件自動消除此行 5）若發生消行，其他關聯方塊自動更新位置，遊戲結束狀態判斷等。所以，此遊戲的業務邏輯明顯更加複雜，對大模型提出更大的挑戰。

叫Qwen2.5-MAX直接生成作品的操作步驟如下，第一輸入提示詞：俄羅斯方塊遊戲純Html+JS實現程式碼，然後選擇Artifacts，最後回車即可：