徹底爆了!阿里再次拿下第一!

你好 ,我是郭震
今天AI圈又傳來一個振奮人心的好訊息,國產大模型Qwen2.5-Max在權威大模型榜單登頂!
1 榜單分析
Chatbot Arena更新了最新一期大模型榜單,不久前剛釋出的Qwen2.5-Max在數學和程式設計領域排名第一,再次問鼎!再次捍衛了國產大模型的綜合實力。

如下榜單圖來自Chatbot Arena,我原封不動截圖過來。Qwen2.5-Max綜合排名第7名,DeepSeek-V3緊隨其後排名第8:

Chatbot Arena榜單說服力強不強?Chatbot Arena,在業界以測試方法嚴謹科學著稱。他們採用匿名、兩兩組隊的盲測方式,讓使用者根據真實對話體驗對模型投票。此榜單是目前AI界公認的最具權威、最有說服力的榜單。因此,這讓Qwen2.5-Max排名具有很強的說服力。看到這個榜單後,還是很為國產大模型自豪!
進一步再看Qwen2.5-Max與業界領先的其他大模型的得分對比,在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基準測試中,Qwen2.5-Max 表現超越 DeepSeek V3:
難怪國外的網友也認為Qwen2.5-Max 很牛,它用了super cracked來形容,如下截圖所示:
榜單總結,Qwen2.5-Max數學和程式設計排名第一,高難度提示詞排名第二,綜合排名第七,DeepSeek緊隨其後排名第八。
數學和程式設計能力很強的大模型,是最吸引人的,因為這些能力往往是我們平時日常工作需要的,因為只有這些能力強大了,才能更好地解決我們平時那些有挑戰性的任務需求。換句話說,日常簡單的任務我們自己就處理了,不需要大模型。
2 模型測試案例

在寫這篇文章前,我也深度使用了最新的Qwen2.5-Max模型,接下來我來總結使用感受和測試結果。

訪問入口:
https://chat.qwenlm.ai/

進去後,預設選擇的就是Qwen2.5-Max,如下圖所示:

包括 Artifcats, Web 搜尋,圖片生成,影片生成:
根據榜單,Qwen2.5-Max程式設計能力第一名。為了驗證其程式碼生成能力,以一個桌面遊戲叫它生成程式碼,看看它的@pass1成功率,也就是一次生成程式碼後,成功執行並滿足需求的透過率。按照如下方式提問它:

這是它回答的部分截圖:

配置好程式碼執行環境,複製所有程式碼到PyCharm中,如下PyCharm部分程式碼截圖,然後執行程式碼:
使用上下左右箭頭,控制蛇的運動方向,測試下游戲過程,錄製為GIF動畫,限於公眾號內GIF動畫幀數限制,只能展示開始前5幀:
根據鍵盤箭頭控制蛇上下左右運動,可以正常執行,並且吃到紅色色塊(代表食物)後,蛇形長度加1,遊戲邏輯實現沒有問題。
這個遊戲邏輯一次現場執行透過,還是挺棒的。為什麼這麼說呢?貪吃蛇的遊戲邏輯還是有些複雜的,就連精簡的Python寫貪吃蛇,程式碼都得110多行。大家可以試試其他大模型,未必能做到@pass1,我之前試過多個大模型都不行,有的一執行就出錯,有的遊戲過程邏輯不正常。
3 俄羅斯方塊

Qwen2.5-MAX除了直接生成程式碼外,還有直接生成Artifacts功能,可以直接執行生成的程式碼,得到程式碼作品,這就給很多不會搭建程式設計環境的朋友帶來了很大的便利。

接下來進一步加大測試難度,讓Qwen2.5-MAX生成一個俄羅斯方塊遊戲。
遊戲邏輯包括:1)生成不同顏色、不同形狀的色塊 2)不同方塊接觸檢測、單個色塊與遊戲邊界檢測 3)色塊自動下落同時支援旋轉調整方塊形狀 4)自動檢測是否消行(判斷行是否填滿),若滿足條件自動消除此行 5)若發生消行,其他關聯方塊自動更新位置,遊戲結束狀態判斷等。所以,此遊戲的業務邏輯明顯更加複雜,對大模型提出更大的挑戰。
Qwen2.5-MAX直接生成作品的操作步驟如下,第一輸入提示詞:俄羅斯方塊遊戲 純Html+JS實現程式碼,然後選擇Artifacts,最後回車即可:
如下圖所示,左側是程式碼,右側是直接執行出來的作品,使用左右箭頭控制方塊下落位置:

但是我不知道怎麼調整方塊的形狀,直接提問它後知道使用Q或W鍵調整:

第一次試玩過程中出現方塊消行失敗問題,可以理解,這個遊戲邏輯相對複雜,一次性透過難度不小,所以給它容錯的機會 ,反饋這個問題:
然後再執行後問題得以修復,如下所示錄製了GIF動畫,限於公眾號幀數限制,展示其中幾幀,看到透過調整方塊形狀能夠在出現滿行時,自動消行:
再檢測下游戲其他邏輯,比如判斷遊戲終止邏輯,等碰到競技場的上邊界後遊戲結束,並自動開始新的一輪遊戲:
Qwen2.5-Max 同時生成遊戲程式碼和對應的可線上執行作品,所見即所得,省去搭建程式設計環境的那些繁瑣步驟,讓程式設計門檻進一步降低。

以上貪吃蛇遊戲,俄羅斯方塊遊戲,一共2個程式碼檔案,全部完整分享給大家,想要獲取的在下方我的公眾號回覆:

qwen

更多有意思的比如生成一個滑鼠跟隨粒子特效,具體提示詞如下所示,然後傳送給Qwen2.5-Max:
一次生成作品,效果如下所示,大家看看還是很有意思,每次滑鼠一移動就自動生成這種炫酷的粒子特效:
更多其他有意思的程式設計作品生成,大家可以自行去嘗試,限於篇幅,本文就介紹這三個測試案例。
最後總結
Qwen2.5-Max 在 Chatbot Arena 榜單中表現出色,數學和程式設計能力排名第一。
本文測試了其程式碼生成能力,結果表明程式設計能力表現出色;即便難度較大的俄羅斯方塊,它也能輕鬆生成並直接輸出可線上試玩的作品。
以上的測評均在QwenChat上免費測評體驗,感興趣的可以自行前往:chat.qwenlm.ai
Qwen和DeepSeek作為國產雙子星,他們的突破進一步鞏固了國產大模型在國內外AI業界的地位。未來更加讓人值得期待!
以上全文2568字,18張圖。如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個⭐️,謝謝你看我的文章,我們下篇再見。


相關文章