爆了！阿里再次第一…

2025-09-02 04:52 郭震AI

你好，我是郭震

今年9月，阿里雲開源Qwen2.5大模型，經過1個月的使用，另結合國內外主流榜單，得出結論：爆！Qwen2.5是目前「國內第一開源大模型」。

說到這裡，可能有些人不禁會問，你怎麼證明它是國內最好的開源大模型呢？接下來，給大家論述下，閱讀完後，就知道我說的有無道理。

最近做科研，正好也在比較國內外各個不同的大模型，很多朋友應該聽過GPT-4o這個模型吧，它在很長一段時間都是領先的大模型之一。

今天拿GPT-4o和Qwen2.5，從數學推理維度，測試一道中小學生數學題，題目來自推理資料集GSM8K，題目是英文，英文不好的，直接觀察結果就行：

首先提問GPT4o，給出的答案是8：

然後同樣問題提問Qwen2.5，它給出的答案是10：

看到Qwen2.5的回覆看起來明顯是靠譜的，正確答案的確也是10，這是一道求解一元一次方程的問題，Qwen2.5從推理到最後的答案，回答都超過GPT4o。

在實測了兩者數學推理的能力後，初步證明了Qwen2.5的效能很爆，具有很好的數學推理能力。

看了這個具體的例子，接下來看下各個大模型的榜單排名情況。

9月12日，gpt-o1釋出，大模型的推理能力提升到一個新的level，根據hugging face的大模型榜單：

Qwen2.5是國內第一開源大模型，領先於Llama3.1和GPT-4。

這個榜單名字叫ZeroEval，它是一個非常綜合的榜單，具有很強的說服力。他從四個不同緯度評估大模型能力，MMLU-Redux資料集評估知識推理，文章開頭使用的GSM和MATH（Level 5）評估數學推理，ZebraLogic評估邏輯推理，CRUX評估程式碼推理，ZeroEval榜單介紹原文如下所示：

另外還有更多其他榜單，如下面，Qwen2.5的程式碼能力，紅框所示，超過o1：

所以，想學習程式設計的，可多借助Qwen2.5，提升學習效率。

Qwen2.5佔據國內最好開源大模型，它是如何做到的？

Qwen2.5是在18T tokens資料上進行預訓練，擁有更多的知識、更強的程式設計和數學能力。

Qwen2.5-72B模型正如我們在Zero-Eval榜單中看到的，在MMLU-rudex基準（考察通用知識）、MBPP 基準（考察程式碼能力）和MATH基準（考察數學能力）的得分高達86.8、88.2、83.1，如下圖所示：

在生態上，通義千問(Qwen) 開疆拓土，與海內外的開發者共建生態網路，截至2024年9月中旬，通義千問開源模型下載量突破4000萬，Qwen系列衍生模型總數已超過7萬個，超越Llama，成為國內外衍生模型最多的大模型。

綜合以上各個不同榜單，Qwen多模態訓練和得分，開源社群衍生模型數量，得出結論，目前國內最好用的大模型，Qwen2.5，應該當之無愧！

下面是我創作的一個AI教程，全部開源免費，目前下載量突破10萬：

PDF 指南思維導圖

這個《普通人學AI指南》PDF，一共42頁，都是我來編寫的，完全免費，大家在我下面的公眾號回覆：AI，直接拿走。

以上。如果對你有用，隨手點個贊、在看、轉發三連吧，如果以後想第一時間收到推送，也可以給我個星標⭐。謝謝你看我的文章，下篇文章再見。

點選閱讀原文，學習程式設計和AI

相關文章

不斷有人在問，這個中國模型到底有什麼魔力？

不斷有人在問，這個中國模型到底有什麼魔力？

為什麼李飛飛團隊經常cue通義千問？

為什麼李飛飛團隊經常cue通義千問？

通義千問Qwen2.5-Coder全系列來咯！強大、多樣、實用！

通義千問Qwen2.5-Coder全系列來咯！強大、多樣、實用！

Qwen2.5-VL系列模型正式開源，千問永遠不會讓你失望|附實測結果

Qwen2.5-VL系列模型正式開源，千問永遠不會讓你失望|附實測結果

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！網友：中國AI正在快速縮小差距

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！網友：中國AI正在快速縮小差距

阿里AI實力獲斯坦福權威報告蓋章！通義千問貢獻排名全球第三、中國第一

阿里AI實力獲斯坦福權威報告蓋章！通義千問貢獻排名全球第三、中國第一

蘋果AI入華合作伙伴揭曉，為何最終牽手阿里？

蘋果AI入華合作伙伴揭曉，為何最終牽手阿里？

阿里震撼釋出！深夜開源Qwen2.5-VL新版本，視覺推理通殺，網友：美國模型完了

阿里震撼釋出！深夜開源Qwen2.5-VL新版本，視覺推理通殺，網友：美國模型完了

阿里雲通義千問在AI對話平臺推出QwQ深度思考模型具有更強的推理和創造力

阿里雲通義千問在AI對話平臺推出QwQ深度思考模型具有更強的推理和創造力

千萬不要嘗試Qwen2.5-Max，你會因此忘掉DeepSeekV3

千萬不要嘗試Qwen2.5-Max，你會因此忘掉DeepSeekV3

Copyright © 2025 | WordPress Theme by MH Themes