爆了!阿里再次第一…

你好,我是郭震
今年9月,阿里雲開源Qwen2.5大模型,經過1個月的使用,另結合國內外主流榜單,得出結論:爆!Qwen2.5是目前「國內第一開源大模型」。

說到這裡,可能有些人不禁會問,你怎麼證明它是國內最好的開源大模型呢?接下來,給大家論述下,閱讀完後,就知道我說的有無道理。

最近做科研,正好也在比較國內外各個不同的大模型,很多朋友應該聽過GPT-4o這個模型吧,它在很長一段時間都是領先的大模型之一。

今天拿GPT-4o和Qwen2.5,從數學推理維度,測試一道中小學生數學題,題目來自推理資料集GSM8K,題目是英文,英文不好的,直接觀察結果就行:
首先提問GPT4o,給出的答案是8:
然後同樣問題提問Qwen2.5,它給出的答案是10:
看到Qwen2.5的回覆看起來明顯是靠譜的,正確答案的確也是10,這是一道求解一元一次方程的問題,Qwen2.5從推理到最後的答案,回答都超過GPT4o。

在實測了兩者數學推理的能力後,初步證明了Qwen2.5的效能很爆,具有很好的數學推理能力。


看了這個具體的例子,接下來看下各個大模型的榜單排名情況。
9月12日,gpt-o1釋出,大模型的推理能力提升到一個新的level,根據hugging face的大模型榜單:
Qwen2.5是國內第一開源大模型,領先於Llama3.1和GPT-4。
這個榜單名字叫ZeroEval,它是一個非常綜合的榜單,具有很強的說服力。他從四個不同緯度評估大模型能力,MMLU-Redux資料集評估知識推理,文章開頭使用的GSM和MATH(Level 5)評估數學推理,ZebraLogic評估邏輯推理,CRUX評估程式碼推理,ZeroEval榜單介紹原文如下所示:
另外還有更多其他榜單,如下面,Qwen2.5的程式碼能力,紅框所示,超過o1:
所以,想學習程式設計的,可多借助Qwen2.5,提升學習效率。

Qwen2.5佔據國內最好開源大模型,它是如何做到的?
Qwen2.5是在18T tokens資料上進行預訓練,擁有更多的知識、更強的程式設計和數學能力。

Qwen2.5-72B模型正如我們在Zero-Eval榜單中看到的,在MMLU-rudex基準(考察通用知識)、MBPP 基準(考察程式碼能力)和MATH基準(考察數學能力)的得分高達86.8、88.2、83.1,如下圖所示:
在生態上,通義千問(Qwen) 開疆拓土,與海內外的開發者共建生態網路,截至2024年9月中旬,通義千問開源模型下載量突破4000萬,Qwen系列衍生模型總數已超過7萬個,超越Llama,成為國內外衍生模型最多的大模型。
綜合以上各個不同榜單,Qwen多模態訓練和得分,開源社群衍生模型數量,得出結論,目前國內最好用的大模型,Qwen2.5,應該當之無愧!

下面是我創作的一個AI教程,全部開源免費,目前下載量突破10萬:
PDF 指南思維導圖
這個《普通人學AI指南》PDF,一共42頁,都是我來編寫的,完全免費,大家在我下面的公眾號回覆:AI,直接拿走。
以上。如果對你有用,隨手點個贊、在看、轉發三連吧,如果以後想第一時間收到推送,也可以給我個星標⭐。謝謝你看我的文章,下篇文章再見。
點選閱讀原文,學習程式設計和AI


相關文章