國內12家主流大模型，誰是地表最強？親測後發現是它！…

2025-08-06 23:42 郭震AI

你好，我是郭震

大模型GPT-3.5，2022年11月釋出。

可謂春風化雨，雨後春筍一般。

到現在2024年，國產大模型工信部註冊的，已有幾百家。

國產大模型崛起速度之快，令人驚歎。

在如此之多的大模型裡面，如何選擇好用的，還真是個問題。

結合GPT4o和Claude3.5，加上自身的一定使用，總結了如下12家國產大模型：

下面表格，排名不分先後

各自產品對應的logo如下：

文字版介紹：

1 百度：推出了“文心一言”大模型，具備強大的自然語言處理能力，廣泛應用於搜尋、對話等領域。

2 阿里巴巴：釋出了“通義千問”大模型，支援多種語言理解和生成任務，應用於電商、雲計算等場景。

3 騰訊：研發了“混元”大模型，強調多模態融合，應用於社交、遊戲等領域。

4 華為：推出了“盤古”大模型，專注於自然語言處理和計算機視覺，應用於雲服務和智慧裝置。

5 科大訊飛：釋出了“星火認知”大模型，強調語音識別和自然語言理解，廣泛應用於教育和辦公領域。

6 商湯科技：推出了“日日新”大模型，專注於計算機視覺和多模態融合，應用於安防和自動駕駛等領域。

7 智譜AI：研發了“GLM-4”大模型，具備強大的語言理解和生成能力，應用於科研和教育領域。

8 字節跳動：推出了“豆包”大模型，應用於內容創作和推薦系統。

9 360公司：釋出了“360智腦”大模型，強調安全性和資訊檢索，應用於搜尋和安全領域。

10 崑崙萬維：天工AI，雙千億級大語言模型，國內首個AI搜尋產品“天工AI搜尋”。

11 快手：推出了“可靈AI”大模型，應用於短影片內容創作和推薦。

12 月之暗面科技：研發了“Kimi”大模型，專注於對話式服務和智慧助手。

看到這裡的老鐵，可能會有問題，哪家最強呢？

就要看如何評價一個大模型的能力，有三個最重要的指標。

一般來說，衡量指標有三個：第一：文字生成能力；第二：任務推理能力；第三：通用和泛化能力。

文字生成能力：文字生成能力指模型在自然語言生成中的流暢性、語義相關性和多樣性。常用評估方法包括困惑度（Perplexity）、BLEU和ROUGE等指標。

推理能力：推理能力反映模型在邏輯推導、知識應用和因果推理任務中的表現。強推理能力使模型能夠理解上下文並完成複雜問題的解答。

泛化能力：泛化能力體現模型在未見過的資料或任務上的適應性。優秀的泛化能力意味著模型能跨領域、跨語言和多模態高效工作。

而數學推理能力又是重中之重，它體現了模型的智力水平，推理能力強，才能應對複雜任務。

而咱們平時的需求，主要也是以複雜任務為主，否則我們也不會使用它們，簡單的任務，咱們自己就能做了；重複的任務，咱們寫幾行程式碼，就自動化了。

目前openAI的o1推理能力公認最好的，我詢問了它，給出數學推理能力前三強：

但是它的知識目前只學習到了2023年10月，所以排名只能參考。

為了進一步客觀，我又詢問了數學推理能力很強的Claude3.5 ，它的回答如下：

總結來說，智譜GLM-4，文心一言，通義千問，KIMI，是o1和claude3.5給出的答案。

第一輪篩選過後，我再親測上面上榜四個大模型。

測試方法，選擇一個標準數學資料集，就拿GSM8K吧，先找一道典型題目，逐一詢問它們。

選擇下面這道：

為什麼選擇這道題目呢，因為GPT-4o這道題目都無法給出準確答案。

如下所示，給出答案8，這是錯誤的：

這就熱鬧了，看看國產大模型能否答對。

先提問智譜GLM-4，答案10，回答正確：

再提問文心一言，使用3.5，得到答案是8，回答錯誤。已開通會員的可以試試文心4回答是否正確：

再提問通義千問2.5，結果10，回答正確：

最後提問KIMI，結果8，回答錯誤：

經過第二輪一道題測試，發現回答正確的大模型，剩下兩個，分別是GLM-4、通義千問。

最後一輪測試，選擇一道2024年全國卷數學，找一道我還會的選擇題

我先做了下，答案是B：

先提問GLM-4，回答B，結果正確：

再提問通義千問，回答A，結果錯誤：

順便提問了下GPT-4o，它選了C，又錯了：

經過三輪數學測試，就剩 GLM-4。

國產大模型的智力水平，目前已經有超越GPT-4o的趨勢，讓人驚豔！

期待國產大模型和廠家們再接再厲，不斷突破。

備註：要想得出更加客觀全面的智力水平，請參考基於不同整個資料集、不同推理水平測試維度的全面評價，本測試限於篇幅，只做初步測試。

今年大廠面試，競爭激烈，學校好，技術好，才能佔得先機，學校不好只能加倍強化技術，才會有更多機會。

AI教程免費學習訪問入口：

https://zglg.work

更多開源教程訪問網站免費學習

普通人瞭解AI應該做的最重要兩件事：

應該先從AI工具使用開始
應該先了解AI基礎名詞

普通人瞭解AI大忌：

不應該上來就學AI理論
不應該排斥AI，認為AI無用

基於上面，我也花費不少時間，做了一個詳細的開源教程：《普通人學AI指南》.PDF

咱們先別弄那些高深的AI理論，先玩熟AI基本概念、AI工具、自己電腦搭建AI和知識庫。

PDF 指南思維導圖

這個《普通人學AI指南》PDF，一共42頁，都是我來編寫的，完全開源，大家在我下面的公眾號回覆：AI，直接拿走。

以上就是這篇文章。如果對你有用，隨手點個贊、在看、轉發三連吧，如果以後想第一時間收到推送，也可以給我個星標⭐。謝謝你看我的文章，咱們下篇文章再見。

點選閱讀原文，從零學習AI

相關文章

DeepSeek不響應了？幸好有這6個“備胎”，免配置，直接用！

DeepSeek不響應了？幸好有這6個“備胎”，免配置，直接用！

康奈爾大學最新研究：AI集體出現幻覺！GPT-4o、Claude等無一倖免，國產模型資料缺失……

康奈爾大學最新研究：AI集體出現幻覺！GPT-4o、Claude等無一倖免，國產模型資料缺失……

為什麼我的DeepSeek總在一本正經胡說八道？

為什麼我的DeepSeek總在一本正經胡說八道？

DeepSeek的極致諂媚，正在摧毀我們的判斷力

DeepSeek的極致諂媚，正在摧毀我們的判斷力

深度乾貨：DeepSeek+Dify強強聯合，打造企業專屬私有化AI知識庫

深度乾貨：DeepSeek+Dify強強聯合，打造企業專屬私有化AI知識庫

當大模型“吞噬”垂類應用，教育AI如何成為例外？

當大模型“吞噬”垂類應用，教育AI如何成為例外？

知乎直答接入「滿血版」DeepSeekR1！

知乎直答接入「滿血版」DeepSeekR1！

速遞丨成本僅50美元！李飛飛團隊復刻媲美DeepSeekR1的AI推理模型

速遞丨成本僅50美元！李飛飛團隊復刻媲美DeepSeekR1的AI推理模型

原來在千帆上玩兒DeepSeek這麼野，我終於把DeepSeek捏成我想要的樣子

原來在千帆上玩兒DeepSeek這麼野，我終於把DeepSeek捏成我想要的樣子

沒想到，我輕鬆干預了DeepSeek的搜尋結果

沒想到，我輕鬆干預了DeepSeek的搜尋結果

Copyright © 2025 | WordPress Theme by MH Themes