智譜釋出國內最快的推理模型!效果比肩DeepSeekR1,速度快8倍,高達200Tokens/s

我發現,AI 領域的競爭越來越多元化了。
以前,大家往往比拼模型的引數規模、模型效果;後來,大家開始卷價格;就在今天,智譜 AI 這位老哥,突然開源了一個速度起飛的推理模型,直接把“速度”這張牌打成了王炸。

有多快呢?

推理速度最高達到 200 Tokens/s,是 DeepSeek-R1 常規速度的 8 倍。
這還沒完。
這只是智譜剛推出的推理模型 GLM-Z1-AirX,還有一個高性價比版本 GLM-Z1-Air,不僅在效果上硬剛 671B 引數的 DeepSeek-R1,而且價格捲到了後者的 1/30。

感覺空氣中都瀰漫著一股“內卷終結者”的氣息。

GLM-Z1-Air 效果表現

先來看一下 GLM-Z1-Air 在一系列學術測試基準上的效果表現。

在 AIME 24/25 (數學推理)、LiveCodeBench (程式碼生成)、GPQA (科學問答) 這些硬核基準測試中,GLM-Z1-32B 基本上做到了對 671B 引數量 DeepSeek-R1 的效果打平。考慮到兩者引數量級的巨大差異,這表現堪稱不錯了。
此外,我注意到,GLM-Z1-32B 與同等引數量的 QwQ-32B 模型相比,其在綜合工具呼叫、科學測試基準上表現更優,其他測試基準上整體持平。
根據官方的描述,這個模型透過冷啟動和擴充套件強化學習,專門針對數學、程式碼、邏輯推理等任務進行了深度最佳化。智譜還引入了基於“對戰排序反饋”(Battle Rank Feedback)的通用強化學習,讓它在解決複雜問題上的能力有了顯著提升。
一句話總結——
非常值得將其拿來上手實測一下。

一手實測

先來一道物理場景推理的題目開開胃。
(科學題):密閉房間內有冰塊懸浮於水面上的杯子,室溫恆為 25°C。當冰塊完全融化後,水面高度如何變化?若冰塊中含一枚鐵釘,結果是否不同?
Z1-Air 的結果——

手拿把掐,輕鬆透過。
這兩天,夕小瑤 family 群裡對一種型別的題討論尤其激烈,就是設定幾組規則,推理出一組數字,當然數字越多推理難度越大,算是一道非常單純的邏輯題,這裡我們來測一下。
甲、乙、丙三個海盜發現了一個巨大的保險櫃,可惜保險櫃上掛著一把密碼鎖。鎖的密碼由 5 個不同的數字組成。於是,他們胡亂猜了起來(如下所示)。他們每人都猜對了位置不相鄰的兩個數。根據 3 個已知條件,推斷出密碼是多少!
猜測:
甲:8 4 2 6 1
乙:2 6 0 4 8
丙:4 9 2 8 0
Z1-Air 的結果——
我順便測了下 R1——
我自己嘗試著算了算,一分鐘後果斷放棄看答案。。給兩個模型都是隻有一次機會,Z1-Air 正確,R1 卻翻車了。這是我沒想到的。
接著,我準備了一道陷阱題——
五斤花生可以榨四兩油,現在有十斤花生,可以榨的花生有多少?

不出意外,它沒能繞開。但我不死心試了幾乎所有主流在用的模型,包括 R1、2.5 Pro、grok,這道題全掛,暫且劃到對於 reasoning 類模型來說屬於超綱吧。
此外需要提一嘴,這個 GLM-Z1-Air 模型不僅開源,而且在智譜 AI 開放平臺中,分成了三個版本可供 API 呼叫:
  1. GLM-Z1-Air:高性價比版本,價格只有 DeepSeek-R1 的 1/30
  2. GLM-Z1-AirX:速度天花板版本,雖然價格更貴,但 200 Tokens/s 的推理速度很難讓人拒絕,而且提速後依然比 DeepSeek-R1 便宜不少。
  3. GLM-Z1-Flash:免費版本。推理模型都發布了免費版本的 API,這個我確實沒想到。
老規矩,貼一下傳送門:
https://www.bigmodel.cn/dev/api/normal-model/glm-4

智譜 GLM-4-32B-0414 全家桶

除了上面的推理模型 GLM-Z1-Air 系列之外,其實智譜這次還一口氣開源了包括對基座 Chat 模型以及前段時間釋出不久的沉思模型,且分了 9B 和 32B 兩個尺寸。
全家桶細節可以見下表——

先來說說 GLM-4-32B-0414 這個對話模型。
雖然 GLM-4-32B-0414 不是推理模型,但智譜不僅給它餵了 15T 的高質量資料進行預訓練,而且還塞了不少推理類的合成數據。 因此,這個 GLM-4-32B 模型的程式碼生成能力得到了不錯的改善,據說能夠直接搞定更復雜的單檔案程式碼生成了。

從學術測試基準來看,GLM-4-32B-0414(藍色柱子)在指令遵循 (IFEval)、綜合工具呼叫 (BFCL-Overall)、智慧體工具呼叫 (TAU-Bench)、搜尋問答 (SimpleQA/HotpotQA) 等多個維度上,都表現出了非常強的競爭力,部分指標甚至超越了 DeepSeek-R1 和 GPT-4o-1120。
比如官方貼了一個測試 case,讓它設計一個移動端機器學習平臺——
提示詞:給我設計一個移動端機器學習平臺的 UI,其中要包括訓練任務,儲存管理,和個人統計介面。個人統計介面要用圖表展示使用者過去一段時間的各類資源使用情況。使用 Tailwind CSS 來美化頁面,把這 3 個手機介面平鋪展示到一個 HTML 頁面中
程式碼執行結果——

這個完成度和頁面邏輯的合理性,實在挑不出什麼毛病。
再或者,讓其製作 SVG 圖片——
提示詞:用 svg 展示一個 LLM 的訓練流程

這個 SVG 的可用性也挺高的,我對比了一下 DeepSeek-R1 的同提示詞輸出——

雖然 R1 在流程圖的每個節點做了更為詳細的註釋,這點好評,但可惜的是連線的時候崩了。
再來看看沉思模型 GLM-Z1-Rumination-32B。
這個模型,源自智譜對 Deep Research 策略訓練的探索。簡單來說,就是賦予模型一種進行深度研究的能力。
官方給了一個很形象的類比:
  • 普通搜尋 = 本科生,能快速找到資料。
  • 帶反思的推理模型(類似 Z1) = 碩士生,能對資訊進行整理和初步分析,給出幾百上千字的概述。
  • 沉思模型(Rumination) = 博士生,具備深度研究能力,能獨立思考、查閱文獻、整合分析,最終輸出一份非常詳盡、甚至上萬字的報告。
這個模型的核心特點是“沉思”(Rumination)。它不像普通模型那樣追求快速回答,而是願意花費更長的時間(文件裡提到可能長達 5 分鐘甚至更久)進行深度思考,來解決那些更開放、更復雜的問題。
它能在思考過程中主動結合搜尋工具處理複雜任務,利用多種規則型獎勵來指導和擴充套件端到端的強化學習訓練。支援一個完整的 “自主提問 → 搜尋資訊 → 構建分析 → 完成任務” 的流程。
這種模型在需要深度研究、複雜內容生成、長篇報告撰寫等場景下,潛力巨大。
以上就是 Z1-Rumination 解決一個開放式研究問題的例子:撰寫關於北京和杭州 AI 發展對比,並分析國外城市 AI 治理案例,規劃未來發展。這種任務,顯然需要模型具備超越簡單問答的深度思考和資訊整合能力。
這裡我真的要強調一嘴——
包括谷歌、OpenAI 在內,各家都把 DeepResearch 功能藏著掖著,連 API 都不開放,如今智譜卻乾脆把模型都開源出來了。這個動作非常值得點贊。

而智譜這次開源,一如既往的走 MIT 開源協議,可完全商用。
當然了,除了自行開源部署外,也可以直接在智譜 AI 開放平臺呼叫 API,我整理了一下價格——

只能說,智譜的 API 定價從來不讓開發者失望。

彩蛋:z.ai 神級域名上線

智譜這次,還正式啟用了全新的全球域名:
z.ai
我截了個圖:

從此,全球使用者都可以在 z.ai,直接與智譜最新的模型進行互動了。
最後,我想給智譜配合這次新模型 + 新域名釋出提出的 Slogan 點個贊——

相關文章