智譜釋出最快的推理模型!效果媲美DeepSeekR1,速度吊打,快8倍!

從 GPT-4o & o1 到Claude3.5 & 3.7,再到 DeepSeek-V3 & R1,大家都在卷智商,卷大引數。

但今天智譜AI給我們帶來了一個全新的方向:在卷智商的同時,我們也需要把反應速度捲起來!
這裡先問大家一個問題,有沒有覺得在試用各大廠商的推理模型時候,看著他們一個字一個字的往外蹦,實在是太慢了,導致很多時候不太願意用。
這次,智譜團隊帶著全新的AI“三板斧”來了,是大家用得起的“斧”,也是一把小巧的“斧”,更是是一把非常鋒利的“斧”:
  • GLM-4(基座通用):9B的對話模型和32B的基礎模型
  • GLM-Z1-Air(極速推理):9B和32B的推理模型
  • GLM-Z1-Rumination(深度沉思):32B的沉思模型
此外,頂級域名“z.ai”也正式上線,目前z.ai集合了沉思模型、推理模型、對話模型。
智譜MaaS平臺:https://bigmodel.cn
Z.ai:https://chat.z.ai
開源地址:https://huggingface.co/THUDM

模型解讀:智譜三大重磅產品上線

1. GLM-4-Air-0414(基座模型)

這次的基座模型僅僅只有32B,相比DeepSeek-R1上千億的模型來說輕便太多了。
當然,在輕便小巧的同時,它還不丟失強大的效能以及豐富的功能。
因為Air模型在訓練時加入了程式碼、推理類資料,也支援多語言工具呼叫、聯網搜尋等 Agent 功能。此外,z還有一大亮點,在Z.ai平臺上它支援即時預覽 HTML/CSS/JS 程式碼執行結果(像調 IDE 一樣對話調程式碼)
比如:
設計一個支援自定義函式繪製的繪圖板,可以新增和刪除自定義函式,併為函式指定顏色。

在各項基準測試,比肩各大廠商的大引數模型。

2. GLM-Z1-Air(推理模型)

在32B的GLM-4-Air-0414的基礎上,他們引入了更多推理類資料,並在對齊階段深度優化了通用能力,推出了全新的深度思考模型 GLM-Z1-Air,以及變種版本 GLM-Z1-AirX 和 GLM-Z1-Flash
在多項基準測試上,媲美OpenAI-o1mini以及DeepSeek-R1。API呼叫價格也是R1模型的 1/30,可以說是價效比之王了。

但是重點來了,極速版 GLM-Z1-AirX 是國內速度天花板!!!
有8倍推理速度,最高達到 200 tokens/秒!!!

可能大家對這個沒有什麼概念,一起來看一段對比影片感受一下。
結果非常明顯,在雙方都獲得正確答案同時,AirX是快了不少的。
我仔細研究過後,發現他們採用了冷啟動與擴充套件強化學習策略,並針對數學、程式碼、邏輯等關鍵任務進行了深度最佳化訓練。
最後,GLM-Z1-Flash也是唯一免費API呼叫的推理模型。
智譜團隊真的是費勁心思,讓大家體驗到AI的紅利啊。
也許會有網友質疑到,為啥需要這麼快的模型,只要卷智商不就可以了。
這裡我也是思考了一下這個問題。高速推理的模型更加適用家用和商業機器人大腦,以及自動駕駛的快速決策,因為這兩個場景對於速度上有著極高的要求。
如果覺得32B還是太大,智譜團隊還溫馨的提供了9B版本的方便大家,在自己的電腦上試用,然而效能還是意外的強。

3. GLM-Z1-Rumination(沉思模型)

當我們以為推理模型可能,到了AI發展的階段性頂部的時候,他們又推出了沉思模型 GLM-Z1-Rumination,也是首個開源Deep Research的模型。
大家可能對這個概念不是很瞭解。比如R1的模型是可以反覆推理以及思考確定性的答案,例如:數學題。
但是沉思模型擅長回答開放性以及不確定性的問題,這些問題需要我們人類反覆思考斟酌, 甚至要上網查一百個資料、搜尋資料庫……至少花上半天的時間才能完成。
這些問題通通被沉思模型在幾分鐘內解決。
再來個具象化的類比:
  • 搜尋模型:本科生
  • 反思模型:碩士
  • 沉思模型:博士
一句話概括此模型的能力就是:自主提出問題—搜尋資訊—構建分析—完成任務,非常適合研究型寫作和複雜檢索任務。

官方推薦配置:
  • 32B:1 張 H100 / A100 或者更先進的NVIDIA旗艦顯示卡
  • 或者 4 張 4090 / 5090 / 3090

我的實戰測評

  1. GLM-Z1-Air VS DeepSeek R1:速度測試
這裡我問了一個有些難度的數學問題,非常考驗模型推理能力+數學知識。
求所有滿足下式存在正整數 (x, y) 的素數 (p): [ x(y^2-p) + y(x^2-p) = 5p. ]
先說結論,在答案都對的情況下,GLM-Z1-AirX用時2分鐘,然而DeepSeek-R1用時4分鐘,快了一倍。這個速度還是很誇張的。
GLM-Z1-Air回答:
DeepSeek-R1回答:
  1. 沉思模型測試
這裡我想讓它幫我做一個綜述初稿。
中低資源語言的機器翻譯有哪些最新方法: 上網查學術資料(如ACL Anthology、arXiv), 彙總不同方法的優劣, 按照年份、語言類別等進行分類, 甚至嘗試寫個 survey 初稿.
我們可以看到,它先採用思考方式發出提問,然後進行網路搜尋,最後收集資料,再進行新的一輪,直到任務結束。

在我去客廳做杯咖啡的時間,它就把綜述呈現給我了,如果讓我親自來做估計得好幾天。
最後,如下圖所示,把段落重點都寫的非常清晰,最後還帶上了參考文獻,真的是省時又省力。

最後一件事

頂級域名Z.ai也上線了。其中支援模型有:
  • GLM-4-32B(基座模型):具備強大程式碼生成能力,支援全新 Artifacts 功能,打造互動式開發體 驗。
  • Z1-32B(推理模型):超強推理效能,線上體驗最高達 200 Tokens/秒 的極速輸出。
  • Z1-Rumination-32B(沉思模型):可以體驗 Deep Research 的強大能力,適合做深度調研。

最後一句話

智譜這次“三板斧”的釋出,也是加速了國產大模型生態的發展。其深度思考模型彌補了國產生態上長期缺失的一環——“思考+執行”的閉環。
更加是奠定了大模型接下來的發展趨勢-小而精
隨著 Z.ai 正式開放、MaaS 平臺上線、模型全量開源,會不會迸發出新的一波AI應用熱潮呢。
大家可以在評論區討論一下自己的使用體驗。
如果喜歡這樣的內容,請點贊+關注,我會持續為大家追蹤最新熱點。我是Jack,我們下期再見。

·················END·················


相關文章