就在剛剛,智譜正式釋出最新旗艦模型 GLM-4.5。按照智譜官方說法,這是一款專為 Agent 應用打造的基礎模型。
延續一貫的開源原則,目前這款模型已經在 Hugging Face 與 ModelScope 平臺同步開源,模型權重遵循 MIT License。
GLM-4.5 在推理、程式碼、智慧體綜合能力達到開源模型 SOTA 水平
GLM-4.5 採用混合專家(MoE)架構,3550 億總引數/320 億啟用引數;GLM-4.5-Air:總引數量 1060 億,啟用引數為 120 億
兩個版本均已全面開源,支援 MIT License
均支援混合推理模式:用於複雜推理和工具使用的思考模式,以及用於即時響應的非思考模式
API 呼叫價格輸入 0.8 元/百萬tokens、輸出 2 元/百萬tokens;高速版最高可達 100 tokens/秒
GLM-4.5 這次比較大的技術亮點,是首次在單個模型原生融合了推理、編碼和智慧體能力。別人家的模型要麼擅長推理,要麼擅長寫程式碼,要麼擅長當助手,而 GLM-4.5 說自己全都要。
智譜選了 12 個最具代表性的評測基準來「秀肌肉」,包括 MMLU Pro、AIME 24、MATH 500、SciCode、GPQA、HLE 等等,這些也都是我們的「老熟人」了。結果綜合平均分,GLM-4.5 交出了一份全球模型第三、國產模型第一、開源模型第一的成績單。
當然,光跑分沒用,還是更實戰的測試才有說服力。為了證明 GLM-4.5 在真實場景 Agent Coding 中的實力,智譜乾脆直接接入了 Claude Code,與 Claude-4-Sonnet、Kimi-K2、Qwen3-Coder 等模型一較高下。
測試方案相當硬核:總共 52個程式設計開發任務,涵蓋六大開發領域,全部在獨立容器環境中進行多輪互動測試,主打一個真刀真槍地幹。
結果顯示,雖然在面對 Claude-4-Sonnet 時仍有較大的提升空間,但 GLM-4.5 在工具呼叫可靠性和任務完成度方面的表現還是相當突出。
甚至智譜還把測試題目和 Agent 軌跡全部公開了(https://huggingface.co/datasets/zai-org/CC-Bench-trajectories),給我一種歡迎同行來「打假」的即視感。
再來看看幾個比較有說服力的 Demo,含金量也不低。在 z.ai 官方網站簡單輸入提示詞「做一個 Google 搜尋網站。」,GLM-4.5 真就能一句話生成一個真的能用的搜尋引擎。
由 GLM-4.5 打造的量子功能箱各項功能齊全,充分展示了模型的綜合能力。
更復雜一點的,還能讓它生成一個可點選縮放的 3D 地球頁面。使用者可以點選地點檢視詳情,並伴有平滑的縮放動畫。
提示詞:Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I've visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.
與傳統 AI PPT 工具使用模板填充資訊不同,GLM-4.5 會自主搜尋資料、尋找配圖,根據實際材料直接以 HTML 形式編寫圖文。
除了常規的 16:9 比例,還能靈活支援社媒封面、長圖、甚至個人簡歷。
開發者體驗這塊,國產廠商也開始「捲起來」了。比如 GLM-4.5 就相容 Claude Code、Cline、Roo Code 等主流程式碼智慧體。完整使用指南看這裡:
https://docs.bigmodel.cn/cn/guide/develop/claude
海外使用者:
https://docs.z.ai/scenario-example/develop-tools/claude
如果說前面都是「面子」,那技術核心才是 GLM-4.5 真正的「裡子」。
冷知識,GLM-4.5 的引數量僅為 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但效能卻不打折,而這背後正是歸功於 GLM 模型更高的引數效率。
尤其是 GLM-4.5-Air,用 106B 總引數 / 12B 啟用引數,在推理評測中已經逼近 Gemini 2.5 Flash 與 Claude 4 Sonnet。
在 SWE-bench Verified 榜單上,它還位列效能/引數比的帕累託前沿——換句話說,用更少的體量,跑出了更優的價效比。
效能提升的背後,則離不開訓練過程的「大力出奇跡」。GLM-4.5 和 GLM-4.5-Air 使用了相似的訓練流程:首先在 15 萬億 token 的通用資料上進行了預訓練。
接著在程式碼、推理、Agent 等領域的 8 萬億 token 資料上進行了針對性訓練,最後透過強化學習進一步增強了模型的推理、程式碼與智慧體能力。有錢有資源,確實可以為所欲為。
此外,GLM-4.5 在成本和效率上的突破可能更具殺傷力。
API 呼叫價格低至輸入 0.8 元/百萬 tokens,輸出 2 元/百萬 tokens,同時,高速版本實測生成速度最高可至 100 tokens/秒,支援低延遲、高併發的實際部署需求,真·價格屠夫。
目前,API 已上線開放平臺 BigModel.cn,一鍵相容 Claude Code 框架。普通使用者也可以上智譜清言 (chatglm.cn) 和 Z.ai 體驗滿血版 GLM-4.5。
值得一提的是,上個月,OpenAI 在旗下的 Global Affairs 賬號發表的報告中,也是直接點名智譜,稱其在全球 AI 競賽中取得了顯著進展,語氣可以說是罕見直白。
回過頭來看,智譜算是增長勢頭比較穩定的廠商。節奏一直沒亂,模型迭代跟得上、開源尺度放得開,方向感也不飄。
這麼看來,它能成為「AI 六小龍」中第一個啟動 IPO 的玩家,也就不那麼意外了。