比R1快8倍、價格僅3％，智譜新推理模型來襲，能讓免費智慧體自己賺錢！張鵬：Agent也有ScalingLaw

作者 | 華衛、褚杏娟

3 月獲了兩筆上億鉅額融資的智譜，現在來“交作業”了。

剛剛，智譜推出最新的 AutoGLM 沉思模型，不僅具備深度研究能力（Deep Research），還能實現實際操作（Operator）。並且，這個會“邊想邊幹”的智慧體還能自己接單賺到錢。

據介紹，14 天前，智譜針對 AutoGLM 沉思小範圍開展了一項秘密測試。其註冊了一個專注於做生活知識科普的小紅書賬號，用該智慧體去不斷生成筆記內容，比如選取咖啡壺、化妝品成分對比等，最終在兩週時間裡收穫了 5000 個粉絲，還接到很多商單的邀請，並在昨天成功發出第一條商單，賺到 500 塊錢。

在現場的 live demo 環節，AutoGLM 又透過一個“用你最擅長的方式，幫我賺 100 塊錢”的 Prompt，展示了自己的“賺錢”能力。在回答過程中，該智慧體對自己進行了多輪的“靈魂拷問”，並自主開啟知乎 / 小紅書輸入要搜尋的資訊、自己選擇好篩選條件，一頁頁瀏覽網頁內容和圖片，透過不斷的思考、反思、糾錯，最終確定了寫作、調查問卷等擅長的方式。

目前，AutoGLM 沉思已在智譜清言 PC 客戶端上線，使用者可免費體驗其研究能力和操作能力。沉思功能也已經正式上線智譜清言網頁端、PC 端和手機 App，免費、不限量地開放。此次釋出的為 preview 版本，核心支援 research 場景。

官網體驗連結：https://autoglm-research.zhipuai.cn/?channel=331#get_started

智譜表示，未來兩週，他們將進一步擴充套件更多智慧體執行能力，包括推出“虛擬機器”版本。此外，智譜還將於 4 月 14 日開源 AutoGLM 沉思核心鏈路的模型和技術。據智譜 CEO 張鵬稱，AutoGLM 背後有一系列的模型能力，Agent 也同大模型一樣存在類似的 Scaling Law。

AutoGLM 沉思背後的核心模型

“讓機器不僅能夠思考，還能主動行動。”智譜表示，這是他們對 AI Agent 的核心理解，目前已經探索到 L3-Agentic LLM 階段。

據介紹，與 OpenAI 的 Deep Research 不同，AutoGLM 沉思不僅能深入研究，還能真正執行任務，推動 AI Agent 從單純的思考者，進化為能交付結果的智慧執行者。它是首個集深度研究能力和網頁操作能力於一體的 Agent。

智譜研究員劉瀟表示，AutoGLM 沉思的能力實現依賴於三個關鍵特性：

深度思考：能夠模擬人類在面對複雜問題時的推理與決策過程。其基於智譜的 Z1 推理模型強化學習訓練，與 Deep Research 基於 o3 模型的訓練過程相似，模型可以根據不同任務目標自主規劃和動態決策，從而不斷地根據反饋調整計劃，而不需要提前設計的工作流。
感知世界：能夠像人一樣獲取並理解環境資訊。該模型具備 GUI 閱讀能力，不僅依靠呼叫 API，還能像人類一樣開啟並瀏覽網頁，找全想要的資訊。
工具使用：能夠像人一樣呼叫和操作工具，完成複雜任務。其整合了智譜自研的 AutoGLM 裝置操作能力，例如能在報告完成後根據結果進一步的傳送郵件。

據悉，智譜很早便佈局 AI Agent，並率先提出 Phone use（AutoGLM），幾乎與 Anthropic 在同一時間釋出了 Computer use。

張鵬表示，AutoGLM 也不是一蹴而就的，它的動腦、動手、能看見，背後是一系列的模型能力。AutoGLM 沉思的技術演進路徑包括：GLM-4 基座模型 → GLM-Z1 推理模型 → GLM-Z1-Rumination 沉思模型 → AutoGLM 模型。

具體來說，智譜在 GLM-4-Air 基座模型的基礎上，訓練出推理模型 GLM-Z1-Air，基於 Z1 模型，結合工具使用和完成長程推理能力，訓練出沉思模型，來作為 AutoGLM 沉思的大腦，最後集成了智譜自研的智慧體技術 AutoGLM，成為 AutoGLM 沉思的“手腳”。

張鵬介紹，之所以叫 AutoGLM 沉思，就是因為在 AutoGLM 沉思背後的模型，是其全新推出的 Agent 大腦——沉思模型，即透過強化學習，讓模型學會自我批評、反思、甚至沉思，並透過更長的深度思考時間換取更優的效果。沉思突破了即時聯網搜尋、動態工具呼叫、深度分析和自我驗證，實現真正的長程推理和任務執行。

全新推理模型：

R1 的 8 倍速度、1/30 價格

在釋出 AutoGLM 沉思的同時，智譜釋出並開源了其最新的推理模型 GLM-Z1-Air（32B）。

據介紹，GLM-Z1-Air（32B）擁有比肩 DeepSeek R1 的推理效能，在推理速度上，極速版 GLM-Z1-Air 最高生成速度可達每秒 200Tokens ，是 R1 的 8 倍，而價格僅需 R1 的 1/30。“不要每個月 200 美元”張鵬調侃道。

此外，GLM-Z1-Air 可在消費級顯示卡上執行，更進一步解放開發者在硬體方面的限制。

基於 GLM-Z1-Air 的基座模型，智譜重新訓練了一個 320 億引數的基模 GLM-4-Air。在 GLM-4-Air 的預訓練階段，加入了更多的程式碼類、推理類資料，並在對齊階段，針對 Agent 能力進行了對齊，使其更擅長工具呼叫、聯網搜尋等 Agent 任務。

據稱，GLM-4-Air-0414 以 32B 引數量比肩更大引數量的國內外主流模型，且在適配智慧體任務方面特別有效。這是因為智慧體任務往往涉及多輪複雜互動，32B 的引數量使得 GLM-4-Air-0414 能快速執行復雜任務。

此外，智譜也在 MaaS 平臺上將免費模型 GLM-4-Flash 的基座版本更新至 GLM-4-Flash-0414，並推出了對應的推理版本 GLM-Z1-Flash，在保留大部分效果的情況下更輕量級、更高速，完全免費呼叫，以適用於更廣泛的應用場景。

基於 GLM-Z1，智譜透過擴充套件強化學習訓練，提升了模型結合工具使用完成長程推理能力，訓練出沉思模型 GLM-Z1-Rumination。據智譜介紹，該模型突破了傳統 AI 單純依賴內部知識推理的侷限，創新性地結合即時聯網搜尋、動態工具呼叫、深度分析和自我驗證，形成完整的自主研究流程：

即時搜尋：主動獲取最新資訊，突破資訊孤島。
深度分析：進行多角度邏輯推理，避免單一思維路徑。
動態驗證：不斷修正假設，提高研究的準確性與邏輯性。

GLM-Z1-Rumination 能夠主動理解使用者需求，在複雜任務中不斷最佳化推理、反覆驗證與修正假設，使研究成果更具可靠性與實用性。智譜表示，相比於傳統的推理模型，沉思模型可引領 AI 助手進入一個“高智商”到“高智商 + 高自主”的階段，自主完成更復雜、更深入的研究任務。

“Agent 界也有 Scaling Law”

AutoGLM 是智譜去年 10 月在 CNCC 上釋出，作為全球首個能夠在手機上執行長達 50 多步 action 的大模型智慧體。AutoGLM 的出現也意味著大模型首次跳出了 Chatbot 的框架，初步具備了與現實世界互動的能力。

最新發布的 AutoGLM 沉思版，其背後的 AutoGLM 能力也隨之演進。

“大家都知道，大模型的預訓練和後訓練存在 Scaling Law。然而，不只是大模型推理滿足這一規律，我們發現 Agent 也存在類似的 Scaling Law。”張鵬說道，“透過擴充套件訓練時的 inference compute，我們觀察到 Agent 展現出了更強的效能。”

張鵬表示，這一 Agent Scaling Law 的背後，是智譜的自進化線上課程強化學習演算法框架，WebRL。智譜透過設計由易到難的任務序列，逐步引導模型從簡單場景向複雜場景過渡學習，從而提升訓練效率和最終效能。這種方法模擬人類學習過程，透過動態調整任務難度，幫助模型積累基礎能力後再挑戰高難度任務，有效避免直接處理複雜問題時的訓練不穩定現象。

在 Agent Scaling Law 的基礎上，智譜進一步發現了 Agent 存在的能力湧現。比如，團隊在訓練過程中從未教給 AutoGLM 沉思訪問過巨潮資訊網，然而當傳送指令“幫我收集昨天關於具身智慧的相關研報”時， AutoGLM 沉思能夠規劃出透過訪問巨潮資訊解決問題的方案，並順利操作了網站。

“AutoGLM 的動手能力目前在行業內處於 Sota，包括瀏覽器、手機和電腦在內的使用工具能力，全面領先。張鵬說道。

在斯坦福大模型中心《AI 指數 2024》選定的智慧體基準評測 AgentBench 上，AutoGLM 系列模型在 5 個測試環境中也取得了 SOTA 的成績。其中，在 Phone Use 基準（AndroidLab & AndroidWorld）中，AutoGLM-Phone 的任務成功率較此前最佳成績提升超過 20%；在 Browser Use 基準上，AutoGLM-Web 也全面超越 OpenAI GPT-4o 和 Anthropic Claude-3.5-Sonnet，展現了在網頁互動場景中的領先能力。