沒有基礎模型，就做不了Agent。

作者丨馬曉寧

編輯丨陳彩嫻

3月27日，OpenAI釋出GPT-4o原生影像生成功能，效果炸裂令人震撼，以至於這兩天在網上出現了一個很流行的段子：

如果兩個人都在前年開始投身 AI 影像生成領域，一個人花大量時間和金錢投入 ComfyUI 和工作流的研究，另一個人兩年都在遊山玩水，那麼 GPT-4o 釋出更新之後，他們仍然站在了同一起跑線上。

這個段子說出了不少創業者內心的恐慌。換句話說，你很難說服自己（和投資人）相信，你不只是一直在一架上升中的電梯裡做俯臥撐。

每當基座模型能力突破某個臨界點，此前以工程最佳化能力作為賣點、從而實現某個型別能力的應用，就立刻失去價值。儘管“模型無關”的思想出現，但事實上基於模型開發的上層應用始終沒有擺脫基座大模型的支配。文生圖產品如此，近日來火熱的 Agent 也如此。

雖然 Manus 掀起了 Agent 的熱度，但不少業內人認為，“如果一個 Agent 團隊沒有基座模型與強化學習技術，只是單純的產品人員做 Agent，那麼最終必然被模型公司吞噬。”

這個觀點並非悚然聽聞：因為結合了大模型與強化學習技術的 Agent 本質上就是人工智慧時代的“AI Being”（類似於 Human Being），可以完成從理解任務、思考推理、決策執行的全流程。區分於過往的 AI 工具，前者只能完成一個環節、且需要由人來指導，終極 Agent 則完全自主、且能執行完整個流程、繼而代替一個工種。

由於 Agent 基於大模型與強化學習，那麼不難想象：如果說 Agent 是一個個“畢業生”，掌握基礎模型與強化學習的大模型公司就是正規大學，只掌握強化學習、不掌握基礎模型的團隊就是課外輔導班，而基礎模型與強化學習都不掌握的純 Agent 公司則很可能連牌照都沒有。

今天，智譜在中關村論壇上釋出它們首個集深度研究能力和操作能力於一體、並且直接上線客戶端的最新 Agent 產品 AutoGLM “沉思” ，驗證了這一趨勢的發生。智譜釋出的 Agent 打響了模型廠商反擊的第一槍，也意味著 Agent 的競爭進一步加劇。

大模型與 RL 才是 Agent 的核心

Agent 的機會，追根到底，還是大模型公司的機會。所謂的模型即產品，無論是說未來的模型自己即可成為產品本身也好，還是說未來的產品都是模型也好，這兩種說法都是隻有視角的差別，卻不能否認一個事實，模型和產品二者密不可分。

Agent 這一概念起初來自於強化學習，並不是有了大模型之後才有的概念。市場上現在流行的一些產品，只是workflow的堆積，其實更多是魚目混珠。

具有自我學習和決策能力的Agent，其起源可以追溯到AlphaGo的問世。在此之前，傳統遊戲 AI，如打敗人類國際象棋世界冠軍的超級計算機“深藍”，依賴的是人類棋譜和專家編寫的評估函式，並非具備人一樣的思維，更別提比人聰明。

AlphaGo 劃時代的意義在於，它是直接透過深度神經網路，直接從資料中學習棋局評估和落子策略的。它有自我學習的能力，擺脫了對人工經驗規則的路徑依賴，第一次證明了資料驅動+強化學習的正規化，可以突破人類經驗的侷限。

強化學習的基本原理

這種能力遷移的底層邏輯，正是當前大模型 Agent追求的核心目標——讓 AI 在複雜開放環境中自主進化。能達成這一目的，最重要的手段，就是強化學習。

沒有強化學習，就做不了Agent。OpenAI 的 Deep Research團隊在訪談中多次強調，基於強化學習的端到端訓練是當前Agent技術革命的核心。因為強化學習能夠解決傳統AI系統在複雜場景下的靈活性難題與泛化能力瓶頸。

到 2023 年文字與多模態大模型的能力大幅提升後，大模型與強化學習技術強強融合，又給 Agent 帶來了新的想象力：基礎模型提供基礎的語言理解、任務拆分與推理能力，此外強化學習又能在 Agent 從大模型分出來後針對某個具體崗位強化其細分能力。

一位強化學習研究員向 AI 科技評論這樣描述 AlphaGo 和當前 Agent 的區別，他說，以前用強化學習訓練AlphaGo，就像是在訓練單細胞生物，雖然也能取得令人驚詫的效果，但單細胞生物只能完成一項任務。現在用大模型與強化學習訓練Agent，更像是訓練人類。

目前基座模型提供的模型能力，相當於一位接受了通識教育的大學畢業生，有著基本的人文素質，但是還沒有足夠的職業技能；那麼經過了強化學習的大模型 Agent ，就像是一個接受了職業培訓的大學生，已經能夠走上工作崗位，處理實際問題了。

2024 年智慧體已進入“千體大戰”，但直到 R1 的出現，強化學習的地位提升，模型的長鏈路思考推理能力增強，OpenAI 釋出 Deep Research、Monica 團隊釋出 Manus 後，Agent 才有了執行完整工作流程的可能。

OpenAI 作為大模型創新者所提出的 Deep Research 在過去數月也驗證了其新的商業可行性。

OpenAI 自己掌握基礎模型，模型與 Agent 均掌握在自己的手上，對 Agent 的定價也有了更大的自主權，Deep Research 定價月付 200 美金可以悉數收入囊中；相比之下，沒有掌握基礎模型的純 Agent 團隊在定價時受到模型 API 價格浮動與模型能力穩定性等多方面的影響。

也因此，Agent 逐漸成為基礎模型廠商的必爭之地，2025 註定是 Agent 爆發的一年。

作為培養 Agent 的大學所在地，智譜同時掌握模型與產品，能夠對 Agent 進行完全自主權的定價。當前對 Agent 定價的標準，業內還沒有形成統一共識，但圈內已有討論，如：模型公司將自己的 Agent 以月、日或次數的形式向需要 Agent 的使用者收費，或定製 Agent 服務。

在這種情況下，由於各個基礎模型的能力有所差異，其培養的“畢業生”能力也有差異，收費的等級也自然不一。模型即產品，這意味著，大模型公司透過 Agent 或將重新獲取“AI 能力收費”的主動權，而不是單純為第三方產品與應用團隊提供交付服務。Agent 也或將成為 AI 2.0 時代的新分水嶺。

第一個做 Agent 的國產大模型

如上文所言，Agent的關卡主要有兩個，第一是要有基座模型，第二則是要有強化學習的能力。

大部分專門做Agent的公司是沒有基座模型的研發能力，擁有強化學習團隊的也是寥寥無幾。唯一的機會，就是不斷用工程能力，最佳化自己的產品體驗，或者用差異性的產品定位，來做出一款功能上有所創新的產品。

但是由於缺乏最底層的模型能力，這種做法也只是給他們在於大模型公司的競賽中稍微爭取一些時間。這就造成了，能夠訓練模型的公司，在開發Agent時，往往也能夠取得事半功倍的效果。

智譜AI是國內最早著手研究和釋出Agent產品的團隊，在經驗上遠超同儕。

根據一些公開資料顯示，智譜清言是國內最早具備了Function Call（函式呼叫）能力的模型產品，在今年1月16日就上線了這項能力，它能夠允許大語言模型動態呼叫外部函式或API，以完成特定任務，是Agent的基礎能力之一；

而在此一年之前，智譜清言上線了GLMs個性化智慧體定製功能，為後續開發自主智慧體打下了良好的基礎；

而且智譜AI還是最早推出裝置操控智慧體AutoGLM的公司，去年十一月的Agent OpenDay上，智譜AI的CEO張鵬當場展示了在AI Agent方面最新成果，一句話就在手機端完成了建群發紅包這一任務，同時還演示了手機遠端只會電腦自動向群聊中傳送檔案。

而今天在智譜清言PC端全新上線的自主智慧體AutoGLM沉思，還學會了自己掙錢。在中關村論壇現場，它能夠自動開啟某網站，搜尋有償徵稿資訊，然後按照徵稿要求寫出對應的文章，並且自動傳送到指定郵箱。

使用智譜AutoGLM沉思處理十進位制轉九進位制問題

國外的通用Agent產品已經相繼問世。Anthropic在去年10月22日就推出了computer use，能夠觀看螢幕截圖，實現移動游標、點選按鈕、使用虛擬鍵盤輸入文字等操作。

OpenAI也於2025年1月23日正式釋出了其最新研發的智慧體Operator，2月2日又推出了名為Deep Research，幫助使用者進行多步驟的網際網路研究，完成複雜任務。

國內的通用Agent產品尚屬罕見。Manus釋出時，作為國內首個同類產品，就曾備受關注。但是Manus此前一直未開放使用，讓中國使用者更為好奇，Agent的功能到底有多強大。

在這次中關村論壇上，智譜AI釋出的最新Agent產品AutoGLM沉思，能力主要體現在三個方面：1、模擬人的思考，尤其是像人一樣的深度研究和反思；2、能夠像人一樣感知這個世界；3、能夠像人一樣使用工具。

OpenAI Deep Research與智譜AutoGLM沉思兩個產品，有不少可以對比之處。

根據官方介紹，Deep Research由一個最佳化版的 o3 模型驅動，專注於網頁瀏覽和資料分析，並基於端到端強化學習進行訓練。它能做到在網際網路上跨模態搜尋、解讀和分析大量文字、圖片及 PDF 檔案，同時根據即時資訊動態調整搜尋策略。

AutoGLM沉思背後的推理模型 GLM-Z1-Air，也是智譜基於擴充套件強化學習技術訓練的新一代推理模型，面對複雜、開放問題，能夠進行推理和反思，為Agent提供了強大的推理、規劃與反思能力。這款模型效果比肩DeepSeek-R1，提速8倍，價格是R1的1/30，可以在消費級顯示卡上執行。

此外，智譜還推出一個學習者免費版本GLM-Z1-Flash，輕量級，速度更快，完全免費呼叫。

除網路搜尋外，Deep Research還可以分析使用者上傳的檔案並提取關鍵內容；使用Python工具製作資料視覺化圖表，將這些圖表和網站抓取的圖片整合到回覆中；為了保證研究結果的可靠性，系統也會嚴格標註資訊來源，精確引用原文中的相關段落。

AutoGLM沉思更進一步，除了深度研究能力，還有操作能力，真正做到了一邊思考，一遍行動。它能夠像人類一樣拆解複雜問題，一邊推理，一邊搜尋，瀏覽數十甚至上百個網頁，檢視如知網、小紅書、公眾號、京東、巨潮資訊等優質但不對外開放API的信源，同時具有多模態理解能力，能夠理解網頁上的圖文資訊，使研究更充分。最後它能總結出調理清晰的長文報告，並提供所有引用來源，讓AI輸出的內容切實可查。

現在AutoGLM沉思還是preview版本，更多支援research相關場景，在未來的兩週將增加更多的Agent執行能力。

最顯著的區別可能是二者的價格。Deep Research每月訂閱費用為200美元，每月限120次查詢機會。而智譜清言上的沉思功能是免費開放給所有使用者的。可以想見，大部分使用者都是首次體驗到真正的自主性Agent。

智譜AI的模型研發能力有目共睹。現在“AutoGLM沉思”從內到外的所有模型技術都是國產自研，包括負責推理規劃的推理模型GLM-Z1-Air、基模GLM-4-Air0414；再到負責執行的AutoGLM，每個模型均為智譜自研，並且將於4月14日開源。

通往AGI的未來

有人稱，AGI要稱為AGI，那麼它的標準就是要能替代80%的人類工作，也就是實現80%以上的人類能力。而Agent是達成這個任務的基本AGI載體。

無論是資料分析，還是內容報告，亦或是長文總結，Agent能力正在逐漸與人類的需求接軌。這將創造出一個全新的賽道，改變人機互動的形態，甚至達到我們現在還無法想象的程度。

人類利用Agent完成連續多步驟複雜任務的執行。最開始，這些任務可能只是純粹的數字任務，接下來，Agent的影響將會逐步蔓延至物理世界，我們生活中的一些簡單事務可以先由Agent接管，比如每天的打車、訂外賣、訂酒店機票，更進一步地來說，Agent還能幫我們完成更多現實世界中的工作，比如找人修水管燈泡等等。

我們正處於AGI的前夜。Agent正如其名，很快就會成為人類的數字代理。大模型公司的第二場戰鬥才剛剛打響。除了模型能力，好的Agent產品才是接下來競爭的關鍵。