終於來了，OpenAI的智慧體，但這次掌聲不多

我們終於等到了 OpenAI 的智慧體（Agent）了。

今天凌晨，Sam Altman 親自帶隊釋出了 ChatGPT 的通用型 Agent 模式。

比起當年 ChatGPT 帶給所有人的震撼，姍姍來遲的 OpenAI Agent 少了很多驚喜，因為早在年初我們就見到了類似的產品形態——當時“一號難求”的 Manus，以及 Minimax、Kimi 等陸續釋出的相似產品。

“起大早，趕晚集”，技術強大如 OpenAI，也難免有卷不過的時候。

OpenAI 的 Agent，您終於來了

這年頭髮布 AI 產品，“驚喜”和強大往往是兩回事——畢竟是 Open AI。

在產品的直播演示裡，這款 Agent 展示出的能力還是令人期待的——Agent 模式可以自己訪問網頁、呼叫終端、自動下單，執行從旅行規劃、PPT 製作到影像生成與線上購物的整套流程。

據介紹，ChatGPT Agent 即日起向 Pro、Plus 和 Team 版使用者開放，Enterprise 和 Education 版使用者將於 7 月獲得使用許可權。Pro 版使用者每月 400 次，Plus 和 Team 使用者每月 40 次。

為了實現從“Chat”到“Agent”的表現，OpenAI 結合了 Operator（視覺層互動代理）和 Deep Research（多步驟網頁推理）兩項核心研究成果，一個是“手腳”一個是“大腦”來共同完成任務的拆解、思考、行動的閉環。

這需要三大模組工具的支援：1。文字瀏覽器（Text-based Browser）來處理密集型網頁閱讀任務，提取資訊；2. 視覺化瀏覽器（Text-based Browser），實現在圖形介面中操作滑鼠點選、輸入、截圖等；3. 終端工具（Terminal），來執行程式碼、生成檔案、呼叫 API、與其他系統整合。

據 OpenAI 介紹，這款 Agent 不僅能執行，還能評估執行效果，並在每一步中動態選擇最優路徑。而使用者可以隨時插話調整指令，或臨時接管任務程序。

其實拆解任務和最佳化任務一直是 Agent 的一個難點。我們可以把 Agent 想象成一個小團隊，有產品、品牌、資料，現在使用者作為老闆下達了一個指令：給我設計一款年輕人喜歡的手機殼。然後大家開始分頭行頭，市場做調研、品牌做推廣，資料盯反饋。

不過這個過程中，大家不免會有衝突，有逾矩，比如市場調研市場可以去發調查問卷，資料部也可以看大資料報告，到底誰來做最高效？所以好的 Agent 總是能自我最佳化，追求最快、最好。

Agent 這麼火？它和 Chatbot 有啥區別？

ChatGPT Agent 和 ChatGPT 到底有什麼區別？

基本的解釋是：Agent 可以完成任務，Chatbot 可以完成對話。這個“任務”和“對話”到底有什麼分別？

舉個很簡單的例子，我現在要決定今天中午吃什麼，我可能會考慮型別、距離、口味，並在最後定一家外賣下單，這就是一個 Agent 式的任務；而一個 Chat 式的任務是，當我已經決定吃日料，我來問：最短距離哪家日料評分最高。

說白了 Agent 能完成的任務，更復雜、更高維、需要更多的工具。

比如，在 OpenAI 的演示裡，操作員讓 OpenAI Agent 挑一套適合參加婚禮的禮服和禮物。Agent 先用文字瀏覽器開啟使用者給的網頁資訊確認婚禮的日期、天氣、位置，然後用視覺化瀏覽器展示可選的禮服效果，之後再繼續搜尋禮物……

另一個操作員交代的任務是給團隊一隻叫 Bernie 的狗狗，也是團隊吉祥物做一批筆記本貼紙，並且訂購 500 份郵寄到相應的地址。

Agent 先是用終端工具 Imagen 生成動漫版圖片，設計貼紙然後再訪問 Sticker Mule 網站，把設計好的圖上傳到網站，填寫了貼紙數量、尺寸等等，選擇訂購 500 分，任務最終停留在請求信用卡資訊上。

做 PPT，也是一個很典型的 Agent 式任務。

OpenAI 團隊演示了讓 Agent 從 Google 雲中提取分析評估資料並製作成 PPT，直接用圖表展示結果。Agent 連結 Google 雲 API 進行搜尋，並讀取相關內容資訊，然後使用影像生成功能，在生成一次 PPT 後，Agent 進行了一次最佳化，生成了一張視覺上更流暢的 PPT。

咋就遲到了？

奧特曼想做 Agent 不是一天兩天了。

其實 OpenAI 早就公佈過自己的“五級路線圖”，一級 Chatbots（聊天機器人）、二級 Reasoners（推理者）、三級 Agents（代理）、四級 Innovators（創新者）、五級 Orgnazations（組織者）。

Agents 作為第三級是整個 AI 進化路徑中，讓 AI 從工具屬性躍升到創新屬性中必經的一環。

只不過奧特曼不是第一個發出 Agent 產品的。

今年 3 月， Manus 推出通用 Agent 產品，當時一夜之間大家全都在“萬能的朋友圈”求測試賬號，一個賬號甚至最高炒到了一百萬。

Manus 借勢 Agent 東風更快速推出產品的很大一部分原因是他們沒有自研大模型，而是用 Claude 等底層基礎大模型來實現產品功能，並將各類功能組合封裝，當時業內也稱 Manus 是一款“套殼”產品。

Manus 之外，MiniMax、Kimi、Perplexity AI 都更先發布了通用 Agent 形態的產品。

所以說，OpenAI 這把推出 Agent 其實是缺乏了先發優勢的，從 ChatGPT 到 Agent，OpenAI 在行業中的位置也從“搶先跑”到了“趕班車”。

除了時間壓力，OpenAI 還不能忽視兩方面的競爭壓力——生態競爭、成本競爭。

一直以來重閉源的 OpenAI 在今年接連受到來自各類競品的打擊。比如 Deepseek，訓練成本是自己的二十分之一，效能表現卻跟自己產品差不多，本來靠閉源 API 商業化做到全球第一的 OpenAI 眼看著英偉達、英特爾、亞馬遜、微軟、AMD 等等科技大廠全部接入 DeepSeek，這讓奧特曼都直接公開反思“閉源策略可能是個失誤”。

成本優勢勢必會帶來生態優勢，這樣的商業規律並不會在 AI 市場上失效。

而即使 OpenAI 在產品上保持優勢，那些“差不多，但便宜很多”的競爭對手的集體圍剿也會讓他體會“被瓜分”的痛——這一點，奧特曼可以和一直陰陽他的馬斯克談談心。

關於 Agent 的想象力，才剛剛開頭

要我說，人類對 Agent 的開發不足 1%。

Agent 的出現和成熟可以完全顛覆一代人。就像網際網路的出現對 90 後的影響，AI 的出現將會影響整個阿爾法世代。