剛剛，OpenAI釋出了自己的Agent模式，ManusStyle

2025-07-18 01:44 極客公園

這次 Plus 使用者也能用。

作者｜Li Yuan

一個共識是，AI 今年的大主題，是 Agent。

如果說過去我們習慣了 AI 的「動嘴」，那麼接下來，就是 AI「動手」的時代。畢竟，既然 AI 已經能聽懂、又足夠聰明，那為什麼不能直接把事兒幹完？

2025 年下半場剛開局，一直在定義 AI 的 OpenAI，突然端出了他們的 Agent 答卷。不過有趣的是，乍一看，它和幾個月前爆火的 Manus 模式，驚人地相似。

7 月 18 日凌晨，Sam Altman 和四位 OpenAI 研究員在直播中介紹了 OpenAI 即將推出的 Agent 模式。

簡單來說，在 Agent 模式下，你可以直接對 ChatGPT 提要求：婚禮缺雙鞋，去電商平臺幫我買了；或者，給我設計個寵物周邊，直接下單列印；查詢資訊，直接生成 PPT。然後，ChatGPT 會自己開啟虛擬機器，一步步操作。

在演示中，一個複雜任務大概需要 10 分鐘完成。但從結果看，完成度很高。ChatGPT 可以在虛擬環境裡可以呼叫文字瀏覽器、視覺化瀏覽器和終端。而基於終端，還可以進一步呼叫雲服務 API、圖片生成器，執行程式碼等。

更關鍵的，這次 OpenAI 不再 Pro 使用者優先，Plus、Team 使用者也將能很快上手，每月可用 40 次。量大，管飽。

Sam Altman 用他標誌性的真誠眼神，對著螢幕說：這是一個全新的正規化。就像我們學會上網，最後也學會了甄別詐騙資訊一樣，現在，整個社會需要學習如何與 Agent 安全地互動和共存。

01

Agent 模式能幹什麼？

直接觀看 OpenAI 的 Agent 模式演示，會發現其直觀體驗與幾個月前爆火的 Manus 高度相似。

在使用者提出需求之後，都會自動開啟一個虛擬機器，開始自動執行一些任務，執行過程中，Agent 會反覆請求使用者確認，並允許隨時手動接管。同時，使用者也能在任務中途植入新需求，進行即時互動。

而在 OpenAI 的介紹中，Agent 模式可以呼叫三種工具：文字瀏覽器、視覺化瀏覽器和終端。模型可以自主選擇切換各種工具。

這種工具組合的設計頗為精巧：文字瀏覽器負責大量瀏覽文字，搜尋資訊，而視覺化瀏覽器則負責定位到資訊之後直接模擬一些鍵鼠互動，或者用來讀取影像資訊。

而終端，則可以執行程式碼，生成包括 PPT、Excel 在內的檔案，和呼叫一些雲端 API。

在 OpenAI 提供的第一個演示裡，研究員提出要規劃參加另一個朋友婚禮的事宜，要挑選一套符合著裝要求的禮服（考慮場地、天氣、中高檔價位）預訂酒店，同時提供禮物建議。

研究員首先在 ChatGPT 裡切換到 Agent 模式，把上述需求發過去。Agent 啟動虛擬電腦、載入環境（大約幾秒）。

然後 ChatGPT 先試用文字瀏覽器打開了使用者給的網頁，搜尋婚禮資訊、著裝要求、天氣等。發現需要進一步確認婚禮日期時，模型也提出了澄清請求，但使用者選擇讓它自己繼續推理。

在找到了天氣、場地資訊後，AI 開始推薦合適的禮服，並切換到視覺化瀏覽器檢查禮服效果。完成任務後，繼續搜尋酒店和禮物。

可以看到，最後給出的婚禮出行建議報告非常長而詳細，涵蓋了服裝、酒店、禮物。甚至附上了非常多的連結，在酒店是否有空位的索引上，還附上了線上預訂網站的截圖。

而完成這樣的一份報告，AI 只花了十分鐘。相比於我們熟悉的一問一答看起來時間是長了很多，但是相比於實際的工作量，AI 看起來還是要比人的效率高太多了。

如果說這個演示還是更加體現其研究能力，另一個演示則直接展示了其動手能力。

研究員要求給團隊的吉祥物（是一隻可愛的狗狗，暱稱 Bernie）做出一批筆記本貼紙，並下單 500 張。

Agent 直接利用終端功能，呼叫了影像生成工具（Image Gen API）來生成一張動漫風格的狗狗插畫，作為貼紙的設計圖案。

接著，Agent 開啟瀏覽器訪問 Sticker Mule 網站，把設計好的圖上傳到網站，填寫了貼紙數量、尺寸等，並把商品加入購物車。

最後它主動向使用者確認，是否要用這張插畫？是否繼續下單？是否需要使用者自己輸入信用卡付款，還是讓它繼續完成？

任務停留在讓使用者接管輸入信用卡，花了 7 分鐘。

同樣的能力，Agent 還自己連線 Google Drive API（類似於國內的網盤），讀取檔案之後生成了一份 PPT。

查詢了賽季日程，生成了一個詳細的旅行電子表格 + 帶標註地圖的旅行攻略。這個任務比較複雜，Agent 大約花了 25 分鐘完成。

02

輕描淡寫：AI 能力又進步了

OpenAI 此次推出的新 Agent 模式，實際上並不是一項全新的創新，而是由 OpenAI 上半年推出的兩樣工具組合而成：Operator 和 Deep Research。

Operator 是原本只開放給了 Pro 使用者的瀏覽器 Agent 工具，能夠分析圖形操作介面，並做出一定的操作。

而 Deep Research，則是一個深入研究的分析工具，可以閱讀大量的網頁，直接生成一份調研報告。

OpenAI 表示，在兩樣工具分別推出的過程中，發現很多使用者用 Operator 寫的提示詞其實更像 Deep Research 的任務，比如「計劃一次旅行並預訂」。而 Deep Research 使用者高度呼籲增加「登入網站、訪問受保護資源」的能力，其實是 Operator 早就能做的。於是團隊決定將兩個產品融合起來。

這和剛剛離職的 OpenAI 的工程師爆料的 OpenAI 的團隊文化其實很接近：OpenAI 內部很看重工程師的自驅力，常常有多個類似的專案同時在推進，誰想做誰就能往前推進。

此次 Operator 和 Deep Research 的融合看起來還是很成功的。兩個從不同角度推動的 Agent 專案，最後融合起來，有了一些奇妙的化學反應，也避開了只使用瀏覽器的圖形介面去閱讀文字材料的低效，讓最後能形成深度報告的時長變得並不高。

OpenAI 也提到了在為模型提供多種工具之後，怎樣訓練模型。

仍然是使用強化學習。一開始模型會「笨拙」地嘗試用所有工具解決一個相對簡單的問題。也就是說，它剛開始不會判斷哪個工具更合適。

透過獎勵它那些解決問題更高效、更合理的行為，模型能逐漸學會如何用這些工具。在什麼情況下用哪個工具最合適。

比如如果是做創意作品，它會先搜尋公開資源；然後用終端寫程式碼、編譯作品；最後用視覺化瀏覽器驗證結果。

而在一堆 Demo 中，OpenAI 也輕描淡寫地又丟擲了一個新的基準測試成績。

在 Humanities Last Exam（人類的最後一場大考）中，能夠使用瀏覽器、電腦和終端的 Agent 模式模型，已經能夠達到 42%的高分，相比於完全不使用工具的 o3，有一倍的提升。

而在世界範圍內也是領先的——Grok 宣佈帶工具的 Grok 4 Heavy 在測試中取得 45% 的成績。

使用工具後的高階數學推理能力，也有了進一步的提升。

公佈的基準中，有兩個是和人類的對比。

一個是在網頁中操作的能力（WebArena），一個是操作電子表格的能力（SpreadsheetBench）。可以看到，兩項基準中，Agent 模式仍然不如人類，但是網頁操作，已經追近了人類水平。

這意味著，即便只是整合這些本身尚不如人類的工具，大模型也能獲得顯著的能力提升。Agent 時代，大模型能力的提升顯然還有更高的天花板。

03

和 Agent 共處的時代，確實來了

毫無疑問，Agent 是 2025 年 AI 領域的絕對風口。

但風口之下，使用者的真實體感往往並不完美：任務執行時間過長；稍複雜的任務就頻頻出錯。一位早期 Operator 使用者評論道「每次點選和滾動，都像在炎熱夏日中游泳。」

此次 OpenAI 將 Operator 與 Deep Research 融合，或許正是為了緩解這種「粘滯感」，讓 Agent 真正跑起來。

當 OpenAI 自己下場，一個更直接的問題擺在了所有類似 Manus 的第三方開發者面前：這究竟是會催生一個繁榮的 Agent 應用生態，還是會直接碾壓所有創業公司？答案尚不明朗。

而對於使用者而言，一個更切身的挑戰隨之而來：隱私和安全。

當 AI 在我們看不見的虛擬機器裡，點開一個網頁、輸入我們的個人資訊時，誰來保證安全？

如果它被釣魚網站騙走了我們的信用卡號，責任誰負？

OpenAI 對此的回應是，他們會採取極其嚴格的審查和安全措施，但它也希望整個社會都能花時間去適應和建立規範。

Agent時代，確實是繼Chat時代之後，一個截然不同的新階段。

在Chat時代，我們學會了適應AI的“嘴”——我們慢慢習慣了它的幻覺，並學會在它的花言巧語中甄別真偽。這是一個關於“資訊可信度”的挑戰。

而在Agent時代，挑戰則完全轉向了AI的“手”。我們需要回答一系列全新的問題：我們究竟願意多信任 AI？我們又願意把多大的許可權交出去，讓它代替我們完成多少現實世界的事情？

而我們與AI的關係，也將因此被重新定義。

從更宏觀的視角看，Agent 的爆發也將再次將一個老問題以更尖銳的方式推到我們面前：當 AI 能真正「幹活」時，我們的工作會怎樣？

當 AI 能獨立完成一份包含資料檢索、影像查證的複雜報告，並直接完成線上預訂時，白領們的工作究竟是被賦能加速，還是被徹底威脅？

答案尚在風中飄。

但無論我們歡迎、恐懼還是茫然，一個由 Agent 驅動的、更自動化的新時代，確實正在加速到來。

*頭圖來源：OpenAI

本文為極客公園原創文章，轉載請聯絡極客君微信 geekparkGO

極客一問

你認為 OpenAI 在 Agent 領域目前領先嗎？

熱點影片

馬斯克：當有比人類更聰明的東西出現時，會發生什麼呢？

點贊關注極客公園影片號，

觀看更多精彩影片

更多閱讀

相關文章

曝OpenAI或收購全球第一瀏覽器Chrome，你的上網體驗可能要鉅變了

曝OpenAI或收購全球第一瀏覽器Chrome，你的上網體驗可能要鉅變了

剛剛，OpenAI釋出ChatGPT版Manus！奧特曼：感受AGI時刻

剛剛，OpenAI釋出ChatGPT版Manus！奧特曼：感受AGI時刻

OpenAl釋出全新Agent工具，AI從業者怎麼看？

OpenAl釋出全新Agent工具，AI從業者怎麼看？

想吞下Chrome的OpenAI，要做數字世界的「唯一入口」

想吞下Chrome的OpenAI，要做數字世界的「唯一入口」

AI智慧體結對程式設計秒殺人類，90分鐘神作驚動OpenAI總裁！引全網140萬圍觀

AI智慧體結對程式設計秒殺人類，90分鐘神作驚動OpenAI總裁！引全網140萬圍觀

DeepResearch團隊：Agent的終極形態是所有任務All-in-one

DeepResearch團隊：Agent的終極形態是所有任務All-in-one

25年什麼樣的Agent會脫穎而出：簡單勝於複雜

25年什麼樣的Agent會脫穎而出：簡單勝於複雜

OpenAI想了快10年的超級智慧體終於來了！有驚喜，但比智譜晚還“翻車”係數高？

OpenAI想了快10年的超級智慧體終於來了！有驚喜，但比智譜晚還“翻車”係數高？

95後中國開發者剛剛釋出“摸魚神器”，比Manus快4倍！實測結果能否讓打工人逆襲？

95後中國開發者剛剛釋出“摸魚神器”，比Manus快4倍！實測結果能否讓打工人逆襲？

可聯網自主完成任務！OpenAI釋出智慧體Operator，給AIAgent又添了把火！

可聯網自主完成任務！OpenAI釋出智慧體Operator，給AIAgent又添了把火！

Copyright © 2025 | WordPress Theme by MH Themes