剛剛,OpenAI釋出了自己的Agent模式,ManusStyle

這次 Plus 使用者也能用。
作者|Li Yuan
一個共識是,AI 今年的大主題,是 Agent。
如果說過去我們習慣了 AI 的「動嘴」,那麼接下來,就是 AI「動手」的時代。畢竟,既然 AI 已經能聽懂、又足夠聰明,那為什麼不能直接把事兒幹完?
2025 年下半場剛開局,一直在定義 AI 的 OpenAI,突然端出了他們的 Agent 答卷。不過有趣的是,乍一看,它和幾個月前爆火的 Manus 模式,驚人地相似。
7 月 18 日凌晨,Sam Altman 和四位 OpenAI 研究員在直播中介紹了 OpenAI 即將推出的 Agent 模式。
簡單來說,在 Agent 模式下,你可以直接對 ChatGPT 提要求:婚禮缺雙鞋,去電商平臺幫我買了;或者,給我設計個寵物周邊,直接下單列印;查詢資訊,直接生成 PPT。然後,ChatGPT 會自己開啟虛擬機器,一步步操作。
在演示中,一個複雜任務大概需要 10 分鐘完成。但從結果看,完成度很高。ChatGPT 可以在虛擬環境裡可以呼叫文字瀏覽器、視覺化瀏覽器和終端。而基於終端,還可以進一步呼叫雲服務 API、圖片生成器,執行程式碼等。
更關鍵的,這次 OpenAI 不再 Pro 使用者優先,Plus、Team 使用者也將能很快上手,每月可用 40 次。量大,管飽。
Sam Altman 用他標誌性的真誠眼神,對著螢幕說:這是一個全新的正規化。就像我們學會上網,最後也學會了甄別詐騙資訊一樣,現在,整個社會需要學習如何與 Agent 安全地互動和共存。
01
Agent 模式能幹什麼?
直接觀看 OpenAI 的 Agent 模式演示,會發現其直觀體驗與幾個月前爆火的 Manus 高度相似。
在使用者提出需求之後,都會自動開啟一個虛擬機器,開始自動執行一些任務,執行過程中,Agent 會反覆請求使用者確認,並允許隨時手動接管。同時,使用者也能在任務中途植入新需求,進行即時互動。
而在 OpenAI 的介紹中,Agent 模式可以呼叫三種工具:文字瀏覽器、視覺化瀏覽器和終端。模型可以自主選擇切換各種工具。
這種工具組合的設計頗為精巧:文字瀏覽器負責大量瀏覽文字,搜尋資訊,而視覺化瀏覽器則負責定位到資訊之後直接模擬一些鍵鼠互動,或者用來讀取影像資訊。
而終端,則可以執行程式碼,生成包括 PPT、Excel 在內的檔案,和呼叫一些雲端 API。
在 OpenAI 提供的第一個演示裡,研究員提出要規劃參加另一個朋友婚禮的事宜,要挑選一套符合著裝要求的禮服(考慮場地、天氣、中高檔價位)預訂酒店,同時提供禮物建議。
研究員首先在 ChatGPT 裡切換到 Agent 模式,把上述需求發過去。Agent 啟動虛擬電腦、載入環境(大約幾秒)。
然後 ChatGPT 先試用文字瀏覽器打開了使用者給的網頁,搜尋婚禮資訊、著裝要求、天氣等。發現需要進一步確認婚禮日期時,模型也提出了澄清請求,但使用者選擇讓它自己繼續推理。
在找到了天氣、場地資訊後,AI 開始推薦合適的禮服,並切換到視覺化瀏覽器檢查禮服效果。完成任務後,繼續搜尋酒店和禮物。
可以看到,最後給出的婚禮出行建議報告非常長而詳細,涵蓋了服裝、酒店、禮物。甚至附上了非常多的連結,在酒店是否有空位的索引上,還附上了線上預訂網站的截圖。
而完成這樣的一份報告,AI 只花了十分鐘。相比於我們熟悉的一問一答看起來時間是長了很多,但是相比於實際的工作量,AI 看起來還是要比人的效率高太多了。
如果說這個演示還是更加體現其研究能力,另一個演示則直接展示了其動手能力。
研究員要求給團隊的吉祥物(是一隻可愛的狗狗,暱稱 Bernie)做出一批筆記本貼紙,並下單 500 張。
Agent 直接利用終端功能,呼叫了影像生成工具(Image Gen API)來生成一張動漫風格的狗狗插畫,作為貼紙的設計圖案。
接著,Agent 開啟瀏覽器訪問 Sticker Mule 網站,把設計好的圖上傳到網站,填寫了貼紙數量、尺寸等,並把商品加入購物車。
最後它主動向使用者確認,是否要用這張插畫?是否繼續下單?是否需要使用者自己輸入信用卡付款,還是讓它繼續完成?
任務停留在讓使用者接管輸入信用卡,花了 7 分鐘。
同樣的能力,Agent 還自己連線 Google Drive API(類似於國內的網盤),讀取檔案之後生成了一份 PPT。
查詢了賽季日程,生成了一個詳細的旅行電子表格 + 帶標註地圖的旅行攻略。這個任務比較複雜,Agent 大約花了 25 分鐘完成。
02
輕描淡寫:AI 能力又進步了
OpenAI 此次推出的新 Agent 模式,實際上並不是一項全新的創新,而是由 OpenAI 上半年推出的兩樣工具組合而成:Operator 和 Deep Research。
Operator 是原本只開放給了 Pro 使用者的瀏覽器 Agent 工具,能夠分析圖形操作介面,並做出一定的操作。
而 Deep Research,則是一個深入研究的分析工具,可以閱讀大量的網頁,直接生成一份調研報告。
OpenAI 表示,在兩樣工具分別推出的過程中,發現很多使用者用 Operator 寫的提示詞其實更像 Deep Research 的任務,比如「計劃一次旅行並預訂」。而 Deep Research 使用者高度呼籲增加「登入網站、訪問受保護資源」的能力,其實是 Operator 早就能做的。於是團隊決定將兩個產品融合起來。
這和剛剛離職的 OpenAI 的工程師爆料的 OpenAI 的團隊文化其實很接近:OpenAI 內部很看重工程師的自驅力,常常有多個類似的專案同時在推進,誰想做誰就能往前推進。
此次 Operator 和 Deep Research 的融合看起來還是很成功的。兩個從不同角度推動的 Agent 專案,最後融合起來,有了一些奇妙的化學反應,也避開了只使用瀏覽器的圖形介面去閱讀文字材料的低效,讓最後能形成深度報告的時長變得並不高。
OpenAI 也提到了在為模型提供多種工具之後,怎樣訓練模型。
仍然是使用強化學習。一開始模型會「笨拙」地嘗試用所有工具解決一個相對簡單的問題。也就是說,它剛開始不會判斷哪個工具更合適。
透過獎勵它那些解決問題更高效、更合理的行為,模型能逐漸學會如何用這些工具。在什麼情況下用哪個工具最合適。
比如如果是做創意作品,它會先搜尋公開資源;然後用終端寫程式碼、編譯作品;最後用視覺化瀏覽器驗證結果。
而在一堆 Demo 中,OpenAI 也輕描淡寫地又丟擲了一個新的基準測試成績。
在 Humanities Last Exam(人類的最後一場大考)中,能夠使用瀏覽器、電腦和終端的 Agent 模式模型,已經能夠達到 42%的高分,相比於完全不使用工具的 o3,有一倍的提升。
而在世界範圍內也是領先的——Grok 宣佈帶工具的 Grok 4 Heavy 在測試中取得 45% 的成績。
使用工具後的高階數學推理能力,也有了進一步的提升。
公佈的基準中,有兩個是和人類的對比。
一個是在網頁中操作的能力(WebArena),一個是操作電子表格的能力(SpreadsheetBench)。可以看到,兩項基準中,Agent 模式仍然不如人類,但是網頁操作,已經追近了人類水平。
這意味著,即便只是整合這些本身尚不如人類的工具,大模型也能獲得顯著的能力提升。Agent 時代,大模型能力的提升顯然還有更高的天花板。
03
和 Agent 共處的時代,確實來了
毫無疑問,Agent 是 2025 年 AI 領域的絕對風口。
但風口之下,使用者的真實體感往往並不完美:任務執行時間過長;稍複雜的任務就頻頻出錯。一位早期 Operator 使用者評論道「每次點選和滾動,都像在炎熱夏日中游泳。」
此次 OpenAI 將 Operator 與 Deep Research 融合,或許正是為了緩解這種「粘滯感」,讓 Agent 真正跑起來。
當 OpenAI 自己下場,一個更直接的問題擺在了所有類似 Manus 的第三方開發者面前:這究竟是會催生一個繁榮的 Agent 應用生態,還是會直接碾壓所有創業公司?答案尚不明朗。
而對於使用者而言,一個更切身的挑戰隨之而來:隱私和安全。
當 AI 在我們看不見的虛擬機器裡,點開一個網頁、輸入我們的個人資訊時,誰來保證安全?
如果它被釣魚網站騙走了我們的信用卡號,責任誰負?
OpenAI 對此的回應是,他們會採取極其嚴格的審查和安全措施,但它也希望整個社會都能花時間去適應和建立規範。
Agent時代,確實是繼Chat時代之後,一個截然不同的新階段。
在Chat時代,我們學會了適應AI的“嘴”——我們慢慢習慣了它的幻覺,並學會在它的花言巧語中甄別真偽。這是一個關於“資訊可信度”的挑戰。
而在Agent時代,挑戰則完全轉向了AI的“手”。我們需要回答一系列全新的問題:我們究竟願意多信任 AI?我們又願意把多大的許可權交出去,讓它代替我們完成多少現實世界的事情?
而我們與AI的關係,也將因此被重新定義。
從更宏觀的視角看,Agent 的爆發也將再次將一個老問題以更尖銳的方式推到我們面前:當 AI 能真正「幹活」時,我們的工作會怎樣?
當 AI 能獨立完成一份包含資料檢索、影像查證的複雜報告,並直接完成線上預訂時,白領們的工作究竟是被賦能加速,還是被徹底威脅?
答案尚在風中飄。
但無論我們歡迎、恐懼還是茫然,一個由 Agent 驅動的、更自動化的新時代,確實正在加速到來。
*頭圖來源:OpenAI
本文為極客公園原創文章,轉載請聯絡極客君微信 geekparkGO
極客一問
你認為 OpenAI 在 Agent 領域目前領先嗎?

熱點影片

馬斯克:當有比人類更聰明的東西出現時,會發生什麼呢?
點贊關注極客公園影片號
觀看更多精彩影片

更多閱讀


相關文章