終於來了,OpenAI的智慧體,但這次掌聲不多

我們終於等到了 OpenAI 的智慧體(Agent)了。
今天凌晨,Sam Altman 親自帶隊釋出了 ChatGPT 的通用型 Agent 模式。
比起當年 ChatGPT 帶給所有人的震撼,姍姍來遲的 OpenAI Agent 少了很多驚喜,因為早在年初我們就見到了類似的產品形態——當時“一號難求”的 Manus,以及 Minimax、Kimi 等陸續釋出的相似產品。
“起大早,趕晚集”,技術強大如 OpenAI,也難免有卷不過的時候。
OpenAI 的 Agent,您終於來了
這年頭髮布 AI 產品,“驚喜”和強大往往是兩回事——畢竟是 Open AI。
在產品的直播演示裡,這款 Agent 展示出的能力還是令人期待的——Agent 模式可以自己訪問網頁、呼叫終端、自動下單,執行從旅行規劃、PPT 製作到影像生成與線上購物的整套流程。
據介紹,ChatGPT Agent 即日起向 Pro、Plus 和 Team 版使用者開放,Enterprise 和 Education 版使用者將於 7 月獲得使用許可權。Pro 版使用者每月 400 次,Plus 和 Team 使用者每月 40 次。
為了實現從“Chat”到“Agent”的表現,OpenAI 結合了 Operator(視覺層互動代理)和 Deep Research(多步驟網頁推理)兩項核心研究成果,一個是“手腳”一個是“大腦”來共同完成任務的拆解、思考、行動的閉環。
這需要三大模組工具的支援:1。 文字瀏覽器 (Text-based Browser)來處理密集型網頁閱讀任務,提取資訊;2. 視覺化瀏覽器 (Text-based Browser),實現在圖形介面中操作滑鼠點選、輸入、截圖等;3. 終端工具 (Terminal),來執行程式碼、生成檔案、呼叫 API、與其他系統整合。
據 OpenAI 介紹,這款 Agent 不僅能執行,還能評估執行效果,並在每一步中動態選擇最優路徑。而使用者可以隨時插話調整指令,或臨時接管任務程序。
其實拆解任務和最佳化任務一直是 Agent 的一個難點。我們可以把 Agent 想象成一個小團隊,有產品、品牌、資料,現在使用者作為老闆下達了一個指令:給我設計一款年輕人喜歡的手機殼。然後大家開始分頭行頭,市場做調研、品牌做推廣,資料盯反饋。
不過這個過程中,大家不免會有衝突,有逾矩,比如市場調研市場可以去發調查問卷,資料部也可以看大資料報告,到底誰來做最高效?所以好的 Agent 總是能自我最佳化,追求最快、最好。
Agent 這麼火?它和 Chatbot 有啥區別?
ChatGPT Agent 和 ChatGPT 到底有什麼區別?
基本的解釋是:Agent 可以完成任務,Chatbot 可以完成對話。這個“任務”和“對話”到底有什麼分別?
舉個很簡單的例子,我現在要決定今天中午吃什麼,我可能會考慮型別、距離、口味,並在最後定一家外賣下單,這就是一個 Agent 式的任務;而一個 Chat 式的任務是,當我已經決定吃日料,我來問:最短距離哪家日料評分最高。
說白了 Agent 能完成的任務,更復雜、更高維、需要更多的工具。
比如,在 OpenAI 的演示裡,操作員讓 OpenAI Agent 挑一套適合參加婚禮的禮服和禮物。Agent 先用文字瀏覽器開啟使用者給的網頁資訊確認婚禮的日期、天氣、位置,然後用視覺化瀏覽器展示可選的禮服效果,之後再繼續搜尋禮物……
另一個操作員交代的任務是給團隊一隻叫 Bernie 的狗狗,也是團隊吉祥物做一批筆記本貼紙,並且訂購 500 份郵寄到相應的地址。
Agent 先是用終端工具 Imagen 生成動漫版圖片,設計貼紙然後再訪問 Sticker Mule 網站,把設計好的圖上傳到網站,填寫了貼紙數量、尺寸等等,選擇訂購 500 分,任務最終停留在請求信用卡資訊上。
做 PPT,也是一個很典型的 Agent 式任務。
OpenAI 團隊演示了讓 Agent 從 Google 雲中提取分析評估資料並製作成 PPT,直接用圖表展示結果。Agent 連結 Google 雲 API 進行搜尋,並讀取相關內容資訊,然後使用影像生成功能,在生成一次 PPT 後,Agent 進行了一次最佳化,生成了一張視覺上更流暢的 PPT。
咋就遲到了?
奧特曼想做 Agent 不是一天兩天了。
其實 OpenAI 早就公佈過自己的“五級路線圖”,一級 Chatbots(聊天機器人)、二級 Reasoners(推理者)、三級 Agents(代理)、四級 Innovators(創新者)、五級 Orgnazations(組織者)。
Agents 作為第三級是整個 AI 進化路徑中,讓 AI 從工具屬性躍升到創新屬性中必經的一環。
只不過奧特曼不是第一個發出 Agent 產品的。
今年 3 月, Manus 推出通用 Agent 產品,當時一夜之間大家全都在“萬能的朋友圈”求測試賬號,一個賬號甚至最高炒到了一百萬。
Manus 借勢 Agent 東風更快速推出產品的很大一部分原因是他們沒有自研大模型,而是用 Claude 等底層基礎大模型來實現產品功能 ,並將各類功能組合封裝,當時業內也稱 Manus 是一款“套殼”產品。
Manus 之外,MiniMax、Kimi、Perplexity AI 都更先發布了通用 Agent 形態的產品。
所以說,OpenAI 這把推出 Agent 其實是缺乏了先發優勢的,從 ChatGPT 到 Agent,OpenAI 在行業中的位置也從“搶先跑”到了“趕班車”。
除了時間壓力,OpenAI 還不能忽視兩方面的競爭壓力——生態競爭、成本競爭。
一直以來重閉源的 OpenAI 在今年接連受到來自各類競品的打擊。比如 Deepseek,訓練成本是自己的二十分之一,效能表現卻跟自己產品差不多,本來靠閉源 API 商業化做到全球第一的 OpenAI 眼看著英偉達、英特爾、亞馬遜、微軟、AMD 等等科技大廠全部接入 DeepSeek,這讓奧特曼都直接公開反思“閉源策略可能是個失誤”。
成本優勢勢必會帶來生態優勢,這樣的商業規律並不會在 AI 市場上失效。
而即使 OpenAI 在產品上保持優勢,那些“差不多,但便宜很多”的競爭對手的集體圍剿也會讓他體會“被瓜分”的痛——這一點,奧特曼可以和一直陰陽他的馬斯克談談心。
關於 Agent 的想象力,才剛剛開頭
要我說,人類對 Agent 的開發不足 1%。
Agent 的出現和成熟可以完全顛覆一代人。就像網際網路的出現對 90 後的影響,AI 的出現將會影響整個阿爾法世代。
從商業化的角度來看,目前大家對 Agent 最多的討論就是場景化的難度。因為達到了可以“行動”的 Agent 勢必涉及到跨應用的呼叫,比如在上述貼紙訂購的演示裡,網購平臺的呼叫許可權就必不可少。
但在我看來,這就像當時我們無法想象淘寶怎麼說服店家上線一樣,AI 時代應用的互通只是時間問題。
作為在這種大勢之下的使用者,我們其實更應該思考的是 Agent 對我們,以及後代在生活方式的轉變——
設想一下,七八歲的孩子們從校門湧出,下午四點父母們還在工作,門口接孩子們的不是爺爺奶奶,也是接入了 Agent 的機器人,Agent 是媽媽們訓練出來的,到了家,Agent 早就打開了空調,房間的溫度正好。等到快要七點的時候,Agent 開始指揮炒菜機器人做飯,等著下班的爸爸媽媽。
再設想一下,一個對星座塔羅感興趣的上班族想要搞個占星副業,Agent 直接蒐集各種語言的占星資料翻譯成中文,提取摘要做成報告,順便指定一份學習計劃。然後開始蒐集文案引流靈感、做成海報釋出在社交賬號幫忙攬客。
再看 OpenAI 的“五級路線圖”,Agent 不僅是 AI 從思考到行動的拐點,更是 AI 從被動到主動的拐點,當 AI 從工具化逐漸擬人化,人類的命運也將徹底改寫。
作者:沙拉醬
編輯:臥蟲
內文插圖均來自 OpenAI
封面圖來源:Unsplash
本文來自果殼,未經授權不得轉載.
如有需要請聯絡[email protected]

相關文章