
作者
|Jessica
郵箱
AI Agent現在究竟有多火?2025剛開年,OpenAI已迫不及待入局。
今天凌晨,Sam Altman在毫無預告的情況下開啟直播,正式釋出了OpenAI首款智慧體產品:Operator(預覽版)。

Operator是一個能夠像人類一樣使用計算機的AI智慧體。它基於OpenAI最新研發的 Computer-Using Agent (CUA) 模型,透過觀察螢幕並使用虛擬滑鼠和鍵盤來完成任務,而無需依賴專門的API介面。這種設計使其可以適配任何為人類設計的軟體介面,帶來極高的靈活性。
技術實現上,CUA採用了一個精心設計的感知-推理-行動迴圈。具體的工作原理是:每次行動後,它會重新捕獲螢幕畫面,先將螢幕截圖新增到模型上下文,透過GPT-4o的視覺能力準確理解介面內容,再依靠強化學習的推理能力(chain-of-thought)制定下一步計劃,最後使用虛擬滑鼠和鍵盤,精確執行點選、滾動或輸入的介面操作,直到任務完成或需要使用者輸入。

也就是說,無論訂餐、買票、網上購物、還是預約清潔工,只需下達一句指令,Operator都能自動在後臺替你完成。
只不過目前的預覽版尚未全面開放,僅供每月付費200美元的美國Pro使用者體驗,地址在:https://operator.chatgpt.com/。
直播中,OpenAI團隊展示了幾個令人印象深刻的Operator使用場景:
場景一:智慧餐廳預訂
當用戶輸入"在Beretta訂一個今晚7點的雙人餐位"後,Operator立即啟動了一個遠端瀏覽器會話。有趣的是,系統顯示出了類似人類的地理感知能力——當OpenTable預設顯示弗吉尼亞的結果時,它立即根據使用者設定的舊金山位置資訊自動進行了更正。發現7點沒有空位後,Operator又主動提議7:45的替代時間,並在確認前徵求使用者意見,展示了靈活的決策能力。
場景二:智慧購物助理
在購物演示中,Operator展現了強大的多模態理解能力。它可以直接識別手寫購物清單圖片,精確提取出"雞蛋、菠菜、蘑菇、雞腿肉、辣醬"等資訊,並在Instacart上自動搜尋對應商品。系統採用了一個清晰的工作流程:首先理解每個商品的具體需求,然後搜尋最相關的商品,做出合理的數量和規格選擇。當用戶透過"take control"功能手動增加雞蛋數量時,Operator也能夠理解並繼續完成剩餘訂單。
場景三:多工並行處理
而最引人注目的還是Operator的多工並行處理能力。它可以一邊在StubHub搜尋勇士隊比賽門票,一邊處理網球場預訂、尋找清潔服務和DoorDash訂餐。這得益於其遠端瀏覽器架構,每個任務都在獨立的會話中進行,確保互不干擾。在門票預訂過程中,系統也展現出細緻的判斷力,能分析不同座位區域的優劣(如發現374美元的第一排座位優於260美元的普通座位)。同時,在涉及支付等敏感操作時,也會自動切換到隱私模式,確保使用者資訊安全。
CUA在各項基準測試中表現不俗:WebArena(測試網頁導航能力)上達到58.1%的成功率,在網頁任務評測WebVoyager上達到87%的高分。雖然在作業系統導航測試OSWorld上的38.1%成功率與人類水平(72.4%)仍有差距,但已超越了其他公開發布的結果。官方表示,這些資料證明CUA在網頁任務處理上已達到實用水平,但在複雜的作業系統互動方面仍需改進。

安全性是Operator的另一大注重點。為確保實際操作可控,Operator構建了全面的多層保護體系,包括:
-
使用者確認機制:關鍵操作前必須獲得使用者批准 -
即時監控:自動檢測和預防可疑行為 -
網站限制:預設黑名單,阻止訪問違規網站 -
隱私保護:敏感操作自動切換隱私模式 -
使用者控制:"take control"功能確保使用者可隨時接管操作許可權
目前,Operator的功能仍有一定限制:不支援銀行交易等高風險操作,部分敏感網站需使用者即時監督。地域上僅面向美國Pro使用者開放,歐洲等地區可能需較長等待時間。但OpenAI已制定明確擴充套件計劃:兩週內將向開發者開放CUA模型API,後續會整合到ChatGPT並更廣泛提供。
為確保產品體驗,OpenAI已與OpenTable、Allrecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Target等多家品牌建立合作伙伴關係,共同探索AI Agent在各垂直領域的應用潛力,力求引領AI Agent領域進入全新的發展階段。Operator釋出後,OpenAI總裁Greg Brockman也隨即轉發表示:“2025年是AI Agents之年”。

Operator亮相的同一週期,AI Agent領域競爭也日趨激烈。
而OpenAI今年這第一步棋也下得思路清晰:一方面與各類三方頭部平臺合作,確保在高頻場景的優質體驗;另一方面透過API開放和ChatGPT整合雙管齊下,既吸引開發者構建應用,又透過超級應用入口觸達使用者。將使用許可權限定在Pro使用者,也能在確保產品穩定性的同時,測試其它使用者的付費意願——一切都在為未來Agent經濟的商業化探索奠定基礎。
