OpenAI突發AI智慧體大招，像人一樣操作電腦，解放打工人神器

阿爾特曼：AI進入Level 3，更多智慧體已在路上。

編譯 | 程茜

編輯 | 雲鵬

OpenAI的首款AI智慧體來了！

智東西1月24日訊息，今天凌晨，OpenAI CEO薩姆·阿爾特曼（Sam Altman）發起直播，釋出了首款可以像人類一樣操作電腦獨立完成任務的AI智慧體——Operator。

開啟Operator，使用者只需要輸入自己的需求，就可以雙手離開鍵盤，靜靜等待Operator“表演”，訂票、買日用品、填寫表格等諸多工都能被迅速搞定。

使用者可以即時檢視它的進度，並隨時介入。遇到需要使用者的付款資訊、家庭住址這些隱私資訊，Operator也會主動暫停讓使用者接管操作。

從今天開始，Operator將向美國ChatGPT Pro使用者提供。未來，OpenAI計劃把Operator擴充套件到Plus、Team和Enterprise使用者，並將這些功能整合到ChatGPT中。

阿爾特曼將Operator的釋出稱作是：“進入Level 3的開始。”

他還在直播中預告，Operator是OpenAI首批智慧體之一，他們將在未來幾周和幾個月內推出更多智慧體。

01.

解放雙手，搞定手寫list到送貨上門

全額退款、許可證更新

使用者只需要描述任務，Operator就可以完成後續的步驟。使用者可以隨時選擇接管遠端瀏覽器的控制權，遇到登入、付款詳細資訊或輸入驗證碼等涉及使用者隱私的環節，Operator會主動要求使用者接管。

使用者在紙上記錄的日用品購買list，可以直接拍照上傳發送給Operator，它就會自動識別任務，然後執行一系列的購買操作。

此外預訂時，遇到需要確認的時間點，Operator也會及時詢問使用者在獲得反饋後執行下一步操作。

Operator還能幫助使用者完成訂單的全額退款。

為使用者檢索合適的露營地。

使用者可以透過為所有站點或特定站點新增自定義說明，例如為Booking.com上的航空公司設定首選項，Operator在執行相應操作時就會優先考慮使用者的設定。

此外，Operator允許使用者儲存提示以便在主頁上快速訪問，例如訂購日用百貨等重複性任務。與在瀏覽器上使用多個選項卡類似，使用者可以透過建立新對話讓Operator同時執行多個任務，例如在訂購桌子的同時詢問使用者聚會需要的食物型別。

02.

底層模型CUA

自主完成輸入、單擊、滾動

Operator由新模型Computer-Using Agent（CUA）提供支援。CUA透過強化學習將GPT-4o的視覺功能與高階推理相結合，經過訓練可以與人們在螢幕上看到的按鈕、選單和文字欄位等圖形使用者介面（GUI）互動。

具體的操作方式包括，檢視瀏覽器（透過螢幕截圖）和與瀏覽器互動（使用滑鼠和鍵盤允許的所有操作），使其能夠在瀏覽器上執行操作，無需自定義API整合。

CUA的具體操作透過整合感知、推理和操作的迭代迴圈執行：

感知：計算機的螢幕截圖將新增到模型的上下文中，從而提供計算機當前狀態的視覺化快照。

推理：CUA使用思維鏈推理後續步驟，同時考慮當前和過去的螢幕截圖和操作。這使模型能夠評估其觀察結果、跟蹤中間步驟並動態適應，從而提高任務績效。

操作：執行單擊、滾動或鍵入操作，直到確定任務已完成或需要使用者輸入。雖然CUA會自動處理大多數步驟，但會尋求使用者確認敏感操作。

如果在操作中遇到問題，Operator可以利用其推理能力進行自我糾正。且如果需要幫助，該智慧體就會將控制權交給使用者。

雖然CUA仍處於早期階段並且存在侷限性，但它在WebArena和WebVoyager這兩個關鍵的瀏覽器使用基準測試中，在OSWorld上實現38.1%的完全計算機使用任務的成功率，在WebArena上實現58.1%的成功率，在WebVoyager上實現87%的基於瀏覽器的任務成功率。

03.

三層保障

限制Operator操作

為了確認Operator的安全性，OpenAI設定了三層保護措施。

首先，Operator經過培訓，以確保使用它的人始終處於控制之中，並在關鍵點要求使用者輸入。

接管模式：Operator在瀏覽器中輸入敏感資訊（如登入憑證或支付資訊）時要求使用者接管。在接管模式下，Operator不會收集使用者輸入的資訊或對其進行螢幕截圖。

使用者確認：在完成任何重大操作（例如提交訂單或傳送電子郵件）之前，Operator應請求批准。

任務限制：Operator接受過拒絕某些敏感任務的培訓，例如銀行交易或需要高風險決策的任務，例如對工作申請做出決定。

監視模式：在特別敏感的站點（例如電子郵件或金融服務）上，Operator需要密切監督其操作，使使用者能夠直接捕獲任何潛在的錯誤。

其次，OpenAI簡化了Operator管理資料隱私的過程。

訓練選擇退出：在ChatGPT設定中關閉“為每個人改進模型”意味著Operator中的資料不會用於訓練其模型。

透明的資料管理：使用者可以在Operator設定的Privacy部分下一鍵刪除所有瀏覽資料並登出所有站點。Operator中的歷史對話記錄也可以一鍵刪除。

最後，OpenAI建立了防禦措施，抵禦可能試圖透過隱藏提示、惡意程式碼或網路釣魚嘗試來誤導Operator的網站：

謹慎導航：Operator旨在檢測和忽略提示注入。

監控：專用的“監控模型”會監視可疑行為，如果出現問題，可以暫停任務。

檢測pipeline：自動化和人工審查流程持續識別新威脅並快速更新保護措施。

此外，OpenAI將Operator設計為拒絕有害請求並阻止不允許的內容，其稽核系統會對重複的違規行為發出警告甚至撤銷訪問許可權，並且集成了額外的稽核流程來檢測和解決濫用問題。

04.

結語：Operator處理

複雜工作流程仍有侷限

Operator目前處於早期研究預覽階段，在面對製作PPT、管理日曆等複雜任務方面它的表現並不好，但Operator目前已經能獨立完成諸多使用者日常會遇到的任務。下一步，OpenAI計劃很快在API中公開為Operator提供支援的模型CUA，以便開發人員可以使用它來構建自己的計算機使用智慧體，同時會繼續提高其處理更長、更復雜工作流程的能力。

此前谷歌、Anthropic、智譜AI都發布了類似支援自動檢索並跨平臺操作的智慧體，這類智慧體的出現進一步降低了使用者與計算機的互動門檻，使用者可透過簡單指令讓智慧體完成複雜任務，無需掌握專業技能或操作知識。

來源：OpenAI官網