OpenAI突發AI智慧體大招,像人一樣操作電腦,解放打工人神器

阿爾特曼:AI進入Level 3,更多智慧體已在路上。
編譯 |  程茜
編輯 |  雲鵬

OpenAI的首款AI智慧體來了!

智東西1月24日訊息,今天凌晨,OpenAI CEO薩姆·阿爾特曼(Sam Altman)發起直播,釋出了首款可以像人類一樣操作電腦獨立完成任務的AI智慧體——Operator

開啟Operator,使用者只需要輸入自己的需求,就可以雙手離開鍵盤,靜靜等待Operator“表演”,訂票、買日用品、填寫表格等諸多工都能被迅速搞定。

使用者可以即時檢視它的進度,並隨時介入。遇到需要使用者的付款資訊、家庭住址這些隱私資訊,Operator也會主動暫停讓使用者接管操作。

從今天開始,Operator將向美國ChatGPT Pro使用者提供。未來,OpenAI計劃把Operator擴充套件到Plus、Team和Enterprise使用者,並將這些功能整合到ChatGPT中。

阿爾特曼將Operator的釋出稱作是:“進入Level 3的開始。”
他還在直播中預告,Operator是OpenAI首批智慧體之一,他們將在未來幾周和幾個月內推出更多智慧體
01.
解放雙手,搞定手寫list到送貨上門
全額退款、許可證更新

使用者只需要描述任務,Operator就可以完成後續的步驟。使用者可以隨時選擇接管遠端瀏覽器的控制權,遇到登入、付款詳細資訊或輸入驗證碼等涉及使用者隱私的環節,Operator會主動要求使用者接管。

使用者在紙上記錄的日用品購買list,可以直接拍照上傳發送給Operator,它就會自動識別任務,然後執行一系列的購買操作。
此外預訂時,遇到需要確認的時間點,Operator也會及時詢問使用者在獲得反饋後執行下一步操作。
Operator還能幫助使用者完成訂單的全額退款。
為使用者檢索合適的露營地。

使用者可以透過為所有站點或特定站點新增自定義說明,例如為Booking.com上的航空公司設定首選項,Operator在執行相應操作時就會優先考慮使用者的設定。

此外,Operator允許使用者儲存提示以便在主頁上快速訪問,例如訂購日用百貨等重複性任務。與在瀏覽器上使用多個選項卡類似,使用者可以透過建立新對話讓Operator同時執行多個任務,例如在訂購桌子的同時詢問使用者聚會需要的食物型別。

02.
底層模型CUA
自主完成輸入、單擊、滾動

Operator由新模型Computer-Using Agent(CUA)提供支援。CUA透過強化學習將GPT-4o的視覺功能與高階推理相結合,經過訓練可以與人們在螢幕上看到的按鈕、選單和文字欄位等圖形使用者介面(GUI)互動。

具體的操作方式包括,檢視瀏覽器(透過螢幕截圖)和與瀏覽器互動(使用滑鼠和鍵盤允許的所有操作),使其能夠在瀏覽器上執行操作,無需自定義API整合。

CUA的具體操作透過整合感知、推理和操作的迭代迴圈執行:

感知:計算機的螢幕截圖將新增到模型的上下文中,從而提供計算機當前狀態的視覺化快照。 

推理:CUA使用思維鏈推理後續步驟,同時考慮當前和過去的螢幕截圖和操作。這使模型能夠評估其觀察結果、跟蹤中間步驟並動態適應,從而提高任務績效。

操作執行單擊、滾動或鍵入操作,直到確定任務已完成或需要使用者輸入。雖然CUA會自動處理大多數步驟,但會尋求使用者確認敏感操作。

如果在操作中遇到問題,Operator可以利用其推理能力進行自我糾正。且如果需要幫助,該智慧體就會將控制權交給使用者。

雖然CUA仍處於早期階段並且存在侷限性,但它在WebArena和WebVoyager這兩個關鍵的瀏覽器使用基準測試中,在OSWorld上實現38.1%的完全計算機使用任務的成功率,在WebArena上實現58.1%的成功率,在WebVoyager上實現87%的基於瀏覽器的任務成功率。

03.
三層保障
限制Operator操作

為了確認Operator的安全性,OpenAI設定了三層保護措施。

首先,Operator經過培訓,以確保使用它的人始終處於控制之中,並在關鍵點要求使用者輸入。

接管模式:Operator在瀏覽器中輸入敏感資訊(如登入憑證或支付資訊)時要求使用者接管。在接管模式下,Operator不會收集使用者輸入的資訊或對其進行螢幕截圖。

使用者確認:在完成任何重大操作(例如提交訂單或傳送電子郵件)之前,Operator應請求批准。

任務限制:Operator接受過拒絕某些敏感任務的培訓,例如銀行交易或需要高風險決策的任務,例如對工作申請做出決定。

監視模式:在特別敏感的站點(例如電子郵件或金融服務)上,Operator需要密切監督其操作,使使用者能夠直接捕獲任何潛在的錯誤。

其次,OpenAI簡化了Operator管理資料隱私的過程。

訓練選擇退出:在ChatGPT設定中關閉“為每個人改進模型”意味著Operator中的資料不會用於訓練其模型。

透明的資料管理:使用者可以在Operator設定的Privacy部分下一鍵刪除所有瀏覽資料並登出所有站點。Operator中的歷史對話記錄也可以一鍵刪除。

最後,OpenAI建立了防禦措施,抵禦可能試圖透過隱藏提示、惡意程式碼或網路釣魚嘗試來誤導Operator的網站:

謹慎導航:Operator旨在檢測和忽略提示注入。

監控:專用的“監控模型”會監視可疑行為,如果出現問題,可以暫停任務。

檢測pipeline:自動化和人工審查流程持續識別新威脅並快速更新保護措施。

此外,OpenAI將Operator設計為拒絕有害請求並阻止不允許的內容,其稽核系統會對重複的違規行為發出警告甚至撤銷訪問許可權,並且集成了額外的稽核流程來檢測和解決濫用問題。

04.
結語:Operator處理
複雜工作流程仍有侷限

Operator目前處於早期研究預覽階段,在面對製作PPT、管理日曆等複雜任務方面它的表現並不好,但Operator目前已經能獨立完成諸多使用者日常會遇到的任務。下一步,OpenAI計劃很快在API中公開為Operator提供支援的模型CUA,以便開發人員可以使用它來構建自己的計算機使用智慧體,同時會繼續提高其處理更長、更復雜工作流程的能力。

此前谷歌、Anthropic、智譜AI都發布了類似支援自動檢索並跨平臺操作的智慧體,這類智慧體的出現進一步降低了使用者與計算機的互動門檻,使用者可透過簡單指令讓 智慧體完成複雜任務,無需掌握專業技能或操作知識。
來源:OpenAI官網

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章