OpenAI突發Operator!完全自主玩轉瀏覽器,奧特曼:Level3時代開啟

明敏 魚羊 發自 凹非寺

量子位 | 公眾號 QbitAI
OpenAI熱炒已久的智慧體,剛剛正式釋出!
OpenAI官方介紹:
Operator是我們的首批智慧體之一。這些AI能夠獨立為你完成工作——只需給它一個任務,它就會執行
be like,給它一個購物清單,Operator就能完全自主地幫你買好東西。
可以看到操作老哥的雙手已經離開鍵盤,螢幕上的所有操作都是Operator自己完成。
還能讓它來預定餐廳:
這邊奧特曼直播剛結束,OpenAI總裁Brockman就迫不及待地宣佈:
2025是智慧體之年。
並且這一次,Operator官宣即上線——只不過,暫時只面向Pro使用者,對,就是一個月200刀(約合人民幣1458元)的那個大會員。
看罷直播,網友們還是非常興奮的,直呼“瘋狂星期四”。
但是嘛……
嗯,Operator很香,但要是開源就更棒了,DeepSeek、Meta快捲起來(doge)。

玩轉瀏覽器,無需人類輔助

口說無憑,咱們還是先透過官方Demo,來看看Operator到底有多“獨立自主”。
它幾乎可以使用任何網站,無需人類的操作輔助。
比如從Allrecipes上找到一份蛤蜊扁麵條的食譜,然後把所有的食材都放到我instacart的購物車裡?
它操作這一切的邏輯和人類一樣,看到了哪些圖片、該點選哪些按鈕。
這和其他使用API或者基於程式設計介面的Agent不同,它是基於文字的思維鏈進行推理。
確認好選單後,去哪個店下單買菜呢?
人類進一步給出指令,使用Gus’s,然後Operator就會到對應的網站開始下單。
遇到登入、支付等操作時,Operator會將操作權交還給使用者。
在使用者實測中,有博主發現如果Operator被Reddit牆了,它還會自己在搜尋時就加入“Reddit”關鍵詞以找到相關帖子。
使用者也可以透過新增自定義指令,獲得個性化體驗。比如設定訂機票時的首選航司。
Operator允許使用者儲存提示,以便在主頁上快速訪問,非常適合重複任務,如在購物網站上補貨。
Operator也能同時執行多個任務,就像是開啟多個網頁那樣,比如讓它在Etsy上訂購個性化的搪瓷馬克杯,同時在Hipcamp上預訂露營地。
Operator的底層使用了一個全新的模型Computer-Using-Agent(CUA)
透過將GPT-4o的視覺能力和高階推理強化學習相結合,CUA可以進行GUI互動。
Operator可以看到網頁介面的內容,使用滑鼠、鍵盤允許的所有操作。由此它可以自動操作,而無需自定義的API整合。
如果遇到問題或者出現錯誤,Operator可以利用推理能力自我糾錯。並在它卡住需要幫助時,將控制權交還給使用者。
CUA在WebArena和WebVoyager兩個基準測試中都取得了SOTA。
目前,美區的Pro會員已經可以透過operator.chatgpt.com來使用Operator。Plus、Team、Enterprise等付費使用者和其他地區的胖友們,還得再等等,但OpenAI承諾未來會將這些功能整合到ChatGPT中。

OpenAI邁入“Level 3”

2024年7月,OpenAI釋出了“從AI到AGI的五步過程”:
  • Level 1:Chatbots,AI可以以對話的方式與人互動。
  • Level 2:Reasoners,AI科技解決人類水平的問題。
  • Level 3:Agents,AI可以作為系統執行一些行動任務。
  • Level 4:Innovators,AI可以開發創新性的AI。
  • Level 5:Organizations,AI可以完成一個組織完成的工作。
在當時的定義和規劃中,OpenAI表示自己還只處於Level 1階段,正在靠近Level 2。
而現在,隨著Operator的釋出,奧特曼宣佈:
這是我們進入Level 3的開始。
值得注意的是,就像開頭提到,OpenAI悄悄畫了個重點:Operator還只是“首批”而非唯一智慧體。
在直播中,奧特曼也預告了:
我們還將在未來幾周和幾個月內推出更多智慧體。

One More Thing

就在OpenAI今天這場直播之前,還有一個小小的花絮。
Operator釋出2小時前,OpenAI發了一條推文,表示修復了ChatGPT和API錯誤率高的問題。
又虛晃了網友們一槍(doge)。
另一個好訊息是,奧特曼還預告,ChatGPT免費版就能用上o3-mini。
– EOF –
關注「程式設計師的那些事」加星標,不錯過圈內事
點贊和在看就是最大的支援❤️


相關文章