曝OpenAI本週釋出重磅Agent功能,位元組宣佈啟動AGI計劃,這可能是最卷的一年

ChatGPT 版的「賈維斯」真的要來了。
去年 12 月,OpenAI CEO Sam Altman 公佈了一份有趣的調查,網友們最期待 OpenAI 在 2025 年實現的技術突破中,AGI 高居榜首,緊隨其後的是智慧體。
如今,這個期待似乎即將部分成真。
據外媒 The Information 援引知情人士訊息,OpenAI 正準備在本週推出一項名為 Operator 的新 ChatGPT 功能,能夠自動透過網路瀏覽器完成預訂餐廳或規劃旅行等複雜任務。
Operator 的功能設計頗具人性化,具體來說,它為使用者提供了餐飲與活動、送貨、購物和旅行等多種任務類別,每個類別都配有相應的建議提示。
當用戶輸入需求後,聊天介面會彈出一個小型瀏覽器視窗,即時展示 Operator 的操作過程。在執行任務時,它會根據需要詢問細節資訊,比如餐廳預訂的具體時間和人數。
值得一提的是,使用者不僅可以手動控制這個介面,還能儲存任務並與他人分享。雖然目前 Operator 還不支援 Gmail 操作,但使用者可以登入其他網站,且登入狀態會在多次會話間保持。
不過,此前有訊息稱,Operator 在執行任務時使用的截圖內容可能被惡意利用,導致「提示注入攻擊」,存在嚴重的安全隱患。
因此,即便本週官宣,也未必會立即上線,但願這不會又是一個「期貨」。針對相關置評請求,OpenAI 尚未作出回應。
事實上,這類能夠控制使用者裝置、協助完成複雜操作的 AI 功能正成為國內外 AI 企業競相追逐的下一個風口。
去年 10 月,Anthropic 就釋出了一項名為「Computer Use」的計算機操作功能。
該功能允許開發者透過 API 指導 Claude 像人類一樣操作計算機,包括檢視螢幕、移動游標、點選按鈕和輸入文字。它標誌著 AI 在模擬人類與計算機互動方面邁出了重要一步。
短短兩個月後,Google 也推出了名為 Project Mariner 的專案,由 Google DeepMind 開發,基於 Gemini 2.0 模型,它可以在 Google Chrome 瀏覽器上為使用者執行任務。
將視野轉入國內,智譜也釋出了名為 AutoGLM-Web 的網頁版自動駕駛功能。
透過智譜清言外掛,使用者可以讓 AI 在百度、微博、知乎、Github 等多個平臺上自動檢索、生成內容和互動,甚至支援跨網站操作,為使用者帶來「全自動」上網體驗。
在 OpenAI 的五級 AGI 路線圖中,智慧體正是處於 L3 級別,其特點是不僅能思考,還能代表使用者採取行動,執行復雜任務。
業內人士認為,智慧體是通往通用人工智慧(AGI)的必經之路,透過構建能夠自主決策和執行任務的智慧體,可以逐步實現更接近人類水平的通用智慧。
而在這場通往 AGI 的競賽中,中國科技公司也正在加速佈局。
1 月 23 日,APPSO 獲悉,位元組豆包大模型團隊已在內部組建 AGI 長期研究團隊,代號「Seed Edge」,鼓勵專案成員探索更長週期、不確定的和大膽的 AGI 研究課題。
有接近位元組的知情人士透露,Seed Edge 的目標是探索 AGI 的新方法,代號名中的 Seed 是豆包大模型團隊名稱,而 Edge 代表最前沿的 AGI 探索。
目前,Seed Edge 初步確定了五大研究方向,包括:
探索推理能力的邊界
探索感知能力的邊界
探索軟硬一體的下一代模型設計
探索下一代 AI 學習正規化
探索下一個 scaling 方向
另外據晚點從位元組內部獲取的資訊,位元組創始人張一鳴非常重視和強調加強 AI 研究投入,不僅親自研讀論文、關注技術細節,還與頂尖 AI 研究者密切交流,並鼓勵位元組 AI 研究團隊探索、研究基礎課題。
在新加坡,他甚至組建了專門的研究團隊,其中包括新加坡國立大學原教授、現任位元組研究員的馮佳時,自 2023 年起擔任其技術顧問。
在中國科技巨頭中,位元組應該是擁有大量資源且行動最為迅速的,大有 All in AI之勢。這場通往 AGI 的競賽中,贏家或許還未可知,但改變已悄然開啟。

相關文章