
新智元報道
新智元報道
編輯:桃子 好睏
【新智元導讀】ChatGPT agent誕生了!奧特曼深夜帶隊直播,首個統一智慧體無縫融合三大AI,自主思考決策,還能上網直出PPT、Excel。2025年,作為全新AI槓桿,ChatGPT正在解鎖「超級個體」新模式。
今晚,ChatGPT和Deep Research、Operator「三劍客」首度合體!
奧特曼親自帶隊,25分鐘高能直播重磅釋出ChatGPT agent,開啟人類和智慧體協作全新時代。


ChatGPT agent的核心,是一個統一的智慧體系統。
簡言之,它融合了此前三大技術突破的優勢:Operator與網站互動的能力,Deep Research整合資訊的技巧,以及ChatGPT智慧對話優勢。

如今,ChatGPT可以直接使用計算機,全程自主為你工作。
從智慧瀏覽網頁、篩選結果,在需要時提醒安全登入、執行程式碼、進行分析,還能直出PPT和Excel彙總發現結果。

最最重要的是,一切盡在掌控之中。
人類隨時可以中斷任務、接管瀏覽器,或是完全停止。
在HLE測試中,ChatGPT agent拿下了41.6%高分;並在數學FrontierMath基準上,同樣重新整理SOTA,碾壓o4-mini和o3模型。

順便提一句,ChatGPT Agent在HLE上仍不及馬斯克的Grok 4 Heavy
誰能想到,上面這張PPT,還是ChatGPT agent自己做的。在基準測試中,其操作辦公軟體的能力,幾乎沒給人類留下多少餘地了。

網友辣評:打工人的好日子到頭了
奧特曼感慨道,ChatGPT agent使用計算機執行復雜任務,對自己來說是一個真正「感受AGI」的時刻。

從今天起,Pro、Plus和Team使用者直接可以開啟體驗,在對話方塊下拉欄中,選擇「Agent mode」即可。
其中,Pro使用者每月有400次的額度,Plus和Team為每月40次。

太長不看版:(節選自OpenAI研究員張熙堃的X)
-
Deep Research擅長做研究,Operator會執行操作,而ChatGPT agent則能同時完成所有這些任務!
-
端到端強化學習的威力!基於RL Scaling,ChatGPT agent的高效性和資料利用率非常驚人。
-
人機協作,依舊是核心!任務過程中可隨時打斷,引導ChatGPT完成新任務。在支付、刪除檔案等操作前,會向人類主動確認。只有在必要時,它才會提問以獲取更清晰的指令。
-
真實世界表現 > 追逐基準排名!ChatGPT agent確實橫掃了很多榜單。但在模型開發過程中,OpenAI既不會一門心思去刷分,也不太在意最終在排行榜上的位置。


三強首度合體
ChatGPT agent正式登場
今年1月,OpenAI釋出了首個智慧體Operator,讓AI像人類一樣直接與GUI互動。
緊接著2月初,他們又推出了首個Deep Research,推理模型直接可以使用工具,開展研究。
這兩個工具各有專長,Operator可以自主上網、點選和輸入,而Deep Research則擅長分析和總結資訊。
然而,前者無法開啟深度分析、撰寫詳細報告;後者無法與網站互動獲得精確結果。
今天,OpenAI正式將其合二為一——ChatGPT agent,「單一模型」即可解鎖全新能力。
ChatGPT agent配備了一整套工具:
· 視覺化瀏覽器:用於圖形使用者介面與網頁互動
· 文字瀏覽器:用於處理簡單推理和網頁查詢
· 終端+直接API訪問許可權:影像API

agent還能借助ChatGPT聯結器,連線Gmail、Github等應用,便於根據提示找到相關資訊並給出回覆。
不僅如此,接管瀏覽器後登入任何網站,讓ChatGPT agent進行更深入、更廣泛的研究和任務執行。
由此,ChatGPT便能選擇最佳路徑,高效地執行任務。

打工人的PPT,ChatGPT代勞了
為了展示ChatGPT agent能力,團隊現場演示了一個真實場景:為朋友Minnie和Sarah策劃一場婚禮。
根據提示,這項任務需要AI依據著裝要求和天氣情況,推薦精美價格合理的禮服、為參會者預訂酒店,以及為新人準備婚禮禮物。
ChatGPT agent在理解提示後,並沒有直出報告,而是再次重述確認任務要求,比如確切的婚禮日期。

當一切確認之後,接下來,它便自主開啟瀏覽器,並在互動頁面上顯示逐步執行的每一個過程,即思維鏈。

需要注意的是,agent會在幾秒內配置好的虛擬計算環境中,開始執行任務。
任務執行中,agent使用文字瀏覽器查詢,並找到了合適的西裝,然後切換到視覺瀏覽器,等待確認。

在ChatGPT執行婚禮策劃任務同時,還可以讓它做另一個任務:購買一雙9.5碼黑色鞋子。

也就意味著,ChatGPT agent不懼被打斷。即便上一個任務規劃時間很長,也不耽誤接下來的事情。

最後,ChatGPT agent生成了一份非常全面的報告,包括禮服、酒店、鞋子、禮物全部給出了規劃和建議。
在另一個演示中,團隊用ChatGPT應用開啟任務——上傳一張團隊吉祥物——可愛小狗的圖片,做成筆記本貼紙,並訂購500個。
然後,它便開始呼叫工具Imagen生成動漫版圖片,並設計貼紙,從StickerMule訂購500份寄到xxx。

更令人驚喜的是,ChatGPT agent還能透過聯結器,比如Google Drive提取評估資料,自己生成PPT。

在此過程中,agent會編寫程式碼,並將其編譯成最終幻燈片。它還會借用影像工具,為PPT頁面進行裝飾。

不一會功夫,它就直接輸出了第一張HLE、FrontierMath的PPT,但不夠精緻,然後它再次透過RL不斷最佳化。

最終,就得到了一個優美的PPT檔案,可以在辦公軟體中直接開啟。

不得不說,ChatGPT agent太強了。

甚至,你還可以讓ChatGPT agent制定一個參觀30+美國職棒大聯盟球場的最佳行程。
耗時25分鐘,它迅速生成一個直觀視覺化的Excel,以後做資料也徹底解放了雙手。

HLE拿下41.6%高分
多項基準破紀錄
統一後的agent,大幅提升了ChatGPT在日常和專業領域的實用性。
不僅在網頁瀏覽,還是現實任務完成能力的評估中,ChatGPT agent全部重新整理了SOTA。
如上提及的,在人類最後考試(HLE)中,ChatGPT agent以41.6%的得分,重新整理了pass@1最高紀錄。
當研究團隊採用並行策略後,即同時執行最多8次並選取自信度最高結果,HLE得分直接刷到了44.4%。

在最難的數學基準測試FrontierMath中,ChatGPT agent藉助程式碼終端等工具,實現了27.4%準確率,大幅超越o3和o4-mini。

不僅如此,在內部設計的「高經濟價值知識工作」測試中,ChatGPT agent在半數案例中,輸出質量與人類相當,甚至碾壓人類。

任務來自真實專業工作場景,比如為按需緊急護理服務商撰寫競品分析、編制詳細的攤銷表,以及為新的綠色氫能設施尋找可行的水源
在評估資料科學生產力任務的DSBench中,ChatGPT agent以顯著優勢超越了人類表現。

在Excel編輯能力的SpreadsheetBench測試中,其表現同樣遠超現有模型。
當獲得直接編輯許可權時,ChatGPT agent以45.5%的得分顯著超越Excel Copilot的20.0%。

在投行分析師1-3年級建模任務的內部評估中,ChatGPT agent底層模型碾壓Deep Research和o3模型。

此外,在OpenAI釋出的BrowseComp基準測試中,ChatGPT agent以68.9%的準確率刷爆紀錄,比Deep Research高出17.4%。
在WebArena基準測試中,其表現也優於基於o3的CUA(即Operator背後的底層模型)。

BrowseComp基準專門評估瀏覽智慧體在網路上定位難尋資訊的能力;WebArena用於評估網頁瀏覽智慧體完成現實網路任務的能力

2025下一個熱點
AI智慧體「槓桿」
ChatGPT agent這麼強,能為我們帶來什麼價值?
最近,剛剛離職OpenAI研究員Hyung Won Chung分享演講影片中表示,「AI正成為有史以來最強大的『槓桿』」。

他表示,AI智慧體結合了兩種槓桿:人力和程式碼。
它就像僱了個幫手,替你幹活(人力槓桿);而且它又是軟體,能無限複製(程式碼槓桿)。
1. 人力槓桿 :AI智慧體可以替人類完成工作,就像一個人AI助理。
2. 程式碼槓桿:當前的AI智慧體是純軟體形式,可以輕鬆複製。如果你想要10倍的產出,就執行10個智慧體;想要12倍,就再加兩個。這種槓桿不需要許可,可以隨意擴充套件。
在這場釋出會上,OpenAI重提了「AI槓桿」這一核心話題。
他們同樣認為,2025年之後,AI智慧體將成為一種全新的槓桿機制。

它不僅能代替人類完成工作,還能透過「複製貼上」無限擴充套件。不論是10個,還是更多智慧體,不需要額外的許可,即可一鍵部署。
研究人員舉例稱,Deep Research釋出之後近半年裡,極大地提升了個體和小團隊的產出。
過去,團隊規模化需要依賴「人力槓桿」,但人類協作的溝通成本,甚至包括摩擦,往往成為了瓶頸。
而現在,ChatGPT agent的出現一個重大意義在於,讓小團隊創造巨大的價值。
一個10人或20人的初創公司,藉助AI槓桿,可能創造出媲美科技巨頭的成就。
這種「超級個體」模式,或許在未來將重塑企業的組織架構,憑藉AI實現指數級增長。

北大校友領銜出鏡
值得一提的是,這次直播中,有兩位華人學者同時出鏡。
Zhiqing Sun(孫之清)

孫之清於2024年6月加入OpenAI,擔任研究科學家。
他於2025年在卡內基梅隆大學獲得計算機科學博士學位,於2019年在北京大學獲得計算機科學學士學位。


在OpenAI期間,他不僅參與到了o3/o4-mini、計算機使用智慧體,以及Deep Research這幾個關鍵專案當中,而且還是Deep Research的研究負責人。



Casey Chu

Casey Chu於2020年4月加入OpenAI,擔任研究員。
此前,他於2019年在斯坦福大學獲得計算數學碩士學位,並於2016年在哈維穆德學院獲得數學學士學位。
後來他曾嘗試攻讀斯坦福大學的計算數學博士學位,但中途選擇了退學。


別看他的title只是研究員,但他不僅是DALL·E 2的共同一作,而且還主導了GPT-4視覺輸入的初始原型的開發。


參考資料:
https://openai.com/index/introducing-chatgpt-agent/
https://x.com/xikun_zhang_/status/1945895070269583554

