在一個內部的投行建模任務基準中,ChatGPT Agent 的表現也顯著優於 Deep Research 和 o3 模型。每個任務都基於數百項關於公式正確性、格式規範等評分標準進行評估。
此外,在公開評估模型資訊查詢能力的 BrowseComp 基準上,Agent 以 68.9% 的準確率重新整理記錄,較 Deep Research 高出 17.4 個百分點。在 WebArena 評估中,其網頁任務執行能力也優於基於 o3 的 CUA 模型。
從平臺視角看,Agent 能力的底層介面,正是瀏覽器。在 Perplexity AI CEO Aravind Srinivas 最近的採訪中,他表示瀏覽器將會是 AI 的「殺手級應用」。在他看來,瀏覽器天然具備讓 AI 真正「動起來」的全部條件。不同於傳統聊天機器人,AI Agent 的理想形態不是停留在對話方塊中生成文字,而是具備實際行動力——從訪問網頁、提取資訊、填寫表單,到執行跨平臺操作。而這一切,瀏覽器恰好具備所需的操作許可權和上下文獲取能力。