1月24日,OpenAI釋出了首個AI Agent產品Operator,憑藉能夠為你訂機票、點外賣的功能,再次引發國內外媒體的關注。
沒過多久,知名的AI搜尋軟體Perplexity也推出一款Agent產品,能在安卓手機上自動呼叫其他APP,做類似的事情。
1月23日,王煜全在直播中和大家分享了AI產業最新趨勢,提到2025年Agent會最熱門的賽道,直播結束Agent之爭的序幕已經拉開。
今天我們為你詳細梳理一下Agent是什麼?為什麼OpenAI的Agent是個產業訊號?
如果你想了解王煜全關於Agent趨勢的詳細分析,歡迎點選文首入口,加入前哨科技特訓營獲取。
1.Agent究竟是什麼?
在探討OpenAI的最新產品之前,我們有必要了解一下Agent是什麼,以及這個技術概念的發展歷程:
Agent今天成為AI領域的熱詞,但這個技術概念其實已經存在並演化70年以上。
早期理論階段(1950-1990年代)人工智慧概念誕生之初智慧代理(Intelligent Agent)的概念就已經出現了,1959年由Selfridge在論文中正式提出。
最初的Agent指能夠感知環境並作出反應的計算機系統,這個階段Agent主要停留在理論研究層面。
本週王煜全直播PPT報告,加入特訓營立刻獲取

軟體代理時代(1990-2010年代)隨著網際網路的發展,出現了第一代軟體Agent,比如自動化爬蟲、郵件過濾器等,能夠按照規則自動完成任務的系統成為當時的Agent產品。
這一時期的Agent在今天看來就是固定規則執行的軟體,並沒有真正的智慧。
智慧助手時代(2010-2022年)Siri、Alexa等智慧助手的出現,讓Agent又迎來一輪小的炒作,藉助早期的語音識別技術,IT產品具備一些簡單的自然語言互動能力,有了看起來更加智慧化的Agent能力。
但這個階段的Agent仍然侷限於簡單的指令執行和資訊檢索。
AI大模型驅動的Agent革命(2022年至今)2022年底,AI大模型的突破,為Agent帶來了強大的理解能力和推理能力。
這次Agent開始能夠處理複雜任務,理解上下文,並做出相對智慧的決策,透過一些框架設計也有了類似反思的能力。
Agent從單純的程式逐步演變為具有一定自主性的智慧體。隨著OpenAI等公司的新產品釋出,我們正在進入Agent的實用化階段。
2.OpenAI的Operator
OpenAI的Operator,被官方定義為“能夠為你執行網路任務的AI智慧體”,是一款具備高度自主性的智慧系統。
用人話說,Operator可以自動執行使用者的任務,例如訂購食品雜貨、預訂航班、填寫表格。使用者只需向 Operator 發出指令,它就能理解使用者的意圖並執行相應操作。
Sam Altman參與演示Operator訂餐

Operator 的核心技術是 CUA (Computer-Using Agent) 模型 。CUA 結合了 OpenAI 的多模態 GPT-4o 大型語言模型和強化學習技術,使其能夠像人類一樣“看到”和“操作”計算機螢幕 。
為了提高安全性,Operator 將透過內建瀏覽器訪問網站,並使用虛擬滑鼠和鍵盤執行操作 ,定期擷取螢幕截圖,以檢查任務執行情況 。
目前,Operator在美國面向ChatGPT Pro使用者開放,該功能OpenAI也正在與DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack和Uber等公司合作,確保Operator能夠真正幫助使用者完成任務。
3.Operator會引領Agent變革嗎?
很多媒體和使用者看到Operator就認為OpenAI又要掀起新變革,但在我們看來這只是產業爆發的重要訊號,而且OpenAI能否引領Agent變革也是個未知數。
首先,Computer-Use的Agent正規化並非OpenAI首創。Anthropic在2024年10月就推出了自家的Computer Use正規化。
Anthropic的Claude 3.5 Sonnet模型,在經過相應的軟體設定後,已經能夠按照使用者的指令移動滑鼠、點選相關位置,模仿人類與計算機互動的方式。
其次,Operator的真實效能離可用還有很遠的距離。從OpenAI官方公佈的測試資料看,最高的準確率也只有87%,技術上確實有巨大進步,但遠未達到自動為你完成任務的程度,肯定經常會出錯,讓使用者介入管理,甚至重新來過。
OpenAI官方也提到Operator的應用有很多困難,面對日曆這樣花花綠綠複雜介面出錯率很高,一些網站阻止了 OpenAI 的網路爬蟲,導致 Operator 無法訪問這些網站 。
最後,Operator真正的價值是讓更多開發者有機會加入到Agent創業中。
在Operator和Claude的“計算機使用”功能釋出之前,Agent的概念已經在ToB領域引發廣泛關注。
Langchain、Dify等Agent開發框架已經應用到了企業開發中,微軟、谷歌、亞馬遜這三個雲巨頭也早已提供Agent開發的服務。
但是這些技術都太過專業,加上Agent會頻繁呼叫AI大模型,使用成本並不低,只能服務少數開發者使用,這也是Agent雖然聲量很大,但大家平時都不這麼見得到的原因。
OpenAI下場推出Agent產品,更像蘋果為手機新功能釋出示範的APP,微軟推出的官方電腦,為下游整合、開發商們展現新功能的潛力,帶動更多人投入開發,推出更具創新價值的產品。
雖然很多人將Agent視為新技術突破的關鍵點,但我們必須要注意到Agent的本質並非單純的技術,而是多種技術組合而成的產品。
打造真正具有變革性的產品,不是技術一個指標說了算的,更要洞察使用者需求,還要能快速迭代產品,佔據市場先發位置。
對於身處大模型競賽裡的OpenAI,這一切都太過分散資源,很難成為重點投入的方向。
那麼我們該如何分析Agent的未來趨勢,從哪裡觀察未來風口呢?
王煜全在本週直播中已經回答了這個問題,歡迎長按二維碼觀看本週直播回放,洞察Agent的未來。
