
作者丨桑基韜
2025年剛開始,OpenAI 就用 Operator 和 Deep Research 兩個產品宣告了 AGI 第三層 -Agent 的到來。
其實,在此之前,OpenAI 還發了一個名為 ChatGPT tasks 的 Agent 產品,支援日程提醒、更新等功能,類似一個代辦助手。
當然,這些釋出說是產品,其實更像功能預覽。Sam Altman 在介紹 Operator 時就強調這是一個“research preview”版本。而根據這兩天對 Deep Research 的試用,發現它擅長總結和發現,但分析能力還不夠強:生成的報告 intelligence 有餘、insight 不足。現階段仍然只適合做專業人士的助手。
這說,至少在現在,Agent 的作用還是把人類從重複、低階的工作中“解放”出來,讓人類把時間和精力放在更高階的價值創造上。只是,從“解放”到“解僱”,也許不會太久。
這些釋出再次讓我們看到了AI有多卷。Deep Research 釋出才一天,Github 就出來好幾個開源專案。不過用的並不是推理模型,實現的是此前總結的 ReAct 工作流方式(見“OpenAI的Deep Research 與 Perplexity、谷歌Deep Research、DeepSeek聯網搜尋”),類似 Kimi 探索版和谷歌版的 Deep Research。
對 OpenAI 版的 Deep Research 復現並不容易,它依賴模型的強大推理能力,而且需要針對搜尋等工具能力使用進行微調。
Operator 和 Deep Research 兩個產品很有代表性。Operator 代表的Computer use 旨在自動化、負責現實世界執行,Deep Research 代表的 Knowledge research 旨在智慧化、負責非同步資訊處理。
一個執行、一個思考,像是人的手和大腦,結合起來實現 OpenAI 對 Agent 的定位:獨立執行復雜任務。
Operator 是此前很早就預告過的。而“deep research feature”其實也出現在了 Sam Altman 的新年願望清單裡。
值得注意的是,Sam Altman 在清單的下面配文是“many great updates we have coming were mentioned not at all or very little!”

這呼應了 Operator 的釋出會開頭,Sam Altman 說”we have more agents to launch in the coming weeks and months”。Deep Research 顯然就是這些計劃中 agent 的一個。
負責演示 Operator 的員工自稱來自“computer use agent team”。不禁讓人聯想,OpenAI 還有多少 agent team?
OpenAI 向我們公開了它 AGI 五層路線圖,短短四個月時間,就從 o1 代表的第二層 Reasoner 到了 Operator 和 Deep Research 代表的第三層 Agent。
站在 Agent 元年的開始,我們一起來看一看,第三層Agent內的路線圖可能是什麼樣子?

可能的 Agent 層路線圖
Computer use 的一個直接應用是企業辦公流程自動化,可以認為是“雙十二”釋出會中 ChatGPT Desktop 在企業端應用的延續,是對現有基於預設流程 RPA 的自然升級。
傳統 RPA 依賴預定義的規則和流程,適用於高度結構化和流程固定的任務,在處理非結構化資料或動態變化的環境時,效果並不好。
Agentic RPA 具備學習、推理和適應新場景的能力,使其能夠處理更復雜的任務。透過整合到 ERP 或 CRM 系統中,可以適應不斷變化的業務需求,為企業提供了更靈活的自動化解決方案。
這個方向呼應的是“雙十二”釋出會中的 ChatGPT in Siri。相比 Agentic RPA,更側重移動端,且更為個性化。
除了 AI 手機的常見功能,personal assistant 還可以幫助使用者完成日程提醒、任務管理、行程規劃與預訂,以及在社交媒體平臺、郵件系統、即時通訊工具中進行自動化的訊息回覆等。
Personal assistant 未來的拓展包括主動和多模態上下文。主動是指從被動響應使用者指令到主動預測需求;多模態上下文是指感知和解析使用者環境,更好地理解使用者行為和需求。這和最近傳言的 OpenAI 在開發的 AI 裝置密切相關。
Deep Research 目前存在著開放域資訊來源受限和專業知識缺乏分析深度不足兩個問題。OpenAI 研究副總裁 Mark Chen 在釋出會上說,未來將接入企業資料庫。
針對法律、醫療、科研等專業領域,除了訪問專有資料,還需要透過強化微調等方式融合專業知識,以提高專業分析準確度和深度,才能實現從 information 到 insight 的跨越,支援實際生產環境中的分析諮詢和輔助決策。
除了對已釋出的 computer use 和 knowledge research 功能的升級和應用,類似 Delvin 的軟體工程自動化可能是另一個重要方向。Coding Agent 模仿經驗豐富的程式設計師,自動完成程式碼編寫、除錯甚至專案管理。
由於 Claude 3.5 Sonnet 和 Cursor 優秀的程式設計表現,相對忽視了 OpenAI 在這個方向的進展。據傳,OpenAI 內部將“自動化工程師”作為現階段“最具經濟價值”的 AI 應用。
相信無論是內部自己使用,還是作為產品釋出,Coding Agent 都是 OpenAI 的 agent 路線圖上的重要基礎和關鍵的一環。
從兩個方面來看 Agent 的中期發展:(1)Computer use 代表的任務執行,透過訪問更多的輸入/輸出介面,成為“更強大的手腳”(action executor);(2)Knowledge research 代表的資訊處理,透過使用更多工具,成為“更全面的大腦”(insight seeker)。
除了接入更多的軟體應用 API,Agent 任務執行將從軟體操作延伸到現實世界,需要同時增強輸入感知和輸出執行的介面。
典型的輸入是 IoT 裝置介面,透過接入智慧家居和智慧工廠中的 IoT 裝置,可以感知周圍環境、理解人類行為和需求,拓展 agent 自動化任務執行的應用場景。OpenAI 新研發的 AI 裝置也將提供更多的輸入介面和使用者環境上下文資訊。
輸出執行介面會涉及智慧裝置的遠端操作控制,如指揮智慧家居、自動化工廠。如果結合 OpenAI 投資的機器人公司,這一方向還可能接入機械執行系統。
Mark Chen 在介紹 Deep Research 名字的來歷時提到,”Deep”是指去掉了時間限制,而搜尋只是第一步,希望未來接入更多工具,讓 agent 能夠“自主發現新的知識”。
可能的工具包括用於增強資訊獲取能力的垂域搜尋引擎、專業資料庫和內部知識庫訪問、爬蟲和解析工具等,以及用於增強資訊分析能力的推理規劃器、圖譜構建、數學計算和建模、實驗模擬和預測專業軟體等。
資訊處理不再始於使用者的明確需求,形式也不再是簡單的問答。角色將發生轉換:我們為 Agent 提供資料、實驗資料、模擬環境,然後看著它自主探索、分析、推演,最終得出新發現。
結合 action executor 和 coding agent 的繼續發展,insight seeker 有希望進一步邁向第四層 -innovator。
在中短期的 agent 路線中,有些問題是需要長期、持續解決的。比如輸入/輸出訪問和工具使用中的 agent 協議問題,包括任務執行的裝置通訊協議和資訊處理的資料介面協議等。Anthropic 正在推進的模型上下文協議(MCP, Model Context Protocol)就是這方面的代表。此外,符合協議標準的向量資料庫和工具庫的建設也至關重要。
將資訊處理看成 CPU,而將任務執行看成 I/O,那麼 Agent 將向著 Agent OS 的方向演進。這其實是 OpenAI 自 Plugins 和 GPTs 以來一直的目標,只是當時 LLM 能力有限,而且具有標準介面的多樣化的向量資料庫與工具庫也沒建立起來。
當然,Agent OS 還有很多底層技術待解決。正如馮諾依曼架構依賴程式與資料的統一儲存以及完備的指令集,Agent 計算架構也要解決多模態I/O和工具、記憶的統一表示,以及針對 Agent 的指令集構建等問題。這對當前標準 Transformer 基於 token 的序列化表示,以及基於自然語言的指令體系提出了挑戰。
Agent OS 的發展還依賴新的生態系統。比如基於大模型能力構建 Agent 平臺,由第三方貢獻向量資料庫和工具庫,並允許開發者在平臺上構建定製化的Agent。
隨著 Agent 生態的完善,將出現多個 Agent 之間的協同工作。不同 Agent 在大型專案中可以互相呼叫、共享中間結果,將像一個高效的組織一樣動態分工、相互協作。
這個階段,Agent 將演化出更強的協作能力與自治能力,從單點智慧向集體智慧發展。這也許是第五層- organization 的雛形。
2025 年被稱為 Agent 元年,將見證 AI 的大規模應用落地。DeepSeek 事件發生在 2024 到 2025 之際,正是從模型走向應用和 Agent 發展的關鍵節點,其意義深遠。
如果說 GPT-4 和 o1 相當於紐卡門蒸汽機,首次向世界展示了 AI 的巨大潛力;DeepSeek-V3 和 R1 就像是瓦特蒸汽機,透過最佳化效率降低了技術使用門檻,讓 AI 得以服務大眾,進入真正的規模化應用時代。而 Operator 和 Deep Research 展示的,則是這些技術未來可能的使用方式:動態規劃、自主使用工具、非同步處理和自動執行。
要承認,OpenAI 仍然是技術引領者,仍然承擔著推動前沿的角色。它不僅在基礎模型的研發上持續突破,在 Agent 生態的構建上也走在前沿。它對 Agent 的理解、技術佈局,和未來的發展方向,值得持續關注和思考。
(桑基韜,北京交通大學教授,研究方向:多模態分析,可信與對齊,AI Agent。微訊號:jitaosang。)

更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。