

小紀有話說:
文章來源:適道微信公眾號
作者 獅刀、Rika
編輯 騰訊科技 鄭可君、郝博陽

2024年AI Agent觀察
-
熱鬧的景象:各路玩家就位
2024上半年,大模型價格戰還在轟轟烈烈進行;下半年,AI Agent爭奪戰就已經蓄勢待發。
海外市場,OpenAI、Anthropic、微軟、谷歌等科技巨頭紛紛公佈相關進展,將自家Agent實力當作牌桌上的重要籌碼。
10月,Anthropic推出了名為“Computer Use”的AI Agent系統,號稱能夠“像人一樣操作計算機”。這是一個特殊API,允許開發者指導 Claude完成各種計算機操作任務——觀察螢幕內容、移動滑鼠、點選按鈕以及打字等等。開發者可以透過該API將書面指令轉換為具體的計算機指令,從而實現自動化任務。

(圖片:Anthropic開發人員演示Computer Use)
微軟也是AI Agent的重要推動者。2024年10 月,微軟公佈了一項重要計劃:面向 Dynamics 365業務應用平臺,開發部署10款AI Agent——將主要服務於企業的銷售環節、會計業務以及客戶服務等關鍵領域。按照時間表,這些AI Agent將在年底開放公測,測試階段預計延續到2025年初期。

(圖片:微軟CEO展示Copilot與AI堆疊)
谷歌的反應相對較慢,但在年底也趕上了進度。12月,谷歌釋出了全新多模態大模型Gemini 2.0。在新模型的加持下,谷歌內建了三款AI Agent——“通用大模型助手”Project Astra、“瀏覽器助手”Project Mariner和“程式設計助手”Jules。
“程式設計助手”Jules能夠作為自主代理直接整合到GitHub的工作流程系統中,分析複雜的程式碼庫,跨多個檔案實施修復,並準備詳細的拉取請求,無需持續的人工監督;而在遊戲《部落衝突》演示中,谷歌AI Agent不僅能夠向玩家介紹兵種特性,給出組合建議,還可以在Reddit檢索資訊,為玩家提供角色選擇建議。

(圖片:玩家與谷歌AI Agent互動)
OpenAI雖然是基礎模型的領先者,在Agent方面佈局卻略顯遲緩。7月,OpenAI更新AGI路線圖,並指出自己處於第一層,接近達到第二層;而第三層才是AI Agent。

(圖片:OpenAI定義的人工智慧發展5階段)
OpenAI預計將於2025年1月推出全新AI Agent——Operator,該系統能夠自動執行各種複雜操作,包括編寫程式碼、預訂旅行、自動電商購物等。據悉,Operator可能會在Computer Use的基礎上進行大幅度創新和應用簡化,擴大AI Agent的使用範圍和應用場景。
國內市場,百度、阿里、騰訊、智譜等大廠也紛紛入局。
在B端,百度文心智慧體平臺、騰訊元器、訊飛星火智慧體創作中心、通義智慧體、位元組釦子等面向企業使用者提供了智慧體建立平臺,並開始在其AI智慧助手介面中新增AI Agent入口。
在C端,支付寶旗下AI App支小寶、智譜AutoGLM點燃了消費者使用者的激情。根據演示,智譜AutoGLM能夠瀏覽並理解螢幕資訊,做出任務規劃,實現手機上常用操作的模擬執行——只需接收簡單的文字/語音指令,它就可以模擬人類操作手機,在朋友圈點贊,在美團點外賣,在攜程訂酒店等等。
-
冷靜的現實:當我們在談論AI Agent時,到底是在談論什麼?
如果只看到上述的熱鬧景象,你大概會得出結論——2024年是AI Agent的當打之年。
但使用者能夠真正依賴的AI Agent,其實寥寥無幾。
只需花3秒鐘思考——你喜歡用哪幾款AI Agent?如果你是程式設計師,答案可能只是Cursor。如果我們換個問題——你喜歡用哪幾款AI大模型?答案會五花八門,比如ChatGPT、Gemini、Claude、Kimi等等。
至少從實感來說,目前大熱的AI Agent仍是“虛火”。
主因是“不靠譜”和“雞肋”。AI Agent依賴LLM“黑盒”,本身就存在不可預測性,而工作流程更是要將多個AI 步驟連線起來,會加劇這些問題,尤其是對於需要精確輸出的任務。使用者難以確保Agent能否始終提供準確、符合上下文的響應。
LangChain釋出的State of AI Agents可以作為重要參考。其調查涉及的1300多位受訪者指出,效能質量(41%)是首要關注點,重要性遠超成本(18.4%)和安全(18.4%)等因素。甚至對於向來格外關注成本的小企業而言,其中45.8%將效能質量列為主要關注點,成本因素僅為22.4%。同時,報告指出,生產中採用AI Agents的主要挑戰包括:開發人員很難向團隊和利益相關者解釋AI Agent的功能和行為。
此外,雖然AI Agent依賴的基座LLMs在Tool use方面表現不錯,但它們速度不快且成本高,特別是需要進行迴圈和自動重試時。WebArena排行榜對LLM智慧體在現實任務中的表現進行了基準測試。結果顯示,即便是表現最好的模型SteP,成功率也只有35.8%,而GPT-4的成功率僅達到14.9%。
那麼,市面上不能“完全自理”的AI Agent算得上Agent嗎?
如果我們按吳恩達的思路就很好理解了——AI Agent是可以分層級的。他提出了Agentic System(智慧體系統),並認為形容詞“Agentic”比名詞“Agent”能更好地幫助我們理解這類智慧體的本質。如同自動駕駛汽車L1-L4,Agent的進化也是一個過程。
BabyAGI創始人Yohei Nakajima對於AI Agent的分類,同樣值得參考。
1、手工製作Agent:由Prompt和API呼叫組成的鏈條,具有一定自主性,但約束較多。
特徵:流水線機器人,按照固定步驟完成任務。
舉例:它就像一個專門訂票的助手——當你告訴它航班需求時,它能夠直接呼叫API搜尋並完成預訂;然而一旦涉及複雜行程規劃,手工製作Agent就會“卡住”(歡迎大家代入產品)。
2、專業Agent:在一組任務型別和工具內動態決定要做什麼,比手工製作Agent約束少。
特徵:嫻熟工匠,能夠在特定領域(比如木工)熟練地使用工具,不僅能按照要求製作傢俱,還能根據實際需求調整設計,呼叫材料。
舉例:AutoGPT透過CoT技術分解複雜問題,動態選擇最優解決路徑。面對一個市場研究任務,AutoGPT能自動分解任務為“搜尋趨勢”“整理資料”“生成報告”等子任務並完成。
3、通用Agent:Agent的AGI——目前還處於理論概念階段,尚未實現。
特徵:全能助手,就像鋼鐵俠的Jarvis。你可以詢問它任何問題,它不僅能理解你的需求,還能結合知識和環境動態適應,提供創新解決方案。
舉例:還沒有真正能實現的產品,相關研究包括更強的多模態互動和長期記憶最佳化。
處於當前的歷史節點,Prompt Agent數量最多,表現為大模型APP裡的遍地Agent;垂直領域的專業Agent正處於爆點,並因其實用性備受資本青睞;人類所期待的真正Agent——全能助手Jarvis,有待關鍵技術突破。這也意味著未來一段時間內,我們能看到更多“L1-L4”之間的技術進化。
-
這一年AI Agent“皮下”技術進化到哪兒了?
根據Lilian Weng列舉的公式:Agent = LLM+Memory+Planning skills+Tool use
假設你是黑暗料理界的“五虎星”。LLM代表你的知識儲備,包含所有菜系菜譜;Memory類似於你的廚師筆記,記錄著不同食客的口味需求,輸給“小當家”的歷史教訓;Planning好比你的做菜規劃,面對不同要求,是先炸再烤,還是先煮再炸;Tools則是你的魔法廚具,包括如何呼叫不同刀具(軟體),幫助執行復雜的任務。
AI Agent的突破取決於各項技術的進步。
首先是LLM。在GPT-5這樣的強悍“大腦”出現之前,OpenAI就發現了推理引擎的能力。
2024年10月,OpenAI高階研究科學家、德撲AI之父Noam Brown提出:讓AI模型思考20秒所帶來的效能提升,相當於將模型擴大100,000倍並訓練100,000倍的時間。
Brown所指的技術便是System 1/2 thinking,正是OpenAI o1長出“推理能力”的秘訣。
System 1,即“快思考”,你看到一隻蘋果,不需要思考,就知道這是水果;System 2,即“慢思考”,你要做一道17*24的數學題,則需拆解步驟來思考,答案才更準確。
近期,谷歌DeepMind研究人員也將這項技術整合到AI Agent中,並開發了Talker-Reasoner框架。System 1是預設執行的“快速模式”,而System 2作為“備用引擎”隨時待命。當System 1感到困惑時,會將任務交給System 2處理。“雙引擎”共同執行,對於解決複雜、冗長的任務幫助巨大,突破了傳統AI Agent執行業務流程的方法,極大提升了效率。
其次是記憶機制。當生成式AI開始“胡言亂語”,或許不是效能問題,而是記憶力不佳。這時候就需要RAG(檢索增強型生成)來幫忙。它是LLM“外掛”般的存在,能夠利用外部知識庫為LLM提供相關上下文,防止LLM不懂裝懂。
然而,傳統RAG流程只考慮一個外部知識源,不能呼叫外部工具;僅生成一次性解決方案,上下文只檢索一次,不能進行推理或驗證。
在此情況下,融合Agent能力的RAG應運而生。雖然Agentic RAG在整體流程上與傳統RAG一脈相承:檢索-合成上下文-生成,但其融入了Agent自主規劃能力,能夠適應更加複雜的RAG查詢任務——決定是否需要檢索;自主決策使用哪個檢索引擎自主規劃使用檢索引擎的步驟;評估檢索到的上下文,並決定是否重新檢索;自行規劃是否需要藉助外部工具。
如果說,原始RAG是坐在圖書館檢視特定問題;那麼,Agentic RAG就像拿著iPhone,呼叫Google瀏覽器、電子郵件等等搜尋問題。
此外,2024年YC孵化的開源Mem0專案,也有望成為RAG助手,併為AI Agent插上個性化記憶的翅膀。
Mem0像是大腦的“海馬體”,為LLM提供了一個智慧、自我最佳化的記憶層。它能進行資訊分層儲存——將短時資訊轉化為長期記憶。類似於,你會整理“新學知識”,而後存入腦海;它還能建立語義連結——透過語義分析為儲存的知識建立關聯網路。類似於,你告訴 AI自己喜歡看偵探電影,它不僅能記住,還會推測你可能喜歡的犯罪紀錄片。
基於此,Mem0能夠顯著提升AI Agent個性化記憶——動態記錄使用者偏好、行為和需求,建立“私人記事本”。例如,當你告訴AI Agent下週是媽媽生日,它不僅會及時提醒你送上祝福,還會根據“記憶中”你和媽媽的喜好,給出送禮建議,甚至能夠跨平臺“貨比三家”,奉上購物連結。
在RAG方面的突破不止於此,俄亥俄州立大學和斯坦福大學的科學家團隊提出了一個有趣的思路:讓AI擁有一個類似人類海馬體的“記憶大腦”。他們從神經科學的角度出發,模仿人腦海馬體在長期記憶中的作用,設計出一個名為HippoRAG的模型,像人腦一樣高效地整合和搜尋知識。實驗表明,“記憶大腦”能夠在多跳問答等需要知識整合的任務上取得大幅提升。或許探索出讓大模型具備“類人”記憶的一個全新方向。
Tool use的進步更是肉眼看見。例如,Claude的Computer Use,透過構建API,將自然語言提示轉化為各種電腦操作指令,由開發者自動化重複性的任務、進行測試和質量保證,以及開放式研究。從此,AI不需要一個個專門的API“鑰匙”也能“一次性”呼叫各種軟體完成各種操作:用Word寫文件,用Excel處理表格,用瀏覽器搜尋資訊。雖然如此,目前Computer Use能力還不完善:不能在內部資料上訓練該功能;受限於上下文視窗等等。Anthropic團隊也表示,現在Claude的計算機使用水平只處於類似“GPT-3時代”的早期階段,未來還有很大提升空間。
值得注意的是,AI Agent的視覺能力也取得了進步。例如,智譜釋出的GLM-PC將其通用的視覺-操作模型CogAgent應用到了計算機上。其能夠模擬人類的視覺感知來從環境中獲取資訊輸入,以進行進一步的推理和決策。
規劃能力方面。Planning包含任務分解——將大任務劃分成小任務;反思和提煉——基於已有動作進行自我反思,從錯誤中學習最佳化接下來的動作。
目前,有論文提出更為新穎的分類法:任務分解、多計劃選擇、外部模組輔助規劃、反思與細化、記憶增強規劃。其中,多計劃選擇,即給AI Agent一個“選擇輪”,生成多個計劃,挑一個最好的來執行;外部模組輔助規劃,即藉助外部規劃器,類似強化學習的判官。記憶增強規劃,就像一個記憶麵包,記住過去經驗,為將來規劃提供幫助。這些方法並不孤立,而是相互交織,共同提升AI Agent的規劃能力。
一年以來,Agent“皮下”各項能力均取得了進步,其中Tool use能力已經初步落地;記憶機制的進步非常值得期待;LLMs的進步則取決於巨頭的能力邊界等等。但對於Agent而言,其能力的最大化並非各項技術簡單的加成,任何一項技術的突破均有望使其迎來質變。
未來,AI Agent進化的重要挑戰包括但不限於:如何實現低延遲、帶視覺理解的即時反饋;如何構建個性化的記憶系統;如何在虛擬與物理環境都具備魯棒的執行能力等等。只有當AI Agent從“工具”到“工具使用者”時,真正的Killer Agent就會出現。

大模型遇冷,AI Agent當立
有人說,現在大模型卷不動了,要卷就卷AI Agent。
2024年,曾經爭做“做中國OpenAI”的大模型公司不得已食言,以“六小虎”智譜AI、零一萬物、百川智慧、MiniMax、月之暗面和階躍星辰為例,多數公司已經開始進行業務調整,甚至人員縮減。大廠憑藉其雄厚的家底,還能繼續卷研發;更多初創企業被迫直面現實,轉向大模型應用層面,尋求更低的成本和更快的回報。
同時,敏銳的資本也將目光投向了AI應用層。
桔子IT資料顯示,2024年前9個月,國內AI領域發生了317起融資案例,月均融資金額42億元,不到去年的兩成。其中,融資最多的5家公司拿走了超212億,相當於今年國內AI融資總額的63%。

值得注意的是,大模型和AI Agent專案受投資人的關注度最高——大模型發生19起融資案,AI Agent發生了18起。其次是AI影片生成(10%),剩下50%投資案例的方向較為分散,被19個方向瓜分。
由此,在大模型“贏家通吃”的局勢下,AI Agent既是AI初創公司的最佳方向,也是海內外資本的篤定之選。
YC合夥人、資深投資人Jared指出,垂直領域AI Agent作為一種新興B2B軟體,有望成為比SaaS大10倍的新興市場。憑藉替代人工操作、提升效率的顯著優勢,這一領域可能催生出市值超過3000億美元的科技巨頭。
投資人所看中的AI Agent都長什麼樣?
最出圈的當屬AI程式設計神器Cursor。原因不外於程式碼是LLMs最容易掌握的能力,其生成的訓練資料主要來自GitHub上的開原始碼,大部分都是“有效資料”。此前,Cursor是根據使用者需求,提供建議程式碼。如今,Cursor可以直接以實現需求為目的,一口氣幫助你創造程式碼檔案,準備好執行環境。你只需點選啟動按鈕,就可以執行程式碼。
除此之外,即便2024年尚未產生真正的Killer Agent,但實際上在細分領域,Agent已經有遍地開花之勢了。
根據YC團隊的最新分享。目前已經獲得投資的Agent專案大多在toB領域。
問卷調查和分析:Outset將AI Agent應用於問卷調查和分析領域,可以替代傳統的人工調查和分析工作,例如Qualtrics等公司提供的服務。
軟體質量測試:Mtic利用AI Agent進行軟體質量測試,可以完全取代傳統的QA測試團隊。與之前的QA軟體即服務公司(如 Rainforest QA)不同,Mtic不僅提高了QA團隊的效率,還能完全取代人工測試。
政府合同競標:Sweet Spot利用AI Agent自動搜尋、填寫政府合同的標書,可以替代人工完成這些繁瑣的任務。
客戶支援:Powerhelp利用AI Agent,自動完成人工接聽電話、回覆郵件和解決問題,並且能夠根據使用者提問和歷史記錄提供個性化的解決方案,提升其滿意度。
人才招聘:Priora和Nico,利用AI Agent進行技術篩選和初步招聘,可以替代人工完成這些任務。
用吳恩達的發言做總結:通往AGI的道路感覺更像是一段旅程,而不是一個目的地。但我認為Agent式工作流,可以幫助我們在這個非常漫長的旅程中向前邁進一小步。換句話說,即便我們暫時無法擁有“全能Agent”,但多個垂直領域的專業Agent逐漸出現,將讓我們不斷獲得近似擁有Jarvis的體驗。

2025年有望成為AI Agent商用爆發元年
近日,前OpenAI聯創、SSI創始人Ilya Sutskever直接宣佈:預訓練從此將徹底終結——我們只有一個網際網路,訓練模型需要的海量資料即將枯竭,唯有從現有資料中尋找新的突破,AI才會繼續發展。
Sutskever用人類大腦發展進行類比:正如人類大腦體積停止生長後,人類智慧仍在進步。AI未來發展將轉向在現有LLM上構建AI Agent和工具。他預測,以後的突破點,就在於智慧體(Agentic)、合成數據和推理時計算。其中,能夠自主完成任務的AI Agent,是未來的發展方向。
值得注意的是,與吳恩達一樣,Sutskever同樣使用“形容詞”Agentic描述智慧體。
根據線性資本Bolt觀點:我們可以用少量的、適量的、高度的Agentic“能力”描述Agent應用的能力。例如,Router(路由)類系統使用LLM將輸入路由到特定的下游工作流中,具有少量的Agentic能力;State Machine(狀態機)類系統使用多個LLMs來執行多個路由步驟並且有能力確定每個步驟是繼續還是完成,具有相當的Agentic能力;而Autonomous(自主體)類系統更進一步,能夠使用工具甚至創造合適的工具去推進系統的進一步決策,具備完全的Agentic能力。
基於此,廠商在強調產品的Agent屬性前,不妨先回答“How agentic my system is?”
當前不少領域的專業AI Agent依然不夠成熟。相關調查顯示,輸出不精確、效能差強人意、使用者不信任等問題困擾其落地。但如果我們換個思路:短期內商業化最成功的AI Agent,不一定是看起來“Agentic化”最高的產品;而是能夠平衡效能、可靠性,以及使用者信任的產品。
順著這條思路,專業AI Agent最有前途的發展道路可能是:先重點應放在利用AI增強現有工具,而不是提供廣泛的全自主獨立服務。
用人機協同的方法,讓人類參與監督和處理邊緣案例。根據當前的能力和侷限,設定不脫離現實的期望。透過結合嚴格約束的LLMs、良好的評估資料、人機協同監督和傳統工程方法,在自動化等複雜任務方面實現可靠且良好的效果。
例如,紅杉投資組合中的Rocks公司,其Agent是將人類員工融入其中。最初,Rocks開發了一項自動撰寫、自動傳送電子郵件的技術。但他們發現將人類銷售納入流程時,表現提升了333倍。於是,Rocks移除了自動傳送的功能。
根據具體業務場景,有些公司可以開發Agent完成任務的技術,比如網路安全領域的Expo;而有些公司則儘量選擇用Agent“增強”人類員工,比如Rocks。
那麼,2025年會發生什麼?
首先,不止是程式設計,更多垂直領域將跑出“種子選手”。紅杉合夥人Konstantine Buhler預測:醫療和教育等“高服務成本”領域將成為AI技術的下一個重要戰場。
同時,根據LangChain報告顯示:人們希望將耗時任務交給AI Agent——充當“知識過濾器”:快速提煉關鍵資訊,使用者無需自己手動篩選海量資料;“生產力加速器”:協助使用者安排日程、管理任務,讓人類專注於更重要的工作;“客服神助攻”:幫助企業更快地處理客戶諮詢、解決問題,大幅提升團隊的響應速度。
換句話說,所有耗時、耗力、耗成本的工作有望率先被垂直領域專業AI Agent替代。
其次,AI Agent部署將由“單”變“多”。一方面,AI Agent將從單一智慧體發展到“群體協作”模式。2025年會出現更多Multi-agent模式,多個Agent扮演不同角色合作完成任務。例如,清華面壁智慧的開源專案ChatDev。每個 Agent 被賦予了不同的身份,有的是CEO,有的是產品經理,有的是程式設計師,它們能夠彼此互相合作,共同完成任務。
另一方面,隨著⼤模型對影像和影片資訊的處理能⼒快速提升,2025年將開始出現更為綜合性的多模態互動,AI能夠透過物聯⽹、特定資訊等多種感知通道進⾏協同。多模態輸⼊和輸出使AI互動性更強、互動頻次更⾼,適⽤場景也更加豐富,AI產品整體⽔平顯著提升。
其中,Agent作為融合感知、分析、決策和執⾏能⼒的智慧體,其互動的主動性和⾃動化遠超現有工具。
根據量子位智庫觀察:從技術和配套設施兩⽅⾯發展來看,從2025年開始,AI Agent即將⼴泛投⼊使⽤。AI Agent有望帶來獨屬於AI 2.0時代的互動⽅式、產品形態和商業模式。
結語
在電影《2001:太空漫遊》的開頭,一群草食人猿掙扎在飢餓和死亡的邊緣,人猿首領偶然揮舞了一下手裡的棒骨,“發現”它居然是一件趁手的工具。從此,他們開始狩獵小動物,成為食肉動物,逐步站上了食物鏈頂端。
如果未來的人類俯瞰2025年,可能會發現,這又是一個人類進化的關鍵時刻,而AI Agent正是那根趁手的“棒骨”。
正如Andrej Karpathy所言,AI Agent代表著一個瘋狂的未來。
有趣的是,Agent一詞源於拉丁語的Agere,意思是“to do”。
如何抓住這個瘋狂的未來?你可能只需要“Agent”。
*頭圖及封面圖來源於“周鎣”。