
大模型的下半場,迎接寒武紀的Agent大爆發。
5.4億至3.6億年前,海洋生物破發,相比於以前的單細胞或簡單多細胞生物,三葉蟲、海綿和脊索動物等更高層次的智慧誕生了。類似寒武紀生命大爆發,BabyGPT、AutoGPT、Generative Agents等實驗性產品相繼出新。
從進化的角度來看,生命體的發展主要透過單元增強和組織增強兩種方式實現。這兩種增強方式相輔相成,使生命具備了更多樣複雜的表達形式。
如同Agent——我們希望它是在任何系統中能夠獨立思考並與環境互動的智慧體。
現在它已經有了一顆足夠智商的“大腦”,如何讓Agent像人一樣思考和執行——只要給定任何一個目標,它就能自動解決各種問題。是進一步提高智商,增強智慧體的“自身”單元;還是藉助外部模組,強化“組織”能力?
雖然今天的Agent尚無法完成通用任務,也難以如多細胞之間的社會化分工,形成動態穩定體。但在個體Agent的區域性模組上,如HuggingGPT,已展示了其使用工具的能力,包括Plug-in成為實際落地的重要里程碑,在大模型的下半場,將是Agent寒武紀落地爆發的時刻。
此刻Agent的落地瓶頸在哪裡?它能否從專用抵達通用?多模態會為Agent帶來什麼?未來格局怎樣演進?
就像地球上誕生的第一個細胞一樣,即使目前的Agent尚無法替代我們在實際工作中的角色,但一切的一切都源於這第一個細胞,它是智慧體進化的起點。
即使對Agent的落地再迷茫,也要繼續“湧現”。
因為Agent的成敗將是決定這一場GPT革命是否是新一代工業革命的關鍵。
以下將以結構化的思維來思考,Agent何去何從。
AI Agent究竟是什麼?
幾天前,擁有25個Agent的AI小鎮正式開源,「西部世界」AI Town隨之構築,AI Agents之間的互動,將演繹出整個文明的演化程序。
OpenAI聯合創始人Andrej Karpathy也高呼:“AI Agent代表著一個瘋狂的未來。”
什麼是Agent?Agent一詞起源於拉丁語中的Agere,意思是“to do”。在LLM語境下,Agent可以理解為在某種能自主理解、規劃決策、執行復雜任務的智慧體。
Agent並非ChatGPT升級版,它不僅告訴你“如何做”,更會幫你去做。如果CoPilot是副駕駛,那麼Agent就是主駕駛。

一個精簡的Agent決策流程,用函式表示式:
Agent:P(感知)—> P(規劃)—>A(行動)
類似人類「做事情」的過程,Agent的核心功能,可以歸納為三個步驟的迴圈:感知(Perception)、規劃(Planning)和行動(Action)。
感知(Perception)是指Agent從環境中收集資訊並從中提取相關知識的能力,規劃(Planning)是指Agent為了某一目標而作出的決策過程,行動(Action)是指基於環境和規劃做出的動作。
其中,Policy是Agent做出Action的核心決策,而行動又透過觀察(Observation)成為進一步Perception的前提和基礎,形成自主地閉環學習過程。
這一過程就像馬克思主義的「實踐論」:“認識從實踐開始,經過實踐得到了理論的認識,再回到實踐中去。”Agent也在知行合一中進化。

一個更完整的Agent,一定是與環境充分互動的,它包括兩部分——一是Agent的部分,二是環境的部分。
此刻的Agent就如同物理世界中的「人類」,物理世界就是人類的「外部環境」。
可以想象,人類與外部環境互動的過程:我們基於對這個世界的全部感知,推匯出其隱藏的狀態,並結合自己的記憶和對世界的知識理解,進而做出Planning、決策和行動;而行動又會反作用於環境,給我們新的反饋,人類結合對反饋的觀察,繼而再做決策,以此迴圈往復。
最直觀的公式:
Agent = LLM+Planning+Feedback+Tool use
其中,在做 Planning 的過程中,除了基於現在的狀態,還有要記憶、經驗,一些對過往的反思和總結,同時還有世界知識。
對比今天的ChatGPT,它其實並非Agent,而是一個通用的世界知識,即用來做 Planning 的知識源,它沒有基於具體的環境狀態,也沒有Memory,Experience和Reflection。
當然,ChatGPT基於自身的知識可以做邏輯推理和一定的規劃,也可以加向量資料庫解決推理問題,加 Reflection 讓過程更豐富,如此看來,可將ChatGPT這個端到端的黑盒子變得顯性化一點兒——其實符號就是一個非常顯性的系統,基於此可以定向糾錯,定向提升。
對於Feedback,Agent基於Action得到正向的或試錯的反饋、階段性結果或獎勵。Feedback有多種形式,如果將與我們聊天的ChatGPT視為一個Agent,我們在文字框中敲入的回覆就是一種Feedback,只不過是一種文字形式的Feedback,此時我們對於ChatGPT來說,就是一種環境。RLHF也是一種環境,一種極度簡單的環境。
“人類之所以是人類,因為他會使用工具。”
作為智慧體, Agent 也可以藉助外部工具擴充套件功能,使其能夠處理更加複雜的任務。比如LLM使用天氣API來獲取天氣預報資訊。如果不呼叫外部工具,Action和Feedback也可以直接透過學習Policy,應對環境。
可見Agent是真正主動釋放LLM潛能的關鍵。LLM作為核心,Agent為LLM提供了行動的主觀能動性。
今天的LLM要怎麼落地?LLM作為一個智商引擎,其他周邊工具均可作為Prompt,未來是否會是一個端到端的系統?如果周邊的工具不夠,是否會有一個更通用的適配框架?
Agent落地的瓶頸,是因為“智商”不夠?
Agent本身用到兩部分能力,一部分是由LLM作為其“智商”或“大腦”的部分,另一部分是基於LLM,其外部需要有一個控制器,由它去完成各種Prompt,如透過檢索增強Memory,從環境獲得Feedback,怎樣做Reflection等。
Agent既需要大腦,也要外部支撐。
針對目前Agent在實際落地中的阻礙,其原因是LLM自身的“智商”不夠,還是其外部的系統化程度不夠?
如果外部系統化程度不夠的話,它將是一個長期待解決的問題。如果只是智商不夠的問題,當GPT-4成為GPT-5,有了更高的智商,即可彌補之前的問題。
那麼到底Agent的主要瓶頸在哪裡?
真正理解這個問題的癥結,可以先做錯誤歸因。即在實際的錯誤中,清晰地歸因到底是LLM本身的問題,還是Prompt的方式不對。
比如向語音助手詢問“天氣怎麼樣?”,這個問題本身就存在歧義——指的是哪裡的天氣?是哪一天的天氣?具體想要知道天氣中的哪些資訊?這些都不是LLM本身所能解決的問題,它需要呼叫外部的工具系統。
如果僅歸因“智商”的話,LLM只需理解“天氣怎麼樣”,如果有具體的上下文——如“下個月上海的天氣怎麼樣”,LLM基於此是否能推斷出準確的資訊,這是“智商”問題;但具體呼叫什麼工具,執行的引數本身是否準確,這些並非歸因於“智商”。
未來是否能實現一個更加通用的Agent外部框架?
很多人將 LLM 作為 Agent 的實現方式,這太簡單粗暴了。比如,僅為Agent設定一個目標,定義一些基本的條件約束之後,就期待它能完成自我規劃、分解任務、自我提示,甚至呼叫外部的工具,並給出答案的全部過程。然而,LLM本身並不是這樣訓練的,必然不具備這種能力,但這並非歸因於“智商”問題。
從Agent落地的角度來說,仍需要外部的邏輯框架。
雖然目前有許多類別的Agent,但大多很粗淺,不夠通用。即使是最簡單的Agent應用,語音助手或智慧外呼系統,其複雜性以及如何引入環境Feedback等問題,都未得到有效解決。
因此,除了對錯誤進行更細緻的分析外,我們應該研究的一個問題是:除了LLM本身足夠通用之外,是否會實現一個通用的外部邏輯框架,來解決Agent真正落地的問題?
如果我們無法找到外部通用的邏輯框架,那麼現在這場所謂的AGI革命可能只是一個泡沫,一個巨大無比的泡沫,它其實可能與上一代NLP並無本質區別。
現階段Agent的落地,不只是“智商”問題,還需要如何藉助外部工具從專用抵達通用——而這是更重要的問題。
Agent如何能有通用的適配環境?——是否需要一個learnable的環境小模型?
把LLM放進一個虛擬世界會怎麼樣?
在遊戲《我的世界》中,英偉達開發最新方法Voyager,以15.3倍速點亮科技樹,同時獲得的獨特物品是此前的3.3倍,探索範圍是2.3倍。原因歸功於GPT-4對遊戲規則的深入理解和豐富的知識儲備,它來源於預訓練過程,而非後續的增強學習。
從這個視角來看,在最佳化Agent的過程中,除了關注Feedback,還應該考慮模型如何感知環境。那麼通用大腦與環境模型之間的關係如何,怎麼配合?Agent如何從專用抵達通用?
Agent目前還鮮少有很好且通用的落地效果,大多是解決特定場景的特定問題——將LLM作為一個通用大腦,透過Prompt設計為不同的角色,以完成專用的任務,而非普適性的應用。
這其中的一個關鍵問題,即Feedback將成為Agent落地實現的一大制約因素,這一點在Tool use中體現得尤為明顯。對於一些如查詢天氣等簡單問題,只需設計恰當的Prompt即可,但對於複雜的Tools應用,其成功機率會大大降低。
簡單粗暴地用LLM做出Agent,是天方夜譚。
這種做法一方面忽視了Feedback的重要性,另一方面,即使LLM得到Feedback,憑藉它的“智商”也可能並不完全理解所有的環境或Feedback,更難基於此調整自身行為。
想要真正成功落地Agent,是給予Agent一個更通用的適配環境,一種可能的解決方案是建立一個專門用於理解和適配環境的小模型,以此和LLM互動。
由於最強大腦的“智商”部分——LLM(如GPT-4)因為規模太大是很難針對具體Agent進行重訓的,而小模型是可以適應環境變化、多次訓練的。在這個場景中,我們可將LLM看作大腦,而小模型就像小腦,作為中間層專門處理環境Feedback,與GPT-4互動。
那麼,Agent從專用到通用的實現路徑會是什麼?
假設Agent最終將落地於100種不同的環境,在目前連最簡單的外部應用都難以實現的前提下,最終能否抽象出一個框架模型來解決所有外部通用性問題?
先將某一場景下的Agent做到極致——足夠穩定且魯棒,再逐步將它變成通用框架,也許這是實現通用Agent的路徑之一。
多模態在Agent的發展中有多重要?
現在的GPT-4,是將所有的內容都轉化成文字語言,然後人類去Prompt它。首先,轉化過程可能會丟失資訊或產生錯誤,從而導致結果出現偏差。
GPT的下一個版本,如果它能實現多模態在理解層面的超強能力,那它會不會在一定程度上緩解今天Agent的不可靠以及資訊丟失與偏差的問題?多模態與Agent的關係將是什麼樣的?
如果LLM不需要在真實世界中互動,而只是在虛擬世界中執行特定任務,那麼多模態對於完成任務的幫助也許並不大。但如果LLM需要與真實世界互動,那麼多模態無疑非常重要。
多模態只能解決Agent感知上的問題,而無法解決認知的問題。
在很多情況下,如智慧客服場景,使用者可能會透過多種方式提供資訊,多模態具有很好的感知價值,但在解決一些邏輯、推理等核心問題,還差距尚遠。
多模態是必然趨勢,未來的大模型必然是多模態的大模型,未來的Agent也一定是多模態世界中的Agent。
當在進行基於文字的Agent的開發時,當多模態的分水嶺時刻到來,這些Agent是在原有基於文字的基礎上繼續發展,進一步融入多模態特性?還是需要徹底改變原有開發Agent的理念和架構,以適應未來的多模態世界?
Agent的開發並不需要全部推倒重來,但一旦Agent擁有了多模態能力,它將會與現有模型截然不同。比如GPT的下一代版本,它可能會包含一些更加強大的影像等多模態理解功能。我們不必急於立即構建這樣的模型,也可以選擇先呼叫這樣的模組,即最好將多模態理解功能內建在模型中。
半年後,我們將會看到多模態大模型的到來。而多模態Agent的到來,可能會比我們想象中更快。
首先,許多大公司都在儲備軍火一般地研發多模態。這種量變的積累非常容易引發質變,可能很快就會有實際的產品被推出。其次,人們期待的Agent是如同人類一般的助手,他不僅能說話,還能看到、聽到、感知到。理論上,一個優秀的Agent應該能實現多感官、多模態的互動,Perception、Policy都需要多模態。
隨著RT-2的釋出,一種新的視覺語言動作模型VLA,它將多模態大模型塞進機械臂,實現了實體機器人版ChatGPT。

從趨勢上看,未來的Agent一定是多模態的。Agent要成功,多模態也一定是必要的。
在多模態互動方面,數字人也提供了一個很好的示例,它展示了呼叫外部工具的優勢。當大模型呼叫數字人時,因為形象都已提前設定,我們就無需擔心它會突然生成某個政治人物的形象或聲音,甚至包括他的幻覺。
儘管美其名曰“生成式AI”,其“生成”部分,最好呼叫外部工具,以保證其確定性,規避大模型的幻覺。
比如,在多模態互動中,如果想要LLM扮演特朗普,並直接生成一支祝賀影片,那麼很可能存在風險。如果LLM僅生成指令碼,然後呼叫既定的數字人和聲音介面合成影片,這樣更安全可控。
多Agent真的會成功嗎?
現在的 Agent 還是山頂洞人,但多AI Agents互動會改變一切。
在靈感來自模擬人生遊戲的 Generative Agents 實驗中,其每個角色都分別由一個 AI Agent 控制,它們在沙盒環境中生活和互動,充分體現了將反饋和環境資訊轉化為行動的過程,實現 AI Agents 的「社交」。
其中在規劃和反應的環節,AI Agents 會充分考慮彼此之間的關係,以及一個 Agent 對另一個 Agent 的觀察和反饋,來採取下一步動作。
這個有趣的模擬隨之引發了一些戲劇化的社會現象,比如「謠言」的擴散、關係記憶等,在實驗中經常出現兩個 AI Agents 在聊天中延續他們之前的話題、辦Party、呼朋喚友等社交活動。

顯然,Agent 的真正落地,一定是建立在對環境的感知、動態學習,以及不斷更新之上的。
Agent最先在什麼場景落地?
早在今年2月,一些線上教育公司開始頻頻活躍在大模型的討論上。“我們的行業,如果再不行動的話就會第一個被顛覆”,在大部分公司還未感受到大模型的衝擊時,一家頭部線上教育公司的人先做出預判和隱憂。
而哪些行業會最先被Agent顛覆,哪些行業不會那麼快?
大模型的能力眾所周知,但“智商”只是Agent落地的一部分。即使OpenAI宣稱AGI已經來了,如果你對行業一無所知,也很難做出實際的應用。
就像一位斯坦福的博士,如果不懂一家公司的行業和產品屬性,那麼工作初期的難度也會很大。所以,我們需要更深入地討論哪些行業更適合Agent落地。
比如可以完全線上化、數字化的線上教育行業,尤其在過去的三年疫情期間,許多線下行業都遭受打擊,而線上行業卻因為數字化的優勢得以較快發展,它也會最先被Agent顛覆。相比而言,機器人或傳統行業,反而在短時間內較難被顛覆。
目前無論是中國還是美國,新的共識正在逐漸形成:第一是Agent需要呼叫外部工具,第二是呼叫工具的方式就是輸出程式碼——由LLM大腦輸出一種可執行的程式碼,像是一個語義分析器,由它理解每句話的含義,然後將其轉換成一種機器指令,再去呼叫外部的工具來執行或生成答案。
儘管現在的 Function Call 形式還有待改進,但是這種呼叫工具的方式是非常必要的,是解決幻覺問題的最徹底的手段。
Agent的未來發展格局是百花齊放?還是Winners take all?
未來大模型的競爭格局日漸明朗,必然幾家獨大,或基於開源。
而未來一兩年內,Agent的市場格局將會如何,會形成同等的勢態麼?
由於Agent並非能實現通用,Agent並非一家獨大,而是將形成一個非常長尾的供應商格局。市場上將會有很多Agent,每一個 Agent 都由不同的公司運營。
如同上一代NLP,很多AI公司都提供智慧客服或自動外呼服務,但每一家公司只能服務少數的客戶,無法形成規模效應。基於今天對Agent的技術判斷,與上一代並無太大區別。
雖然LLM的語義理解是通用的,但是我們之前討論過的Agent的環境、領域結合並不通用,這會導致市場非常分散,沒有強者越強的公司出現。
當然,Agent也分為深度(專業)和淺度(通用)兩種型別。
出門問問希望做通用的Agent。在中國的市場環境下,如果做一個與企業深度結合的Agent,最終將成為“外包”,因為它需要私有化部署,整合到企業工作流裡。很多公司都會去爭搶保險公司、銀行、汽車領域的大客戶。這將與上一代AI公司的結局非常相似,邊際成本很難降低,且沒有通用性。
出門問問目前的魔音工坊、奇妙文等AIGC產品都屬於面向內容創作者的、介於深度和淺度之間的應用,既不完全屬於consumer,也不完全屬於enterprise,同時還有面向企業使用者的CoPilot,其定位也是在企業裡找到具體的「場景」,做相對通用的場景應用。

未來是Agent的世界,在今天的Agent程序下,依然重複昨天AI的故事,私有化部署將面臨挑戰。
目前,我們正在籌建「飛哥說AI」大模型交流社群,歡迎一起探討大模型時代的共識和認知,成為AGI時代的共創者。

一場聚集人工智慧產業頭部公司與頂級資本的對話
點選下方圖片即可報名參加活動

品玩招聘作者,資深作者及編輯,並長期開放實習生招聘。
世界不平靜,我們希望在變動的技術週期和商業週期裡繼續我們的探索,不熄滅眼裡的光。
為了和更多個優秀的你一起記錄和改變這個激動人心的時代,做更多有價值的報道,品玩現開放招聘。
崗位資訊:全職:4人。實習生長期招聘。工作地點:北京。
一句話總結我們在招聘的崗位的工作內容,就是:
報道最重要的商業和技術新聞,並抽絲剝繭地解釋給讀者它們為什麼重要。
一些共同的崗位要求:
1. 尊重常識。
2.對好內容有感知,有選題發明能力。
3.掌握快速搜尋梳理資訊的方法,有較強的文獻閱讀能力,能獨立拓展相關資源。
4 英文流利。有閱讀英文內容的習慣,可以用英文完成溝通。
5.對真實世界有感知,心智成熟,有職業精神,溝通介面良好穩定。
在招崗位:
-新經濟作者、新技術作者
新經濟作者負責報道網際網路商業領域最新動態;新技術作者負責報道新技術領域(AI,晶片,機器人等)最新動態;
追蹤錢的流動,人的變化,商業世界的競爭與合作以及科技的變革,並把它們講述給我們的讀者;
不限工作經驗,不限專業背景,我們歡迎不同背景的候選人。
-資深作者/編輯
對網際網路商業領域或新技術領域有自己的研究和積累;
有自己獲取資訊的方法體系,有持續學習的能力;
能發明選題,撰寫深度文章,同時也可以輔導初級作者。
長期招募實習生
我們為實習生提供與全職同樣的指導與工作支援,並提供留用機會。
或者,以上的描述都不能定義你,但你認為你是我們需要的那個人,也可以發郵件給我們,介紹你自己。
以上崗位應聘者,請將簡歷及作品傳送至:[email protected] 。(請標明應聘崗位)
同時,我們也在招聘其他崗位:
運營部門
崗位資訊:全職:3人。實習生長期招聘。工作地點:北京。
內容運營
能夠敏銳的捕捉網際網路熱點,並將其轉化為出色的內容;
富有創新意識和強烈的主觀能動性,重視流量在工作中的重要性;
有自己獨特的資料分析方法論,能發現龐雜資料中的關鍵點,並反哺內容創作。
影片運營
具備影片的全流程的創作能力;
對各個內容平臺均有深刻理解,能抓住平臺規則紅利;
有自己獨特的資料分析方法論,能發現龐雜資料中的關鍵點,並反哺內容創作。
社群運營
有過國內外成熟知名社群的運營經驗;
能夠獨立承擔運營策略、節奏設計,結合運營目標、節點資源等因素制定精細化的社群運營規劃;
對UGC的熱點、流行趨勢、話語體系有充分理解,能夠透過創意、熱點玩法、活動策劃激發UGC參與。
長期招募實習生
我們為實習生提供與全職同樣的指導與工作支援,並提供留用機會。
運營崗位應聘者,請將簡歷及作品傳送至:[email protected] 。(請標明應聘崗位)
商務部門
銷售總監/高階銷售經理
崗位職責:
1. 負責品玩線上廣告、線下活動類、品牌營銷、市場公關、以及定製方案的商務拓展與銷售工作,透過對目標行業客戶的銷售完成指定收入目標;
2. 對目標行業客戶進行研究、識別、接洽、需求、分析、產品演示、方案規劃、談判與簽約;
3. 管理與維護指定客戶(包括新客戶與現有客戶),提供優秀的售前與售後服務,建立長期、穩定的合作關係,對客戶產品和需求進行持續性的研究與開發;
4. 與各部門保持緊密合作,回饋客戶需求與最新行業動向,協助最佳化產品與服務;
5. 積極參加行業商務與社交活動,拓展人脈資源,持續瞭解與提升行業知識和洞察力
任職要求:
1. 網際網路銷售經驗2年以上,銷售經驗5年以上優先;
2. 做事嚴謹、細心,較強的溝通協調能力;
3. 有市場營銷、品牌方或者市場公關乙方工作經歷優先;
4. 自我驅動,有很強的學習行業知識及專業知識的能力;
5. 具備應變能力,團隊協作能力,能適應多工處理及工作壓力;
6. 擁有intel、華為、華為雲、阿里、阿里雲、高通等網際網路行業直客資源者優先。
更多招聘資訊,可以進入官網招聘頁面獲取。
期待品玩有你的加入。


