
2025年上半年,AI Agent(AI智慧體)迅猛發展,點燃了“萬物皆可Agent”的熱潮。
這股熱潮首先體現在技術底層——模型領域的激烈“軍備競賽”上。年初DeepSeek打破了推理模型賽道OpenAI一家獨大的局面,震撼業界。隨後OpenAI、Anthropic、Google等頭部廠商輪番上陣,相繼推出o3 Pro、Claude 4系列和Gemini 2.5 Pro等重磅模型。
模型能力的躍升,直接推動了應用層面的爆發。隨著OpenAI釋出Operator(上網執行任務)與Deep Research(深度研究)這兩款產品,AI Agent賽道的競爭驟然加劇,新產品不斷湧現。
大廠們紛紛押注Agent賽道:Google預計今年釋出能夠操作瀏覽器和其他軟體的Project Mariner,百度推出定位於通用超級智慧體的“心響”APP,阿里的“心流”專案則深入探索Agent的人機協同效率。然而,PMF(產品市場匹配度)、商業化落地路徑和產品核心壁壘等問題仍等關鍵問題,仍有待行業進一步探索。
AI Agent是繼提示詞(prompt)、工作流(workflow)之後,AI應用發展的第三階段。AI Agent的核心價值在於其感知環境、自主決策及工具使用(Tool Use)能力。我們認為,要實現真正的突破和解決前述挑戰,強化學習驅動的持續迭代將是Agent發展的關鍵路徑。
上週日,圍繞2025年上半年AI Agent的創業熱潮、技術突破和發展趨勢,峰瑞資本執行董事劉鵬琦和峰瑞資本副總裁顏黔杭在一場直播中進行了深入探討。他們討論的問題包括但不限於:
-
如何理解AI Agent這個概念?在這一賽道上,行業有哪些共識和分歧?
-
AI應用究竟發生了哪些技術突破?為何業界普遍看好強化學習驅動的Agent? -
“AI聖經”《苦澀的教訓》(The Bitter Lesson)中有哪些核心觀點?這些觀點對AI Agent的發展又有哪些啟示? -
Agent該如何實現落地?在這個過程中,有哪些創新機會?未來的長期壁壘又會是什麼?
我們編輯了直播的部分內容,希望能帶來新的思考角度。歡迎在「峰瑞資本」影片號觀看回放,也歡迎移步小宇宙App和Apple Podcast搜尋「高能量」收聽本期節目。


/ 01 /
這半年,AI領域有哪些超預期事件?
顏黔杭:從年初DeepSeek爆火到如今Agent應用湧現,這半年AI領域有哪些超預期事件?
劉鵬琦:今年上半年,自DeepSeek釋出後,整個AI賽道明顯加速,模型側與應用側均迎來關鍵變化。
一,在模型側,以DeepSeek為代表的推理模型迅速開啟市場,推動各大廠商加速入局,行業開啟“軍備競賽”狀態。DeepSeek更深遠的意義在於,基於強化學習的推理模型由此進入公眾視野,正式開闢了大模型新賽道。
除了產品層面的突破,模型迭代速度也遠超預期:OpenAI推出o3 Pro、Anthropic釋出Claude 4系列、Google釋出Gemini 2.5 Pro。頭部廠商輪番“打榜”,徹底打破了此前關於“模型迭代放緩”的預測。與此同時,部分公司正在重整旗鼓,比如Meta近期宣佈投資資料標籤初創公司Scale AI 150億美元,並重組AI部門。
值得關注的是,DeepSeek證明了國內外大模型技術並未有顯著差距。大廠也加緊模型層面的佈局,比如阿里釋出通義千問3.0、位元組釋出豆包1.6版本;中國“AI六小龍”公司(智譜、MiniMax、月之暗面、階躍星辰、百川智慧、零一萬物)雖有部分企業稍顯滯後,但頭部產品迭代速度仍然迅猛。
二,應用側的標誌性事件,是今年年初OpenAI相繼釋出Operator(執行簡單任務的Agent)與Deep Research(進行深度研究的Agent)這兩款產品。2025由此被業界認為是“AI Agent元年”。
在AI Agent這波創業熱潮中,中國團隊身影頻現:Manus、Genspark等Agent產品引起廣泛熱議和關注;Minimax、月之暗面等大模型廠商也加入戰局,釋出自有Agent產品。
三,AI程式設計賽道驗證了PMF,即產品與使用者需求實現契合。火爆出圈的工具Cursor、Windsurf被OpenAI收購,Lovable、Replit、Bolt等企業的快速發展,均成為行業熱議事件。(歡迎閱讀《AI coding的雄心、困局與終局 | 峰瑞研究所》)
基於這些可以看到,在AI領域,整個市場和賽道都處在熱潮之中。
顏黔杭:模型推理能力的突破是上半年的另一大看點。行業關注的焦點正從“預訓練”的Scaling Law(資料規模效應)轉向“後訓練”的Scaling Law。
預訓練是指透過引數、資料和算力提升模型基礎能力。後訓練則是透過強化學習、人類反饋等技術手段最佳化模型效能。此前,Scaling Law效果, 主要指持續投入引數、資料和算力,以獲得越來越強大的模型。
轉折點出現在DeepSeek團隊推出R1模型,在模型後訓練階段大規模應用強化學習技術,即使標註資料極少,也能提升模型推理能力、進而實現推理效能的Scaling Law。
應用方面有一個有意思的現象,OpenAI、Google以及微軟等巨頭紛紛入局Agent領域,甚至有觀點認為,OpenAI本質上可視為“語言模型驅動的AI Agent公司”。
此前,我們認為,AI應用需要與模型廠商保持一定距離,否則在模型邊界不明確時,應用可能被快速迭代淹沒。但在今年這波Agent浪潮中,部分主做模型的企業,因在使用者體驗交付上表現出色,反而在應用市場佔據一席之地。
當前市場中興起了“萬物皆可Agent”的熱潮,大廠介入將模型側推向“全民軍備競賽”,Gemini 2.5提出AIOS概念(大模型智慧體作業系統,即將大型語言模型嵌入作業系統OS作為大腦),國內“六小龍”與大廠間的競爭進入白熱化;應用側則以Cursor等企業為代表,在現有場景中推進Agent的推廣與驗證。
劉鵬琦:這場戰爭遠遠沒有結束。大模型廠商在做自己的應用和Agent產品,也有很多創業公司在做,模型和應用的邊界變得越來越模糊,未來誰更有可能長期跑贏也有待觀察。
回顧這上半年,可能每天都有新的事情發生,很多結論被快速證偽。當下我們的很多觀點也不一定正確,這是一個保持開放、不斷學習的過程。
/ 02 /
AI 應用的三次進化,
Agent正規化從何而來?
顏黔杭:“AI Agent”的具體定義是什麼?不同應用之間的本質區別又在哪裡?
劉鵬琦:自2022年底OpenAI釋出ChatGPT,助推AI應用進入新賽道以來,AI應用大致有三種任務處理方式:
第一階段是prompt(提示詞,即對話互動)形式,使用者輸入Prompt、提出需求,大模型直接輸出答案。這是最基礎也是普遍的AI應用形態。
第二階段是AI Workflow(工作流)形式,大模型外部接入資料來源,透過人工預先定義的節點與路徑,多步驟地完成任務需求。
與第一階段相比,Workflow增加了資料讀取與處理環節,但仍依賴專家預設的固定流程,雖然過程可控,但靈活性、通用性不足。當前落地及商業化較好的應用多是基於這一形態,比如Dify(提供低程式碼開發平臺,支援快速構建營銷文案、使用者畫像分析)、Coze(智慧客服、語音助手)和LangFlow(低程式碼、視覺化的AI 應用構建工具)。
隨著OpenAI釋出Operator與Deep Research,AI應用邁入第三階段——AI Agent(智慧體),其廣義定義是“能夠自主感知環境、自主決策、執行任務並達成目標的智慧系統”。這可以逐一拆解關鍵詞來理解:
“感知環境”,可以讓AI更全面理解使用者的需求、指令和所處上下文的資訊,甚至包括長期記憶;同時,AI還可以進一步改變環境,這就要依靠在“執行任務”過程中Tool Use(工具使用)能力上的關鍵突破。
“自主決策與規劃”,與Workflow依賴專家預設的固定流程不同,Agent能夠自主決策任務步驟。儘管Workflow在可控性方面具有優勢,但在靈活性、通用性與泛化能力上存在侷限;而具備自主決策能力的Agent,雖然目前在任務執行成功率上仍有挑戰,卻展現出了遠超預期的潛力。這些特性的疊加,推動第三階段的Agent應用形態走向大眾視野。
/ 03 /
Tool Use和強化學習,
如何賦能Agent?
顏黔杭:結合鵬琦提到,Agent核心特徵在於感知環境、自主決策、Tool Use能力,那麼相較於以ChatGPT為代表的AI應用,Agent的核心優勢究竟體現在哪些方面?當前哪些具體賽道更適合落地應用,又存在哪些挑戰?
劉鵬琦:今年Agent的核心變化在於,Tool Use能力取得了突破。
具體來看,從程式設計到browser-use(Agent模擬使用者在瀏覽器中的操作),再到computer-use(Agent操控計算機系統),以及隨著MCP通用介面(Model Context Protocol,模型上下文協議,即透過制定統一規範、實現 AI 模型與外部資源的無縫對接)普及率的提升,Agent的Tool Use能力得到增強,能夠更高效地從外部獲取資訊。
此前大模型對於世界知識的核心侷限在於,訓練資料僅包含截止到某日的公開資料,缺乏時效性資料以及私有領域資料注入。具備Tool Use能力後,AI能自主檢索資訊、與外部世界互動,資訊獲取能力較此前版本實現了數量級上的提升。
如今,Agent已在開發與程式設計賽道上驗證了PMF。以Cursor為代表的工具證明,程式設計領域的部分閉環操作完全可以交由Agent完成。更關鍵的是,今年大模型藉助強化學習的技術突破,顯著提升了推理能力,進一步增強了Agent的實用性。
顏黔杭:我來補充一下為什麼Agent能夠率先在AI程式設計賽道上跑通。程式設計本質上是“文字+語言資料”的結合,其訓練資料高度結構化,因此ChatGPT剛問世時便展現出較強的程式碼生成能力,不過早期的程式碼常常出現幻覺問題,無法直接對接到編譯器執行驗證。
透過整合過去二三十年來成熟的軟體開發工具鏈,AI程式設計可以在程式碼編寫、除錯到編譯輸出等環節中形成完整的閉環系統,在虛擬計算機的環境下獨立執行,從而為Agent的高效迭代和實驗驗證提供有力支援。
相比之下,具身智慧場景的落地難度更高。其核心難點在於,機器人需要與物理世界直接互動,從程式碼指令到實際執行之間存在顯著鴻溝,僅靠模型層面的迭代難以讓Agent在具身智慧領域快速突破。
Tool Use助力了Agent,那麼,強化學習又會讓Agent獲得怎樣的發展?
劉鵬琦:這一輪Agent的落地起點確實是Tool Use能力的提升,但未來仍要依賴強化學習從而進一步發展。在我看來,基於強化學習迭代的Agent,才是未來AI應用走向“終極智慧”的路徑。
事實上,“Agent”概念最早便源於強化學習領域。經典教材《Reinforcement Learning: An Introduction》中對Agent的定義是“在環境中執行動作,並根據環境反饋調整行為,以實現長期目標”,這與當下AI應用討論的Agent概念高度契合。
“強化學習”最早起源於計算機科學,後與認知科學、心理學、神經科學等學科相互促進,不僅代表了計算機科學領域迭代、演進的路徑,更是普世進化的規律之一。
包括強化學習在內,大模型的演進也分為三個階段。舉個生活化例子,學生上學讀書、聽課類似大模型的“自監督模仿學習”(基於大量公開無標註資料的預訓練階段);老師講解例題是“監督微調”(基於特定標註資料的監督訓練);透過寫作業、考試獲得反饋並真正掌握知識,則是典型的“強化學習”(使用獎勵模型來指導訓練基礎模型)。這一規律同樣適用於生物進化,比如每個物種的基因組合就是不同環境的Agent,同樣需要透過適者生存的進化過程變得更強。
程式設計領域之所以能快速驗證Agent價值,在於其具備清晰的資料反饋閉環環境,程式碼正確與否都很好驗證,有非常明確的獎勵訊號,Agent能力得以快速迭代。
未來,若想讓Agent超越競爭對手甚至人類智慧,必須讓它進入強化學習的閉環,自主探索學習方法,而非依賴人類指導。
顏黔杭:過去強化學習已在機器人、遊戲AI等領域有諸多探索,已經成為推動AI發展的基礎方法之一。
OpenAI早期便透過強化學習開發機器人及遊戲AI應用。當大語言模型的基礎效能足夠強大後,我們會發現強化學習對提升模型的能力上限起到了關鍵作用。換言之,強化學習需在基礎模型具備一定能力後,才能釋放其最大價值。
以網球運動來類比,必須先由教練教會基礎揮拍動作,能透過練習持續最佳化迭代;如果基礎動作未掌握或存在錯誤,大量強化訓練反而可能固化錯誤、影響效能、限制上限。因此,模型的最終能力上限,既由基礎模型效能決定,也由強化學習能力決定。
因此,在強化學習用於發展Agent之前,研發者需要考慮兩個問題,其一,Agent是否符合“先具備良好基礎效能,再透過強化學習提升上限”的規律?其二,行業何時會進入“強化學習對Agent帶來巨幅提升”的關鍵階段?
劉鵬琦:從當前觀察看,儘管多家廠商釋出了自有Agent,但細究技術文件會發現,大家的路徑差異顯著,可大致分為兩種形態:
第一種是完全端到端(end to end)、基於強化學習訓練的Agent,以OpenAI的Deep Research、Kimi釋出的Researcher為代表,Manus就是其中的典型代表,目前看起來更適合廣度優先的通用泛化型任務。“端到端”指模型的上下文理解、工具呼叫、多步驟思維鏈等全流程在一個整體框架下完成,目前僅模型廠商具備此類能力。
第二種是模組化拆分的Agent,即在工程框架下將不同能力拆解給不同模型或Agent來共同完成一個任務。這種模組化的方式目前看起來更適合廣度優先的通用泛化型任務。在這個框架下,比如決策推理的部分可以使用類似DeepSeek R1的模型,而程式設計的部分可以使用Claude模型。強化學習主要作用於各模組單點能力提升,最後再透過外部工程連線,以實現更強的整體效能。
顏黔杭:目前,強化學習對單點能力的提升已見成效,但要實現端到端的強化學習仍需突破。這類似模型的“後訓練”(Post-training,指透過資料驅動和演算法干預,增強大模型在專業技術領域的適應能力),既需要對大模型後訓練的深刻理解,也需要產品化能力。目前來看,僅有少數模型廠商,以及兼具“模型+產品”的創業團隊具備這樣的綜合能力。
/ 04 /
“AI聖經”如何影響Agent的發展?
顏黔杭:當前Agent領域的一個爭議焦點在於技術路線的選擇——到底是選擇Workflow型Agent還是基於強化學習的Agent?
具體來看,Workflow型Agent強調視覺化、可解釋性和可控性,具備較高的透明度和穩定性,因此在短期內更適合作為商業化落地的技術路徑。而基於強化學習的Agent雖然理論上具有更高的效能上限,但因其行為難以預測、可控性較差,仍面臨較大的技術與應用挑戰,因此被視為一個更具探索性、面向長期發展的方向。
機器學習先驅Rich Sutton在2019年的一篇經典文章《苦澀的教訓》(The Bitter Lesson)提出,過度依賴人類先驗知識和特徵工程提升模型效能的方法,其效果不如算力與資料利用率的提升方法。這一預言精準指向了大語言模型的發展路線。以OpenAI為例,它採用的Decode-only架構在算力與資料規模化利用上具有優勢,現在已是大語言模型的主流架構。
那麼,《苦澀的教訓》的核心觀點是否也適用於AI Agent領域?
劉鵬琦:強化學習驅動的Agent非常符合《苦澀的教訓》的結論,強化學習本質上就是不需要教模型太多東西,只給它先驗能力,未來怎麼迭代、怎麼提高要靠Agent自己。
具體來看,想要實現Agent自主學習這一目標需要做好兩個方面。
其一,需要一定的先驗能力。對“小白”水平的Agent而言,搜尋路徑可能過多,難以找到最優解。因此,Agent需要藉助先驗能力來提升自己,既包括模型本身的能力,也涵蓋垂直領域積累的knowhow。
其二,構建相對好的環境。業界對於怎麼構建環境現在有些爭議。目前市面上的通用Agent大多在追求透過對話聊天框理解使用者需求,交付結果。但語言作為資訊的壓縮形式,在複雜場景中難以詳細描述需求或結果。因此,多模態資訊也很重要。
比如圖形介面的互動,設計繪圖有時候需要對圖片進行圈選和修改,這類操作無法僅透過語言完成,這就需要更復雜的互動工具,讓使用者參與到整個流程。使用者的反饋訊號能進一步幫助Agent去迭代能力。
所以第二點很重要,產品需在模型與使用者間構建豐富的上下文環境與反饋閉環。比如,Cursor在早期堅持使用IDE(整合開發環境),正是為了藉助與使用者的深度互動,採集更多反饋訊號。
總結一下,想要讓Agent有自我迭代的可能性,一方面需要基於行業和垂直領域knowhow的先驗能力讓產品先實現PMF,另一方面還要搭建有充分反饋和上下文的人機互動環境用以實現長期的自我學習和迭代。
/ 05 /
Agent將如何落地?
有哪些創新機會?
顏黔杭:我們回顧了AI Agent這類應用的發展以及未來預期,回到創業投資上,目前AI agent落地的痛點和瓶頸是什麼?有哪些共識和爭議?
劉鵬琦:2025年上半年,有很多Agent應用落地,這些應用在使用工具和推理能力上都有了長足的進步,但大家對Agent的評價還是褒貶不一。
Agent仍然面臨很多技術層面的挑戰,比如能抓取的上下文是否足夠長、如何管理記憶機制,以及針對多數主觀問題和隨機結果如何推理。
在使用工具層面,Agent在瀏覽器訪問搜尋等工具的能力已經很強,但想要和真實物理環境、企業內部的複雜軟體系統進行互動,還有很長的路要走。在這幾點沒有充分發展前,Agent的發展上限仍然比較低。
第二個很難回答的問題是,未來Agent應用的壁壘是什麼?如果借鑑上一代網際網路應用的評價標準之一——規模效應,那對於Agent應用而言,可能其壁壘在於,能不能透過更多使用者和使用,提升產品體驗和模型能力。目前的Agent產品或許還沒到這一步,需要繼續觀察。
第三個問題是,Agent的商業模式會如何演化?現在Agent主要是訂閱模式,等到未來有更多垂類Agent出現,訂閱模式是否能長期可持續?
一個猜想是,Agent可能會轉向另外一種模式,按token使用量付費,這也是目前ToB服務的主要模式。但這種模式對於C端可能存在侷限性,因為使用者很少有按成本付費的習慣和意識。還有一種模式是讓使用者為結果付費,但結果的價值高低也是主觀性的判斷。另外,如果未來實現了多Agent協同,通用型與垂直型Agent之間的結算方式,依然是商業層面的挑戰。
目前Agent領域還有很多變數,業界沒有形成完全的共識。AI最初興起的時候大家認為它改變了生產力,現在看來也改變了很多生產關係,人和Agent之間如何協作管理,是很有意思的議題。
顏黔杭:在Agent領域,你關注哪些創新機會?未來一、兩年內的投資更看好什麼樣的Agent?
劉鵬琦:從投資人的角度,我們可能會更看重垂直領域的Agent機會,因為垂類Agent具備行業和細分領域的先驗知識,和使用者的關係相對更近,也不需要完全拘泥於Agent的形態。
現在的局面是,大多數應用還是基於Prompt,一部分已經做成了Workflow(工作流),只有少數開始嘗試Agent。在應用尋找PMF的過程中,Workflow已經發揮了很大的作用。隨著模型能力的提升,Workflow會慢慢進化成Agentic Workflow(智慧體工作流),最終走向完全由Agent託管的形態,這樣的發展路徑是值得期待的。
現在整個行業的競爭非常激烈,大家都在爭做“全球第一XXX”,而且可能離一個創業者就把公司做成獨角獸的狀態也不遠了。在創業者選方向的時候,我們會建議基於原有經驗和積累,儘可能延長產品服務的鏈條,覆蓋工具、服務和交付結果。
顏黔杭:我補充一些對ToC方向應用的看法。大家往往會誤解ToC產品一定要做通用,但有很多小眾化的需求,其實也有比較大的市場。所以,我們也會關注在C端環境下,深挖AI產品在垂直場景下的價值。
當前ToC領域的AI探索,比如基於大模型的文字生成、對話互動等短鏈條、文字生成互動場景的產品,已經被月之暗面、OpenAI等玩家佔據市場。真正的機會可能藏在C端的長鏈條任務規劃和工具類內容生成中,比如像Deep Research這樣交付輸出長鏈條結果,或者結合AI做硬體產品。
為什麼說通用且垂直的ToC產品有價值?
我們可以從過去十年智慧硬體的發展中找到答案。早期智慧硬體的誕生與蓬勃發展大多是在垂直場景中,因為C端本身體量較大,垂直場景的產品做大後,有很多機會把原有的小蛋糕做成大蛋糕,甚至創造新品類。我們很期待能出現將AI與C端需求結合的新產品。
我們期待AI應用和AI Agent將迎來爆發的機會,也非常看好ToC和ToB方向各類垂直領域的AI應用將進一步發展。
即使今天我們聊了這麼多觀點,但可能半年後很多觀點就會被推翻。我們期待與創業者進一步交流。在一個技術與認知不斷迭代的時代,保持開放的心態、持續的學習與同行間的深入交流,是我們應對不確定性的關鍵。

星標峰瑞資本微信公眾號
一手商業思考及時送達
