萬字探討Agent發展方向：模型即產品，Agent的未來要靠模型而不是Workflow｜亮馬橋小紀嚴選

小紀有話說：

知名 AI 工程師、Pleias 的聯合創始人 Alexander Doria 最近針對 DeepResearch、Agent 以及 Claude Sonnet 3.7 發表了兩篇文章，頗為值得一讀，尤其是 Agent 智慧體的部分。

Alexander 的觀點很明確：未來 AI 智慧體的發展方向還得是模型本身，而不是工作流（Workflow）。還拿目前很火的 Manus 作為案例：他認為像 Manus 這樣基於「預先編排好的提示詞與工具路徑」構成的工作流智慧體，短期或許表現不錯，但長期必然遇到瓶頸。這種「提示驅動」的方式無法擴充套件，也無法真正處理那些需要長期規劃、多步驟推理的複雜任務。

而下一代真正的 LLM 智慧體，則是透過「強化學習（RL）與推理（Reasoning）的結合」來實現的。文章舉例了 OpenAI 的 DeepResearch 和 Anthropic 的 Claude Sonnet 3.7，說明未來智慧體會自主掌控任務執行的全過程，包括動態規劃搜尋策略、主動調整工具使用等，而不再依靠外部提示或工作流驅動。這種轉變意味著智慧體設計的核心複雜性將轉移到模型訓練階段，從根本上提升模型的自主推理能力，最終徹底顛覆目前的應用層生態。

來源：Founder Park

模型即產品

過去幾年裡，人們不斷猜測下一輪 AI 的發展方向：會是智慧體（Agents）？推理模型（Reasoners）？還是真正的多模態（Multimodality）？

但現在，是時候下結論了：AI 模型本身，就是未來的產品。

目前，無論是研究還是市場的發展趨勢，都在推動這個方向。

為什麼這麼說？

1.通用型模型的擴充套件，遇到了瓶頸。GPT-4.5 釋出時傳遞的最大資訊就是：模型的能力提升只能呈線性增長，但所需算力卻在指數式地飆升。儘管過去兩年 OpenAI 在訓練和基礎設施方面進行了大量最佳化，但仍然無法以可接受的成本推出這種超級巨型模型。

2.定向訓練（Opinionated training）的效果，遠超預期。強化學習與推理能力的結合，正在讓模型迅速掌握具體任務。這種能力，既不同於傳統的機器學習，也不是基礎大模型，而是某種神奇的第三形態。比如一些極小規模的模型突然在數學能力上變得驚人強大；程式設計模型不再只是簡單地產生程式碼，甚至能夠自主管理整個程式碼庫；又比如 Claude 在幾乎沒有專門訓練、僅靠非常貧乏的資訊環境下，竟然也能玩寶可夢。

3.推理（Inference）的成本，正在極速下降。DeepSeek 最新的最佳化成果顯示，目前全球所有可用的 GPU 資源，甚至足以支撐地球上每個人每天呼叫一萬個頂尖模型的 token。而實際上，目前市場根本不存在這麼大的需求。簡單賣 token 賺錢的模式已經不再成立，模型提供商必須向價值鏈更高層發展。

但這個趨勢也帶來了一些尷尬，因為所有投資人都將寶壓在了「應用層」上。然而，在下一階段的 AI 革命中，最先被自動化、被顛覆的，極有可能就是應用層。

下一代 AI 模型的形態

過去幾周，我們看到了兩個典型的「模型即產品」的案例：OpenAI 推出的 DeepResearch 和 Anthropic 推出的 Claude Sonnet 3.7。

關於 DeepResearch，很多人存在誤解，這種誤解隨著大量仿製版本（開源和閉源）的出現，變得更嚴重了。實際上，OpenAI 並非簡單地在 o3 模型外面套了層殼，而是從零開始訓練了一個全新的模型*。

*OpenAI 的官方文件：https://cdn.openai.com/deep-research-system-card.pdf

這個模型能直接在內部完成搜尋任務，根本不需要外部呼叫、提示詞或人工流程干預：

「該模型透過強化學習，自主掌握了核心的網頁瀏覽能力（比如搜尋、點選、滾動、理解檔案）……它還能自主推理，透過大量網站的資訊合成，直接找到特定的內容或生成詳細的報告。」

DeepResearch 不是標準的大語言模型（LLM），更不是普通的聊天機器人。它是一種全新的研究型語言模型（Research Language Model），專為端到端完成搜尋類任務而設計。任何認真用過這個模型的人都會發現，它生成的報告篇幅更長，結構嚴謹，內容背後的資訊分析過程也極為清晰。

相比之下，正如 Hanchung Lee 所指出*的，其他的 DeepSearch 產品，包括 Perplexity 和 Google 版，其實不過就是普通模型加了一點額外的小技巧：

*https://leehanchung.github.io/blogs/2025/02/26/deep-research/

「雖然谷歌的 Gemini 和 Perplexity 的聊天助手也宣稱提供了『深度搜索』的功能，但它們既沒有公開詳細的最佳化過程，也沒有給出真正有分量的量化評估……因此我們只能推測，它們的微調工作並不顯著。」

Anthropic 的願景也越來越明確。去年 12 月，他們給出了一個頗有爭議，但我認為相當準確的「智慧體」定義*。與 DeepSearch 類似，一個真正的智慧體必須在內部獨立完成任務：「智慧體能夠動態地決定自己的執行流程和工具使用方式，自主掌控任務的完成過程。」

*定義：https://www.anthropic.com/research/building-effective-agents

但市面上大多數所謂的智慧體公司，目前做的根本不是智慧體，而是「工作流」（workflows）：

也就是用預先定義好的程式碼路徑，串聯 LLM 與其他工具。這種工作流仍然有一定價值，尤其是在特定領域的垂直應用上。但對於真正從事前沿研究的人來說，很明顯：未來真正的突破，必須是直接從模型層面入手，重新設計 AI 系統。

Claude 3.7 的釋出，就是一個實實在在的證明：Anthropic 專門以複雜的程式設計任務為核心訓練目標，讓大量原本使用工作流模型（比如 Devin）的產品，在軟體開發（SWE）相關的評測中表現大幅提升。

再舉一個我們公司 Pleias 更小規模的例子：

我們目前正在探索如何徹底自動化 RAG（基於檢索的生成系統）。

現階段的 RAG 系統由許多複雜但脆弱的流程串聯而成：請求路由、文件切分、重排序、請求解釋、請求擴充套件、來源上下文理解、搜尋工程等等。但隨著模型訓練技術的進步，我們發現完全有可能把這些複雜流程整合到兩個相互關聯的模型中：

一個專門負責資料準備，另一個專門負責搜尋、檢索、生成報告。這種方案需要設計一套非常複雜的合成數據管道，以及完全全新的強化學習獎勵函式。

這是真正的模型訓練，真正的研究。

這一切對我們意味著什麼？

透過訓練階段預先應對大量可能的行動和各種極端情況，部署時將變得異常簡單。但在這個過程中，絕大部分價值都將被模型訓練方創造，並且最終被模型訓練方所捕獲。

簡單來說，Anthropic 想要顛覆並替代目前的那些所謂「智慧體」工作流，比如像 Llama Index 的這種典型系統：

Llama Index Basic Agent

轉變為這種完全模型化的方案：

Claude Agent

蜜月期結束了

目前 AI 的大趨勢已經明朗：未來 2-3 年內，所有閉源 AI 大模型提供商都會停止向外界提供 API 服務，而將轉為直接提供模型本身作為產品。

這種趨勢並非猜測，而是現實中的多重訊號都指向了這一點。Databricks 公司生成式 AI 副總裁 Naveen Rao 也做了清晰的預測：

在未來兩到三年內，所有閉源的 AI 模型提供商都會停止銷售 API 服務。

簡單來說，API 經濟即將走向終結。模型提供商與應用層（Wrapper）之間原本的蜜月期，已徹底結束了。

市場方向可能的變化：

1.Claude Code 和 DeepSearch都是這種趨勢的早期技術與產品探索。你可能注意到，DeepSearch 並未提供 API 介面，僅作為 OpenAI 高階訂閱的增值功能出現；Claude Code 則只是一個極為簡單的終端整合。這清晰表明，模型廠商已開始跳過第三方應用層，直接創造使用者價值。

2.應用層企業開始秘密地佈局模型訓練能力。當前成功的應用型公司，也都意識到了這種威脅，悄悄嘗試轉型。例如 Cursor 擁有一款自主開發的小型程式碼補全模型；WindSurf 內部開發了 Codium 這樣一款低成本的程式碼模型；Perplexity 此前一直依靠內部分類器進行請求路由，最近更是轉型訓練了自己的 DeepSeek 變體模型用於搜尋用途。

3.當前成功的「應用套殼商」（Wrappers）實際上處於困境之中：他們要麼自主訓練模型，要麼就等著被上游大模型徹底取代。他們現在所做的事情，本質上都是為上游大模型廠商進行免費的市場調研、資料設計和資料生成。

接下來發生什麼還不好說。成功的應用套殼商現在陷入兩難處境：「自己訓練模型」或者「被別人拿來訓練模型」。據我所知，目前投資者對「訓練模型」極為排斥，甚至使得一些公司不得不隱藏他們最具價值的訓練能力，像 Cursor 的小模型和 Codium 的文件化至今都極為有限。

市場完全沒有計入強化學習（RL）的潛力

目前 AI 投資領域存在一個普遍的問題：所有投資幾乎都是高度相關的。

現階段幾乎所有的 AI 投資機構，都抱持以下一致的想法：

1.封閉 AI 廠商將長期提供 API；

2.應用層是 AI 變現的最佳途徑；

3.訓練任何形式的模型（不論預訓練還是強化學習）都是在浪費資源；

4.所有行業（包括監管嚴格的領域）都會繼續長期依賴外部 AI 提供商。

但我不得不說，這些判斷日益看起來過於冒險，甚至是明顯的市場失靈。

尤其是在最近強化學習（RL）技術取得突破的情況下，市場未能正確對強化學習的巨大潛力進行定價。

眼下，「強化學習」的威力根本沒有被資本市場準確評估和體現。

從經濟學角度看，在全球經濟逐漸邁入衰退背景下，能夠進行模型訓練的公司具有巨大的顛覆潛力。然而很奇怪的是，模型訓練公司卻根本無法順利獲得投資。以西方的新興 AI 訓練公司 Prime Intellect 為例，它擁有明確的技術實力，有潛力發展為頂級 AI 實驗室，但即便如此，其融資仍面臨巨大困難。

縱觀歐美，真正具備訓練能力的新興 AI 公司屈指可數：

Prime Intellect、EleutherAI、Jina、Nous、HuggingFace 訓練團隊（規模很小）、Allen AI 等少數學術機構，加上一些開源基礎設施的貢獻者，基本涵蓋了整個西方訓練基礎設施的建設和支援工作。

而在歐洲，據我所知，至少有 7-8 個 LLM 專案正在使用 Common Corpus 進行模型訓練。

然而，資本卻對這些真正能夠訓練模型的團隊冷眼旁觀。

最近，甚至連 OpenAI 內部也對目前矽谷創業生態缺乏「垂直強化學習」（Vertical RL）表達了明顯的不滿。

我相信，這種資訊來自於 Sam Altman 本人，接下來可能會在 YC 新一批孵化專案中有所體現。

這背後的訊號非常明確：大廠將傾向於直接與掌握垂直強化學習能力的創業公司合作，而不僅僅依賴應用層套殼。

這種趨勢也暗示了另一個更大的變化：

未來很多最賺錢的 AI 應用場景（如大量仍被規則系統主導的傳統產業）尚未得到充分開發。誰能訓練出真正針對這些領域的專用模型，誰就能獲得顯著優勢。而跨領域、高度專注的小型團隊，也許才更適合率先攻克這些難題，並最終成為大型實驗室潛在收購的目標。

但令人擔憂的是，目前大部分西方 AI 企業還停留在「純應用層」的競爭模式上。甚至大部分人都沒有意識到：

僅靠應用層打下一場戰爭的時代已經結束了。

相比之下，中國的 DeepSeek 已經走得更遠：它不再僅僅把模型視作產品，而是視為一種通用的基礎設施。正如 DeepSeek 創始人梁文鋒在公開採訪中明確指出：

「就像 OpenAI 和 Anthropic 一樣，我們將計劃直接公開說明：DeepSeek 的使命並不是僅僅打造單個產品，而是提供一種基礎設施層面的能力……我們會首先投入研究和訓練，將其作為我們的核心競爭力。」

可惜的是，在歐美，絕大部分 AI 初創公司仍只專注於構建單純的應用層產品，這就如同「用過去戰爭的將領去打下一場新戰爭」，甚至根本沒意識到上一場戰爭其實已經結束了。

關於簡單 LLM 智慧體的「苦澀教訓」

最近被熱炒的 Manus AI 屬於典型的「工作流」。我整個週末的測試*都在不斷驗證著這種系統的根本性侷限，而這些侷限早在 AutoGPT 時代就已經顯現出來。尤其是在搜尋任務中，這種侷限表現得極為明顯：

*https://techcrunch.com/2025/03/09/manus-probably-isnt-chinas-second-deepseek-moment/

1.它們缺乏真正的規劃能力，經常在任務進行到一半時就「卡住」了，無法推進；

2.它們無法有效地記憶長期的上下文，通常任務持續超過 5 到 10 分鐘便難以維持；

3.它們在長期任務中表現很差，多個步驟的任務會因為每一步的細微誤差被放大，導致最終失敗。

今天我們嘗試從這個全新的、更嚴格的角度出發，重新定義 LLM 智慧體的概念。以下內容，是在整合了來自大公司有限的資訊、開放研究領域近期成果，以及我個人的一些推測之後，做的一次儘可能清晰的總結。

智慧體這個概念，本質上幾乎與基礎的大語言模型完全衝突。

在傳統的智慧體研究中，智慧體（Agent）總是處於一個有約束的環境裡：比如想象一下你被困在一個迷宮裡，你可以向左走，也可以向右走，但你不能隨便飛起來，也不能突然鑽進地下，更不能憑空消失——你會受到物理規則甚至遊戲規則的嚴格限制。真正的智慧體，即便處於這種約束環境中，也會擁有一些自由度，因為你有多種方式來完成遊戲。但無論怎麼行動，每一次決策背後，都需要你有明確的目標：贏得最終的獎勵。有效的智慧體會逐漸記憶過去走過的路，形成一些有效的模式或經驗。

這種探索的過程，被稱為「搜尋（search）」。而這個詞其實非常貼切：一個智慧體在迷宮中的探索行為，和人類使用者在網路搜尋時不停點選連結，探索自己想要的資訊，幾乎是完美的類比。關於「搜尋」的研究，學界已經有幾十年的歷史。舉一個最新的例子：Q-star 演算法（曾被傳言是 OpenAI 新一代模型背後的演算法，當然至今還沒完全確認）其實來源於 1968 年的 A-Star 搜尋演算法。而最近由 PufferLib 完成的寶可夢訓練實驗，就生動地展現了這種智慧體「搜尋」的全過程：我們看到智慧體不斷嘗試路徑，失敗後再重試，不斷地往返摸索最優路徑。

Pokemon RL experiment by PufferLib

基礎語言模型和智慧體的執行方式幾乎截然相反：

1.智慧體會記住它們的環境，但基礎語言模型不會。語言模型只根據當前視窗內的資訊來回應。

2.智慧體有明確的理性約束，受限於實際條件，而基礎語言模型只是生成機率較高的文字。雖然有時它們也能表現出前後一致的邏輯，但始終無法保證，甚至隨時可能因為「美學需求」而脫離軌道。

3.智慧體能制定長期策略，它們可以規劃未來的行動或回溯重來。但語言模型只擅長單一推理任務，在面對需要多步複雜推理的問題時，很快就會「飽和」（multi-hop reasoning），難以處理。整體來看，它們被文字規則約束，而不是現實世界的物理或遊戲規則。

將語言模型與智慧體化結合的最簡單方法，就是透過預定義的提示（prompt）和規則來約束輸出。目前絕大部分的語言模型智慧體系統都是這種方式，然而這種做法註定會撞上 Richard Sutton 提出的「苦澀教訓」（Bitter Lesson）。

人們經常誤解「苦澀教訓」，認為它是指導語言模型預訓練的指南。但它本質上講的是關於智慧體的設計，講的是我們往往想直接把人類的知識「硬編碼」到智慧體當中——例如「如果你碰壁了，就換個方向；如果多次碰壁，就回頭再試試」。這種方法在短期來看效果很好，很快就能看到進步，不需要長時間訓練。但長期來看，這種做法往往走向次優解，甚至會在意料之外的場景裡卡住。

Sutton 這樣總結道：

「我們必須學會苦澀的教訓：人為地去預設我們思考的方式，長期來看並不奏效。AI 研究的歷史已經反覆驗證：

1）研究者經常試圖將知識提前寫入智慧體；

2）這種做法短期內效果明顯，也讓研究者本人很有成就感；

3）但長期來看，效能很快達到上限，甚至阻礙後續發展；

4）最終的突破反而來自完全相反的方法，即透過大量計算資源進行搜尋和學習。最終的成功讓人有些苦澀，因為它否定了人們偏愛的、以人為中心的方法。」

我們再把這個道理遷移到現在 LLM 的生產應用中。像 Manus 或常見的 LLM 封裝工具，都在做著「人為設定知識」的工作，用提前設計好的提示語引導模型。這或許短期內最省事——你甚至不需要重新訓練模型——但絕不是最優選擇。最終你創造的是一種混合體，部分靠生成式 AI，部分靠規則系統，而這些規則恰恰就是人類思維中對空間、物體、多智慧體或對稱性等概念的簡單化抽象。

更直白地講，如果 Manus AI 至今無法很好地訂機票，或在與老虎搏鬥時提出有用建議，並不是因為它設計得差，而是它遭遇了「苦澀教訓」的反噬。提示（Prompt）無法無限擴充套件，對規則硬編碼無法無限擴充套件。你真正需要的是從根本上設計能夠搜尋、規劃和行動的真正的 LLM 智慧體。

強化學習（RL）+ 推理

這是一個很難的問題。現在公開的資訊很少，只有 Anthropic、OpenAI、DeepMind 等少數實驗室瞭解細節。到目前為止，我們只能根據有限的官方訊息、非正式傳言以及少量的公開研究來了解一些基本情況：

1.與傳統智慧體類似，LLM 智慧體同樣採用強化學習進行訓練。你可以把語言模型的學習看作一個「迷宮」：迷宮裡的道路就是關於某件事可能寫出來的所有文字組合，迷宮的出口就是最終想要的「獎勵」（reward）。而判斷是否抵達獎勵的過程就稱為「驗證器」（verifier）。William Brown 的新開源庫 Verifier 就是專門為此設計的工具。目前的驗證器更傾向於針對數學公式或程式碼這樣的明確結果進行驗證。然而，正如 Kalomaze 所證明的，即使針對非嚴格驗證的結果，透過訓練專門的分類器，也完全可以構建有效的驗證器。這得益於語言模型的一個重要特點：它們評估答案的能力遠遠優於創造答案的能力。即使用規模較小的語言模型來做「評委」，也能明顯提高整體效能和獎勵機制的設計效果。

2.LLM 智慧體的訓練是透過「草稿」（draft）來完成的，即整個文字被生成後再被評估。這種方式並不是一開始就確定的，最初研究傾向於對每個單獨的詞彙（token）展開搜尋。但後來由於計算資源有限，以及近期推理（Reasoning）模型取得突破性的進展，「草稿式」推理逐漸成為主流訓練方式。典型的推理模型訓練過程，就是讓模型自主生成多個邏輯步驟，最終選擇那些能帶來最佳答案的草稿。這可能會產生一些出人意料的現象，比如 DeepSeek 的 R1 模型偶爾在英文與中文之間突然切換。但強化學習並不在乎看起來是不是奇怪，只在乎效果是否最好。就像在迷宮裡迷路的智慧體一樣，語言模型也必須透過純粹的推理尋找出路。沒有人為預定義的提示，沒有提前規定好的路線，只有獎勵，以及獲得獎勵的方法。這正是苦澀教訓所給出的苦澀解決方案。

3.LLM 的草稿通常會被提前劃分為結構化的資料片段，以方便獎勵的驗證，並在一定程度上幫助模型整體的推理過程。這種做法叫做「評分標準工程」（rubric engineering），既可以直接透過獎勵函式來實現，也可以在大實驗室更常見的方式下，透過初步的後訓練階段完成。

4.LLM 智慧體通常需要大量草稿資料以及多階段訓練。例如，當進行搜尋任務訓練時，我們不會一下子評價搜尋結果，而是評價模型獲取資源的能力、生成中間結果的能力、再獲取新資源、繼續推進、改變計劃或回溯等等。因此，現在訓練 LLM 智慧體最受青睞的方法是 DeepSeek 提出的 GRPO，特別是與 vLLM 文字生成庫配合時效果最佳。前幾周，我還發布了一個非常受歡迎的程式碼筆記本（Notebook），基於 William Brown 的研究成果，僅使用 Google Colab 提供的單個 A100 GPU，就成功地實現了 GRPO 演算法。這種計算資源需求的大幅下降，毫無疑問將加速強化學習與智慧體設計在未來幾年真正走向大眾化。

這怎麼規模化？

上面說的那些內容都是基礎模組。從這裡出發，想走到 OpenAI 的 DeepResearch，以及現在各種新興的、能處理一連串複雜任務的智慧體，中間還隔著一段距離。允許我稍微展開一點聯想。

目前，開源社群的強化學習（RL）和推理研究，主要集中在數學領域，因為我們發現網上有很多數學習題的資料，比如一些被打包進 Common Crawl 裡的題庫，再被 HuggingFace 的分類器抽取出來（比如 FineMath）。但是，很多其他領域，特別是「搜尋」，我們是沒有現成資料的。因為搜尋需要的不是靜態的文字，而是真實的行動序列，比如使用者瀏覽網頁時的點選、查詢日誌、行為模式等等。

我之前做過一段時間的日誌分析，當時模型（儘管還是用馬爾科夫鏈這種比較老舊的方法，雖然最近幾年這個領域飛速發展了）居然還經常用上世紀 90 年代末洩露出來的 AOL 搜尋資料訓練！近來，這個領域終於多了一個關鍵的開源資料集：維基百科的點選流資料（Wikipedia clickstream），這個資料集記錄了匿名使用者從一篇維基百科文章跳到另一篇文章的路徑。但我問你一個簡單的問題：這個資料集在 HuggingFace 上有嗎？沒有。事實上，HuggingFace 上幾乎沒有真正具備「行動性」（agentic）的資料，也就是說，這些資料能幫助模型學習規劃行動。目前整個領域依然預設要用人工設計的規則系統去「指揮」大語言模型（LLM）。我甚至懷疑，連 OpenAI 或者 Anthropic 這種大廠，也未必能拿到足夠數量的這種資料。這是傳統科技公司，尤其是谷歌這樣的公司，依然佔據巨大優勢的地方——畢竟，你不可能隨便買到谷歌積累的海量使用者搜尋資料（除非資料在暗網上洩露了某些片段）。

但其實有一種解決辦法，就是模擬生成資料，也就是「模擬」。傳統的強化學習模型是不需要歷史資料的，它們透過反覆不斷的嘗試，探索並學會環境裡的各種規律和策略。如果我們把這種方式用到搜尋任務上，就會類似於遊戲領域的 RL 訓練：讓模型自由探索，找到正確答案時給獎勵。可是，在搜尋領域，這種探索可能會非常漫長。比如你想找到某個特別冷門的化學實驗結果，可能隱藏在 1960 年代某篇蘇聯老論文裡，模型只能靠暴力搜尋和語言上的一些微調，一次又一次地嘗試後終於偶然找到了答案。然後，模型再嘗試理解並總結出那些能提高下次找到相似答案可能性的規律。

我們算一下這種方式的成本：以一種典型的強化學習方法為例，比如 GRPO，你一次可能同時有 16 個併發的探索路徑（我甚至猜測大實驗室的真實訓練併發數遠不止 16 個）。每個探索路徑都可能連續瀏覽至少 100 個網頁，那意味著一次小小的訓練步驟裡就要發出大概 2,000 次搜尋請求。而更復雜的強化學習訓練，往往需要數十萬甚至上百萬個步驟，尤其是想讓模型擁有通用的搜尋能力的話。這意味著一次完整訓練可能需要數億次的網路請求，說不定會把一些學術網站順便給 DDOS 攻擊了……這樣一來，你真正的瓶頸反倒不再是計算資源，而變成了網路頻寬。

遊戲領域的強化學習也碰到了類似的問題，這也是為什麼現在最先進的方法（比如 Pufferlib）會把環境重新封裝成「對模型而言看起來像雅達利遊戲的樣子」，其實本質沒變，只不過模型能看到的資料是高度標準化的、經過最佳化的。當把這個方法應用到搜尋上時，我們可以直接利用現成的 Common Crawl 大規模網路資料，把這些資料「偽裝」成即時的網頁返回給模型，包括 URL、API 呼叫和各種 HTTP 請求，讓模型誤以為它正在真實地訪問網路，而實際上所有資料早就提前準備好了，直接從本地的高速資料庫裡查詢就可以了。

所以，我估計未來要訓練一個能夠搜尋的 LLM 強化學習智慧體，可能的方式會是這樣的：

1.先建立一個大型的模擬搜尋環境，這個環境的資料集是固定的，但在訓練時不斷「翻譯」成模型能理解的網頁形式反饋給模型。

2.在強化學習正式訓練之前，先用一些輕量的有監督微調（SFT）給模型「預熱」一下（類似 DeepSeek 的 SFT-RL-SFT-RL 這種訓練路線），用的可能是一些已經有的搜尋模式資料，目的是讓模型提前熟悉搜尋思考的邏輯和輸出格式，從而加速後面的 RL 訓練。這類似一種人為設定好的訓練「模板」。

3.然後，需要準備一些難度不同的複雜查詢問題，以及對應的明確的驗證標準（verifier）。具體操作可能是搭建複雜的合成數據管道，從現有資源反向推匯出這些標準，或者乾脆直接僱傭一批博士級別的專家來手動打標籤（代價非常高昂）。

4.接下來就是真正的多步強化學習訓練了。模型收到一個查詢後，會主動發起搜尋，得到結果後，可以進一步瀏覽網頁，或者調整搜尋關鍵詞，這個過程是分成多個連續步驟的。從模型角度來看，就像是在真實地瀏覽網際網路，而實際上背後的一切資料交換都是提前準備好的搜尋模擬器在完成。

5.當模型足夠擅長搜尋之後，可能還會再做一輪新的強化學習（RL）和監督微調（SFT），但這一次的重心轉向「如何寫出高質量的最終總結」。這步很可能也會用到複雜的合成數據管道，讓模型將之前輸出的長篇內容切成小片段，再經過某種推理重新組裝起來，提升它生成結果的質量和邏輯連貫性。

真正的智慧體，是不靠「提示詞」工作的

終於，我們真正擁有了「智慧體」（Agent）模型。那麼相比原本的工作流程或模型編排來說，它到底帶來了哪些變化？只是單純提高了質量，還是意味著一種全新的正規化？

我們先回顧一下 Anthropic 對智慧體的定義：「大語言模型（LLM）智慧體能動態地自主指揮自己的行動和工具使用，並始終掌控完成任務的具體方式。」為了更直觀地理解這一點，我再用一個我熟悉的場景舉個例子：搜尋。

之前業內曾廣泛猜測，隨著大語言模型擁有了更長的上下文視窗，傳統的「檢索增強生成」（RAG）方法會逐漸消亡。但現實情況並非如此。原因有幾個：超長上下文計算成本太高，除了簡單的資訊查詢外，準確性不夠，並且很難追溯輸入的來源。因此，真正的「智慧體搜尋」並不會完全取代 RAG。更可能發生的是，它會高度自動化，幫我們把複雜的向量資料庫、路由選擇、排序最佳化等過程自動整合。未來一個典型的搜尋過程可能會是這樣的：

1.使用者提出問題後，智慧體會分析並拆解問題，推測使用者的真實意圖。

2.如果問題模糊，智慧體會主動向使用者提問，以便進一步確認（OpenAI 的 DeepResearch 已經能做到這一點）。

3.然後，模型可能會選擇進行一般性搜尋，也可能根據情況直接選擇特定的專業資料來源。由於模型記住了常見的 API 呼叫方式，它可以直接呼叫對應的介面。為了節約計算資源，智慧體會更傾向於利用網路上已有的 API、站點地圖（sitemaps）以及結構化的資料生態。

4.搜尋過程本身會被模型不斷學習和最佳化。智慧體能夠自主判斷並放棄錯誤的搜尋方向，並像經驗豐富的專業人員一樣，轉而嘗試其他更有效的路徑。目前 OpenAI 的 DeepResearch 一些非常驚豔的結果就展示了這種能力：即便某些資源沒有被很好地索引，它也能透過連續的內部推理找到準確的資源。

5.整個搜尋過程中，智慧體的每一步決策和推理都會留下清晰的內部記錄，從而實現一定程度的可解釋性。

簡單來說，搜尋過程將會被智慧體直接「工程化」。智慧體不需要額外的資料預處理，而是直接基於現有搜尋基礎設施去靈活應變，尋找最佳路徑。同時，使用者也無需專門訓練就能與生成式 AI 高效互動。正如 Tim Berners-Lee 十多年前所強調的：「一個真正的智慧體，就是在每個具體場景中，都能自動完成使用者心裡想做卻沒明確說出來的事情。」

我們再將這種實際的智慧體思路應用到其他領域去看一下實際效果：比如一個網路工程智慧體，也將能直接與現有基礎設施互動，自動生成路由器、交換機、防火牆的配置方案，根據需求分析網路拓撲結構、給出最佳化建議，或自動解析錯誤日誌，定位網路問題的根本原因。

再比如金融領域的智慧體，未來則能夠自動、精準地實現不同金融資料標準之間的轉換，比如從 ISO 20022 到 MT103 標準的翻譯。以上這些能力，現階段透過簡單的系統提示（system prompts）是根本做不到的。

然而，目前能夠真正開發出這樣智慧體的公司只有少數幾個巨頭實驗室。他們手握所有關鍵資源：專有技術、部分關鍵資料（或者製造這些資料的合成技術），以及將模型變成產品的整體戰略眼光。這種技術高度集中未必是一件好事，但某種程度上，也要歸咎於資本市場對模型訓練長期價值的低估，使得這一領域的創新發展受到限制。

我通常不喜歡過度炒作某些新概念，但智慧體背後蘊藏的巨大顛覆潛力和商業價值，讓我堅信我們迫切需要民主化地推動實際智慧體的訓練和部署：公開驗證模型、GRPO（目標導向的獎勵策略最佳化）的訓練資料樣本，以及在不久的將來，公開復雜的合成數據管道和模擬器等基礎設施。

2025 年會是智慧體崛起的一年嗎？或許還有機會，我們拭目以待。

*頭圖及封面圖來源於“ivy”。

溫馨提示：雖然我們每天都有推送，但最近有讀者表示因平臺推送規則調整，有時候看不到我們的文章~

歡迎大家進入公眾號頁面，右上角點選“設為星標”點亮⭐️，收藏我們的公眾號，新鮮內容第一時間奉上！

*文章觀點僅供參考，不代表本機構立場