新鮮真話,關注一下👆
關於AI Agent,公眾號裡最近涉及不少——
比如這是Google眼裡的Agent版圖:谷歌最新發布!185個頭部AI應用落地案例,6大方向Agent前景一覽。
再比如a16z對於Agent和Copilot的對比分析:
a16z矽谷預判|每個白領崗位都會有一個Copilot,直到被Agent取代
。
今天給大家帶來的是來自MENLO Ventures的最新mapping,斯坦福SAIL提供相關資料及支援。

生成式AI應用跑通PMF的,目前有三大類:搜尋、合成和生成。
Menlo Ventures 投資組合中的Sana (企業搜尋)、Eve (法律研究copilot)和Typeface (內容生成 AI)等公司,分別代表了每個類別的早期突破性案例,這些案例都以 LLM 的少樣本推理能力為中心。
但GenAI的前景,遠遠超出了第一波核心用例。能夠為您讀寫的人工智慧很棒,但更令人興奮的是能夠代表您思考和行動的人工智慧。
為此,我們已經看到Anterior、Sema4和Cognition等領先的應用程式構建者,在構建更自動化的解決方案,來處理以前只能由大量人類解決的工作流程。
藉助多步邏輯、外部儲存器以及訪問第三方工具和 API 等新構建模組,下一波代理正在擴充套件 AI 功能的邊界,實現端到端流程自動化。
在深入研究 AI 代理領域時,MENLO Ventures 針對新興市場的觀點如下——
首先定義代理是什麼以及是什麼使代理成為可能。將追溯現代 AI 堆疊的架構演變,從少量提示到檢索增強生成 (RAG),再到成熟的代理系統,然後在後續文章中探討這種正規化轉變對應用程式和基礎設施層的影響。

1. AI Agent的認知架構
四個構建模組
完全自主的Agent由四個要素定義,這四個要素結合起來可實現完全的代理能力:推理、外部記憶、執行和規劃。
-
推理。在最基本的層面上,Agent必須能夠對非結構化資料進行推理。基礎模型(如Anthropic * 和 OpenAI)已經非常有效地實現了這一功能,它們將部分世界模型編碼到 LLM 的預訓練權重中,並利用這些權重來獲取一般知識和基本邏輯。
-
外部記憶。除了一般知識外,代理還需要外部記憶來儲存和呼叫特定領域的知識以及他們正在解決的問題的有界上下文,通常透過像Pinecone 這樣的向量資料庫。
-
執行。代理使用工具來執行任務,以增強其解決問題的能力。許多早期的代理平臺都提供預定義在程式碼中的自定義操作工具箱,供代理選擇。但許多通用代理工具也開始出現,包括網頁瀏覽、程式碼解釋、身份驗證和授權,以及與 CRM 和 ERP 等企業系統的聯結器,以在這些系統內執行 UI 操作。
-
規劃。Agent不會嘗試透過單執行緒的下一個標記預測序列來解決複雜問題(例如一口氣寫完一篇文章,從第一個單詞開始,直到最後一個單詞才停止),而是遵循更像人類的思維過程,將工作分解為更小的子任務和計劃,反思進度,並根據需要重新調整。
2. 參考架構:
從 RAG 到自主代理的 AI 示例
需要明確的是,未來完全自主的代理可能擁有所有四個構建模組,但今天的 LLM 應用程式和代理卻沒有。
例如,流行的 RAG 架構不是代理性的,而是利用推理和外部記憶作為其基礎。一些設計,如OpenAI 的結構化輸出,甚至支援工具使用。
然而,重要的區別在於,這些應用程式利用 LLM 作為語義搜尋、合成或生成的“工具”,但它們採取的步驟(即它們的邏輯流程)仍然是由程式碼預先確定的。
相比之下,當你將 LLM 置於應用程式的控制流中並讓它動態決定要採取哪些操作、使用哪些工具以及如何解釋和響應輸入時,代理就會出現。
只要這是真的,一些代理甚至不需要與外部工具互動或採取行動。

在 Menlo,我們確定了三種類型的代理,它們的主要用例和控制應用程式流程的自由度各不相同。
最受限制的一端是“決策代理”設計,它使用語言模型遍歷預定義的決策樹。
“軌道代理”透過為代理配備更高級別的目標,但用要遵循的 SOP 和可供選擇的預定“工具”庫來限制解決方案空間,從而提供更高的自由度。
最後,在光譜的最末端是“通用 AI 代理”——本質上是 for 迴圈,頂部幾乎沒有資料支架,完全依賴語言模型的推理能力進行所有規劃、反思和路線修正。
下面,我們將針對每種代理型別研究五種參考架構和 AI 代理示例。
3. 檢索增強生成 (RAG)
設定基線:RAG 是當今大多數現代 AI 應用程式的標準架構。讓我們以 Sana 的企業搜尋用例為例,瞭解其內部工作原理。

該過程始於應用程式載入和轉換企業資料孤島(如 Google Drive 和 Notion)中的非結構化檔案(例如 PDF、幻燈片、文字檔案),將其轉換為 LLM 可查詢格式,通常透過資料預處理引擎(如Unstructured *)。
這些檔案現在被“分塊”成更小的文字塊,以便進行更精確的檢索,並嵌入為向量並存儲在像Pinecone *這樣的資料庫中。
當用戶向 AI 應用提出問題時(例如,“總結我與 X 公司開會時的所有筆記”),系統會檢索語義上最相關的上下文塊,並將它們摺疊成一個“元提示”,並利用檢索到的資訊進行擴充,以提供給 LLM。
然後,LLM 根據檢索到的上下文合成答案,向用戶返回一個簡潔、有要點的答案。
當然,該圖僅展示了一個帶有一個 LLM 呼叫的單個檢索步驟。在生產中,AI 應用程式具有更復雜的應用程式流程,包含數十甚至數百個檢索步驟。
這些應用程式通常具有“提示鏈”,其中一個檢索步驟的輸入會輸入到下一個檢索步驟中,並且多個“提示鏈”會針對不同型別的任務並行執行。然後將結果合成在一起以生成最終輸出。

例如,法律研究副駕駛Eve * 可能會將關於 Title VII 的研究查詢分解為單獨的提示鏈,重點關注預先確定的子主題,例如僱主背景、就業歷史、Title VII、相關判例法和原告案件的支援證據。
然後,LLM執行每個提示鏈,為每個提示鏈生成中間輸出,並綜合輸出以編寫最終備忘錄。
4. 工具使用
工具使用或函式呼叫通常被視為從 RAG 到代理行為的第一步,為現代 AI 堆疊添加了一個新的層。

這些工具本質上是預先編寫的程式碼元件,用於執行特定操作。Web 瀏覽(Browserbase、Tiny Fish)、程式碼解釋(E2B)和授權 + 身份驗證(Anon)等流行原語已經出現。
它們使 LLM 能夠瀏覽網頁、與外部軟體(例如 CRM、ERP)互動以及執行自定義程式碼。
系統將可用的工具呈現給 LLM,然後 LLM 選擇一個,將必要的輸入製作為結構化 JSON,並觸發 API 執行以產生最終操作。
Omni 的Calculations AI功能就是這種方法的典型代表。它利用 LLM 將適當的 Excel 函式直接輸出到電子表格中,然後電子表格執行計算並自動為使用者生成複雜的查詢。
話雖如此,工具的使用功能強大,但其本身不能被視為“代理”。邏輯控制流仍由應用程式預先定義。
我們將在接下來的設計中探索真正的代理,它允許 LLM 動態編寫部分或全部自己的邏輯。
5. 決策Agent
我們將要探討的第一種型別的代理是決策代理,它使用代理決策來導航複雜的多步驟推理流程並做出業務決策。

與 RAG 或工具使用方法不同,這種架構首次將一些控制邏輯交給 LLM,而不是事先將所有步驟硬編碼 – 但仍然處於代理自由度範圍的較低端,因為代理主要充當導航一組決策樹的路由器。
讓我們以Anterior (fka Co:Helm) 為例。這家健康計劃自動化公司開發了一個臨床決策引擎,用於自動審查索賠提交。
如今,護士們根據載有條件知識的付款人規則(如世界上最無聊的“選擇你自己的冒險”),手動完成這些審查。
Anterior 簡化了這一流程。該公司首先使用基於規則的指令碼和語言模型將付款人規則轉換為有向無環圖 (DAG)。
然後,他們的代理遍歷這棵決策樹,利用每個節點的 LLM 來根據特定規則評估相關臨床文件。
對於較簡單的節點,這可能涉及基本的檢索增強生成 (RAG) 步驟。然而,Anterior 經常遇到需要子鏈的更復雜的任務,其中代理必須選擇最佳方法才能前進到下一個節點。
它會根據每個決策更新其狀態(在記憶體中管理這個中間輸出),並在整個樹中前進,直到做出最終決定。
Anterior 並不是唯一一家採用這種方法的公司。其他利用決策代理的公司包括Norm AI(正在構建用於監管合規的 AI 代理)和Parcha(正在構建用於 KYC 的代理)。
6. Rails 上的代理
我們將要研究的下一類代理是軌道代理。與決策代理相比,軌道代理被賦予了更高層次的目標(例如,“將此發票與總賬核對”、“幫助客戶解決登入問題”、“重構此程式碼”),並被賦予更大的自由度來選擇實現這些目標的方法和工具。

與此同時,這些代理仍然受到程式性知識的指導,即組織對代理如何表現的期望(“軌道”,以自然語言編寫的規則手冊或說明手冊表示);給定預定義的工具,以便在外部軟體系統中啟用設定的操作;並受到護欄和其他審查措施的約束,以防止出現幻覺。
在執行時,此設計可能會產生以下模式:
-
規劃代理評估應用程式相對於執行手冊的當前狀態(即它當前位於 DAG 中的哪個節點)並檢查該節點可用的所有動作鏈;
-
代理選擇並執行最佳鏈。每個鏈可能包括以程式碼定義的預先編寫的操作,甚至包括可以執行特定任務的附加代理,包括傳統的 RAG;
-
在採取任何行動之前,系統都會進行審查和護欄,以確保一致性和協調性;
-
規劃代理根據規則手冊評估新狀態,並重復該過程——從 DAG 中的新節點選擇最佳鏈再次執行。
請注意,這種架構比以前的設計引入了另一種複雜性,可能需要額外的資料基礎設施來支援,包括用於持久執行的資料基礎設施;情景記憶、工作記憶和長期記憶的狀態和記憶體管理;多智慧體編排;以及護欄。
領先的代理公司,似乎正在將這種架構作為「自主性」和「控制性」之間的平衡點。
新興的 AI 代理示例包括客戶服務 + 支援領域的Sierra、Decagon、Maven AGI、DevRev和Gradient Labs ;軟體開發領域的Factory AI和All Hands AI;財務後臺領域的Sema4
;以及銷售、安全運營和供應鏈等領域的許多其他代理。
通用型AI Agent
代理設計中最後一個尚未實現的聖盃是通用人工智慧代理——一種 for 迴圈架構,其中 LLM 的高階功能包含了以前設計的結構化“軌道”。
這個假設的代理將擁有動態推理、規劃和自定義程式碼生成能力,使其能夠在外部系統中執行任何操作,而不僅僅是預定義的系統。
自2023 年春季BabyAGI和AutoGPT問世以來,朝著這一理想的研究進展突飛猛進。
目前,最複雜的設計是語言代理樹搜尋(LATS),它將蒙特卡洛樹搜尋(AlphaGo背後的基於模型的強化學習技術)應用於語言代理。
LATS 允許代理探索實現目標函式的多種軌跡,優先考慮高回報路徑,納入反饋並在必要時回溯。
這些前沿架構的先鋒商業應用包括Reflection AI等新基礎模型,以及Cognition、Nustom和OpenDevin/All Hands AI等編碼代理。
Agent的未來
生成式人工智慧,正在進入Agent時代……
我們今天看到的代理架構和早期示例僅代表了更廣泛的變革的開始,這種變革有望重新定義人機動態,對企業應用程式和基礎設施都有影響。
在之後的公眾號文章中,將進一步探討關於Agent的主題。
更重要的是,基於AI Agent,0-1建立一款新產品、賺得新一桶金,越來越容易實現……有大量身邊的、海外的故事,為大家慢慢道來。
參考閱讀:https://menlovc.com/perspective/ai-agents-a-new-architecture-for-enterprise-automation

參考閱讀:
新鮮真話,關注一下👆
朋友圈會發一些具體的案例和商業化日常~
AI交流,歡迎加我本人微信:FrankGPTs
