Claude團隊大揭秘!如何調動多智慧體搞深度搜索

奕然 發自 凹非寺量子位 | 公眾號 QbitAI
如何用多智慧體的方法構建深度搜索?
現在,Claude團隊把自家最新的心得,對外分享了。
在這篇文章中,它詳細展示瞭如何構建一個有效的多智慧體研究系統,這是一個架構,其中主代理(The Lead Agent)會生成和協調子代理(Subagents),以並行方式探索複雜查詢,內容涵蓋系統架構、提示工程以及評估方法等。
Claude資料顯示了不同行業領域使用此功能的比例——專業領域軟體系統開發佔比10%,開發和最佳化專業和技術內容、開發業務增長和創收策略皆佔比8%,協助學術研究和教育材料開發佔比7%,研究和稽核資訊佔比5%。
網友們點評:
Anthropic團隊對AI模型的理解真是killer級別啊。
一起來看看這篇乾貨教程。

關鍵架構:協調器-工作器架構

Claude團隊使用了協調器-工作器架構,專門用於管理多個智慧體之間的任務分配與協作。下圖展示了多智慧體架構執行情況。
此外,該系統使用多步搜尋而非靜態檢索,動態地查詢相關資訊,適應新的發現,並分析結果來形成高質量的答案。
上圖展示了團隊多智慧體研究系統完整工作流程。
該系統允許Claude利用網路、工作空間和自定義工具整合,動態規劃、搜尋和合成大型語料庫中的高質量答案。
主代理分解查詢,啟動專門的子代理(每個子代理擁有自己的工具、提示和記憶體),並整合他們的結果。
這種並行、廣度優先的設計極大地提高了研究任務中順序LLM使用的效能。
與單個代理的Claude相比,它在內部評估中成功率達到90%更高,比如,以Claude Opus 4為領導智慧體、Claude Sonnet 4為子智慧體的多智慧體系統,在團隊的內部研究評估中比單智慧體Claude Opus 4表現高出90.2%。
而透過將工作分配給多個代理和上下文視窗,Claude的系統高效擴充套件了推理能力,並增加了並行推理的容量。
最新的Claude模型在token使用上起到了巨大的效率提升作用,升級到Claude Sonnet 4帶來的效能提升,比在Claude Sonnet 3.7上翻倍token預算還要大。
這導致token成本比標準聊天高出15倍。因此多智慧體架構能有效擴充套件token使用,以應對超出單個智慧體限制的任務,但是,只適用於高價值查詢

提示工程:啟發式方法

Anthropic透過提示設計迭代優化了代理行為。他們使用了用於任務複雜度擴充套件、委託清晰度、工具選擇和思維策略的啟發式方法
團隊引導代理顯性地展現其思考過程,擴充套件其思維軌跡,使Claude能在生成中輸出額外的token。主代理會利用這一思考機制來規劃整體策略,評估任務所需工具,判斷查詢的複雜度,決定是否需要呼叫子代理,以及如何分配每個子代理的具體角色。
具體方式如下:
瞭解代理準確心理模型:團隊使用控制檯構建了模擬,使用了系統中的確切提示詞和工具,然後逐步觀察智慧體的工作。這立即驗證了,有效的提示詞依賴於瞭解智慧體行為的準確心理模型,能夠揭示最關鍵、最具影響力的最佳化路徑。
分配任務:在系統中,主代理(The Lead Agent)將查詢分解為子任務,描述清晰的目標、預期的輸出格式、可使用的工具和資訊來源指引以及明確的任務邊界,將子任務傳遞給子代理。
調整工作規模:為了讓代理能準確判斷不同任務所需的合理工作量,團隊在提示中嵌入了指導方針——規模調整規則,加以引導。例如,簡單的資訊收集任務通常只需1個子代理,並呼叫工具3至10次;而複雜的研究類任務則可能涉及10個以上的子代理,且需進行明確的角色劃分與職責分工。
工具設計與選擇:團隊給代理提供了明確的啟發式方法:例如,首先檢查所有可用工具,將工具使用與使用者意圖匹配,進行廣泛的網路搜尋以探索外部資訊,或優先選擇專業工具而非通用工具。
自我改進:團隊建立了一個工具測試智慧體——當給定有缺陷的MCP工具時,它會嘗試使用該工具,然後重寫工具描述以避免失敗。這幫助智慧體在之後的工作任務中大幅提升準確率,完成任務時間減少了40%。
搜尋範圍聚焦:團隊透過提示代理先從簡短、寬泛的查詢開始,評估可用資源,再逐步縮小關注範圍來抵消這種傾向。
並行工具呼叫:團隊引入了兩種並行策略:(1)主智慧體不再順序生成子智慧體,而是同時建立3–5個子智慧體;(2)每個子智慧體同時呼叫3個以上的工具進行資訊檢索與分析。這些最佳化使複雜查詢的處理時間縮短了高達90%,原本需要數小時完成的研究任務現在可在幾分鐘內完成,且覆蓋的資訊範圍更廣,超越了其他系統的處理能力。

評估:方法靈活,保證結果

良好的評估對於構建可靠的智慧體至關重要。傳統評估方法常遵循固定路徑,而多智慧體系統無法確定“正確步驟”。
團隊使用以下方法,既能判斷智慧體是否達成了正確的成果,又能確保其遵循了合理的流程。
小樣本評估:團隊認為,先使用幾個例子進行小規模測試,而不是等到能夠構建更全面的評估時再開始會更好。比如,早期智慧體開發中,一個提示詞的微調可能將成功率從30%提升至80%。
使用LLM作為評判者:團隊使用一個LLM作為“評判者”,依據預設評分標準對每個輸出進行評估,具體維度包括:
事實準確性:論斷是否與參考來源一致?
引用準確性:引用內容是否真實反映了所引資料?
完整性:是否覆蓋了所有任務要求的要點?
來源質量:是否優先使用了一手資料,而非低質量的二手來源?
工具效率:是否合理、高效地使用了相關工具?
團隊嘗試過多個評判者對各部分進行評估,但實驗發現:透過單次LLM呼叫,輸出0.0–1.0的評分與透過/不透過判斷,是效果最穩定、與人工評價最一致的方法
藉助LLM自動評估機制,研究者能夠以可擴充套件的方式高效評估數百個複雜輸出,顯著提升了評估工作的速度與一致性。
人工評估:人工評估人員常常能識別出自動評分難以察覺的異常行為,比如模型在面對不尋常查詢時產生的幻覺回答、系統性故障,或更微妙的偏見以及偏向特定型別的資訊來源。
即使在高度自動化的評估體系中,人工測試仍是不可替代的關鍵環節,能夠持續發現盲區並提升系統的整體可靠性。
除此之外,還需注意,多智慧體系統具有典型的湧現行為——這些行為並非源於特定的程式設計邏輯,而是在多個智慧體相互作用中自然產生的。比如說,對主智慧體的一處微小改動,可能會以不可預測的方式改變子智慧體的行為。
因此,要構建成功的多智慧體系統,關鍵在於理解它們的互動模式
這也意味著,針對智慧體的最佳提示不僅僅是嚴格的指令,更是定義勞動分工、問題解決方法和努力預算的合作框架
要實現這一合作框架,需要精心設計提示與工具,建立可靠的啟發式方法,實現可觀察性,並建立緊密的反饋迴圈。
團隊在Cookbook中開源了部分提示以及示例。

問題與挑戰:小改動引發“蝴蝶效應”

智慧體系統中微小改變會引發一系列聯動,產生“蝴蝶效應”,引發大的行為改變和後果。
智慧體會保持“狀態”,且錯誤會累積。團隊構建了能夠在錯誤發生時從智慧體當時所處位置恢復的系統,並利用模型智慧性來處理問題,並與重試邏輯和定期檢查點等確定性安全措施相結合。比如,在工具失敗時通知智慧體並讓它適應,效果十分不錯。
除錯需要新的方法。團隊引入了完整的生產環境追蹤機制,系統性地定位代理失敗的具體原因並加以修復。除了常規的可觀察性指標,團隊還監控智慧體的決策路徑和互動結構——這些過程均不涉及對具體對話內容的監控,以確保使用者隱私。這種高層級、結構化的觀察能力使團隊能夠識別根本問題、發現異常行為,並及時修復系統中的常見故障。
更新需要仔細協調。團隊需要防止版本更新時,破壞系統當前執行狀態。團隊使用彩虹部署策略來避免中斷執行中的智慧體,逐步將流量從舊版本引導至新版本,同時保持兩個版本同時執行。
同步執行存在瓶頸。同步執行會在代理之間造成資訊流瓶頸,即主代理無法引導子代理,子代理無法協調,造成搜尋被迫中止問題。團隊嘗試非同步執行:能夠實現額外的並行執行,代理可以同時工作並在需要時建立新的子代理。但非同步執行方式也會帶來結果協調、狀態一致性和子代理之間的錯誤傳播等問題。團隊預計,非同步執行帶來的效能提升將超過其處理複雜性。

額外建議

對在多回閤中改變狀態的智慧體進行終態評估。團隊發現專注於終態評估而非逐回合分析效果更好。這種方法承認智慧體可能會找到到達同一目標的替代路徑,同時仍然確保能實現預期結果。對於複雜的業務流程,不要試圖驗證每個中間步驟,將評估分解為離散的檢查點,觀察在這些檢查點中應該發生的特定狀態變化。
長時程對話管理。生產代理通常參與持續數百輪的對話,需要精心設計上下文管理策略。團隊實現代理總結已完成的工作階段,並將關鍵資訊儲存在外部記憶體中,然後再進行新任務的模式。
子代理將輸出寫入檔案系統以減少“電話遊戲”現象。不同於主代理與子代理的引導-傳遞模式,可透過專業代理建立輸出,子代理呼叫工具將工作儲存在外部系統,然後將輕量級引用傳遞迴協調器,從而提高保真度和效能。
這防止了多階段處理中的資訊丟失,並減少了透過對話歷史複製大型輸出的token開銷。該模式特別適用於程式碼、報告或資料視覺化等結構化輸出,其中子代理的專業提示產生的結果比透過通用協調器過濾更好
在構建智慧體系統時,在開發者機器上執行的工作程式碼庫需要大量的工程工作才能成為可靠的生產系統。一個步驟的失敗可能導致智慧體朝著完全不同方向的去探索,從而產生不可預測的結果。
團隊已經表明諸多原因,並表示原型系統與可供使用者成熟使用的生產系統之間的差距往往比預期要大得多。
當單個智慧體的能力接近上限時,多智慧體系統就成為突破邊界、實現“智慧倍增”的關鍵手段。
參考連結[1]https://www.anthropic.com/engineering/built-multi-agent-research-system[2]https://x.com/omarsar0/status/1933941558815887400
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
專屬AI產品從業者的實名社群,只聊AI產品最落地的真問題

掃碼新增小助手,傳送「姓名+公司+職位」申請入群~

進群后,你將直接獲得:
 👉 最新最專業的AI產品資訊及分析 🔍 
 👉不定期發放的熱門產品內測碼 🔥
 👉內部專屬內容與專業討論 👂
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章