智慧搜尋要變天了？AISearchParadigm登場，多智慧體協同搞定複雜Query

近日，百度搜索團隊提出面向 AI 搜尋正規化的論文《Towards AI Search Paradigm》，是第一篇提出完整 AI 搜尋概念、詳細介紹 AI 搜尋演算法實現並在億級日活使用者規模的搜尋場景落地的技術報告。

該 AI 搜尋正規化致力於模擬人類的資訊處理與決策過程，採用由多個 LLM 驅動的智慧體構成的模組化體系，能夠動態適應從簡單事實查詢到複雜多階段推理任務的各類資訊需求。

這些智慧體透過動態協同的工作流程，評估 Query 複雜性，在 Master 的判斷和指導下對應不同任務的特性的智慧體動態組合，並針對複雜任務將問題分解為可執行的任務，並協調使用各種工具進行任務執行與內容合成。

其技術細節涵蓋多智慧體（Multi-Agent）協作、任務規劃、透過模型上下文協議（MCP）選擇合適的工具、DeepResearch、基於強化學習的最佳化策略、基於大模型的檢索和排序策略、檢索增強生成（RAG）的對齊和最佳化策略以及 LLM 的輕量化和推理加速等詳細演算法。

論文連結：

https://arxiv.org/pdf/2506.17188

研究問題：當傳統搜尋遇到複雜推理瓶頸

從詞法搜尋到機器學習時代搜尋，再到 RAG，搜尋技術一步步突破。儘管當前主流的 RAG 系統儘管能夠直接提供自然語言形式的答案，但在面對需要多階段推理、複雜任務分解或跨工具協同的 Query 時，仍捉襟見肘。

其本質問題在於傳統 RAG 系統以線性“檢索-生成”為基礎，缺乏認知規劃、動態工具呼叫和反思式調整的機制，無法有效應對現實中複雜多樣的資訊需求。

例如 RAG 可以回答“漢武帝的年齡? ”，但是很難回答“漢武帝和凱撒大帝誰的年齡更大，大幾歲？”這種需要複雜推理流程的 Query。

核心原因在於：大多數 RAG 系統本質上仍是“單輪檢索 + 單輪生成”的線性流程，缺乏任務拆解規劃、排程工具、驗證資訊、出錯後的反思與重試以及綜合回答等一系列機制。

針對上述問題，百度搜索團隊提出 AI 搜尋新正規化，旨在模擬人類獲取資訊的方式，猶如將專家團隊裝入搜尋引擎：它能自動分解任務、呼叫多種工具、Multi-Agent 協同作業來解決複雜任務。

方法介紹

為解決上述問題，文章提出了一種基於多智慧體協作的全新搜尋正規化——AI Search Paradigm，其核心思想是透過多個專職智慧體動態協作，實現對複雜查詢任務的高效規劃、可靠執行與結果整合。具體包括以下四個智慧體角色：

Master（控制智慧體）：負責初步分析查詢的複雜度，動態組建最佳智慧體團隊，即時監控任務進展，並根據反饋調整策略。
Planner（任務規劃智慧體）：針對複雜查詢任務，動態調整 LLM 的能力邊界，生成有向無環圖（DAG），並動態呼叫相關工具。
Executor（任務執行智慧體）：負責執行 Planner 指定的子任務，包括呼叫外部工具，例如：網路搜尋（Web Search）、計算器、天氣工具、程式碼直譯器等，即時評估執行效果。
Writer（答案生成智慧體）：將 Executor 的各個子任務結果整合，並生成邏輯清晰、語義完整的最終自然語言回答。

該正規化突破了傳統搜尋系統線性、靜態的處理模式，引入了顯式的任務規劃、工具動態呼叫和即時反思機制，從而顯著增強了系統的複雜任務處理能力。

▲ 圖1. AI 搜尋正規化系統架構圖

方法設計：從靜態檢索到動態協作，打造更“類人”的搜尋工作流

AI Search Paradigm 不只是簡單多加幾個模組，而是一次完整的架構重構：

複雜查詢如：

“漢武帝與凱撒誰年長？相差幾年？”

AI Search 會規劃為如下任務圖：

Sub-task 1: 檢索漢武帝生日

Sub-task 2: 檢索凱撒生日

Sub-task 3: 計算二者差值

子任務之間存在依賴關係（計算年齡前需先獲得生日），系統構建成 DAG 並分層並行執行。相比“思考-行動”式的線性流程 RAG，AI Search 更穩定、易擴充套件、可回溯。

▲ 圖2. AI 搜尋正規化與主流 RAG 方法的比較

核心技術亮點彙總

4.1 Master

根據查詢的複雜性動態選擇執行團隊
即時監控和評估任務執行結果，如果執行失敗進行反思（Reflect）、重規劃（Replan）和重新執行（Re-Act）等 Deep Research 策略

4.2 Planner

動態能力邊界：不同於靜態繫結工具列表，文章提出“動態能力邊界”，即基於輸入查詢動態選擇合適的工具子集，並結合 LLM 本身能力 + 選擇的工具 API 構成有效的能力邊界。

▲ 圖3. 動態能力邊界示意圖

構建準確、完整的工具描述文件（DRAFT）：文章提出 DRAFT 檢索機制，利用 llm 和外部工具之間的互動，在這些互動過程中產生的反饋相互作用，逐步最佳化工具描述文件。

▲ 圖4. 構建準確完整的工具描述文件演算法（DRAFT）架構圖

MCP 中的工具聚類：基於 API 功能相似度，自動聚類形成“工具包”，藉助功能冗餘提升整體系統韌性。
面向查詢的工具檢索（COLT）：文章提出 COLT 檢索機制，支援基於語義表示選擇相關工具、建圖建模工具協同使用關係以及最終用多標籤列表排序方式，確保工具組合“完整+合理”。
基於 DAG 的任務規劃：Planner 將複雜問題拆解為多個子任務並構建 JSON 格式的 DAG，採用思維鏈→結構化模式，即 LLM 先在內部推理，再一鍵生成結構化 DAG。
Master 指導下的 DeepResearch 機制：每步執行由 Executor 完成並驗證；若結果缺失、失敗，Master 會啟動反思機制；區域性回滾 DAG 片段，Planner 重新規劃，避免全域性重算。
基於強化學習（RL）的最佳化 Planner 策略：提出了基於強化學習的 Planner 最佳化方法，透過定義明確的獎勵機制（涵蓋結果準確性、使用者反饋、格式規範性與中間任務執行質量），實現 Planner 在複雜任務規劃中的效能提升。

4.3 Executor

對齊大模型偏好：傳統搜尋對齊使用者偏好，而 AI 搜尋則側重於對齊大模型的偏好，有利於後續生成高質量答案

▲ 圖5. 任務執行器的架構轉變示意圖

LLM 標註（RankGPT 和 TourRank）：RankGPT 利用滑動視窗在小批候選文件上重複比對，最終彙總出整組文件的全域性排序；TourRank 受錦標賽模式啟發，將文件分組並行競爭，多輪晉級打分後彙總，生成更準確的排序結果。
參考選擇和生成獎勵：Executor 從單一維度的排序升級為並行多維度排序策略，例如權威性優先或時效性優先，AI 搜尋系統讓 Writer 分別基於各策略生成答案，再以更優答案質量對對應策略給予正向激勵，藉助下游生成效果反向驅動上游排序最佳化。

▲ 圖6. 生成獎勵演算法示意圖

LLM 排序蒸餾：將教師 LLM 的深度排序能力蒸餾到更高效的輕量化的學生模型。
輕量化檢索和排序系統：文章提出輕量化檢索系統，即基於 Tiny-LLM 生成查詢和文件嵌入，替代傳統 BERT 模型。文章同時提出輕量化排序系統，即直接使用 LLM 推理能力對文件打分，減少特徵工程依賴。

4.4 Writer

基於 LLM 生成的 “3H 標準”，即有用（Helpfulness）、無害（Harmlessness）和真實（Honesty）文章針對 3H 標準分別提出：魯棒 RAG 系統（ATM），即透過對抗訓練與多智慧體迭代訓練相結合，顯著增強了 Writer 的魯棒性；RAG 任務對齊系統（PA-RAG），即先透過指令微調獲得基礎 RAG 能力，再進行多視角偏好最佳化，確保模型輸出資訊性強、魯棒性佳且引用準確；基於使用者反饋進行最佳化（RLHB），即透過顯式與隱式使用者反饋，利用 RL 直接對齊 LLM，克服了傳統對齊成本高且脫離真實線上行為的侷限。

▲ 圖7. 魯棒 RAG 演算法（ATM）示意圖

▲ 圖8. RAG 任務對齊演算法（PA-RAG）示意圖

多智慧體聯合最佳化（MMOA-RAG）：將 Planner、Executor 和 Writer 三個智慧體視為協作團體，組成一個 Multi-Agent 系統，整體最佳化目標採用多智慧體 PPO（MAPPO），使得所有 Agent 共同朝著同一個全域性獎勵方向前進，同時透過懲罰項約束各自的低效行為。

▲ 圖9. 多智慧體聯合最佳化演算法（MMOA-RAG）示意圖

4.5 輕量化 LLM

演算法層面最佳化方法：文章提出 Local Attention 方法，即透過 LightTransfer、LoLCATs 等方法，將 Transformer 的全域性注意力替換為區域性或低秩機制，大幅降低複雜度至近線性，且效能損失極小；文章利用 Layer Collapse、SlimGPT 等結構化剪枝技術，刪減冗餘層、注意力頭或通道，在無需大規模重訓練的情況下壓縮模型引數，並保持幾乎相同的效果。
架構層面最佳化方法：文章提出縮短輸出長度（Output Length Reduction）、語義快取（Semantic Caching）、量化（Quantization）、預填充與解碼分離（Prefill-Decode Separation）和投機解碼（Speculative Decoding）等方法在架構層面實現輕量化。