AAAI2025|復旦等提出SMART：用於密集知識型任務的多智慧體聯調框架

引言

在知識密集型場景中，讓智慧系統生成與事實一致的響應一直以來都是研究人員的目標。儘管現在大語言模型（LLMs）在其引數記憶中內化了大量的世界知識，但仍然受限於虛構事實。引入非引數（即基於檢索的）知識可以顯著增強 LLM 回覆的事實性。

但是當前的引數知識增強框架面臨著三個主要戰：

1. 複雜的查詢意圖：指令語義和形式的多樣性導致對知識查詢意圖的混淆；

2. 檢索知識中的干擾：知識檢索不可避免地會引入文件和句子兩種不同粒度的干擾，不相關的文件和多餘的跨度會干擾響應，導致更嚴重的幻覺；

3. 知識利用度不足：LLM 往往更多地依賴於其內隱知識（引數記憶）。現有方法並沒有綜合考慮這種多階段的挑戰，因為這通常需要執行一系列長軌跡處理操作。

因此，本文首先提出了⼀種用於知識密集的多智慧體框架 – SMART，以整合不同的動作，應對上述挑戰，其中每個智慧體都執行特定的行動。

SMART 包括：意圖重建器（從各種指令中澄清知識意圖）、知識檢索器（訪問外部知識）、事實定位器（評估檢索到的知識，並從相關文件中識別事實片段）、響應生成器（忠實地利用事實，並在有事實的情況下進行引用）。

然而，一個主要關注點在於如何為每個智慧體配備執行相應操作所需的能力，同時最大限度地減少智慧體工作流過程中的錯誤，從而提高整體知識密集型效能。這是改進多智慧體框架的一個長期挑戰，尤其是大多數多智慧體框架都是以非訓練方式執行的。

一方面，模組化方法將獨立學習模組串聯，使每個模組專注於特定智慧體，從而簡化處理流程，但可能導致錯誤在系統中累積和傳播。另一方面，讓 LLM 變體直接模仿整個軌跡雖能緩解模組化方法的碎片化問題，減少錯誤傳播，卻難以保證每個智慧體的細粒度表徵。因此，應在確保協同效應的同時，最佳化個體智慧體的貢獻。

為了應對這⼀挑戰，本文提出了一種多智慧體協同訓練的方法，即長短軌跡學習。該方法包括兩個階段，短軌跡首先啟用框架中的每個特定智慧體，從而學習關於子軌跡中輸入輸出訊號的理解。

隨後，長軌跡學習透過軌跡骨架學習確保多智慧體之間的協同作用。在五項知識密集的下游任務上的實驗結果證明了所提框架的有效性和先進性。

▲ 圖1：知識密集型場景的長軌跡示例（上圖）和多智慧體協調框架比較（下圖）

論⽂標題：

Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks

論⽂地址：

https://arxiv.org/abs/2407.09893

專案地址：

https://github.com/yueshengbin/SMART

軌跡資料：

https://huggingface.co/datasets/ShengbinYue/Long-short-Trajectory

方法介紹

▲ 圖2：多智慧體框架

2.1 多智慧體框架-SMART

SMART 包含四個關鍵智慧體，每個智慧體負責一個特定的子軌跡，透過協同這些智慧體以獲得最終的響應。

意圖重構器。澄清不同型別指令的知識查詢意圖。例如，處理模糊問題（如 “A 和 B 誰出生得早？”）時，將其分解為子問題（如分別獲取 A 和 B 的出生日期）。
知識檢索器。基於重構的意圖訪問外部知識庫，並檢索相關知識。由現成的檢索模型驅動，為每個知識意圖從知識庫中獲取 top-k 個相關文件。。
事實定位器。評估知識文件與指令的相關性，並提取支援證據的事實跨度。其主要作用包括：（1）相關性判斷，減少無關文件干擾，使響應更加聚焦。（2）透過明確學習查詢事實，增強知識應用的可解釋性，提高使用者信任度。
響應生成器。生成最終響應。若提供事實，則調整知識偏好以符合事實；否則，依賴自身知識作答。

2.2 長短軌跡資料集構造

為最佳化多智慧體框架的長短軌跡學習，本文構建了軌跡資料集。該資料集從 12 個知識密集型任務中收集樣本，涵蓋多種語義和格式指令，如事實驗證、對話、開放領域問答和常識推理等。軌跡資料集遵循兩種不同的原則，劃分為長軌跡子集和短軌跡子集。

▲ 表1：四種軌跡 Tokens。、、、、和分別表示指令、意圖、知識文件、相關性標籤、事實證據和回應。

和分別表示指令、意圖、知識文件、相關性標籤、事實證據和回應。

2.2.1 長軌跡子集

● 特點：該子集旨在精確模擬多智慧體框架完整推理過程，強調智慧體間的邏輯互動。

● 構造方法。

給定原始資料輸入-輸出對（x,y），在檢索模型和批判模型的指導下建立監督資料：

根據指令型別，利用批判模型澄清 x 中的知識意圖。
檢索模型基於每條知識意圖檢索 top-k 篇知識文件。
對於每個文件，批判模型會根據（x,y）進一步評估該段落是否相關。若相關，則進一步定位並提取事實跨度。
如表 2 所示，為每個軌跡插入軌跡頭尾令牌，併合並資料。

2.2.2 短軌跡子集

● 特點：旨在增強單個智慧體對專屬軌跡的細粒度理解。

● 構造方法：

短軌跡子集的特點使其能夠透過簡單處理，直接從大量現有的知識密集型任務中獲取資料。因此，本文從現有的 NLP 和 SFT 資料集中取樣，並附加必要的軌跡頭尾標記。表 2 展示了每個智慧體負責的短軌跡的輸入和輸出。

2.3 長短軌跡學習

▲ 圖3：長短軌跡學習

有效微調由多個智慧體組成的軌跡系統是一項複雜任務，而構建多個智慧體的軌跡資料成本高昂，極大地阻礙了此類系統的開發。為此，本文提出長短軌跡學習（Long Short-Trajectory Learning）方法，包括短軌跡學習和長軌跡學習兩個階段。

如圖 3 所示，這可以理解為先在廣泛的軌跡框架內啟用每個掌握短軌跡的智慧體，然後探索這些智慧體之間的相互聯絡以導航整個長軌跡。

2.3.1 短軌跡學習

如圖 3 所示，給定輸入和軌跡頭，短軌跡學習（Short Trajectory Learning）引導智慧體學習預測輸出和軌跡尾，從而明確任務歸屬，使智慧體聚焦於生成正確輸出所需的關鍵訊號。

該階段利用易獲取的大量資料（包括通用）來構建智慧體的基礎能力，降低框架成本的同時，保持其創造性與多功能性。

具體地，給定短軌跡子集，初始化一個預訓練的 LLM，並在上訓練它。對於每個訓練樣本，使用標準的條件語言建模目標：

2.3.2 長軌跡學習

經過上述階段，長軌跡學習（Long Trajectory Learning）使其能夠以端到端的方式在智慧體之間建立關聯。

與短軌跡學習不同，該階段既要學習預測每條短軌跡的目標輸出，也要學習從上一條軌跡終點到下一條軌跡頭部。具體地，給定進行訓練，在給定指令的情況下，長軌跡學習會強制 LLM 學習長軌跡過程：

其中，R、I 和 G 分別表示意圖重構器、事實定位器和響應生成器。

實驗部

3.1 實驗設定

評測任務。在一系列知識密集型下游任務中對框架進行了評估。包括：1）事實驗證：PubHealth；2）多項選擇推理：ARC-Challenge；3）開放域問題解答：PopQA 和 SQuAD 1.1；4）含糊問題解答：ASQA。

基準模型。與兩類基準方法進行了比較：1）知識內化方法：ChatGPT、Mistral-Instruct-v0.2-7B、Llama-2-Chat-7B/13B、Vicuna-v1.5-13B 和 Alpaca2-7B；2）知識增強方法：REPLUG-7, VANILLA-7B, INTERACT-7B, RAIT-7B, SelfRAG-7B, MMAgent-3*7B。

3.2 對比實驗結果