

引言
在知識密集型場景中,讓智慧系統生成與事實一致的響應一直以來都是研究人員的目標。儘管現在大語言模型(LLMs)在其引數記憶中內化了大量的世界知識,但仍然受限於虛構事實。引入非引數(即基於檢索的)知識可以顯著增強 LLM 回覆的事實性。
但是當前的引數知識增強框架面臨著三個主要戰:
1. 複雜的查詢意圖:指令語義和形式的多樣性導致對知識查詢意圖的混淆;
2. 檢索知識中的干擾:知識檢索不可避免地會引入文件和句子兩種不同粒度的干擾,不相關的文件和多餘的跨度會干擾響應,導致更嚴重的幻覺;
3. 知識利用度不足:LLM 往往更多地依賴於其內隱知識(引數記憶)。現有方法並沒有綜合考慮這種多階段的挑戰,因為這通常需要執行一系列長軌跡處理操作。
因此,本文首先提出了⼀種用於知識密集的多智慧體框架 – SMART,以整合不同的動作,應對上述挑戰,其中每個智慧體都執行特定的行動。
SMART 包括:意圖重建器(從各種指令中澄清知識意圖)、知識檢索器(訪問外部知識)、事實定位器(評估檢索到的知識,並從相關文件中識別事實片段)、響應生成器(忠實地利用事實,並在有事實的情況下進行引用)。
然而,一個主要關注點在於如何為每個智慧體配備執行相應操作所需的能力,同時最大限度地減少智慧體工作流過程中的錯誤,從而提高整體知識密集型效能。這是改進多智慧體框架的一個長期挑戰,尤其是大多數多智慧體框架都是以非訓練方式執行的。
一方面,模組化方法將獨立學習模組串聯,使每個模組專注於特定智慧體,從而簡化處理流程,但可能導致錯誤在系統中累積和傳播。另一方面,讓 LLM 變體直接模仿整個軌跡雖能緩解模組化方法的碎片化問題,減少錯誤傳播,卻難以保證每個智慧體的細粒度表徵。因此,應在確保協同效應的同時,最佳化個體智慧體的貢獻。
為了應對這⼀挑戰,本文提出了一種多智慧體協同訓練的方法,即長短軌跡學習。該方法包括兩個階段,短軌跡首先啟用框架中的每個特定智慧體,從而學習關於子軌跡中輸入輸出訊號的理解。
隨後,長軌跡學習透過軌跡骨架學習確保多智慧體之間的協同作用。在五項知識密集的下游任務上的實驗結果證明了所提框架的有效性和先進性。

▲ 圖1:知識密集型場景的長軌跡示例(上圖)和多智慧體協調框架比較(下圖)

論⽂標題:
Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks
論⽂地址:
https://arxiv.org/abs/2407.09893
專案地址:
https://github.com/yueshengbin/SMART
軌跡資料:
https://huggingface.co/datasets/ShengbinYue/Long-short-Trajectory

方法介紹

▲ 圖2:多智慧體框架
2.1 多智慧體框架-SMART
SMART 包含四個關鍵智慧體,每個智慧體負責一個特定的子軌跡,透過協同這些智慧體以獲得最終的響應。
-
意圖重構器。澄清不同型別指令的知識查詢意圖。例如,處理模糊問題(如 “A 和 B 誰出生得早?”)時,將其分解為子問題(如分別獲取 A 和 B 的出生日期)。
-
知識檢索器。基於重構的意圖訪問外部知識庫,並檢索相關知識。由現成的檢索模型驅動,為每個知識意圖從知識庫中獲取 top-k 個相關文件。。
-
事實定位器。評估知識文件與指令的相關性,並提取支援證據的事實跨度。其主要作用包括:(1)相關性判斷,減少無關文件干擾,使響應更加聚焦。(2)透過明確學習查詢事實,增強知識應用的可解釋性,提高使用者信任度。
-
響應生成器。生成最終響應。若提供事實,則調整知識偏好以符合事實;否則,依賴自身知識作答。
2.2 長短軌跡資料集構造
為最佳化多智慧體框架的長短軌跡學習,本文構建了軌跡資料集。該資料集從 12 個知識密集型任務中收集樣本,涵蓋多種語義和格式指令,如事實驗證、對話、開放領域問答和常識推理等。軌跡資料集遵循兩種不同的原則,劃分為長軌跡子集和短軌跡子集。

▲ 表1:四種軌跡 Tokens。、、、、 和 分別表示指令、意圖、知識文件、相關性標籤、事實證據和回應。
和分別表示指令、意圖、知識文件、相關性標籤、事實證據和回應。
2.2.1 長軌跡子集
● 特點:該子集旨在精確模擬多智慧體框架完整推理過程,強調智慧體間的邏輯互動。
● 構造方法。
給定原始資料輸入-輸出對(x,y),在檢索模型和批判模型的指導下建立監督資料:
-
根據指令型別,利用批判模型澄清 x 中的知識意圖 。
-
檢索模型基於每條知識意圖檢索 top-k 篇知識文件。
-
對於每個文件,批判模型會根據(x,y)進一步評估該段落是否相關。若相關,則進一步定位並提取事實跨度。
-
如表 2 所示,為每個軌跡插入軌跡頭尾令牌,併合並資料。
2.2.2 短軌跡子集
● 特點:旨在增強單個智慧體對專屬軌跡的細粒度理解。
● 構造方法:
短軌跡子集的特點使其能夠透過簡單處理,直接從大量現有的知識密集型任務中獲取資料。因此,本文從現有的 NLP 和 SFT 資料集中取樣,並附加必要的軌跡頭尾標記。表 2 展示了每個智慧體負責的短軌跡的輸入和輸出。
2.3 長短軌跡學習

▲ 圖3:長短軌跡學習
有效微調由多個智慧體組成的軌跡系統是一項複雜任務,而構建多個智慧體的軌跡資料成本高昂,極大地阻礙了此類系統的開發。為此,本文提出長短軌跡學習(Long Short-Trajectory Learning)方法,包括短軌跡學習和長軌跡學習兩個階段。
如圖 3 所示,這可以理解為先在廣泛的軌跡框架內啟用每個掌握短軌跡的智慧體,然後探索這些智慧體之間的相互聯絡以導航整個長軌跡。
2.3.1 短軌跡學習
如圖 3 所示,給定輸入 和軌跡頭 ,短軌跡學習(Short Trajectory Learning)引導智慧體學習預測輸出 和軌跡尾 ,從而明確任務歸屬,使智慧體聚焦於生成正確輸出所需的關鍵訊號。
該階段利用易獲取的大量資料(包括通用)來構建智慧體的基礎能力,降低框架成本的同時,保持其創造性與多功能性。
具體地,給定短軌跡子集 ,初始化一個預訓練的 LLM,並在 上訓練它。對於每個訓練樣本 ,使用標準的條件語言建模目標:

2.3.2 長軌跡學習
經過上述階段,長軌跡學習(Long Trajectory Learning)使其能夠以端到端的方式在智慧體之間建立關聯。
與短軌跡學習不同,該階段既要學習預測每條短軌跡的目標輸出,也要學習從上一條軌跡終點 到下一條軌跡頭部 。具體地,給定 進行訓練,在給定指令 的情況下,長軌跡學習會強制 LLM 學習長軌跡過程:


其中,R、I 和 G 分別表示 意圖重構器、事實定位器和響應生成器。

實驗部
3.1 實驗設定
評測任務。在一系列知識密集型下游任務中對框架進行了評估。包括:1)事實驗證:PubHealth;2)多項選擇推理:ARC-Challenge;3)開放域問題解答:PopQA 和 SQuAD 1.1;4)含糊問題解答:ASQA。
基準模型。與兩類基準方法進行了比較:1)知識內化方法:ChatGPT、Mistral-Instruct-v0.2-7B、Llama-2-Chat-7B/13B、Vicuna-v1.5-13B 和 Alpaca2-7B;2)知識增強方法:REPLUG-7, VANILLA-7B, INTERACT-7B, RAIT-7B, SelfRAG-7B, MMAgent-3*7B。
3.2 對比實驗結果

與知識內化方法比較。SMART 在所有任務中都顯示出比同等大小 LLM 更強的效能優勢。此外,SMART 在 PopQA(長尾知識評估)、Squad1 和 ASQA 的所有評估指標中都超越了 ChatGPT。
實驗結果表明,與需要對大量私有資料進行微調和訓練的知識內化方法相比,SMART 更有效地處理長尾知識,提供更準確的響應。
與知識增強方法的比較。考慮到公平性,SMART 比較了基於與我們相同規模的知識增強方法。與 MMAgent(四個獨立智慧體直接耦合)相比,SMART 在所有指標上都優於它,這表明 SMART 顯著提示了多智慧體協作,從而產生了更準確的響應。
3.3 消融實驗結果

3.3.1 不同智慧體的貢獻
訓練消融:在該設定中,使用長軌跡子集的 60k 個樣本進行長軌跡學習,訓練四種不同的框架,以評估智慧體缺失對框架效能的影響。如表 3 上半部分所示,移除事實定位器或意圖重構器都會顯著降低框架效能。
推理消融:在該設定中,使用完整資料訓練的短長軌跡學習框架,在推理階段忽略不同智慧體的軌跡。如表 3 底部所示,每個智慧體在協作框架中均發揮關鍵作用。儘管存在智慧體缺失,SMART 仍能保持效能並展現出較強的靈活性,而不會導致效能崩潰。
3.3.2 長短軌跡學習的影響

本文透過在基線模型上進行訓練,逐步證明了長短軌跡學習的有效性。如表所示,短軌跡學習和長軌跡學習可以帶來巨大的效能提升,總體而言,長短軌跡學習的組合方法可產生最佳效能,凸顯了協作和獨特性的重要性。
3.3.3 長軌跡學習訓練資料大小的影響

為了研究長軌跡訓練資料對長短軌跡學習的影響,本文從原始的 140k 訓練例項中隨機抽取 8k、20k、60k 和 121k 個子集,並在這些子集上微調了四個 SMART 變體。結果表明,資料規模的增加通常會提升所有資料集的效能。
值得注意的是,在 ASQA 上,SMART 僅使用 60k 資料例項便超越了基於 120k 樣本訓練的 SelfRAG。這一結果證明,長短軌跡學習策略不僅能降低成本,還能顯著提升多智慧體框架的效能。

總結
在本文中,作者嘗試使用多智慧體框架解決知識密集型任務,並提出了一種結合長短軌跡的多智慧體框架微調方法。實驗證實了該多智慧體系統設定的框架的有效性和優越性。同時,提出的長軌跡和短軌跡學習可以擴充套件到其他多智慧體場景,使任意多智慧體框架能夠內化定製的軌跡。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
