GPT還是DeepSeek？不如全都要！南洋理工、IDEA等提出首個多智慧體系統LLMRouting框架

獨木不成林，隨著基於大型語言模型（LLM）的智慧體（agents）的發展，人們愈發意識到單個 LLM 和 Agent 的侷限性。受到人類團隊分工協作的啟發，將多個 LLM 驅動的智慧體組合成一個團隊，能夠更有效地解決複雜問題。然而，使用多智慧體系統進行推理時，你是否遇到過這樣的問題：

模型選擇困難症，大模型“殺雞用牛刀”，小模型效果一言難盡？
針對各類問題設計智慧體協作模式和角色分工而絞盡腦汁？
想動態調配 LLM 資源，卻不知如何平衡效能與成本？

別擔心！多智慧體界的“排程員”來了！由 IDEA 聯手同濟大學、武漢大學、南洋理工大學團隊提出的 MasRouter，首次將協作模式選擇 、角色分配和大語言模型排程整合成智慧路由框架，為每個任務定製最佳智慧體團隊！

相關論文

論文標題：

MasRouter: Learning to Route LLMs for Multi-Agent Systems

論文連結：

https://arxiv.org/abs/2502.11133

程式碼連結：

https://github.com/yanweiyue/masrouter

背景介紹

考慮這樣的兩個程式設計問題：

編寫 python 程式碼統計字串的長度
從後端資料庫到前端網頁全面實現一個影片網站

很顯然，上面兩個任務的複雜度天差地別，前者只需要一個最簡單的 LLM 便能很好解決，使用大且複雜的模型會造成不必要的開銷；而後者則需要最先進的模型和複雜的多智慧體分工、檢查和迭代最佳化。

類似的情況在生活中經常出現，大模型多如牛毛，推理方法更是浩如煙海，如何選擇合適的 LLM、協作模式以平衡效果和開銷，是一個巨大的挑戰。

近年來，在單智慧體領域，已經有許多有效的 LLM routing 方案為不同問題動態選擇 LLM。然而，單智慧體能力有限，當我們希望用多智慧體系統解決複雜問題時，依然會陷入選擇困難症。

傳統的 LLM 路由方法主要針對單智慧體場景，無法應對多智慧體系統中的新問題：1）如何確定多智慧體協作模式；2）如何為不同的智慧體分配個性化角色；3）如何為不同智慧體分配合適的 LLM，實現異構多智慧體系統推理。

▲ 單智慧體和多智慧體路由的流程對比

為解決這些挑戰，本文首先明確定義了 Multi-agent routing任務，隨後提出了第一個多智慧體系統路由框架——MasRouter，為每個任務定製最佳智慧體團隊，讓 GPT 和 Deepseek 在多智慧體系統中並肩作戰！

多智慧體系統路由

▲ MASR 的定義

本文中，我們首先明確定義了多智慧體系統路由問題。多智慧體系統路由（MASR）的本質是一個函式對映，將每個查詢對映到最合適的 LLM、協作模式和角色分配，以構建一個高效且經濟的多智慧體系統。其中協作/推理模式是骨架，確定了多智慧體系統推理的基本流程；而角色分工是器官，決定了每個智慧體的具體任務和職責；LLM 排程則是血液，為每個智慧體提供動力。

理想的 MASR 方法將為每個查詢定製最佳的協作模式、角色分工和 LLM，各司其職各得其所，使得整個系統能夠給出正確且經濟的解答。拒絕“殺雞用牛刀”，也拒絕“以卵擊石”。

MasRouter

提出多智慧體系統路由（MASR）任務後，我們設計了第一個 MASR 框架——MasRouter，該框架實現了協作模式選擇、角色分配和 LLM 排程的一體化。MasRouter 的核心是一個三階段的多智慧體系統路由器，包括協作模式決斷器、角色分配器和 LLM 排程器，透過三個模組能得到生成某問題正確答案的機率：

方法的整體流程如下圖所示：

▲ MasRouter 演算法框架

4.1 協作模式選擇

MasRouter 首先根據任務的複雜性和領域，選擇合適的協作模式。例如，對於軟體開發任務，可能需要一個包含需求分析、演算法設計、程式碼開發和測試的層次化工作流；對於某個複雜的數學問題，可能需要多輪檢查反思工作流。由於協作模式和查詢之間的關係通常很難明確表徵，MasRouter 使用變分潛在變數模型來捕捉查詢與協作模式之間的語義關聯，從而選擇最合適的協作模式：

其中表示查詢的潛在表徵的先驗機率，該機率服從由查詢語義決定的正態分佈；表示解碼生成某協作模式的機率，由查詢語句和協作模式的匹配度計算得到：

是一個文字編碼器，用於提取查詢的語義資訊。

將查詢和協作模式之間的關係嵌入到潛在空間中。

4.2 角色分配

確定了協作模式後，我們已經得到了多智慧體協作系統的骨幹，下面在骨幹的基礎上填上器官和肌肉，即為每個智慧體分配合適的角色。多智慧體之間的角色通常需要按一定的順序排布，且相互依賴。

例如，我們首先需要一個程式設計師來編寫程式碼，隨後才需要一個測試工程師來驗證和除錯程式碼。相應地，透過結構化的機率級聯來形式化角色生成過程：

其中，表示生成第個角色的機率，該機率基於查詢、選定的以及先前的個角色配置檔案。我們透過以下方式迭代計算：

這裡表示在查詢和選定的下，透過前個角色分配過程累積的隱式語義表示。捕捉了當前候選角色在先前分配角色的背景下所表現出的動態特徵。至此，我們逐步為所有智慧體確定了角色分工，剩下的任務是為每個智慧體選擇適當的 LLM 提供其驅動力。

4.3 大語言模型排程

每個 LLM 都有優缺點，而 LLM 排程便是希望物盡其用，人盡其才，充分利用它們各自的能力。例如，對於數學問題，我們希望選擇特別擅長數學的 LLM，或者一個經過數學領域微調的 LLM。

因此，我們認為 LLM 分配主要取決於任務的領域和難度，以及智慧體對應的角色。我們基於問題、先前協作模式和角色的選擇來確定的選擇機率。然後將多個智慧體的 LLM 選擇過程視為一個多項式分佈問題：

其中，是多項式係數，表示將個不同 LLM 分配給 k 個智慧體的方法數，其中第 i 個 LLM 被選擇了次。表示在全域性上下文中每個 LLM 被選擇的機率：

其中，聚合了查詢、協作模式和選定角色的嵌入表示。

計算每個 LLM 的潛在表示。基於和，可以獲得每個 LLM 與構建系統之間的相容性，該相容性與選擇的機率成正比。

4.4 最佳化目標

MasRouter 的最佳化目標如下：

其中，表示多代理系統的成本評估，是權衡引數，在前面幾節中由三階段的多智慧體系統路由器計算得到。透過這個最佳化目標，我們最大化生成正確解決方案的機率並最小化成本消耗來平衡有效性和效率。然後，按照多代理結構設計中的標準方法，我們應用策略梯度來逼近和最佳化該目標。

以上，我們構建了一個綜合協作模式選擇、角色分配和 LLM 排程的多智慧體路由方法。不同的 LLM、協作模式和角色分工將在不同的任務中發揮作用，MasRouter 將為每個任務定製最佳智慧體團隊，gpt 和 deepseek 在多智慧體系統中並肩作戰將成為現實！

實驗分析

MasRouter與其它單智慧體方法（如 CoT、ComplexCoT 等），多智慧體方法（如 GPTSwarm、AFlow 等）以及單智慧體 Routing 方法（如）在五個基準資料集上進行了測評，結果如下圖所示：

▲ MasRouter 的實驗評估

我們可以發現各種 LLM 在不同任務上互有優劣，而 MasRouter 能夠根據任務的複雜性和領域選擇合適的 LLM，從而在各類 benchmark 上取得了最佳效能，超越了之前的 SOTA 多智慧體方法和傳統 Routing 方法。

如下圖所示，MasRouter在 MBPP 資料集上實現了成本效益的 Pareto 前沿最佳效能。與 AFlow 相比，MasRouter不僅在效能上提升了 1.8%∼8.0%，在智慧體數量相同的情況下還減少了 40.22%∼43.78% 的推理開銷。

▲ 帕累託圖

此外，我們透過實驗證明了 MasRouter 可以作為其他多智慧體方法的無縫外掛，為多智慧體系統提供更加靈活、高效的推理能力。

我們還對 MasRouter 在不同 benchmark 上所設計出來的協作結構進行了視覺化。可以觀察到，由 MasRouter 生成的多智慧體拓撲高度依賴於具體任務的上下文及其難度。相比之下，在更復雜的案例中，MasRouter 構建了更為複雜的通訊圖。

▲ 案例分析

結語

本文第一次提出了多智慧體系統路由（MASR）的概念，並給出了一個簡單可行的 MASR 解決方案 MasRouter。我們希望無論是程式碼生成、數學推理還是其他複雜任務，MasRouter 都能為你提供高效且經濟的解決方案；我們更希望能有研究者們能給出更多更好的 MASR 解決方案，讓多智慧體系統的推理更加高效、靈活！