“三個臭皮匠,頂個諸葛亮”——這句古老的諺語似乎在大模型領域遇到了挑戰。
在大模型領域,多智慧體辯論(Multi-Agent Debate, MAD)方法持續引發學界關注,並頻繁亮相於頂級學術會議。該方法認為,透過讓多個智慧體在大模型推理時展開多輪辯論,可提升生成內容的事實準確性和推理質量。
然而,當前 MAD 的評估標準需要被重新審視——由上海人工智慧實驗室 OpenAGCI Team 聯合賓夕法尼亞州立大學、西北工業大學及新加坡管理大學的最新研究表明:
多智慧體辯論在大多數情況下不敵簡單的單智慧體方法 Chain-Of-Thought。
在 36 種實驗配置(覆蓋 9 個常見資料集與 4 種大模型)中,MAD 的勝率不足 20%。即使增加辯論輪次或擴充套件智慧體規模,仍無法改變其競爭劣勢。這一發現是否意味著多智慧體系統引以為傲的"群體智慧"優勢僅為美好的幻想?抑或是當前研究尚未找到開啟其潛力的正確鑰匙?

論文標題:
If Multi-Agent Debate is the Answer, What is the Question?
論文地址:
https://www.alphaxiv.org/abs/2502.08788
亮點速覽
-
系統性評估:覆蓋 5 種主流 MAD 框架、9 大基準測試、4 種 LLM,揭示 MAD 研究的侷限性;
-
關鍵性結論:MAD 並非“萬能解藥”,現有方法在答案正確性、推理效率、魯棒性上落後於單智慧體推理策略 Chain-Of-Thought 和 Self-Consistency;
-
簡單有效的改進:提出 Heter-MAD,透過簡單引入異構模型智慧體,無需修改現有 MAD 框架即可穩定提升效能(最高達 30%);
-
未來研究思路:模型異構性最佳化、細粒度互動機制、適配 MAD 的複雜場景

研究背景:多智慧體辯論(MAD)的興起與爭議
近年來,隨著大型語言模型(LLM)在推理和生成任務中的廣泛應用,如何進一步提升其效能成為研究熱點。
多智慧體辯論(Multi-Agent Debate, MAD)方法應運而生,其核心思想是透過多個 LLM 智慧體在推理過程中進行多輪討論,以期提升答案的事實準確性和推理質量。由於大部分MAD框架無需額外訓練,僅在推理階段引入協作機制,因此受到了廣泛關注,並在頂級學術會議上頻繁亮相。
然而,該研究對 MAD 現有的評估方法準提出了質疑。當前 MAD 的評估存在以下顯著問題:
1. 大多數 MAD 方法的評測資料集覆蓋範圍與交集有限,例如僅聚焦於通用知識、數學推理或者醫療問答等個別領域,缺乏在相同評測資料集上的比較;
2. 對比的基線方法考慮不全面,例如不少 MAD 方法未曾與簡單單智慧體方法進行對比;
3. 現有評測較少考慮推理效率和魯棒性。這些問題可能導致對 MAD 的樂觀高估,而其侷限性或潛力仍有待進一步探索和揭示。

系統評估 MAD
針對上述問題,該研究首先構建了一個全面且系統的評測框架:作者選取了
5 種
具有代表性的 MAD 框架(包括 SoM、MP、EoT、ChatEval 和 AgentVerse),在
9 個
涵蓋通用知識、數學推理和程式設計能力的基準資料集上,使用
4 個
基礎模型(GPT-4o-mini、Claude-3.5-haiku、Llama3.1-8b/70b)進行實驗。
對比基線包括單智慧體方法 如 Chain-of-Thought(CoT)和 Self-Consistency(SC)。評估從效能、效率和魯棒性三個維度展開。

MAD未達預期
實驗表明,MAD 方法的整體表現未能達到預期效果。
效能不足:在 36 個測試場景(4 種模型 × 9 個數據集)中,MAD 方法僅在不到 20% 的情況下優於Chain-of-Thought(CoT),在大多數場景中表現不及 CoT。與 Self-Consistency(SC)相比,MAD 的劣勢更為顯著,SC 在相同推理預算下表現更為出色。

效率低下:MAD 方法消耗了更多的 token,但未能帶來穩定的效能提升。例如,SoM 在 MMLU 資料集上,隨著 token 數量的增加,效能並未顯著改善;而 EoT 雖然有所提升,但仍無法超越 SC 的表現。

超引數調整效果有限:透過增加智慧體數量或辯論輪次(例如將 SoM 的智慧體數量從 3 個增加到 9 個)並未顯著改善 MAD 的表現,表明其效能不足的問題並非源於引數配置,而是方法本身存在侷限性。


引入模型異構性:Heter-MAD
作者指出,人類協作成功的關鍵在於個體多樣性,而缺乏多樣性的團隊協作往往難以取得突破。然而,現有 MAD 方法大多使用同一模型的多個例項進行評測,忽視了模型多樣性可能帶來的效能提升。
為此,作者提出了 Heter-MAD 方法:在MAD 框架中,每個 LLM 智慧體隨機從異構模型池(如 GPT 和 Llama)中選擇模型生成答案。這種簡單調整無需改變現有 MAD 框架結構,卻能顯著且穩定地提升效能。
實驗表明,Heter-MAD 在絕大多數資料集和 MAD 方法上均實現了穩定提升,最高提升幅度達到 30%。Heter-MAD 顯著改善了所有 MAD 框架的表現。例如,Heter-SoM 的平均效能較單獨使用單一模型的 SoM 提升了 6.4%,Heter-EoT 則提升了8.2%。
有趣的是,作者在評測中發現,透過結合 GPT-4o-mini 和 Llama-3-70b,Heter-MAD 在更小的計算開銷下取得了更好的表現。
此外,更簡單的 MAD 方法(如 SoM 和 EoT)在引入模型異構性後,效能提升幅度明顯高於複雜 MAD 方法(如 ChatEval 和 AgentVerse),這表明當前的 MAD 方法並未充分相容模型多樣性。

▲ 表1:Heter-MAD 取得了相對於 CoT 和 MAD 的穩定提升
Heter-MAD 的評測結果驗證了協作多樣性對於 MAD 的重要性,同時也表明現有方法尚未充分挖掘 MAD 的潛力。

總結與展望:未來 MAD 研究的真正問題是什麼?
該研究透過系統評估揭示了:當前的多智慧體辯論(MAD)方法不僅在效能上未能超越簡單的單智慧體基線方法(如 Chain-of-Thought, CoT 和 Self-Consistency, SC),並且在效率和魯棒性方面表現欠佳。
然而,作者認為這並非 MAD 的終點,而是反映了 MAD 研究仍處於早期階段,當前的設計尚未充分挖掘其潛力。在本文的結尾,作者提出了四個未來研究方向:
如何在 MAD 中充分利用模型異構性?儘管本文提出了 Heter-MAD 方法,但這僅是一個初步嘗試,遠未達到成熟。
實驗表明,現有 MAD 方法並未充分利用模型多樣性——簡單的 MAD 方法反而能從模型異構性中獲得更大的效能提升,而複雜的 MAD 方法則對異構模型的相容性較差。這表明,為異構模型特別設計 MAD 方法是一個極具潛力的研究方向。
如何結合單智慧體推理進一步提升 MAD?綜合利用多智慧體推理並不意味著我們可以忽視單智慧體推理帶來的提升。相反,未來的研究應更注重如何在多智慧體框架中有效整合單智慧體方法的優勢,以實現更顯著的效能提升。
如何實現細粒度的協作機制?現有的多智慧體協作框架往往缺乏對細粒度協作的關注。例如,在 MAD 中,智慧體通常僅透過對比彼此的答案來構建討論內容,這限制了 MAD 的靈活性和協作粒度。未來的研究可以探索更精細的協作機制,以提升 MAD 的表現。
哪些應用場景更能凸顯 MAD 的優勢?當前的 MAD 評測大多依賴於為單智慧體設計的基準測試,這些測試無法充分體現 MAD 綜合利用多智慧體知識的能力。未來可能需要開發更復雜、更綜合性的評測基準,以更好地評估 MAD 在特定場景下的潛力。
對於人工智慧研究者,這篇論文不僅是一次對 MAD 的深度反思,更是一次啟發:協作的力量值得探索,但關鍵在於找到適合的機制和應用場景。歡迎大家閱讀原論文,共同參與這場關於“智慧體協作”的討論!
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
