
論文題目: Harnessing Multiple Large Language Models: A Survey on LLM Ensemble
論文連結:https://arxiv.org/abs/2502.18036
GitHub 倉庫:https://github.com/junchenzhi/Awesome-LLM-Ensemble

近年來,人工智慧領域的格局因大型語言模型(LLM)的飛速發展而發生了深刻變化,代表性的模型包括 Gemini、GPT-4、Llama,以及最近推出的 DeepSeek。這些 LLM 的成功持續激發著廣泛的研究熱情。目前,在 Hugging Face 平臺上,可以訪問的大語言模型數量已經超過了 182,000 個。然而,在這股研究熱潮背後,我們可以觀察到兩個主要方面:
-
LLM 的直接開箱即用能力(零樣本推理)和間接開箱即用能力(基於 In-Context Learning 的少樣本推理)仍引發著人們在效能方面的擔憂,如準確性不足、幻覺(Hallucinations)頻發以及與人類意圖不對齊等;
-
不同的 LLM 在擅長領域、推理成本與效率方面差異顯著,這源於其在模型架構、引數量、分詞策略、訓練資料等方面的不同設計。面對同一個使用者查詢,不同模型的輸出經常表現出較大差異(並且不同的模型常常伴隨著不同的推理成本)。
考慮到上述兩個方面,並借鑑整合學習的精神,我們自然地可以考慮一種解決問題的思路:對於每一個任務查詢,與其持續依賴某個“基於公共排行榜或其他指標挑選出的”單一固定 LLM,不如同時考慮多個可以開箱即用的 LLM 候選模型,以充分發揮它們的各自優勢。實際上,這正是近年來新興的 LLM Ensemble 領域所探索的內容。
現有的 LLM Ensemble 方法可以根據“LLM 推理”和“整合”的先後順序而分為三大正規化:
-
推理前整合方法:在 LLM 執行推理前,利用給定的使用者查詢資訊並結合各個 LLM 的不同特性,選擇出最合適的模型以進行推理(此方法在本質上類似於整合學習中的硬投票策略);
-
推理時整合方法:在大語言模型解碼過程中(即在推理過程中),聚合來自多個 LLM 的不完整響應(例如,token 級別的資訊或者是固定 2 個 words 長度的資訊),並將聚合結果反饋給所有模型以進行下一個迴圈;
-
推理後集成方法:在所有 LLM 候選或其某個子集生成完整響應(而非片段)後進行整合。比如,在所考慮的所有 LLM 輸出所有響應後,綜合考慮它們的所有回覆以生成最終的獨一份的回覆資訊。
儘管基於上述三大正規化,近年來衍生出了大量方法,但目前仍缺乏一篇正式的綜述文章以對快速發展的 LLM Ensemble 領域中的研究方向進行系統梳理和深入分析。本文系統性地回顧了 LLM Ensemble 領域的最新進展,分別討論了分類法、相關問題、方法、基準、應用和未來方向。我們希望這篇綜述能夠為研究人員提供全面的回顧,並激發進一步的探索。

圖 1: 各類 LLM Ensemble 方法的示意圖(請注意:對於 (b) Ensemble-during-inference,還存在 (b,3)process-level ensemble 方法。我們並沒有在此圖中畫出這類方法,因為考慮到排版問題以及目前這類方法只存在一個例項化的方法。)
本節將正式介紹 LLM Ensemble 分類體系,對應的示意圖和各類方法下的研究工作見圖 1 和圖 2。如上文所述,當前的 LLM Ensemble 方法可以分為以下 3 大類正規化(關於對此三大正規化的劃分,我們採用了文獻 [2] 的劃分方法)與 7 大類方法:
(a) 推理前整合(Ensemble before inference)方法。 該類方法的核心思想是,在 LLM 進行推理之前,先透過路由演算法將具體任務查詢分配給最合適的模型,以實現更專業、更高效的推理過程。如圖 1 和圖 2 所示,根據是否需要使用預先定製的資料以進行預訓練,該類方法可細分為以下兩類:
-
(a1) 預訓練路由器(pretrained router)
-
(a2) 非預訓練路由器(non-pretrained router)
(b) 推理時整合(Ensemble during inference)方法。 這是三大類中最細粒度的整合方式。需要注意的是,此類方法通常會將中間“整合結果”拼接上上文資訊並再次輸送給所有模型,以進行下一輪處理。此類方法可細分為以下三類:
-
(b1) 分詞級整合(token-level ensemble)方法。 在解碼過程中,此類方法將多個模型生成的 token 級別輸出資訊進行整合,以生成最終的獨一份資訊;
-
(b2) 片段級整合(span-level ensemble)方法。 此類方法類似於上述的 token-level ensemble 方法,並且以若干個單詞所形成的片段為單位來進行整合;
-
(b3) 過程級整合(process-level ensemble)方法。 針對複雜的推理任務,此類方法逐步在推理鏈中選擇最優的中間步驟路徑,即在每一步的推理過程中去整合來自多個模型的多份輸出資訊。
(c) 推理後集成(Ensemble after inference)方法。 這類方法可以進一步分為以下兩類:
-
(c1) 非級聯(Non-cascade)方法。 此類方法直接整合多個 LLM 候選生成的完整回覆,以進行整合。在整合過程中,此類方法要麼是利用演算法分析並挑選出一份最優回覆,要麼是利用另外一個大模型來進行再次生成;
-
(c2) 級聯(Cascade)方法。 在綜合考慮效能和推理成本的基礎上,此類方法按照模型規模等標準對多個 LLM 候選進行排序並進行依次推理,直到得到最合適的回覆為止,從而終止整個推理流程。

圖 2: 各類 LLM Ensemble 方法下的研究工作

圖 3: Ensemble Learning 與 Model Merging 的示意圖(圖片來自文獻 [1];請注意,子圖 b 中對應了 LLM Ensemble 中的一類典型方法,即“推理後集成方法”中的“(c1) 非級聯方法”。)
如圖 3 所示,大語言模型融合(LLM Merging,LLM Fusion)[1] 指的是在無需原始訓練資料的前提下,將多個大語言模型的引數進行融合,從而構建一個統一的模型。這種方法與 LLM Ensemble 密切相關,因為它們都強調知識的融合與遷移。
大語言模型協作(LLM Collaboration)[2][3] 則是透過利用每個模型的不同優勢,以更加靈活的方式完成任務。與 LLM Ensemble 不同,LLM Collaboration 方法並不將所有模型平等地直接用於使用者查詢,而是為每個模型分配不同的角色,並透過交換不同模型所生成的響應資訊來提升效果。
弱監督學習(Weak Supervision)[4][5],又被稱為 眾包學習 與 群智監督學習(Learning from Crowds)[6],主要利用“來自多弱標註源所提供的弱標籤資訊”來實施關於真值標籤的真值推理與後續的基於推理後標籤的學習(這對應於 LLM Ensemble 中的“(c1) 非級聯方法”),或者直接用弱標籤資訊來進行端對端學習以獲得分類器。然而,目前關於此類方法的研究主要集中在分類任務上,而不是通用的生成任務。
此部分可詳見論文。我們在論文中對 7 類 LLM Ensemble 方法(即圖 1 和圖 2 中所示的 a1、a2、b1、b2、b3、c1、c2)對應的各個研究工作進行了深入分析,並在其中儘可能地對方法進行進一步的細化分類。比如,對於“(c) 推理後集成(Ensemble after inference)方法”,我們又根據方法是否需要在下游任務中的監督學習而進行進一步的分類和分析(如圖 4 所示)。

圖 4: 對推理後集成(Ensemble after inference)方法中的各個研究工作的歸納性總結
我們在論文中對 7 類 LLM Ensemble 方法進行了總結性分析。如圖 5 所示,分析主要從三個核心維度展開:整合策略、整合粒度和整合目標。
從整合策略的角度來看,聚合式(Aggregation)方法(如對所有模型輸出進行平均或加權融合)相較於挑選式(Selection)方法(即從多個輸出中選出一個,類似於硬投票)要更為複雜。另外,再生成式(Regeneration)方法通常需要額外準備大量特定的訓練資料並再次微調一個大模型,因而成本更高。
從整合粒度的角度來看,響應級(Response-level)整合方法屬於粗粒度整合。而細粒度的整合方法(包括 Token-level 和 Span-level 的整合方法),特別是 token 級整合方法,在模型解碼階段可以更精細地利用各個模型的輸出機率分佈,從而增強整合效果。
最後,從整合目標的角度來看,“(b) 推理時整合方法”和“(c1) 非級聯式推理後集成方法”因不受推理成本限制,通常能夠採用更加靈活的整合策略(即可以不依賴於基於挑選式的整合策略),並引入更細粒度的融合方式,最終具有更強的效能提升潛力。

圖 5: 對 7 大類 LLM Ensemble 方法的總結性分析
- 更具有原則性的“片段級推理時整合方法”。
當前基於片段(span)的“推理時整合方法”已經能夠提供足夠細緻的整合粒度(如考慮基於 2 個 words 的跨度),具備較強的效能提升潛力。然而,現有的片段劃分方法仍然過於簡單和生硬,比如固定地將每個片段設定為 2 個 words。如果能夠引入更具理論依據的或更靈活的片段劃分策略,將有望為後續的整合過程提供更豐富、更具資訊量的響應片段,從而提升整體效果。
- 更精細化的、無監督的“非級聯推理後集成方法”。
在某些情況下,在多個模型的解碼階段而頻繁呼叫多個模型的輸出分佈並不可行。此時,“非級聯推理後集成”是一種非常實用的方法:它透過融合多個模型的完整輸出來生成最終的回覆資訊。然而,目前方法存在兩個侷限:它們在整合過程中要麼僅簡單考慮模型輸出之間的成對相似性度量,而未充分捕獲各自的語義資訊;要麼需要引入了一個額外的、需要有監督學習的生成模型,犧牲了泛化性。因此,研究並提出更精細化的、無監督的“非級聯推理後集成方法”具有重要意義。
- 更通用的“級聯式推理後集成方法”。
相比於“推理前整合”策略,當前的“級聯式推理後集成方法”在考慮推理成本的同時,還具備一個優勢:即可以在推理過程中利用已有的模型回覆資訊而動態地選擇最合適的輸出。然而,現有的大多數級聯方法並不適用於生成類任務,且唯一面向生成任務的方案也依賴於有監督學習,從而丟失了泛化性。因此,開發適用於生成任務的通用型無監督“級聯式推理後集成方法”將是該領域的一個重要突破。
LLM Ensemble(大語言模型整合)是整合學習在大語言模型時代的直接體現。大語言模型的易獲取性、開箱即用的特性與多樣性,使得整合學習的思想在當前的 LLM Ensemble 研究領域中更具有活力。本綜述論文對 LLM Ensemble 領域中的 7 大類方法進行了全面的梳理與總結。我們希望這篇綜述能為相關研究人員提供有價值的參考,並激發更多在 LLM Ensemble 及其相關領域的深入探索。最後,我們致謝下面的參考文獻以及在我們的綜述論文中所涉及的各個研究工作。
參考文獻
[1] Enneng Yang, et al. Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities. ArXiv 2024.
[2] Jinliang Lu, et al. Merge, ensemble, and cooperate! a survey on collaborative strategies in the era of large language models. arXiv 2024.
[3] Yilun Du, et al. Improving factuality and reasoning in language models through multiagent debate. ICML 2024.
[4] Jieyu Zhang, et al. Wrench: A comprehensive benchmark for weak supervision. NeuIPS 2021.
[5] Zhijun Chen, et al. Neural-Hidden-CRF: A Robust Weakly-Supervised Sequence Labeler. KDD 2023.
[6] Pengpeng Chen, et al. Adversarial learning from crowds. AAAI 2022.
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
