CapaBench 是一個量化 LLM Agent 架構中各個模組貢獻的評估框架。

作者丨AGI-Eval社群

隨著大規模語言模型（LLMs）的快速發展，人工智慧代理在理解、生成和整合自然語言方面取得了顯著突破。最近，DeepSeek與Claude的結合——DeepClaude——創造性地將DeepSeek的推理能力與Claude的生成能力結合，打造出“思考腦 + 創作腦”的雙引擎架構。DeepSeek負責“思考”，Claude負責“表達”，這種推理與生成解耦的分工協作模式，使得模型能夠在各自擅長的領域發揮最大優勢，從而生成更智慧、更專業的設計方案。

雖然LLMs在多個領域展現了強大的表現，但它們在實際應用中仍面臨諸多挑戰，比如準確理解細微的上下文變化、有效整合外部工具以及保證輸出的可靠性和準確性。因此，越來越多的LLM Agent研究開始採用模組化架構，將複雜的任務分解為不同的模組，從而增強系統的可解釋性和效能。

例如，經典的LLM Agent框架ReAct和AutoGPT透過將任務劃分為規劃、推理和行動執行等模組，取得了顯著的效果。這種分層結構不僅提高了任務的處理效率，還增強了代理的可維護性和可擴充套件性。然而，儘管模組化架構有諸多優勢，如何評估各個模組在整個系統中的作用及其相互作用，仍然是一個亟待解決的問題。

然而，在這種多模組架構下，如何評估各模組的貢獻，尤其是在實際應用中如何充分發揮其效能，成為了一個迫切需要解決的挑戰。為了解決這一問題，我們提出了CapaBench框架，它採用模組化設計，系統地評估Agent內部各個能力模組的貢獻，採用Shapley value方法，為模組化LLM代理提供了一種全新的、可解釋的評估方式。

LLM代理的模組化架構

CapaBench採用模組化設計，構建瞭如下所示的代理框架，旨在全面評估LLM代理在多種環境下的表現。該框架融合了當前主流LLM代理框架中的四個核心模組——規劃、推理、行動和反思。

規劃模組：將複雜任務拆解為結構化的子任務，確保代理能夠有效地進行任務優先順序排序和資源分配。

推理模組：透過鏈式思維機制，進行邏輯推理和因果分析，幫助代理根據任務進展調整策略。

行動模組：根據規劃結果執行操作，確保代理的行為與環境狀態持續對接。

反思模組：透過分析任務失敗原因，幫助代理在多回合任務中反思並最佳化其行為

這些模組是了當前LLM Agent架構內解決複雜任務的核心基礎，也是LLM Agent能夠高效應對各種挑戰的關鍵能力。

模組貢獻的系統性評估

CapaBench採用Shapley值方法來量化各個模組的貢獻。Shapley值是一種源自合作博弈論的公平評估框架，它透過計算每個模組對系統表現的邊際貢獻，確保各模組的表現得到了公正的歸因。

Shapley值公式如下：

其中，N代表所有模組的集合，v(S)表示僅啟用集合S中模組時的代理表現。透過該方法，我們可以量化每個模組的獨立貢獻以及模組之間的協同效應。

我們對四個核心模組的所有可能組合進行了評估，總共生成了 2^4 = 16 種不同的組合。在每種組合下，我們透過一系列多回合場景任務來評估代理的任務成功率，從而量化不同模組及其組合對整體任務表現的影響。

評估流程如下：

替換預設模組為測試模組。
使用不同任務基準評估代理的成功率。
計算每個模組的Shapley值，以量化其貢獻。

資料集建設與評估任務

為了確保評估框架能夠應對現實應用中的多樣化挑戰，我們還構建了一個大規模的資料集，涵蓋了超過1500個多回合任務，包括線上購物、導航規劃、票務訂購、數學問題求解、自動定理證明、機器人協作和作業系統互動等任務。

線上購物任務：評估代理在處理個性化推薦中的能力，要求代理根據使用者偏好提供最相關的商品建議。
導航規劃任務：考察代理根據動態更新的使用者需求生成旅行計劃的能力，要求代理在多次任務迭代中靈活應對。
票務訂購任務：測試代理根據使用者日程和預算限制提供最佳航班組合的能力。
數學求解任務：透過整合工具使用，評估代理在代數和幾何問題上的求解能力。
自動定理證明任務：考察代理在使用Coq和Isabelle等工具進行形式化推理和定理證明中的能力。
機器人協作任務：測試代理在與其他機器人協作時的表現，例如協作完成清掃、排序和物品搬運任務。
作業系統互動任務：評估代理在模擬作業系統環境下執行命令、操作檔案系統和管理程序的能力。

每個資料集都結合agent的特徵經過精心設計，涵蓋了多種難度等級，確保任務能夠挑戰規劃、推理、行動和反思等模組的能力。任務設計不僅聚焦於單一技能的評估，還模擬了真實應用場景中的複雜互動，例如在多回合任務中，代理需要不斷調整策略來應對不斷變化的需求和約束。

上述評測集已在AGI-Eval社群平臺上線，可跳轉連結（https://agi-eval.cn/evaluation/CapaBench）檢視。

實驗評估

在我們的實驗中，我們設定Llama3-8B-Instruct為所有四個核心模組（規劃、推理、行動和反思）的預設實現。在每次評估中，我們有系統地將其中一個模組的預設實現替換為其測試變體（由測試模型驅動），同時保持其他模組為預設狀態。透過這種系統化的替換方式，我們生成了 2^4 = 16 種不同的模組組合。在每個組合S下，我們透過一系列基準場景測量任務成功率 v(S)，以確保獲取可靠且具有代表性的效能資料。

我們評估了九個大規模語言模型，分為三組：

封閉API模型：包括四個廣泛使用的商業API模型：Anthropic/Claude-3.5-Sonnet、OpenAI/GPT-4-turbo-0409、OpenAI/GPT-4o-mini、GLM-4-air 和 Doubao-pro-4k。
中型開源模型（32B-100B）：為評估中型架構，選用了三個模型：Llama3.1-70B-Instruct 和 Mixtral-8x7B-Instruct-v0.1（46.7B）。
輕量級開源模型（≤32B）：為輕量級實現，包含 Qwen2.5-32B-Instruct 和 Mistral-8B-Instruct-v0.2。

上面表格中的實驗結果表明，具有更高Shapley值的模組組合始終能提高任務表現。在“線上購物”資料集中，最佳組合的準確率達到了43.31%，遠高於其他模型，顯示出利用高貢獻模組的優勢。同樣，在ATP任務中，基於Shapley值計算的最佳組合實現了86.79%的準確率，顯示出明顯的改進。這些結果表明，識別和整合具有高Shapley值的關鍵模組，使得CapaBench能夠在各種任務中系統地最大化效能，驗證了Shapley值作為可靠模組選擇和最佳化的指南。

現象分析

跨任務模型效能比較

我們對不同任務中模型表現的高層次比較揭示了各模型的優勢與劣勢。值得注意的是，Claude-3.5在大多數任務中表現優異，特別是在形式化驗證（如Coq、Lean 4、Isabelle）和機器人協作任務中展現了顯著的優勢。這表明Claude-3.5具備強大的推理機制和高效的多代理協作策略，這些能力對需要精確邏輯證明結構和協調同步行動的任務至關重要。相比之下，開源模型如Qwen-2.5和Mistral-8X7B在較為簡單的領域（如購物和基本代數）中取得了中等的進展，但在認知密集型任務中表現不佳。它們在自動定理證明和機器人協作上的落後表明，儘管這些模型在處理常規查詢和程式性問題求解上表現較好，但它們缺乏深度推理、先進規劃或專門模組，這些對於高難度協調和嚴格的證明驗證是必需的。透過對專業語料庫的微調或整合更先進的工具使用，可能有助於縮小開源模型與專有模型在複雜多階段任務中的差距。

模組貢獻模式

我們的研究發現，不同任務對模組貢獻的需求各異，反映了不同的認知過程。具體來說：

高認知複雜度的任務（例如線上購物、機器人協作和作業系統）：推理和規劃發揮了至關重要的作用。線上購物任務需要有效平衡約束條件（如預算和偏好）並有效安排決策順序。在機器人協作中，推理使得資訊更新和任務分配更加高效。作業系統任務涉及故障排除和資源管理，依賴於即時問題解決和反饋解釋。在這些任務中，強大的推理能力確保了在不確定條件下進行邏輯推理和決策。

要求精準度的任務（例如數學求解和自動定理證明）：行動是主導模組。在數學求解中，特別是幾何任務中，精確的程式執行，如應用定理或構建圖形，比戰略規劃更為重要。同樣，在形式驗證任務（如Coq或Lean）中，嚴格遵循語法和語義正確性至關重要。這些場景都要求在每一步執行中保持高度精準，以確保可靠性並防止錯誤。

反思模組貢獻較低

在所有任務中，反思模組對整體任務表現的貢獻較低，主要有以下兩個原因：

反思是否能直接轉化為更高的成功率，並不一定能準確反映反思的質量或有效性。換句話說，任務是否成功並不能完全衡量模型在反思過程中的深度與質量。即使模型進行了反思，也不能保證它能在下一次任務中有效改進。

當模型進行自我反思時，缺乏額外資訊或更強模型的指導，它可能無法準確識別出錯誤的根本原因。由於缺乏對錯誤來源的深度洞察，反思往往無法有效促進任務結果的改善。因此，儘管反思模組存在，但它對提高成功率的實際作用仍然有限。

結語

CapaBench 作為一種新型的評估框架，能夠有效地揭示 LLM 代理中各個模組的作用，為開發者提供科學的效能評估依據，也為代理的最佳化和未來應用的提升提供了有力支援。我們期待它在學術界和工業界的廣泛應用，推動 LLM 代理技術邁向新的高度。

參考資料：

CapaBench: Modular Attribution Benchmark

[2502.00510] Who's the MVP? A Game-Theoretic Evaluation Benchmark for Modular Attribution in LLM Agents