Dubby 投稿
量子位 | 公眾號 QbitAI
火,Agent可太火了!關於Agent的進展俯拾皆是,根本看不過來……
但怎麼讓它真正變強,看過來——這篇綜述可能能幫你釐清很多問題:
來自華東師大和東華大學的研究團隊發表了“A Survey on the Optimization of Large Language Model-based Agents(大模型智慧體的最佳化方法綜述)”,首次從系統化視角對LLM智慧體最佳化策略進行了全面梳理與分析。
論文將將現有方法劃分為兩大類:引數驅動的最佳化與引數無關的最佳化。
前者包括基於監督微調、強化學習(如PPO、DPO)以及微調與RL結合的混合策略,重點討論了軌跡資料構建、獎勵函式設計、最佳化演算法等關鍵模組。
後者則涉及透過Prompt工程、外部工具呼叫、知識檢索等方式在不修改模型引數的前提下最佳化Agent行為。

除此之外,作者們還整理了主流的Agent微調與評估資料集,回顧了LLM Agent在醫療、科學、金融、程式設計等多個應用領域的代表性實踐。
最後,研究團隊總結了Agent當前面臨的關鍵挑戰與未來研究方向。

為什麼我們需要專門最佳化LLM智慧體?
近年來,隨著GPT-4、PaLM和DeepSeek等大型語言模型不僅在語言理解和生成上表現出色,更在推理、規劃和複雜決策等方面展現出非凡的能力。
因此,越來越多的研究者開始嘗試將LLM作為智慧體來使用,探索其在自動決策和通用人工智慧方向的潛力。
與傳統的強化學習智慧體不同,LLM智慧體不依賴顯式的獎勵函式,而是透過自然語言指令、Prompt模板與上下文學習(ICL)完成複雜任務。
這種“文字驅動”的智慧體範式展現出極高的靈活性與泛化能力,能夠跨任務理解人類意圖、執行多步驟操作,並在動態環境中做出決策。
當前,研究者已嘗試透過任務分解、自我反思、記憶增強以及多智慧體協作等方式提升其表現,應用場景涵蓋軟體開發、數學推理、具身智慧、網頁導航等多個領域。
值得注意的是,LLM本身的訓練目標是預測下一個token,並非為長期規劃和互動學習的Agent任務而生。
這也導致了LLM作為Agent的部分挑戰:
-
長程規劃與多步推理能力不足,容易在複雜任務中出現累積錯誤;
-
缺乏持續性記憶機制,難以基於歷史經驗進行反思與最佳化;
-
對新環境的適應能力有限,難以動態應對變化場景。
尤其是開源LLM在agent任務中的表現普遍落後於GPT-4等閉源模型,而閉源模型的高成本與不透明性,也使得最佳化開源LLM以提升Agent能力成為當前研究的關鍵需求。
當前已有的綜述要麼聚焦於大模型最佳化本身,要麼只討論agent的區域性能力(如規劃、記憶或角色扮演),並未將“LLM智慧體最佳化”作為一個獨立且系統的研究方向進行深入探討。
研究團隊填補了這一空白,首次以“LLM-based Agent的最佳化技術”為核心議題展開系統綜述,構建統一框架,歸納方法路徑,並對比不同技術的優劣與適用情境。
引數驅動的LLM智慧體最佳化
在引數驅動的LLM最佳化中,作者將其分為3個方向。
基於常規微調的最佳化
第一個方向,基於常規微調的最佳化。
又分為2大步驟:構建Agent任務的高質量軌跡資料——用軌跡微調Agent。

首先是資料獲取與生成。
高質量的軌跡資料構建開始於初始資料的獲取和生成,這不僅需要一組多樣化的軌跡,還需要與目標任務充分對齊,以確保有效的學習。
作者將主流方法歸納為以下四類:
-
專家標註資料:由人類專家手工設計,質量高、對齊強,是微調的黃金標準。但人力成本高、難以擴充套件,常作為優質補充資料使用。
-
強LLM自動生成資料:利用GPT-4等大模型結合ReAct、CoT策略生成軌跡,效率高、適合大規模構建。但資料依賴大模型,存在成本高、偏差傳播等問題。
-
Agent自主探索資料:透過開源模型自主與環境互動生成軌跡,成本低、可擺脫閉源依賴。缺點是探索能力有限,需配合後續篩選機制去除低質資料。
-
多智慧體協作生成資料:透過多個Agent協同完成複雜任務流程,提升資料多樣性與互動複雜度。但系統設計更復雜,穩定性和資源成本也是挑戰。
其次,資料的評估與過濾。
由於生成的軌跡資料質量參差不齊,對資料進行評估和篩選成為不可或缺的一步。
作者將主流方法歸納為三類:
-
基於環境的評估:這類方法依靠任務是否成功、環境獎勵等外部反饋來判斷軌跡質量,易於實現,自動化程度高。但缺點是反饋訊號過於粗粒度,只關注最終結果,無法發現推理鏈條中的隱性錯誤。
-
基於人工或規則的評估:透過預設規則(如任務完成度、答案一致性、多樣性等)或專家人工稽核,對資料進行更精細的質量控制。適配性強、準確性高,但也需要大量人工參與與複雜設計。
-
基於模型的評估:藉助強大的LLM(如GPT-4)對軌跡進行自動打分與分析,能從相關性、準確性、完整性等維度進行多層評估,構建自動化質量評估框架。缺點在於,評估本身依賴模型,可能引入新的偏差。
接著是低質量樣本的利用。
除了高質量的獲取,對不合格的低質量軌跡也需要再次利用。
目前的主流策略包括:
-
對比式利用:透過對比正確與錯誤樣本,讓模型更清晰地識別哪些行為是有效的。
-
錯誤修正型方法:識別並修正失敗軌跡,將其轉化為可學習的資料,提升訓練質量。
-
直接利用錯誤樣本:不做修正,直接用失敗案例訓練模型,提升其面對錯誤情境時的容錯性。
完成高質量軌跡資料構建後,下一步就是關鍵的微調階段。
透過微調,讓開源大模型真正適應Agent任務,學會規劃、推理與互動,是最佳化LLM智慧體不可或缺的一步。
值得注意的是,僅用Agent任務軌跡微調可能會削弱LLM的通用能力。
因此,大多工作選擇混合通用指令資料與Agent軌跡共同訓練,以在保留語言基礎能力的同時,提升Agent執行能力。
作者將現有的微調方法劃分為三大類:
-
標準SFT:最常見的方法,透過高質量指令-輸出對或軌跡資料,對模型進行全引數最佳化,最能對齊目標任務。此外,模仿學習中的行為克隆本質上也屬於這一類,強調從專家軌跡中學習決策策略。
-
引數高效微調(如LoRA/QLoRA):只更新少量引數,其餘權重保持不動,顯著降低視訊記憶體與算力開銷,在大模型Agent微調中尤為常見。相比全量微調,雖然訓練開銷更小,但效能往往可媲美甚至超過
-
自定義微調策略:為特定任務設計的微調方法,例如將通用指令與軌跡資料混合訓練,或引入額外約束項(如正則化)提升泛化與穩定性。這類方法更具靈活性,適合複雜或稀缺任務場景。

基於強化學習的最佳化
相比於傳統的微調方式,強化學習為Agent帶來了更具主動性的學習路徑。
它讓模型不再只是“模仿”,而是能在環境中探索行為、接受獎勵與懲罰,動態調整策略,真正實現從試錯中成長。
作者將當前RL最佳化方式分為:基於獎勵函式的最佳化和基於偏好對齊的最佳化。

先說基於獎勵函式的最佳化。
在強化學習最佳化中,獎勵函式就像智慧體的指揮棒,引導模型不斷改進策略。透過設定清晰的“做得好 vs 做錯了”標準,Agent可以從互動中學習得更精細、更穩健。
作者將當前方法按照三類獎勵來源劃分3類:
-
基於環境的獎勵:直接依據任務是否完成來打分,簡單直觀,自動化程度高。但往往只關注最終結果,忽略了中間步驟的質量。
-
基於模型的獎勵:由LLM或輔助模型對軌跡進行評估,適用於環境反饋稀疏的場景,能提供更細緻的反饋。但效果取決於評估模型的質量。
-
自定義獎勵函式:研究者根據任務需求自設多維度獎勵,不僅考核完成度,也關注策略穩定性、協作效率等。靈活強大,但設計成本高、難以泛化。

再來看基於偏好對齊的最佳化。
相比傳統RL基於獎勵函式的訓練方式,偏好對齊提供了更直接、更輕量的最佳化路徑。
它不再依賴繁瑣的獎勵建模,而是讓Agent學會“哪種行為更受人類歡迎”。
其代表方法是DPO,一種更簡單的離線強化學習方式,直接透過人類或專家的偏好對樣本進行“正負對比”訓練。
根據主要偏好資料來源,作者將其這類最佳化方法分為兩類:
-
專家/人工偏好數:基於專家示範或人類標註構造正負樣本(優質 vs 錯誤軌跡),質量高但難以大規模擴充套件,覆蓋面有限。
-
任務或環境反饋:從任務表現(成功率、分數等)中自動構建偏好對,適用於動態任務場景,但依賴反饋機制合理的設計。

綜合來看,偏好對齊方法訓練高效、部署簡單,但強依賴偏好資料質量與覆蓋範圍,適合結構明確、反饋清晰的任務場景。
而獎勵函式類方法更適配複雜多變的環境,但成本更高。
混合引數微調方法
單一的最佳化方法各有短板——常規微調穩定高效但缺乏動態應變能力,RL靈活強大卻計算開銷巨大。
於是,越來越多研究開始探索混合微調策略,結合兩者優點,構建更強大的LLM智慧體。
這類工作主要為:
第一,順序式兩階段訓練。
這也是是當前的主流方法,採取“先SFT、後RL”的思路。
-
階段一:行為克隆微調(SFT),用專家軌跡或策展資料預訓練模型,奠定基礎能力;
-
階段二:強化學習最佳化(PPO / DPO),針對環境或偏好精調模型策略。
第二,交替最佳化。
即引入迭代交替機制,在SFT和RL之間多輪來回切換,以實現細粒度提升。
引數無關的LLM智慧體最佳化
相比引數微調,引數無關的最佳化方法不涉及模型權重更新,而是透過調整Prompt、上下文和外部資訊結構,在資源受限或輕量部署場景中展現出強大潛力。
作者將其分為五類核心策略:
第一類,基於經驗的最佳化。
透過記憶模組或歷史軌跡,讓Agent“學會覆盤”,從過去成功與失敗中提煉策略,增強長期適應性。
第二類,基於反饋的最佳化。
Agent透過自我反思或外部評估不斷修正行為,形成迭代閉環;還有方法透過元提示最佳化調整全域性指令結構,提升泛化能力。
第三類,基於工具的最佳化。
讓Agent學會使用工具(如搜尋、計算器、API)以增強執行力。部分方法最佳化工具呼叫策略,部分則訓練Agent構建更高效的任務-工具路徑。
第四類,基於RAG的最佳化。
結合檢索與生成,透過從資料庫/知識庫中即時獲取資訊增強推理過程,尤其適合知識密集型任務和變化快速的場景。
第五類,多Agent協作最佳化。
多個LLM Agent協同完成任務,透過角色分工、資訊共享與反饋機制實現1+1>2的協同智慧。

引數無關最佳化,讓LLM Agent在不動模型的前提下,變得更“聰明”、更“適應”、也更“輕巧”。
資料集與基準
作者將資料和基準分為用於評估和微調的兩個大類。
評估任務分為兩類。
第一類,通用評估任務。
即按一般任務領域分類,如數學推理,問題推理(QA)任務,多模態任務,程式設計等。

第二類,多工評估基準。
跨各種任務評估基於LLM的智慧體,測試它們概括和適應不同領域的能力。

Agent微調資料集,則是針對Agent微調而精心設計的資料,以提高LLM Agent在不同任務和環境中的能力。

應用
隨著最佳化方法的不斷成熟,基於LLM的智慧體已在多個真實場景中嶄露頭角,逐漸從實驗室走向實際應用:

挑戰與未來方向
資料偏差問題。
Agent高度依賴資料質量,然而預訓練資料與微調軌跡分佈不匹配,再加上LLM自身生成與評估帶來的潛在偏差,易導致效能不穩定。
未來可探索偏差測試、對抗訓練、知識邊界評估等方法,構建更穩健的資料基礎。
演算法效率與適應性。
當前強化學習與微調方法在面對稀疏獎勵、大動作空間、多步互動時存在成本高、效果差的問題。
如何提升DPO等輕量方法的多輪能力,或探索RL+SFT的混合訓練、元學習、自監督方法,將是未來重點。
跨任務跨領域遷移難。
許多方法在單一任務上表現優秀,但在新環境或真實世界中易失效。
需要發展更強的泛化機制,如任務分佈對齊、域適應、多工聯合訓練等,提升模型遷移與適應能力。
缺乏統一評估標準。
Agent在不同任務(如數學推理、網頁導航、具身AI)中使用不同指標,難以橫向比較。
建立統一的評估基準,引入推理複雜度、適應性與偏好評分等新維度,將推動Agent研究向更系統、可比的方向發展。
引數驅動的多智慧體最佳化缺失。
目前多智慧體策略多依賴凍結LLM,缺乏聯合引數訓練機制,限制了協同智慧的發展。
未來應探索多智慧體聯合微調、獎勵共享機制、層級控制策略,提升整體系統能力與協作水平。
arXiv連結:
https://arxiv.org/abs/2503.12434GitHub連結:
https://github.com/YoungDubbyDu/LLM-Agent-Optimization一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟