MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

轉載自 | PaperWeekly

作者 | 李秋科@華南理工大學

研究方向 | 自然語言處理

整合三百多篇文獻，2025 年首篇 Agent 綜述正式推出！華南理工大學機器學習與資料探勘實驗室的馬千里教授團隊從終生學習的視角出發，彙總了基於大語言模型的智慧體的創新研究成果。

論文標題：

Lifelong Learning of Large Language Model based Agents: A Roadmap

論文地址：

https://arxiv.org/abs/2501.07278

論文倉庫：

https://github.com/qianlima-lab/awesome-lifelong-llm-Agent

摘要

終生學習，也稱為持續學習或增量學習，旨在解決讓智慧系統在不斷變化的環境中持續進化的核心挑戰。儘管大語言模型在自然語言處理任務上展現了驚人的能力，但傳統方法通常集中在靜態文字適應上，難以應對複雜真實場景中對動態感知、推理和執行行為的需求。

這篇綜述強調了從靜態 LLMs 到動態環境互動式 LLM 智慧體的正規化轉變，這些智慧體具備多模態感知、整合記憶管理和行動導向的決策能力。

我們系統地分類了這些智慧體的核心模組，分別考察了多模態輸入整合的感知模組、儲存和檢索不斷演化知識的記憶模組、以及支援真實互動的行動模組。透過這三大支柱的協同作用，智慧體能夠實現持續適應、減輕災難性遺忘並提升長期能力。

除了對最新技術、架構和策略進行結構化概述外，我們還深入探討了新興趨勢、評估指標及應用場景，涵蓋了通用和專用領域。本文為研究人員和實踐者設計和部署能夠模擬人類學習模式、持續最佳化理解並優雅適應新挑戰的終生學習 LLM 智慧體提供了發展路線圖。

▲ 圖2. 基於 LLM 的智慧體在現實世界中的終生學習示例

引言

終生學習：也稱為持續學習或增量學習，指的是系統在不遺忘先前學習的資訊的情況下，獲取、整合和保留知識的能力，使系統能夠隨著時間的推移不斷適應和改進。

終生學習使智慧系統能夠隨時間及環境不斷適應和改進，因此成為了智慧系統發展中的一個焦點。

儘管終生學習具有極大的潛力，其在當前 ai 發展的應用上仍具有一定困難。目前的 AI 系統在終生學習中面臨兩個主要挑戰：災難性遺忘和可塑性喪失。一方面，當系統在學習新任務時遺忘了先前所學資訊，就會發生災難性遺忘，在環境變化時這一問題尤為突出。另一方面，可塑性喪失指的是系統無法適應新任務或新環境。

這兩個挑戰構成了穩定性-可塑性困境，即：靜態系統可避免遺忘但缺乏適應能力，而專注於動態適應的系統則面臨遺忘過往知識的風險。克服這一困境是推動人工智慧發展的關鍵，也是實現通用人工智慧的基礎挑戰。

因此，構建能夠實現終生學習的基於大語言模型的智慧體十分重要。傳統大語言模型訓練後是靜態的，知識固定，難整合新資訊，限制了其在動態現實場景中的應用。而 LLM Agent 是能與環境互動的自主實體，可以感知多模態資料、儲存資訊並採取行動影響或響應環境。

透過將終生學習融入大語言模型智慧體，我們在動態的現實世界應用中釋放了它們的全部潛力。這些智慧體可以不斷進化、獲取新知識並保留關鍵資訊，使它們更具適應性和通用性。這種終生學習過程對於不斷出現新挑戰的環境至關重要，例如自主機器人、互動式助手和自適應決策支援系統。

總體而言，本綜述的貢獻可總結如下：

全面概述了對 LLM Agent 中終生學習的基礎概念和架構。
深入研究了智慧體包括感知、記憶和行動在內的關鍵組成部分，這些部分使 LLM Agent 能夠實現自適應行為。
調研了能夠展示終生學習在 LLM 中的實際應用和益處的案例。
回顧了用於評估 LLM Agent 中終生學習的評估指標和基準。
確定了這個快速發展領域中的關鍵挑戰和未來研究方向。

LifeLong LLM Agent 的構建

▲ 圖6. 基於終生學習的大型語言模型智慧體的整體架構，包括三個關鍵模組：感知、記憶和行動。

2.1 感知

人類在面對新任務時，依賴於不斷感知外界的新資訊來提升解決問題的能力。這一過程不僅涉及對環境的觀察和理解，還包括從經驗中學習，以調整和最佳化自身的行為策略。類似地，基於大語言模型的智慧體在終生學習的過程中也需要透過感知模組不斷獲取和整合來自不同場景和模態的資訊，以適應不斷變化的任務和環境。

▲ 圖7. 感知架構圖

這篇綜述中，我們將 LLM Agent 的感知模組劃分為了單模態感知和多模態感知。

2.1.1 單模態感知

LLM Agent 的單模態感知主要還是用於接收文字資訊。在終生學習的過程中，Agent 接受的文字資訊源可能來自於不同的結構和場景。

在自然文字的環境中，現階段的 LLM 系統已經具備了透過文字輸入和輸出與人類溝通的基本能力。在此基礎上，Agent 需要從一些從非自然文字的環境中獲取文字資訊以更好模擬現實世界中的資訊感知。

例如在網頁、圖表等來源的環境中，一些方法透過提取遵循標準化格式的結構化文字，以將複雜的資訊轉化為 LLM Agent 可以直接訪問的資訊，例如透過對 HTML 文件的操作和螢幕截圖識別等。

而在更為複雜的遊戲環境中，LLM Agent 可以透過文字介質來感知系統所處的遊戲環境，如角色、時間、地點、事件、情感等，並根據這些遊戲元素的反饋使用文字指令來進行相應的操作。

總之，智慧體應該能在各種複雜的環境中具有良好的文字感知能力和適應能力。而隨著相關研究變多，探索 Agent 如何感知在更為廣闊的環境中的文字輸入變得更有前景。

2.1.2 多模態感知

由於現實世界是由多種資料模態構成，單模態感知方法無法充分滿足現實世界的複雜性。隨著網路平臺上影像、文字和影片內容的爆炸性增長，開發能夠持續感知多模態資訊的 LLM Agent 變得至關重要。

這些智慧體需有效整合來自不同模態的資訊，同時保持對先前模態知識的積累與適應，從而更好地模擬人類在多模態環境中的持續學習過程，提升其整體感知和認知能力。

▲ 圖8. 基於LLM的Agent在多模態感知上的終生學習方法

我們將 Agent 對多模態資訊感知的終生學習處理方法分為了新知識感知和舊知識感知：

在新知識感知中，Agent 需要關注不同模態之間的互動以及對新模態的感知與處理，以更好地應對現實世界中快速變化迭代的資訊形式。很多研究關注當 Agent 遇到包含新模態的任務時，如何在保持對舊模態任務的穩定性下，提升解決新任務能力。

我們根據 Agent 遇到新模態任務的不同情況的處理進行了分類。

模態完全學習（Modality-Complete Learning）假設所有資料在訓練階段和推理階段都具有相同的模態。在這種場景下，Agent 的多模態感知終生學習重點關注如何接受來自多種模態的資料以及在新任務中實現跨模態的知識遷移。

一些研究探索了模態無關模型，旨在使模型能夠接受多種模態資訊作為輸入。
還有一些研究關注跨模態知識遷移，旨在學習如何運用已獲得模態資訊的知識以遷移到另一個模態中，以提高模型在面對新模態任務的效能。

模態不完全學習（Modality-Incomplete Learning）涉及 Agent 在終生學習的過程中遇到部分模態資訊缺失或不完整的情況下，如何動態適應以有效學習和推斷的問題。

例如，透過運用混合專家（MoE）模組，PathWeave【46】透過引入了一種新穎的“介面卡中的介面卡”（AnA）框架，使得單模態和跨模態介面卡無縫整合，能夠增量式地學習新增模態知識。
還有一些研究利用可用模態資訊來預測缺失模態的表示，以及透過學習模態資訊的共享和特定特徵來更好地表示輸入資料，以在處理模態缺失時表現出更好的魯棒性。

在舊知識感知中，我們關注 Agent 在接受新的資訊後保持對已有模態知識的穩定性。針對災難性遺忘問題，我們呈現了具體以下幾種方法：

基於正則的方法：旨在透過引入正則化項來限制新任務學習過程中模型引數的變化，從而減輕災難性遺忘現象。根據約束施加的方法，還可以更細化為權重正則化和函式正則化。

權重正則化透過直接對模型的權重施加懲罰項，限制其在學習新任務時的變化。
函式正則化側重於對模型中間或最終輸出的約束，確保在學習新任務時，模型能夠保留對舊任務的輸出特徵。這種方法常常與知識蒸餾策略相結合。

基於重放的方法：是一種透過保留和重新使用先前學習經驗的方式，來緩解災難性遺忘的問題。在多模態持續感知學習中，根據重放的具體內容，可以將方法分為經驗重放和生成重放。

由於儲存空間的限制，經驗重放方法的重點在於如何利用有限的記憶體空間儲存更具代表性的舊訓練樣本。
生成重放則需要訓練一個額外的生成模型來重放生成的資料，這種方法可以有效減小儲存需求。

其他方法：現有研究還有一些基於投影以及架構的方法。

基於投影的方法將不同模態的資料（如影像、文字和音訊）對映到一個統一的特徵空間，以便於模型接受資訊。
基於架構的方法是一種透過調整模型的結構來支援持續學習的策略。這種方法透過將模型分為任務共享和任務特定元件，確保任務間的相對隔離，以減少學習新任務後對舊知識的影響。

2.2 記憶

在 LLM Agent 的終生學習過程中，記憶模組能夠使智慧體儲存、保留和回憶資訊。這一能力不僅有助於智慧體從過去的經驗中學習，還能改善決策過程。記憶是智慧體形成連貫長期行為、做出知情決策和與其他智慧體或人類進行有意義互動的基礎。

▲ 圖10. 記憶架構圖

因此，記憶模組支援智慧體透過經驗學習、避免災難性遺忘，並促進協作行為。我們將記憶模組分為四個關鍵型別：工作記憶、情節記憶、語義記憶和引數記憶。這四種類型協同運作，構成一個全面的記憶系統。

2.2.1 工作記憶

工作記憶是智慧體的短期記憶，負責處理即時上下文資訊，例如提示詞、使用者輸入和相關的工作區資訊。它使智慧體能夠即時處理當前上下文，從而為短期推理和決策提供基礎。我們從五個主要角度討論工作記憶：提示詞壓縮、長上下文理解、角色扮演、自我糾正和提示最佳化。

▲ 圖11. 工作記憶的組成

提示詞壓縮

智慧體可以透過壓縮使用者輸入的提示詞來有效地增加上下文內容的容量。這一過程提高了資訊處理效率，並幫助智慧體避免對歷史資訊的災難性遺忘，從而支援終生學習。

提示壓縮技術主要分為兩類：

軟壓縮：透過最佳化少量的軟提示令牌（token）來壓縮原始提示，保留關鍵資訊和抽象情感。這種方法有助於生成摘要向量，使智慧體能夠更高效地處理資訊，同時支援快取和重用較短的摘要令牌，以提升計算效率。
硬壓縮：直接過濾冗餘或非必要的提示令牌，提供更簡潔的提示表示。硬壓縮方法透過評估各個詞彙單元的重要性，僅保留資訊量較高的部分，從而最佳化智慧體的輸入。

長上下文理解

在工作記憶中，處理長文字是常見的需求，這不僅提升了智慧體對文字的理解能力，還促進了其在終生學習過程中的適應性。長文字理解的主要方法包括：

上下文選擇：將長文字分割成多個段落，依據重要性標準選擇特定段落。這種方法幫助智慧體提取關鍵內容，從而提高資訊處理的效率。
上下文聚合：透過整合來自不同區域的特徵資訊，增強模型對區域性和全域性上下文的理解。此方法使模型能夠更全面地把握文字的整體意義。這兩種方法共同作用，使智慧體能夠有效處理長文字輸入，提升資訊提取和理解的能力，同時支援其在不斷變化的環境中進行持續學習。

角色扮演

在工作記憶中，角色扮演是一種增強智慧體與使用者互動的有效機制，有助於實現更加個性化和多維的溝通。角色扮演的主要形式和特點包括：

▲ 圖12. 單智慧體和多智慧體的區別

單智慧體角色扮演：透過構建一個能夠模擬特定角色的智慧體，定義角色的性格特徵和背景故事，收集相關資料，使用大型語言模型生成角色語言和行為。這種方法使智慧體能夠在與使用者的互動中真實地表現角色的特徵。
多智慧體協作角色扮演：多個智慧體共同工作，使用者為每個智慧體分配角色和任務，以實現複雜的互動。透過協作，智慧體能夠完成更具挑戰性的任務，提升整體系統的效率。例如，MetaGPT 利用超程式設計方法將任務分解為子任務，並透過不同智慧體執行，增強了結果的驗證和錯誤的最小化。

自我糾正

使用者透過特定提示指示智慧體回顧和評估其先前的響應，以識別和糾正潛在錯誤，從而啟用智慧體的自我糾正功能。這一過程透過要求智慧體不僅識別錯誤，還重新思考並提供修正答案，來最佳化模型的輸出，使智慧體能夠從提示中持續學習和改進，實現終生學習。自我糾正的主要策略包括：

依賴其他模型的反饋：N-CRITICS 利用多個不同的通用大型語言模型作為評論者，評估主模型生成的輸出並提供反饋。該方法採用迭代反饋機制，無需監督訓練，初始輸出由評論者集合評估，所收集的批評意見用於指導主模型迭代修正輸出，直到滿足特定的停止條件。
評估自身信心水平：Li 等人提出了 If-or-Else 提示框架，以指導大型語言模型評估其自身信心並促進內在自我糾正。
藉助外部工具：CRITIC 透過與外部工具的互動來引導大型語言模型進行自我糾正。該框架的核心思想是模擬人類使用外部工具（例如，事實檢查的搜尋引擎或除錯的程式碼直譯器）來驗證和修正初始內容的行為。這些策略共同支援智慧體的自我糾正能力，使其能夠在反饋中不斷學習和提升，增強其在多變環境中的適應性。

提示最佳化

在智慧體的工作記憶中，使用者輸入的提示詞可能過於寬泛或模糊，導致誤解。為提高響應質量，引入了提示最佳化技術，以細化使用者指令，幫助智慧體更準確地理解使用者意圖。在這一過程中，智慧體透過互動不斷學習，實現終生學習，增強適應性。

主要研究集中在以下演算法上：

進化演算法：EvoPrompt 利用進化演算法生成新的提示候選，透過迭代最佳化提示種群，基於開發集表現選擇更佳提示。
蒙特卡洛樹搜尋演算法：PromptAgent 將提示最佳化視為策略規劃，模擬人類試錯過程，迭代最佳化中間提示，透過反思模型錯誤生成反饋。這些方法共同提升了智慧體的提示理解和響應能力。

2.2.2 情節記憶

情節記憶用於儲存長期經驗和事件，例如使用者互動、先前任務的結果或多輪對話。情節記憶幫助智慧體回憶過去的經歷，以改善未來的行動，同時保持長期行為和學習的一致性。我們從三個主要角度討論情節記憶：資料重放與特徵重放、持續強化學習、自我經驗。

資料重放與特徵重放

在終生學習中，模型需要在學習新任務時避免遺忘舊任務的知識。為此，重放舊任務樣本是有效的策略，主要透過兩種技術實現：

1. 經驗重放：保留舊任務的一部分樣本，並在新任務訓練中重放，以幫助模型維持舊任務的記憶。關鍵挑戰在於如何有效選擇和利用這些樣本。

2. 生成重放：透過訓練生成模型生成舊任務資料，減少對實際儲存舊樣本的需求，從而保持舊任務的知識一致性。此外，特徵重放關注保留特徵分佈，解決因特徵提取器更新導致的表示轉移問題，減輕災難性遺忘的風險。知識蒸餾則透過轉移舊任務與新任務之間的知識，增強模型的泛化能力。

總之，終生學習面臨的主要挑戰包括選擇舊樣本的策略、保持知識一致性以及處理表示轉移問題。合理運用這些技術，模型能更有效地適應新任務。

持續強化學習

持續強化學習強調在智慧體學習新任務時，如何有效利用過去的經驗，避免災難性遺忘。在持續強化學習中，資料緩衝區中收集的經驗代表了情景記憶的重要體現。透過利用經驗重放即透過反覆呈現儲存在重放緩衝區中的經驗來增強訓練的穩定性和提高學習效率。

這些經驗由四元組組成，包括當前狀態、採取的行動、下一個狀態和獎勵。透過在訓練過程中從緩衝區中抽樣，經驗重放減輕了災難性遺忘的問題，實現了終生學習的目標。

▲ 圖13. 持續強化學習中的經驗重放

自我經驗

情景記憶能夠儲存和回顧經歷，包括成功與否的結果以及外部環境對其行為的反饋。這些記憶形成了自我經驗庫，智慧體可以利用這些經驗來改進決策和行動計劃，從而實現終生學習。這種能力使智慧體在複雜和變化的環境中更敏捷、更有效。

在構建大型語言模型（LLM）智慧體人的自我經驗時，資料儲存型別被細緻分類為四類：三元組、資料庫、文件和對話。

三元組：RET-LLM 提出了一種通用的讀寫記憶模組，以三元組形式儲存知識，支援模糊搜尋。
資料庫：ChatDB 使用資料庫作為符號記憶模組，支援歷史資訊的複雜推理和查詢。
文件：DelTA 旨在處理整個文件的翻譯一致性，採用多級記憶結構，儲存長短期記憶和上下文資訊。
對話：對話是情景記憶中的重要資訊儲存形式。MemoChat 允許智慧體從長對話中動態檢索和利用過去的對話資訊，保持對話一致性。RAISE 增強了對話智慧體的能力，引入了類似短期記憶的臨時記憶板，以處理近期互動的資訊。透過這些機制，智慧體人不僅能夠引用歷史資訊，還能從中學習，不斷最佳化反應模式，提高對話技能，實現更自然和精準的對話結果。

2.2.3 語義記憶

語義記憶作為外部知識儲存，幫助智慧體獲取和更新世界知識。透過持續的知識圖譜學習和文件學習等機制，語義記憶促進新知識融入智慧體的內部框架。藉助知識圖譜或動態文件庫等外部資料庫，語義記憶確保智慧體能夠跟上不斷變化的資訊，從而提高回答查詢的能力並增強長期學習效果。

在語義記憶中，我們主要關注在持續知識圖譜和動態文件庫兩個外部儲存工具中的終生學習。

連續知識圖譜

知識圖譜嵌入（KGE）是一種將知識圖譜中的實體和關係對映到低維向量空間的技術，廣泛應用於下游任務。

然而，隨著知識的快速增長，傳統的靜態 KGE 方法通常需要在新知識出現時保留整個知識圖譜，這導致了顯著的訓練成本。為了解決這一挑戰，出現了持續知識圖譜嵌入（CKGE）任務。CKGE 利用增量學習最佳化知識圖譜的更新過程，旨在高效學習新知識，同時保留現有知識。

目前的 CKGE 方法可以大致分為三種主要型別：基於正則化的方法、基於重放的方法以及基於架構的方法。

動態文件庫

LLM Agent 可以利用資訊檢索將使用者查詢對映到相關文件。傳統的研究主要集中在從靜態文件庫中進行生成式檢索。然而，實際中可供檢索的文件不斷更新，尤其是在新聞、科學文獻等快速變化的資訊領域。這種文件的快速演變給檢索系統帶來了重大挑戰。

一些研究透過 DSI 方法增強動態文件庫的文件更新能力。例如：

DSI++：引入了基於 Transformer 的記憶機制，設計動態更新策略，使模型在新文件到達時最佳化其內部表示，實現高效的檢索適應。
IncDSI：採用模組化索引更新策略，利用之前構建的索引資料支援快速插入新文件，顯著降低計算資源需求，確保即時檢索效率。
PromptDSI：採用基於提示的無複習增量學習方法，利用提示機制指導模型在更新過程中保留舊文件的記憶，避免需要複習樣本。而在一些特定領域的任務上，例如 RAG 應用中，知識文件的增量更新對於確保領域特定知識的及時同步至關重要。目前的研究主要採用兩種增量更新策略：文件級更新和塊級更新。文件級更新涉及對新新增或更新文件的全面解析和向量化；

塊級更新則集中於識別文件中新增、修改、刪除或未變更的知識塊，利用“指紋”技術進行比較，確保只處理需要更新的內容。

▲ 圖14. RAG應用中知識更新策略

框架如 LangChain 和 LlamaIndex 支援增量知識更新，提供文件儲存和管理策略。增量知識更新對於企業級 RAG 應用至關重要，使其能夠快速適應知識變化，同時降低運營成本。

2.2.4 引數記憶

與過去事件的顯性記憶不同，引數記憶體現在模型的內部引數中。這些引數的變化（例如透過微調或訓練更新）反映了長期知識，併為智慧體的知識庫貢獻力量。這種記憶型別使智慧體能夠在任務之間保留知識，而無需儲存具體事件的詳細資訊。我們從以下三個角度展開分析：持續指令微調、持續知識編輯以及持續對齊。

▲ 圖15. 引數記憶方法

持續指令微調

持續指令微調是指智慧體透過不斷利用指令資料集來更新其引數記憶，調整模型的內部引數。這一調整過程並非一次性修改，而是一個持續最佳化的過程，使智慧體能夠隨著新指令的接收不斷最佳化其知識庫。

透過這種方式，智慧體不僅能夠保留和利用過去的經驗，還能無縫整合新學習的資訊，避免因新學習導致的舊知識丟失（即災難性遺忘）。這種持續學習和記憶更新的機制是智慧體實現終生學習的關鍵，主要分為兩類：特定能力和通用能力。

在特定能力方面，模型透過微調領域特定的資料集，增強了在專業工具使用和數學問題解決等領域的能力。研究表明，工具使用框架能夠有效支援資料構建、模型訓練和評估等功能，並透過構建指令微調資料集，模型能夠處理多種工具指令並泛化到未見的 API。此外，語言模型透過識別和呼叫 API，利用自監督學習最佳化其預測能力，從而掌握工具的操作及使用時機。

此外，針對特定智慧體任務的研究構建了高質量的互動資料集，並結合通用指令資料提升模型在特定任務上的表現。統一的可學習語言智慧體框架適用於多種複雜的互動任務，並透過多領域的微調註釋訓練，展現出與主流模型相當或更優的效能。

而在通用能力方面，模型透過廣泛的通用資料集進行微調，以提高對人類使用者輸入的理解和生成更滿意的響應。指令微調顯著增強了語言模型在程式碼、常識推理、世界知識、閱讀理解和數學等領域的表現，通常透過多個基準測試進行評估，如 HumanEval、HellaSwag、TriviaQA、BoolQ 和 GSM8K 等。

透過持續的指令微調，大型語言模型不僅保持廣泛的知識基礎，還基於最新資料和指令不斷演變，實現終生學習與改進。這種自我進化的概念體現了一般能力的增強，涉及多個迭代學習階段，幫助智慧體適應新任務和環境。

持續知識編輯

在持續知識編輯過程中，智慧體利用更新的資料集（新知識）修正先前模型中的錯誤或過時資訊。透過微調內部引數，智慧體能夠融合新資訊並保持已有知識，防止災難性遺忘，實現終生學習，以適應不斷變化的環境。

持續知識編輯採用知識三元組（頭實體、關係、尾實體）更新模型理解，確保在知識過時或遇到新資訊時調整知識庫。主要方法包括外部記憶、全域性最佳化和區域性修改。

外部記憶：透過外部結構儲存新知識而不修改大型語言模型（LLM）的權重。例如，WISE 設計了雙引數記憶方案，主記憶儲存預訓練知識，副記憶儲存編輯後的知識。GRACE 則在特定層新增介面卡，以適應新變化。
全域性最佳化：更新所有引數以納入新知識，保留原始知識。例如，PPA 利用低秩適應（LoRA）進行約束最佳化，ELDER 動態分配 LoRA 元件應對持續編輯任務。
區域性修改：定位並更新 LLM 中特定知識相關的引數，以解決知識編輯中的毒性累積問題。WilKE 評估層間模式匹配，選擇適合編輯的層。PRUNE 則透過管理矩陣的條件數，降低編輯對模型能力的影響。

持續對齊

智慧體透過吸收人類反饋微調內部引數，實現持續對齊，增強對新指令的響應能力，避免災難性遺忘。這種動態調整使智慧體在每次互動中學習和適應，支援終生學習。

傳統對齊為單步過程，依賴固定的靜態示例，缺乏適應新情況的能力。多步對齊要求模型在不遺忘已學任務的情況下適應新任務，體現持續對齊的挑戰。

持續對齊的資料集不斷變化，跨越多個任務或領域。為解決 RLHF 模型重訓練的高成本，COPR 計算最優策略分佈序列，並依據歷史分佈微調當前策略，減少災難性遺忘。

COPR 提供適應性，無需人類反饋。CPPO 透過加權策略和樣本分類，持續對齊語言模型與動態人類偏好。

2.3 行動

行動模組使智慧體能夠與環境互動、做出決策並執行行為，從而影響其學習過程。在終生學習框架中，行動對於閉合反饋迴圈至關重要：行動影響環境，環境則提供反饋，用於最佳化未來的行動。

▲ 圖16. 行動架構圖

我們將行動分為三種主要型別：基礎行動、檢索行動和推理行動。

2.3.1 基礎行動

對於大語言模型（LLM）智慧體，基礎行動涉及透過文字描述感知環境，並生成文字以確定適當的下一步行動。我們重點探索不同環境背景下的解決方案。

挑戰

輸入基礎行動

在輸入基礎行動中，LLM 在預訓練語料庫中遇到的文字格式與環境描述使用的格式存在顯著差異。預訓練語料庫主要由結構良好的段落構成，而環境描述往往以簡短句子、短語或結構化文字格式（如 JSON 字串或 HTML 標籤）呈現。

因此，LLM 必須從熟悉的預訓練資料輸入格式適應到智慧體環境中多樣且專業的格式。在快速變化的環境中，智慧體需要持續適應更新的描述，以更好地理解環境。
輸出基礎行動

在輸出基礎行動中，LLM 需要生成的內容型別存在顯著差異。在預訓練過程中，LLM 主要訓練用於簡單的文字補全，而在智慧體環境中，必須生成遵循特定模式的文字，表示動作或環境特定元素。LLM 必須學習透過生成符合環境要求的輸出，來執行復雜的動作，而不僅僅是以自由形式自然語言描述動作或意圖。

此外，在複雜環境中，輸出基礎行動的要求可能會根據智慧體的先前行動而變化，因此需要持續適應以符合環境不斷變化的需求。

不同環境下的解決方案

具有終生學習能力的大型語言模型（LLM）智慧體不僅可以根據特定環境調整其基礎行動，還能透過與環境的互動不斷演變。然而，不同環境的多樣性帶來了獨特的挑戰，促使研究者們開發出多種解決方案。為了清晰全面地概述這些解決方案，研究將常見環境分為三類：工具環境、網路環境和遊戲環境。

工具環境：工具是智慧體可以互動的外部功能或資源，如計算器、日曆、搜尋引擎和 API。LLM 在工具環境中需要理解工具的功能並根據使用者意圖按正確順序呼叫工具。研究者們採用簡化工具文件的方式來幫助 LLM 理解工具，並透過工具呼叫軌跡進行微調或上下文學習，以改善工具呼叫能力。此外，LLM 需要適應工具環境以生成特定格式的輸出，相關研究透過微調或少量學習來實現這一點。
網路環境：在網路環境中，基於 LLM 的智慧體需要根據使用者意圖與網頁互動。LLM 主要透過 HTML DOM 樹或可訪問性樹來感知網頁，這種格式複雜且不直觀。為了解決這個問題，研究者們透過簡化網頁內容和將先前的軌跡或經驗納入提示中來提高輸入基礎行動的準確性。
遊戲環境：遊戲環境是三種環境中最複雜的。LLM 智慧體通常在虛擬環境中操作，根據不同遊戲環境提供的 API，其輸入和輸出基礎行動的具體要求各不相同。一些研究使用專門的提示幫助 LLM 深入理解環境，其他研究則將環境視為影像來直接感知複雜環境。在輸出基礎行動方面，大多數工作透過生成可執行程式與環境互動，以控制智慧體的行為。從終生學習的角度看，研究者們還強調了增強智慧體行為長期一致性和整體能力的重要性。

2.3.2 檢索行動

LLM Agent 在生成有效的基本行動和推理行動時，需要依賴外部資訊。對於基本行動，LLM 的輸出必須與環境模式匹配，僅透過微調模型以適應環境約束是不可行的，因為這既資源消耗大，又無法應對動態變化的行動空間，同時在提示中包含所有可能的行動描述也會導致上下文長度過長。

在推理行動中，全面的外部知識（語義記憶）和準確的歷史軌跡（情景記憶）是做出正確決策的關鍵。然而，隨著智慧體活動的增加，行動和觀察歷史的長度可能超出 LLM 的處理能力，這凸顯了檢索行動的重要性。透過檢索，LLM 智慧體可以有效管理不斷增長的歷史資料，提高長期一致性，並在動態環境中提升表現。

我們的研究將智慧體的檢索分為語義記憶和情景記憶兩個部分。LLM 智慧體可以在試驗開始時或生成每個行動之前進行檢索，這種做法在現有研究中較為常見。

▲ 圖17. 增強大型語言模型智慧體檢索行為的研究總結及分類

從語義記憶中檢索

預訓練的大型語言模型作為智慧體的“腦”常常不足，主要由於兩個關鍵限制：缺乏背景知識和缺乏示例。這兩個限制可以透過從語義記憶中檢索資訊來解決。

缺乏背景知識

背景知識的缺乏表現為 LLM 無法從所有可能的行動中選擇正確的行動，或生成無法被環境理解的行動。

為了解決這個問題，GITM 透過從 Minecraft Wiki 中檢索相關文字，為 LLM 提供 Minecraft 世界的知識，使其能夠正確執行行動。

SwiftSage 和 ToolLLM 利用 SentenceBERT 從資料庫中檢索可能的行動，幫助 LLM 縮小行動空間，從而選擇適當的行動。當行動引數有限時，SentenceBERT 還可將 LLM 生成但環境無法理解的引數轉換為有效引數。
缺乏示例

缺乏示例會降低智慧體在基礎行動和規劃行動中的質量。

示例被證明對 LLM 的表現至關重要。然而，在提示中包含無關或過時的示例會顯著影響 LLM 智慧體的效能。為了解決這個問題，Re-Prompting 和 STE 使用 SentenceBERT 從示例集中選擇最相似的示例。

從情景記憶中檢索

雖然從語義記憶中檢索可以透過提供額外的背景知識和示例來提高智慧體的能力，但它無法解決 LLM 在利用過去經驗和長期一致性方面的缺乏。這兩個限制可以透過從情景記憶中檢索來克服。

利用過去經驗的能力不足

克服利用過去經驗的不足是終生 LLM 智慧體的一大特徵。當前研究將此方法分為兩類：第一類是在智慧體成功完成任務後儲存其軌跡，隨後在新任務中檢索相似軌跡以提升推理質量；第二類是將任務解決步驟表示為可執行程式，智慧體可以重用或組合這些程式來應對新任務，從而提升其基礎能力。
長期一致性不足

LLM 的有限上下文長度導致長期一致性不足，無法整合所有觀察和行動歷史。MemoryBank 透過檢索過去對話摘要，幫助保持與聊天曆史的一致性，提升長期互動中的表現。

2.3.3 推理行動

推理行動是 LLM 智慧體的一類關鍵行為，儘管 LLM 在預訓練後能夠進行基本的推理，但其能力不足以應對複雜環境中的推理任務。這主要由於環境複雜性和 LLM 自身推理能力的侷限性，例如難以識別先前推理步驟中的錯誤。

為了解決這些挑戰，研究者們透過設計精確的提示和新穎的框架來提升推理質量，許多研究還從終生學習的角度出發，使 LLM 能夠基於先前的推理結果逐步改進推理能力。根據這一點，我們將推理行動分為情節內推理行動和情節間推理行動，並在表7中總結了這一分類結果。

▲ 圖18. 關於增強大型語言模型智慧體推理行為的研究總結

情節內推理行動

情節內推理動作是指利用同一情節中的經驗的推理動作。基於這些研究是否刺激了 LLM 在同一試驗中的內在推理能力，或者逐步增強其在不同試驗中的推理能力，我們進一步將文章分為兩組。

單次試驗

幾乎所有研究鼓勵 LLM 在單次試驗中採用 ReAct 風格推理，基於環境反饋不斷完善推理過程。許多研究將推理分解為步驟，使用不同的 LLM 處理。

例如，α-UMi 微調兩個 LLM，分別負責規劃和總結，而 API-Bank 使用五個 LLM 生成高質量工具學習資料。這些研究提升了智慧體的推理質量，並透過引入環境特定策略增強了 LLM 在複雜環境中的推理能力，如 LASER 和 SteP 的應用。
跨試驗

許多研究基於 ReAct，透過模擬人類推理過程提升智慧體在不同試驗中的推理能力。Reflexion 使 LLM 透過回顧失敗的試驗進行自我反思，從而改善推理並提高未來試驗的準確性。LLM 智慧體在每次新試驗開始時反思過去軌跡，必要時重複此過程，直至成功實現目標。