重塑記憶架構：LLM正在安裝「作業系統」

機器之心報道

編輯：冷貓

超長上下文視窗的大模型也會經常「失憶」，「記憶」也是需要管理的。

眾所周知，現代大型語言模型（LLM）的上下文視窗普遍有限 —— 大多數模型只能處理數千到數萬 token，比如早期的 GPT-3 僅有～2,048 token。雖然近期有些模型已經拓展到了百萬級甚至千萬級 token 視窗（如 Meta 的 Llama 4 Scout 宣稱可達 1,000 萬 token）。

圖中顯示了 LLM 上下文視窗大小的演變。

注意：token 數量為近似最大值。「GPT-4.1」指的是 2025 年 4 月更新的 GPT-4，「Scout」是專為長上下文設計的 17B 引數 Llama 4 變體。

LLM 存在一個內在的「記憶缺陷」，即擁有的上下文視窗是有限的，這嚴重限制了它們在多輪次、多會話的長期互動中維持一致性的能力。

也因此，現代 LLM 普遍難以維持長期記憶。這對很多應用來說實在相當不妙，畢竟記憶是實現反思和規劃的關鍵，也是智慧體系統不可或缺的重要組成部分。

基於 LLM 的自主智慧體系統概況圖，圖源 Lil'Log https://lilianweng.github.io/posts/2023-06-23-agent/

近段時間，關於大模型記憶的相關研究多了起來，前些天開源的 MemOS 就吸引了不少眼球。

與傳統 RAG 或純引數儲存不同，MemOS 把「記憶」看作一種和算力同等重要的系統資源。對於大模型的長期記憶進行持續更新管理，將明文、啟用狀態和引數記憶統一在同一個框架裡進行排程、融合、歸檔和許可權管理，讓大模型擁有了擁有了持續進化和自我更新的能力。

大模型記憶與長上下文處理能力

密不可分

之前探討的大模型，能處理大量的 token，甚至達到千萬 token 級別，這些均屬於 LLM 的長上下文處理能力。實際的 LLM 使用經驗告訴我們，具有強大長上下文處理能力的 LLM 都具有更強的記憶能力。

長上下文（Long Context）

指模型在當前推理過程中能「看到」的歷史文字長度。
本質上是一次性輸入到模型中的序列長度。
用於解決如文件問答、多輪對話、程式碼分析等需要上下文保持的任務。

「長上下文處理能力」包括：

長度泛化能力：模型在訓練中未見過的更長的序列上進行外推的能力。如果超出訓練長度，某些模型會災難性地失敗。

高效注意力能力：減少長序列計算 / 記憶體消耗的機制（亞平方演算法）。這可能包括近似注意力、稀疏模式或完全替代的架構。

資訊保留能力：指模型實際利用遠距資訊的能力。如果模型在一定位置之後實際上忽略了上下文內容，那麼即使擁有龐大的上下文視窗也是無效的。如果訓練不當，模型可能出現注意力權重衰減或在超過一定長度後丟失上下文等現象。

提示詞與利用能力：研究如何設計提示詞（prompt）以最大限度發揮長上下文的優勢。

記憶（Memory）

指模型跨多輪對話 / 使用所保留的資訊。
是一種持久化機制，記錄關於使用者、對話、偏好等資訊。

SwirlAI 創始人兼 CEO Aurimas Griciūnas 認為，可以將 LLM 的記憶分為以下型別：

1. 事件記憶 – 這種型別的記憶包含代理過去的互動和執行的操作。每當完成某個操作，控制系統會將該操作資訊寫入持久化儲存中，便於未來呼叫或回溯。

2. 語義記憶 – 語義記憶包括可訪問的外部知識資訊，以及其對自身狀態和能力的理解。這種記憶既可以是僅代理內部可見的背景知識，也可以是用於限制資訊範圍、提升回答準確性的錨定上下文（grounding context），從海量網際網路資料中篩選出與當前任務相關的資訊。

3. 程式性記憶 – 程式性記憶指的是與系統執行機制相關的結構性資訊，例如系統提示詞（system prompt）的格式、可呼叫的工具、預設的行為邊界（guardrails）等。

4. 在特定任務場景下，代理系統會根據需求從長期記憶中調取相關資訊，並暫存於本地快取，以便快速訪問和任務執行。

5. 從長期記憶中調取的資訊與當前區域性快取的資訊共同構成了代理的工作記憶（也稱短期記憶）。這些資訊會被整合成最終輸入給大語言模型（LLM）的提示詞，用於指導其生成後續行為指令或任務響應。

如圖所示，通常將 1 – 3 標記為長期記憶，將 5 標記為短期記憶。

長上下文能力和記憶能力可協同工作：

記憶系統中的資訊（如使用者偏好）可被注入到上下文中，作為提示的一部分；
長上下文視窗能幫助模型在當前對話中維持短期「記憶」，減少依賴記憶系統。

實現 LLM 記憶的幾種方法

長上下文的方法

正如前文討論的，當對話內容超出了上下文長度時，LLM 可能會出現忘記使用者的喜好、重複提問，甚至與之前確認的事實相沖突的現象。最直接的提高 LLM 記憶能力的方法就是提高 LLM 的長上下文處理能力。目前，提高 LLM 長上下文處理能力的方法有：

1、RAG（檢索增強生成，Retrieval-augmented Generation）作為構建知識庫並檢索引導 LLM 生成的方法具有非常強的泛用性。透過將結構化或非結構化資料轉化為可檢索的語義表示，RAG 實現了「先檢索、再生成」的流程，使得 LLM 能夠結合外部知識應對事實性問題，減少幻覺。

RAG 架構支援對文件動態更新，便於構建即時可擴充套件可編輯的知識體系，這為後續的 LLM 記憶的構建和記憶系統的設計提供了基礎。

圖中對比 RAG 流程與純長上下文方法的差異，RAG 效率高，但可能遺漏間接上下文；長上下文使用雖然全面，但需要模型處理非常大的輸入。

2、分層摘要：在對一本書進行總結時，可以透過遞迴的方式將每一章分別進行摘要，得到中間摘要，然後再對這些中間摘要進行進一步總結，依此類推。這種方法可以應對遠超模型上下文長度的輸入，但其操作流程較為繁瑣，且容易在多輪摘要過程中引入和累積錯誤。

3、滑動視窗推理：對於需要對長文字進行閱讀理解等任務，可以將模型應用於文字的滑動視窗上（例如，第 1–5 段，然後是第 2–6 段，依此類推），再透過某種方法或次級模型對各視窗的輸出結果進行整合。

研究人員探索了多種演算法途徑來擴充套件上下文視窗。廣義而言，這些方法可以分為：(a) 用於長度外推的位置編碼方法，(b) 高效或稀疏注意力架構，（c) 替代序列模型（取代自注意力），以及 (d) 混合或記憶增強方法。

瞭解更多有關 LLM 長上下文視窗的細節資訊，可以參閱來自 Dr. Adnan Masood 的文章：

文章連結：https://medium.com/%40adnanmasood/long-context-windows-in-large-language-models-applications-in-comprehension-and-code-03bf4027066f

記憶的方法

儘管上下文能力與大模型記憶緊密相關，但上下文視窗並不能直接等價於記憶。

以構建一個聊天機器人為例，該機器人需要記住使用者在此前對話中說過的話。隨著對話長度的增加，記憶管理會將資訊從輸入上下文中移出，存入一個可搜尋的持久資料庫；同時對資訊進行總結，以便將相關事實保留在輸入上下文中；還會在需要時從較早的對話中恢復相關內容。這種機制使得聊天機器人能夠在生成下一輪迴復時，將當前最相關的資訊保留在其輸入上下文記憶中。

基於記憶的方法看上去與 RAG 非常相似，實際上也確實如此。大致上分為兩種型別。

固定記憶池

一類方法採用外部編碼器將知識注入到記憶池中，例如 Memory Network，其重點在於解決 RNN 中的遺忘問題。後續工作則透過計算整個記憶池的加權和，作為記憶的代表向量。最具代表性的工作 MemoryLLM，在 LLM 的潛在空間中集成了一個內建記憶池。這個記憶池的設計目標是：在固定容量的限制下，實現新知識的有效整合，並最大程度地減少資訊遺忘，從而避免記憶無限增長的問題。

另一類方法則直接使用語言模型本身作為編碼器來更新記憶。例如，Memory Transformer 以及 RMT，提出在讀取上下文時新增記憶 token，其中記憶池最多包含 20 個 token。

儘管這些固定大小的記憶池在實驗中表現出一定的效果，但其效能仍受到記憶容量限制。

非固定記憶池

其他基於記憶的方法通常採用非固定大小的記憶池，並引入不同的遺忘機制以應對記憶不斷增長的問題。在這些方法中，記憶池通常以以下幾種形式存在：

1. 隱藏狀態（hidden states）：如 MemoryBank，將中間表示作為可持久化的記憶內容儲存。

2. 鍵值對（key-value pairs）：代表性方法包括 KNN-LM 和 LONGMEM，以可檢索的鍵值結構進行知識儲存和回撥。

3. 隱藏空間向量（vectors in hidden space）：如 Memformer 透過在潛在空間中儲存向量來增強上下文記憶。

4. 原始文字（raw texts）：如 RET-LLM，將知識以三元組的形式存入記憶中，並透過 API 查詢方式，在當前上下文下檢索相關資訊。

這些方法提供了更靈活的記憶機制，但由於缺乏結構化的壓縮與管理手段，儲存的知識可能存在冗餘，影響記憶效率與模型推理效能。

有關大模型記憶的部分技術，可以參考以下論文：

論文標題：MemoryLLM: Towards Self-Updatable Large Language Models
論文連結：https://arxiv.org/abs/2402.04624

記憶資料管理：記憶系統

據前文所述，LLM 的記憶與資料庫非常相似。雖然 RAG 引入了純文字的外部知識，但它仍然是一種無狀態的工作方法，缺乏生命週期管理與持久表示的整合能力。

記憶系統本質上和 RAG 檢索是幾乎一致的，但記憶系統機制會在記憶儲存的基礎上增加更豐富的資訊組織、資訊管理和資訊檢索方法，將記憶儲存管理與計算機作業系統的原理相結合，能夠構建更加完善的記憶機制，使 LLM 擁有更持久的記憶。

近期有關 LLM 記憶系統的研究逐步走入聚光燈下，大多受傳統作業系統的記憶體機制啟發，建立了全新架構的記憶管理模式。以近期幾個具有代表性的研究工作為例：

Coursera 聯合創始人，前百度 AI 部門總負責人，前 Google Brain 專案創始成員與負責人吳恩達在近期的短課程中提到：

大型語言模型（LLM）的輸入上下文視窗具有有限空間。使用更長的輸入上下文不僅成本更高，而且處理速度更慢。因此，管理儲存在該上下文視窗中的內容至關重要。

在論文《MemGPT: Towards LLMs as Operating Systems》中，作者提出使用一個 LLM 代理來管理該上下文視窗。該系統配備了一個大型的持久記憶體，用於儲存所有可能被納入輸入上下文的資訊，而一個代理則負責決定哪些資訊實際被包含進去。該技術受傳統作業系統中分層記憶體系統的啟發：透過在物理記憶體與磁碟之間進行分頁，實現擴充套件虛擬記憶體的假象。

論文標題：MemGPT: Towards LLMs as Operating Systems
論文連結：https://arxiv.org/abs/2310.08560

記憶張量（上海）科技有限公司聯合上海交通大學、中國人民大學、同濟大學、浙江大學、中國電信等多家頂尖團隊釋出了 MemOS（Memory Operating System），一套面向大模型的工業級記憶作業系統。在技術實現層面，MemOS 借鑑了傳統作業系統的分層架構設計，也融合了 Memory3（憶立方）大模型在記憶分層管理方面的核心機制。整個系統由 API 與應用介面層、記憶排程與管理層、記憶儲存與基礎設施層三大核心層次組成，構建了一套從使用者互動到底層儲存的全鏈路記憶管理閉環。

專案官網：https://memos.openmem.net
論文連結：https://memos.openmem.net/paper_memos_v2

北郵百家 AI 團隊推出首個大模型記憶作業系統開源框架 MemoryOS，借鑑了現代作業系統中成熟的記憶體管理原則，採用短期、中期、長期三級分層記憶儲存體系（即時對話儲存、主題資訊整合、個性化知識沉澱），包含四大核心功能：記憶儲存、記憶更新、記憶檢索和響應生成，全方位管理 AI 記憶系統。

專案地址：https://github.com/BAI-LAB/MemoryOS
論文連結：https://arxiv.org/abs/2506.06326

加利福尼亞大學聖迭戈分校（UCSD）博士生 Yu Wang 和紐約大學教授陳溪（Xi Chen）聯合推出並開源了 MIRIX —— 全球首個真正意義上的多模態、多智慧體 AI 記憶系統。MIRIX 擁有六類核心記憶，能夠細分認知角色。提出了一種模組化多智慧體架構（multi-agent architecture），由若干專用元件在統一排程機制下協作完成輸入處理、記憶更新和資訊檢索。

論文標題：MIRIX: Multi-Agent Memory System for LLM-Based Agents
論文連結：https://arxiv.org/abs/2507.07957

除此以外，在針對 LLM 記憶管理與更新的前沿研究工作中，另一類參考人類神經或人類大腦記憶的模式同樣取得了很好的結果。

Larimar —— 一種受大腦啟發的新型架構，用於透過分散式情景記憶增強 LLMs。人類能非常迅速地執行知識更新和泛化，在大腦中，這種快速學習被認為依賴於海馬體及其情景記憶能力。該工作受人類情景記憶能力的啟發，構建了分層記憶體框架，提出了一種用於即時測試時適應的情景化且可適應的記憶條件 LLM 架構。

論文標題：Larimar: Large Language Models with Episodic Memory Control
論文地址：https://arxiv.org/pdf/2403.11901

M+ 探索了探索隱空間 (Latent-Space) 的記憶 —— 既壓縮又可端到端訓練，更接近人類在神經啟用中儲存資訊的方式。該工作在 MemoryLLM 之上提出的長期隱空間記憶擴充套件框架：透過把「過期」隱藏向量寫入 CPU – 側長期記憶池，再用協同檢索器拉回最相關記憶，它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上，同時視訊記憶體佔用保持不變。