ICML2025|隱空間記憶登場！M+打破上下文限制，8B模型記住160K+內容

M+ 是在 MemoryLLM 之上提出的長期隱空間記憶擴充套件框架：透過把「過期」隱藏向量寫入 CPU – 側長期記憶池，再用協同檢索器拉回最相關記憶，它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上，同時視訊記憶體佔用保持不變。

論文標題：

M+: Extending MemoryLLM with Scalable Long-Term Memory

論文連結：

https://arxiv.org/abs/2502.00592

程式碼連結：

https://github.com/wangyu-ustc/MemoryLLM

開源模型：

https://huggingface.co/YuWangX/mplus-8b

背景：上下文 ≠ 記憶 & 現有記憶模型的缺陷

上下文視窗並不能直接等價於記憶。GPT-4.1 之類的模型即便支援 100 萬 token，也會隨視窗線性升高視訊記憶體與延遲，難以落地本地部署。

業界主流做法是 “Token-Level Memory”：把歷史內容或三元組存在資料庫 / 向量庫，檢索後再拼接回 prompt；MemGPT 等系統即屬此類。該類做法不需要重複訓練，直接結合 GPT-4 這樣的大模型便可以獲得很不錯的效能，但是，它也會有一些隨之而來的問題：

1. 冗餘：原始文字並非最緊湊表達，重複率高；

2. 衝突難解：遇到相互矛盾或不斷更新的資訊時，文字級衝突消解複雜；

3. 多模態能力弱：由於資料庫格式為文字，處理音訊或者圖片，影片資料將相對困難。

因此，我們希望探索隱空間 (Latent-Space) 的 Memory — 既壓縮又可端到端訓練，更接近人類在神經啟用中儲存資訊的方式。

M + 的關鍵改進：Long-Term Memory

在 MemoryLLM 中，我們為 8B 的 Llama3 模型引入了約 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 層。當第一層接收到詞輸入後，會透過 Embedding 層將詞轉化為一系列 4096 維的向量。

基於這一特點，我們設計了 MemoryLLM，在每一層都加入 N 個 Memory Tokens（實驗中 N=12800）。在生成過程中，這些 Memory Tokens 會作為每一層的 Prefix，透過 Cross-Attention 將資訊注入後續層，使模型能 “看到” 儲存在 Memory Pool 中的歷史資訊。

在更新階段，我們會將每層 Memory Token 中最後 K 個（實驗中 K=256）與需要寫入的資訊一同送入 Transformer，再次經過 Cross-Attention，將資訊壓入新的 Memory Tokens 中（如下圖所示）。

與此同時，我們在原有 Memory 中隨機丟棄 K 箇舊 Token，並將新生成的 K 個 Token 放到 Memory 尾部，完成更新。

基於這樣的設計，藉助每層 12800 個 Memory Vectors，我們在 50k tokens 內都能保持良好的資訊留存（最早 MemoryLLM-7B 版本只做到 20k，後續在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可達 50k）。

然而，這樣的記憶容量仍無法滿足我們對更長序列的期待。要進一步擴充套件 Memory，單靠原有的 1.67B 容量已遠遠不夠，因此我們提出了 Long-Term Memory。

如何高效實現 Long-Term Memory？考慮到 MemoryLLM 中每一個 Memory Token 本質上都來自 Hidden States，我們將那些在更新過程中被 “丟棄” 的 Memory Token 並非直接捨棄，而是將其儲存在長期記憶池中（如下圖）。