
M+ 是在 MemoryLLM 之上提出的長期隱空間記憶擴充套件框架:透過把「過期」隱藏向量寫入 CPU – 側長期記憶池,再用協同檢索器拉回最相關記憶,它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上,同時視訊記憶體佔用保持不變。

論文標題:
M+: Extending MemoryLLM with Scalable Long-Term Memory
論文連結:
https://arxiv.org/abs/2502.00592
程式碼連結:
https://github.com/wangyu-ustc/MemoryLLM
開源模型:
https://huggingface.co/YuWangX/mplus-8b

背景:上下文 ≠ 記憶 & 現有記憶模型的缺陷
上下文視窗並不能直接等價於記憶。GPT-4.1 之類的模型即便支援 100 萬 token,也會隨視窗線性升高視訊記憶體與延遲,難以落地本地部署。
業界主流做法是 “Token-Level Memory”:把歷史內容或三元組存在資料庫 / 向量庫,檢索後再拼接回 prompt;MemGPT 等系統即屬此類。該類做法不需要重複訓練,直接結合 GPT-4 這樣的大模型便可以獲得很不錯的效能,但是,它也會有一些隨之而來的問題:
1. 冗餘:原始文字並非最緊湊表達,重複率高;
2. 衝突難解:遇到相互矛盾或不斷更新的資訊時,文字級衝突消解複雜;
3. 多模態能力弱:由於資料庫格式為文字,處理音訊或者圖片,影片資料將相對困難。
因此,我們希望探索隱空間 (Latent-Space) 的 Memory — 既壓縮又可端到端訓練,更接近人類在神經啟用中儲存資訊的方式。

M + 的關鍵改進:Long-Term Memory
在 MemoryLLM 中,我們為 8B 的 Llama3 模型引入了約 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 層。當第一層接收到詞輸入後,會透過 Embedding 層將詞轉化為一系列 4096 維的向量。
基於這一特點,我們設計了 MemoryLLM,在每一層都加入 N 個 Memory Tokens(實驗中 N=12800)。在生成過程中,這些 Memory Tokens 會作為每一層的 Prefix,透過 Cross-Attention 將資訊注入後續層,使模型能 “看到” 儲存在 Memory Pool 中的歷史資訊。

在更新階段,我們會將每層 Memory Token 中最後 K 個(實驗中 K=256)與需要寫入的資訊一同送入 Transformer,再次經過 Cross-Attention,將資訊壓入新的 Memory Tokens 中(如下圖所示)。
與此同時,我們在原有 Memory 中隨機丟棄 K 箇舊 Token,並將新生成的 K 個 Token 放到 Memory 尾部,完成更新。

基於這樣的設計,藉助每層 12800 個 Memory Vectors,我們在 50k tokens 內都能保持良好的資訊留存(最早 MemoryLLM-7B 版本只做到 20k,後續在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可達 50k)。
然而,這樣的記憶容量仍無法滿足我們對更長序列的期待。要進一步擴充套件 Memory,單靠原有的 1.67B 容量已遠遠不夠,因此我們提出了 Long-Term Memory。
如何高效實現 Long-Term Memory?考慮到 MemoryLLM 中每一個 Memory Token 本質上都來自 Hidden States,我們將那些在更新過程中被 “丟棄” 的 Memory Token 並非直接捨棄,而是將其儲存在長期記憶池中(如下圖)。

僅僅儲存是不夠的,我們還需要具備強大的提取能力。最初我們嘗試用 Attention 來從長期記憶中檢索 Hidden States,但實驗表明 Attention 在提取 Hidden States 時效果有限(在論文的消融實驗中做了詳盡對比)。
因此我們提出協同提取器(Co-trained Retriever),並與全模型進行聯合訓練(如下圖)。

透過這一結構,我們將模型的有效記憶跨度從 50k 一舉提升到 160k,且由於 Memory 主要駐留在 CPU,不會顯著增加 GPU 負擔。

M + 的實驗結果
顯著效能提升及更少的 GPU 使用:在 Longbook-QA 和 Longbook-Event-QA 兩個資料集上,我們都在更少 GPU 的使用下(單卡 18GB 左右)獲得了更強大的效能。


更強的資訊留存能力:在 SQuAD 資料集上表現出遠超 MemoryLLM-7B 以及相關 ablation baseline 的資訊留存能力,可以達到 160k 依舊不完全遺忘過去的資訊。



結語
M+ 展示了我們在探索隱空間長期記憶領域的重要進展,也為下一代具備持續記憶能力的語言模型提供了堅實的技術支撐。
未來,我們將繼續研究更高效的儲存機制、更智慧的檢索策略,以及與多模態輸入更自然融合的隱空間記憶架構。在此方向上,M+ 不僅是對 MemoryLLM 的一次擴充套件,也是我們對 “讓模型擁有接近人類記憶能力” 這一願景的又一次有力實踐。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
