大模型「記憶斷片」成歷史！AI初創全新Zep系統，知識圖譜破解上下文詛咒

2025-08-22 06:34 新智元

新智元報道

編輯：peter東喬楊

【新智元導讀】Zep，一個為大模型智慧體提供長期記憶的外掛，能將智慧體的記憶組織成情節，從這些情節中提取實體及其關係，並將它們儲存在知識圖譜中，從而讓使用者以低程式碼的方式為智慧力構建長期記憶。

無論是ChatGPT還是Deepseek，隨著大模型效能的提升，其能夠處理的上下文也越來越長。但是，一旦超出上下文視窗的限制，大模型就需要重新開一個對話，如同「失憶」一般忘記之前交流的內容。

然而，站在使用者的角度，智慧體應該能夠記住之前的所有對話，因此如何有效地管理和利用對話歷史，就成為了提升AI智慧體使用者體驗的關鍵。擁有長期記憶後，智慧體能夠回憶過去的對話，減少幻覺、延遲和成本。

將聊天記錄作為文字匯入，然後使用RAG來「恢復記憶」，是一種讓大模型具有長期記憶的常用方式，但這往往需要額外的工程，構建RAG也存在無法忽視的時間差。

最近，一家名為Zep AI的初創公司推出了為智慧體打造的記憶層，透過回憶聊天曆史，可以自動生成摘要和其他相關資訊，使AI助手能夠在不影響使用者聊天體驗的情況下，非同步地從過去的對話中提取相關上下文。

傳送門：https://www.getzep.com/

Zep AI成立於2023年，是一家位於灣區的YC系初創，主要願景就是為AI構築長期記憶。他們開發的核心外掛已經在GitHub上開源，獲得了3k+標星，同時也發表了詳解技術原理的預印版論文。

倉庫地址：https://github.com/getzep/zep

Zep：更適合工業界的MemGPT

論文連結：https://arxiv.org/pdf/2501.13956

當前使用RAG的方法主要集中在領域知識和靜態語料庫上，即新增到語料庫的文件很少發生變化。

要使智慧體的落地場景更加普遍，解決各種各樣瑣碎或高度複雜的問題，就需要訪問大量的動態資料，比如與使用者的互動、相關的業務資料以及世界知識。

Zep的開發者們認為，當前的RAG方法並不適合實現這一願景；要想賦予智慧體以動態、廣泛的「記憶力」，需要讓LLM驅動的智慧體真正擁有儲存部件。

事實上，這個想法並非Zep AI團隊的原創。2023年，UC伯克利的研究者們發表的MemGPT就提出了這一點。

論文連結：https://arxiv.org/pdf/2310.08560

具體來看，Zep可視為AI智慧體的基本記憶體，由具有時間感知能力的知識圖譜引擎Graphiti所驅動，可以攝入並綜合結構化業務資料和非結構化的訊息資料，並動態更新知識圖，從而表徵一個複雜、不斷發展的世界。

與其他知識圖引擎相比，Graphiti的一個關鍵不同是具有時間提取和邊失效過程，從而具備了管理動態資訊更新的能力。

相比MemGPT，Zep更適用於工業界的生產場景，在記憶體檢索機制的各方面效能上都有所提升，包括準確性、延遲和可擴充套件性。

構建知識圖譜

Zep的「記憶」由一個具有時間感知能力的動態知識圖譜（temporally-aware dynamic knowledge graph）所驅動，可以表示為𝒢=(𝒩,ℰ,ϕ)，其中𝒩為節點，ℰ表示邊，而ϕ則是一個形式關聯函式（formal incidence function），可表示為ℰ→𝒩×𝒩。

整個知識圖譜共包含3層子圖，從底層到頂層分別為：情節（episode）子圖𝒢_e，語義（semantic）子圖𝒢_s以及社群（community）子圖𝒢_c。

情節子圖：以訊息、文字或JSON的形式保留原始輸入資料，其中的每個邊將情節連結至下一層的相應語義實體
語義子圖：基於情節子圖提取實體及其關係
社群子圖：每個節點表示一簇具有較強關聯的實體，每個邊將上一層的語義實體和社群相連線

這種分層表示與之前的AirGraph和GraphRAG有相近之處，更接近人類心智中的記憶模式，從而讓使用Zep的LLM智慧體發展出更加複雜和細微的儲存結構。

記憶體檢索

Zep的一大亮點就是功能強大、高效且高度可配置的的記憶體檢索系統，包括3個核心步驟：

搜索（φ）：根據輸入文字S，識別出可能包含相關資訊的候選節點和邊，可以表示為φ:S→ℰ_sⁿ×𝒩_sⁿ×𝒩_cⁿ
重排（ρ）：對上一步的搜尋結果重新排序，即ρ:φ⁢(α),…→ℰ_sⁿ×𝒩_sⁿ×𝒩_cⁿ
構造器（constructor χ）：將相關的節點和邊轉換為文字形式的上下文，即χ:ℰ_sⁿ×𝒩_sⁿ×𝒩⁢_cⁿ→S

第一步驟的搜尋中，除了RAG常用的餘弦相似度搜索和全文搜尋，Zep還加入了廣度優先搜尋，分別針對相似性的不同方面：全文搜尋識別詞語相似性，餘弦搜尋捕獲語義相似性，而廣度優先搜尋揭示了上下文相似性，從而最大程度地從圖譜中挖掘最佳語境。

實驗評估

論文采用了兩種針對LLM記憶體的基準測試，分別是DMR任務（Deep Memory Retrieval）和LongMemEval基準，相關的實驗程式碼已經公佈在GitHub倉庫中。

DMR的基線除了MemGPT外，還有兩種常見的LLM記憶體方法：完整對話上下文（full-conversation context）和會話摘要（session summary）。

從下圖和表格中可以看出，無論使用GPT-4-Turbo還是GPT-4o-mini模型，Zep都可以超過基線方法，但DMR基準的設計存在一個顯著缺陷：無法評估對複雜記憶內容的理解，完整上下文搜尋所得到的高分就能從側面證明這一點。

LongMemEval基準的彌補了DMR的這一缺陷，加入了更長、更連貫的對話內容以及更多樣化的評估問題，從而更好地反映真實場景的需求，實驗結果如下表所示。

可以看到，相比基線方法，Zep不僅提升了結果的精度，而且將響應時間減少了約90%，相比其他LLM供應商也有約80%的提升。

參考資料：

https://arxiv.org/pdf/2501.13956

https://blog.getzep.com/state-of-the-art-agent-memory/

相關文章

首次，6人7天真人秀！南洋理工等釋出第一視角AI生活管家資料EgoLife

首次，6人7天真人秀！南洋理工等釋出第一視角AI生活管家資料EgoLife

ICLR上新|探索大模型最佳化、資訊檢索與記憶構建的創新之路

ICLR上新|探索大模型最佳化、資訊檢索與記憶構建的創新之路

i-Refill丨為什麼舊的記憶不會被新的覆蓋？

i-Refill丨為什麼舊的記憶不會被新的覆蓋？

浙大、OPPO等釋出最新綜述：基於多模態大模型的計算機、手機與瀏覽器智慧體研究

浙大、OPPO等釋出最新綜述：基於多模態大模型的計算機、手機與瀏覽器智慧體研究

原來在千帆上玩兒DeepSeek這麼野，我終於把DeepSeek捏成我想要的樣子

原來在千帆上玩兒DeepSeek這麼野，我終於把DeepSeek捏成我想要的樣子

谷歌“狙擊”OpenAI，釋出新一代大模型！主打Agent+多模態

谷歌“狙擊”OpenAI，釋出新一代大模型！主打Agent+多模態

RAG七十二式：2024年度RAG清單

RAG七十二式：2024年度RAG清單

AllinVLM！華為諾亞推出記憶增強的VLM決策方案Mem2Ego，重新整理具身導航SOTA記錄

AllinVLM！華為諾亞推出記憶增強的VLM決策方案Mem2Ego，重新整理具身導航SOTA記錄

鐵電笑納感存算|Ising專欄

鐵電笑納感存算|Ising專欄

大模型在簡單物理現象理解任務上的認知困境：聯想能力將是AGI之路上的下一個關鍵？

大模型在簡單物理現象理解任務上的認知困境：聯想能力將是AGI之路上的下一個關鍵？

Copyright © 2025 | WordPress Theme by MH Themes