新智元報道
新智元報道
編輯:peter東 喬楊
【新智元導讀】Zep,一個為大模型智慧體提供長期記憶的外掛,能將智慧體的記憶組織成情節,從這些情節中提取實體及其關係,並將它們儲存在知識圖譜中,從而讓使用者以低程式碼的方式為智慧力構建長期記憶。
無論是ChatGPT還是Deepseek,隨著大模型效能的提升,其能夠處理的上下文也越來越長。但是,一旦超出上下文視窗的限制,大模型就需要重新開一個對話,如同「失憶」一般忘記之前交流的內容。
然而,站在使用者的角度,智慧體應該能夠記住之前的所有對話,因此如何有效地管理和利用對話歷史,就成為了提升AI智慧體使用者體驗的關鍵。擁有長期記憶後,智慧體能夠回憶過去的對話,減少幻覺、延遲和成本。
將聊天記錄作為文字匯入,然後使用RAG來「恢復記憶」,是一種讓大模型具有長期記憶的常用方式,但這往往需要額外的工程,構建RAG也存在無法忽視的時間差。
最近,一家名為Zep AI的初創公司推出了為智慧體打造的記憶層,透過回憶聊天曆史,可以自動生成摘要和其他相關資訊,使AI助手能夠在不影響使用者聊天體驗的情況下,非同步地從過去的對話中提取相關上下文。

傳送門:https://www.getzep.com/
Zep AI成立於2023年,是一家位於灣區的YC系初創,主要願景就是為AI構築長期記憶。他們開發的核心外掛已經在GitHub上開源,獲得了3k+標星,同時也發表了詳解技術原理的預印版論文。

倉庫地址:https://github.com/getzep/zep
Zep:更適合工業界的MemGPT

論文連結:https://arxiv.org/pdf/2501.13956
當前使用RAG的方法主要集中在領域知識和靜態語料庫上,即新增到語料庫的文件很少發生變化。
要使智慧體的落地場景更加普遍,解決各種各樣瑣碎或高度複雜的問題,就需要訪問大量的動態資料,比如與使用者的互動、相關的業務資料以及世界知識。
Zep的開發者們認為,當前的RAG方法並不適合實現這一願景;要想賦予智慧體以動態、廣泛的「記憶力」,需要讓LLM驅動的智慧體真正擁有儲存部件。
事實上,這個想法並非Zep AI團隊的原創。2023年,UC伯克利的研究者們發表的MemGPT就提出了這一點。

論文連結:https://arxiv.org/pdf/2310.08560
具體來看,Zep可視為AI智慧體的基本記憶體,由具有時間感知能力的知識圖譜引擎Graphiti所驅動,可以攝入並綜合結構化業務資料和非結構化的訊息資料,並動態更新知識圖,從而表徵一個複雜、不斷發展的世界。
與其他知識圖引擎相比,Graphiti的一個關鍵不同是具有時間提取和邊失效過程,從而具備了管理動態資訊更新的能力。

相比MemGPT,Zep更適用於工業界的生產場景,在記憶體檢索機制的各方面效能上都有所提升,包括準確性、延遲和可擴充套件性。
構建知識圖譜
Zep的「記憶」由一個具有時間感知能力的動態知識圖譜(temporally-aware dynamic knowledge graph)所驅動,可以表示為𝒢=(𝒩,ℰ,ϕ),其中𝒩為節點,ℰ表示邊,而ϕ則是一個形式關聯函式(formal incidence function),可表示為ℰ→𝒩×𝒩。
整個知識圖譜共包含3層子圖,從底層到頂層分別為:情節(episode)子圖𝒢e,語義(semantic)子圖𝒢s以及社群(community)子圖𝒢c。
-
情節子圖:以訊息、文字或JSON的形式保留原始輸入資料,其中的每個邊將情節連結至下一層的相應語義實體
-
語義子圖:基於情節子圖提取實體及其關係
-
社群子圖:每個節點表示一簇具有較強關聯的實體,每個邊將上一層的語義實體和社群相連線
這種分層表示與之前的AirGraph和GraphRAG有相近之處,更接近人類心智中的記憶模式,從而讓使用Zep的LLM智慧體發展出更加複雜和細微的儲存結構。

記憶體檢索
Zep的一大亮點就是功能強大、高效且高度可配置的的記憶體檢索系統,包括3個核心步驟:
-
搜索(φ):根據輸入文字S,識別出可能包含相關資訊的候選節點和邊,可以表示為φ:S→ℰsn×𝒩sn×𝒩cn
-
重排(ρ):對上一步的搜尋結果重新排序,即ρ:φ(α),…→ℰsn×𝒩sn×𝒩cn
-
構造器(constructor χ):將相關的節點和邊轉換為文字形式的上下文,即χ:ℰsn×𝒩sn×𝒩cn→S
第一步驟的搜尋中,除了RAG常用的餘弦相似度搜索和全文搜尋,Zep還加入了廣度優先搜尋,分別針對相似性的不同方面:全文搜尋識別詞語相似性,餘弦搜尋捕獲語義相似性,而廣度優先搜尋揭示了上下文相似性,從而最大程度地從圖譜中挖掘最佳語境。
實驗評估
論文采用了兩種針對LLM記憶體的基準測試,分別是DMR任務(Deep Memory Retrieval)和LongMemEval基準,相關的實驗程式碼已經公佈在GitHub倉庫中。
DMR的基線除了MemGPT外,還有兩種常見的LLM記憶體方法:完整對話上下文(full-conversation context)和會話摘要(session summary)。
從下圖和表格中可以看出,無論使用GPT-4-Turbo還是GPT-4o-mini模型,Zep都可以超過基線方法,但DMR基準的設計存在一個顯著缺陷:無法評估對複雜記憶內容的理解,完整上下文搜尋所得到的高分就能從側面證明這一點。


LongMemEval基準的彌補了DMR的這一缺陷,加入了更長、更連貫的對話內容以及更多樣化的評估問題,從而更好地反映真實場景的需求,實驗結果如下表所示。


可以看到,相比基線方法,Zep不僅提升了結果的精度,而且將響應時間減少了約90%,相比其他LLM供應商也有約80%的提升。
參考資料:
https://arxiv.org/pdf/2501.13956
https://blog.getzep.com/state-of-the-art-agent-memory/


