大模型再爆弱點!舊記憶忘不掉,新記憶分不出,準確率暴降|ICML’25


新智元報道  

編輯:LRST
【新智元導讀】大模型有苦惱,記性太好,無法忘記舊記憶,也區分不出新記憶!基於工作記憶的認知測試顯示,LLM的上下文檢索存在侷限。在一項人類穩定保持高正確率的簡單檢索任務中,模型幾乎一定會混淆無效資訊與正確答案。
人們越來越意識到,大語言模型(LLM)裡「找資訊」這件事,並不是簡單地翻字典,而和「寫資訊」的能力緊緊綁在一起。
一般認為,給模型塞入更長的上下文就能讓它找得更準,不過上下文內部存在「互相干擾」,但這種現象卻很少被研究。
為了看清這個問題,弗吉尼亞大學和紐約大學神經科學中心研究人員借用了心理學裡的「前攝干擾」(proactive interference)概念:先出現的資訊會妨礙我們回憶後來更新的內容。
在人身上,這種干擾越強烈,往往意味著工作記憶容量越小。
於是,研究團隊使用認知科學經典範式設計了一個新的測驗PI-LLM,像播放連續劇一樣,把一組語義相關的「鍵key—值value」配對(例如「key蘋果,value紅色」)依次餵給模型,並不斷更新這些值;最後只問模型「某個key對應的最新value是什麼」。
雖然最新value就放在提問前一句話的位置,隨著前面干擾項的增加,模型的正確率卻以對數速度一路跌到接近零,其中錯誤的主要來源是模型把舊value當成了新答案。
研究人員嘗試用提示工程,比如明確告訴模型「請忽略前面所有舊資訊」,但效果有限。
這說明,LLM面對干擾時,並不只是「讀到」或「讀不到」的問題,而是像人類一樣存在「工作記憶瓶頸」:即使上下文觸手可及,它們也難以靈活地壓制無關資訊。
下一步,也許需要新的方法,讓模型學會在檢索時主動「忘掉」不該用的內容。
論文連結: https://arxiv.org/abs/2506.08184
倉庫連結: https://github.com/zhuangziGiantfish/Unable-to-Forget
互動式演示: https://zhuangzigiantfish.github.io/Unable-to-Forget/
這篇論文發現了一個影響所有大語言模型(LLM)的資訊檢索問題。
該任務對人類沒有難度,但是所有LLM均出現顯著錯誤,並對全域性記憶(memory)和長推理任務(long reasoning)造成顯著損害。
論文已被 ICML 2025 Workshop on Long Context Foundation Models接收。
該研究由王楚培(弗吉尼亞大學物理學士,具哲學背景的跨學科研究者)與孫嘉秋(紐約大學神經科學中心博士生,師從上海紐約大學神經與認知科學副教授-紐約大學全球特聘副教授田興)共同主導。共同第一作者,共同通訊作者。兩位作者分別具備物理、建築與哲學的多元背景,致力於從認知系統崩潰點探索智慧本質。
鄭喆陽(Flatiron Institute CCN 客座研究員、紐約大學博士生)與鄺一倫(紐約大學 CILVR Lab 博士生,導師:Yann LeCun)在專案的發起與推進過程中,提供了關鍵性的諮詢和建議。

實驗核心設定
任務資料input
假設給模型一串常見的動態更新的資料(key-value pair),比如:
「Blood Pressure=120, Bp=135, Bp=119」
LLM任務Query
血壓(BP)的最後一個數值(value)是多少?
結果
目前所有主流LLM(從最新的 GPT-4.1、Llama-4、DeepSeek-V3,到Llama-3、Qwen-2.5等,引數規模從0.6B到600B+不等)都無法穩定地提取最後一個數值,而且錯誤方式呈現出明確的數學規律呈現對數下降。
討論
對人類來說,這個任務非常簡單,答案顯而易見是最後一個值119。因為本任務沒有搜尋難度。
這種任務模式在金融(賬戶餘額變化)、醫療(生理指標跟蹤)、等所有需要追蹤動態資料的領域中都極為常見

實驗結果

核心發現:普適的衰減曲線
隨著更新次數增加,所有模型的準確率都呈現一致的對數線性下降(log-linear decline)。
隨著干擾增多,準確率最終穩定地降至0%。此時,所有模型徹底失靈,100%產生幻覺(hallucination),100%無法給出正確答案。
這種一致的衰減模式跨越了模型架構、規模和訓練資源的差異,強烈暗示問題的根源可能位於Transformer架構或其所依賴的注意力機制等基礎層面。
當語言模型需要在大量語義相似的干擾項之後檢索特定目標資訊時,其檢索準確率會顯著且持續地降低,這種對數線性下降趨勢在所有主流模型中均被觀察到。
LLM-PI測試的基本輸入示例:模型需要處理一段連續更新的鍵值key-value資訊流(如「visual art」對應多個值),並在更新結束後準確檢索出每個鍵對應的最終值(圖中以加粗顯示)。

實驗設定
測試中要求模型處理1到46個不同的Key,每個Key的更新次數在1到400次之間。
隨機,亂序混合這些更新,然後模型正確提取每個key 的last vale(最新值)的正確率

與人類對比
這一任務的設計本質上非常簡單:
(1)不涉及複雜的搜尋
(2)不存在邏輯上的難度
人類可以輕鬆調整注意力,只關注最新資訊,上文內容干擾程度有限
分析錯誤答案顯示,模型經常錯誤地提取了無關的上文更新值作為最終答案,這表明當前的LLM在處理此類資訊流時難以有效忽略或過濾掉非目標(舊)資訊。
進一步的錯誤分佈分析揭示,LLM表現出類似有限工作記憶容量的行為模式:它們似乎在有限的表徵空間內記錄鍵值對,一旦更新次數超出該容量,檢索效能便會徹底失效。
研究人員還發現,有多種方式可以觸發搜尋失敗,均具備相同的對數衰減曲線:1) 增加同時追蹤Key的數量,或者2)增加配對Value的token長度
這些現象均會對LLM檢索任務準確性造成顯著影響,同時在人類實驗中雖也發現類似現象,但人類的工作記憶並不會在這類任務中徹底失效

現象解讀:「Unable to Forget」
大模型無法忽略或者忘記無關資訊,從而造成徹底搜尋失效:
尤為反直覺的是,即使採用最直觀的自然語言干預策略,例如在輸入中明確提示答案所在區域,或直接告訴模型「專注最新更新」或「忘記之前資訊」,也無法顯著改善模型表現。
這說明干擾效應強大到足以覆蓋明確的自然語言指令,迫使模型不得不關注舊資訊。
由此可以知道,要對抗干擾,很可能需要對模型架構本身或訓練正規化進行根本性調整,而非僅依賴提示工程。

LLM為何難以穩定提取最新資訊?
對錯誤的分析表示,LLM的失敗並非隨機失誤,而是系統性地受到反覆更新的影響。
隨著干擾量的增加,錯誤呈現清晰的階段性演變:
初期:鄰近干擾佔主導,檢索錯誤來源主要是緊鄰末尾的value。
中期:干擾範圍擴散,錯誤來源顯著擴大到全文任何區域的value。
後期:徹底混亂,模型輸出高度分散和大量檢索到從未輸入的值。
將模型對某個鍵的響應按其值在更新流中的位置(分11個區間,Bin 1最早 – Bin 11最終)進行統計。
結果顯示:隨著更新次數增加(左→右面板),正確命中最終值(土黃)的比例驟降。 更值得注意的是,錯誤響應從主要聚集在最終更新附近(如Bin 10-11,可能是混淆相鄰更新),逐漸轉變為分散到更早的區間(Bin 1-9)。
此外,返回不存在值(「幻覺」,淺灰)和未返回值(「失效」,深灰)的錯誤也急劇增加,共同描繪出資訊過載下模型記憶檢索系統的崩潰圖景。

Top-Down調控的徹底失效
與人類截然不同,LLM在此類提取任務的表現,幾乎不受「自上而下」(Top-Down)prompt提示的影響。這也解釋了為何思維鏈(CoT) 模型在此問題上沒有效能改善。
自然語言prompt失效: 本文測試了多種提示詞(prompt)變體,明確引導模型關注最新資訊或忽略歷史干擾(例如,明確標註答案區域、「專注下文」或指令「忘記之前內容」)。結果: 所有自然語言干預措施,均未能顯著提升模型在的提取準確率,也未能改變的log-linear正確率衰退模式。干擾累積時,模型依然頑固地滑向徹底錯誤(0%正確率)
CoT模型沒有改善,即使不設限制的讓模型輸出冗長的的推理過程(CoT),其提取錯誤率曲線與不使用CoT的基線模型幾乎完全重合。這表明,推理無法有效提升模型抵抗上下文資訊干擾的能力。
這說明,干擾資訊對模型行為的影響超越了自然語言指令所能引導或抑制的範圍。模型「理解」了指令(如聲稱要專注最新值),但在實際操作中無法有效執行,仍被歷史資訊強力牽引注意。
問題觸及架構或訓練根本: prompt 和CoT模型的無效性暗示,僅靠提示工程(Prompt Engineering)無法根治此問題。很可能需要在模型架構設計(如注意力機制、記憶模組)或訓練目標/方法(如引入抗干擾的顯式訓練訊號)層面進行創新性調整。這指向了未來研究的一個關鍵方向。
思維鏈(CoT)模型對提升資訊檢索抗干擾能力幾乎無效。啟用CoT的版本(虛線)效能曲線與其基礎模型(實線)高度重合或更差。證實:干擾導致的檢索失敗是底層機制問題,無法透過附加的「思考」過程克服。
上圖展示了五種不同的自然語言干預策略(如指令模型「忘記」特定鍵歷史、提示關注後續資訊、自我評估相關性、軟會話重置以及技術性的Mock QA重置),它們被設計插入到資訊流後期以試圖對抗干擾。
然而實驗表明,所有這些提示工程策略均未能有效緩解資訊過載導致的檢索效能崩潰,對數衰減模式依舊,突顯了現有自然語言干預的侷限性。

Unable to Forget
此外受LLM提示劫持(Prompt Hacking)的啟發,研究人員設計了一種非自然語言的對抗式提示策略(adversarial prompting),透過構造具有欺騙性的輸入,模擬模型自身的回覆格式和邏輯
在輸入中構造一段虛假的人機對話,暗示所有上文更新都屬於另一個已被回答完畢的舊問題。
這種「欺騙性上下文隔離」策略部分提升了正確率,但提升後的正確率依然遵循log-linear decay規律。
這說明:LLM無法真正「忘記」或忽略那些造成干擾的資訊,只能透過特定輸入形式進行一定程度的「遮蔽」。
上圖揭示了關鍵結果:旨在緩解干擾的自然語言提示策略(實線)效果普遍微弱,在高更新量下與基線(黑線)效能曲線幾乎無區別,部分策略反而有害。唯一例外是結構化hack-Mock QA重置(橙色虛線),作為人為設計的「hack method」,它帶來了實質性提升,但仍無法阻止準確性隨資訊量增長的整體下滑。

「干擾」作為獨立變數
不同於業內通常認為的輸入文字長度導致注意力稀釋,本文控制變數實驗證明。
模型效能的下降主要由干擾強度驅動,而非單純由文字長度引起。
具體來說,即使固定輸入文字長度,控制干擾強度,LLM的錯誤率依然表現出對數上升。
該實驗對LLM在MRCR測試中的不良表現提供瞭解釋角度
DeepMind 的 MRCR 和 OpenAI 的 Open MRCR透過模擬測試 在長文字中插入大量相似項,揭示了 LLM 區分相似資訊的弱點。
該工作提供了互補且更底層的視角,並證明不需要海量資訊也可以觸發檢索錯誤:MRCR測試所稱為的共指消解(coreference)對應人類認知領域的干涉(interference)現象。
研究人員定量剝離出「干擾」(Interference)作為核心獨立變數,直接證明其對效能的因果性負面影響。
結果揭示了此類任務失敗的核心驅動因素之一是模型的抗干擾容量(Anti-Interference Capacity)不足,並提供了精確的量化分析框架(log-linear decay)
OpenAI 在 GPT-4.1 文件中指出,客戶(尤其在法律、金融領域)高度關注頻繁更新並提取資訊的任務。(連結Introducing GPT-4.1 in the API)。
研究人員直接指向了MRCR的底層挑戰之一不僅是海量資訊的搜尋造成的,而是LLM在interference資訊面前的檢索失效造成的。
實驗同時對認知科學角度提供了對比:
認知科學的橋樑:該測試在認知科學領域(proactive interference 測試)被廣泛用於衡量人類工作記憶(Working Memory)容量和抗干擾能力。
實驗採用了嚴格對應認知科學的實驗正規化。
因此,結果可被解讀為:LLM表現出某種類似工作記憶的有限容量機制,其「抗干擾容量」(Anti-Interference Capacity)是衡量該機制強度的關鍵指標。
LLM的普遍失效,強烈暗示其目前尚缺乏人類般有效進行 Top-Down 控制、以最佳化利用上下文資訊的能力。
任務要求極其明確,搜尋難度極低(理論上最利於 LLM)。提升這種能力,對於增強 LLM 在金融、醫療監測等依賴動態資料追蹤的任務中的基礎可靠性至關重要,也對執行long reasoning (長推理)的能力提供可靠性支援。

核心結論
LLM目前不具備人類水平的Top-Down資訊關注和處理控制的能力,尤其是在需要抵抗語義相似的上下文資訊干擾、精確提取資料的場景下無法穩定工作。
ICML評審意見也認可了該研究揭示了一個此前未被發現的LLM檢索失敗現象,採用認知科學啟發的測試設計方法,具有顯著新穎性。
參考資料:
https://arxiv.org/abs/2506.08184


相關文章