ICML2024|探究知識編輯對大語言模型的近鄰擾動

論文標題：

Neighboring Perturbations of Knowledge Editing on Large Language Models

論文連結：

https://arxiv.org/pdf/2401.17623

程式碼連結：

https://github.com/mjy1111/PEAK

引言

儘管大型語言模型（LLMs）具有出色的能力，但由於錯誤或過時的知識，它們很容易產生幻覺。由於重新訓練 LLM 的資源消耗大，當下很多工作關注知識編輯。它可以在不重新訓練模型的基礎上，去修改模型的引數知識。然而，當前的方法和評估主要關注新的知識是否被模型記憶，很少探索編輯對鄰近知識的擾動。

本文研究將新知識更新到模型中是否會擾亂其中封裝的近鄰知識。具體來說，如圖所示，作者試圖弄清楚將新答案附加到事實問題的答案列表中是否會導致災難性地忘記此列表中的原始正確答案，以及無意中引入錯誤答案。

本文引入了新的可加性指標，並構建了附加知識擾動評估（PEAK）的基準，以評估附加新知識時對鄰近知識的擾動程度。此外還提出了一種即插即用的框架 APP 來減輕鄰近擾動。在多個大模型和編輯方法上的實驗證明了 APP 的有效性。

可加性

首先介紹此前的三個重要指標如何評估知識附加：

有效性（Efficacy）：編輯後模型能夠召回附加的知識。
泛化性（Generalization）：編輯後的模型對附加後的知識在語義相同的不同 prompt 進行泛化。
區域性性（Locality）：編輯後與附加知識無關的知識應該保持不變

除此之外，本文設計了一種新的指標：可加性（Additivity），來衡量編輯後模型受到的近鄰擾動程度。

本文研究事實性三元組知識。

給定一個問題及它的原始答案，一些錯誤的答案，以及一個待追加答案，編輯前的模型，編輯後的模型。可加性研究原始正確知識是否還保留，而部分錯誤知識是否在編輯後被無意地包含進去。可加性包含兩個維度：答案的相對排序和答案的絕對機率變化。

1）物件的相對排序：

編輯前後正確答案列表的最小機率應該大於錯誤答案的最大機率。

首先使用了錯誤答案列表的最大機率作為閾值，計算原始正確答案列表中機率低於該閾值的物件所佔的比例，稱為排序遺忘因子（RFF）：

同理使用正確答案列表的最小機率為閾值，計算錯誤答案列表種機率高於該閾值的比例，稱為排序噪聲因子（RNF）：

2）答案的絕對機率變化：

除了滿足相對排序的假設外，還需要表徵其絕對機率的變化。即使相對排序保持不變，如果絕對機率發生意外變化，也會對編輯模型造成重大損害。首先引入正確機率變化（CPC）來表徵這一問題，定義為編輯前後正確知識平均機率的比率：

同理引入錯誤機率變化（FPC）：

最後，將排序和絕對機率這兩個維度結合起來，使用可加遺忘因子（AFF）表示編輯後正確答案在擾動中被遺忘的程度：

這個定義說明，輯後正確知識的機率沒有下降（CPC>=1），那麼 AFF 等於 RFF，否則 CPC 和 RFF 的負面影響會疊加，導致 AFF 超越 RFF。AFF 的值越大，負面影響越大。

可加噪聲因子（ANF）表示編輯後錯誤答案被引入的程度：

資料集

本文設計了 PEAK 基準來評估編輯過程中對鄰近知識的擾動程度。它包括兩個資料集 PEAK-CF 和 PEAK-T。前者為一個反事實資料集，用於評估反事實附加的知識編輯方法。後者是於現實世界變化的時間知識編輯。

3.1 反事實資料集PEAK-CF

該資料集基於 Wikidata，首先收集了一些 relation 以及對應的三元組，將三元組中具有相同主體 s 和關係 r 的聚合一起得到。

在構建時，選取一個三元組和一個反事實答案。為了評估此前的有效性，使用 s 和 r 構建編輯 prompt ，對於泛化性，則使用 ChatGPT（gpt-3.5-turbo）生成相同語義的 prompts ，對於區域性性，選取的是無關的知識對應的。

為了評估可加性，這裡需要取樣一些錯誤的答案，本文有兩種取樣設定：Hard 和 Random。對於第一種設定，取樣的錯誤答案是與新的新增的答案語義上有直接聯絡的，而第二種設定則相反。直覺上，Hard 設定下的錯誤樣例更容易被在編輯時被意外引入。

3.2 時間資料集PEAK-T

該資料集的構建與反事實資料集類似，區別在於使用了 YAGO 知識庫，並且取樣的知識是在大模型釋出之後發生的。

下圖是一個編輯的樣例：

最後資料集的統計如下：

方法：透過儲存和預防追加（APP）

附加知識過程中的相鄰擾動可能會導致原始正確知識的遺忘，以及無意中包含噪聲。本文提出了一種即插即用框架 APP 來改進現有的編輯方法，以減輕編輯中的這種損害。

給定待新增的知識，以及編輯 prompt ，現有的編輯方法通常有編輯目標以引入新知識。APP 設計了一組可與相結合的編輯目標，以最大限度地減少相鄰正確和錯誤知識的機率擾動。一方面，新的編輯目標旨在保持問題的原始正確答案的機率與錯誤答案的機率之間的一定差距：

這裡的指編輯過程的中間模型，N 和 M 分別表示正確答案和錯誤答案列表中元素的數量。

另一方面，它確保在編輯過程中正確答案的絕對機率不會減少，而錯誤答案的絕對機率不會增加，這可以概念化為兩個目標：

表示如果在編輯過程中正確答案的機率下降，則損失等於對數機率下降值，否則為 0。類似。

最後這些最佳化目標與聯合最佳化：

其中，和是超引數。

實驗

5.1 實驗設定

考慮到計算資源有限，PEAK-CF 資料集是在 GPT-2 XL（1.5B）和 LLaMA-2（7B）上進行的。PEAK-T 是在 GPT-2 XL 和 GPT-J（6B）上進行的。本文選取五種流行的知識編輯方法作為基線，包括 FT、KN、 MEND、ROME 和 MEMIT。

5.2 主要結果

如下圖所示是在 PEAK-CF 上的實驗結果（PECK-T 結果見論文），主要從以下幾個角度分析：

編輯新目標知識的效能。除 KN 外，其他編輯方法在有效性（ES）和泛化性（GS）方面表現良好，表明大多數現有編輯方法能夠有效地新增新的目標知識。對於區域性性（LS），定位-編輯方法（KN、ROME、MEMIT）明顯優於其他方法，表明它們對無關知識的干擾很小。此外，隨著模型尺寸的增加，特定編輯方法在新增新事實方面的效能不斷提高。

編輯對鄰近知識的擾動。本文驚訝地發現，現有的編輯方法在編輯後會顯著擾動 LLM 中與目標知識相鄰的知識，損害原始正確知識的完整性並引入意外的噪音。以 ROME 在 PEAK-CF 上編輯的 LLaMA-2 為例，儘管它在之前的指標評估中表現出色，但在 Hard 設定中，它的表現卻非常差，分別為 93.05% AFF 和 82.47% ANF。

APP 框架對擾動的緩解。如表 3 底部四行所示，APP 與四種編輯方法相結合。總體而言，APP 在以前的編輯指標方面幾乎沒有下降，並且在 Hard 和 Random 設定下大大減輕了 AFF 和 ANF 方面的鄰域擾動。特別是，ROME+APP 和 MEMIT+APP 在新增新知識方面仍然表現良好，與原始編輯方法相比，擾動減少最為顯著。

這些結果可以得出結論，APP 有效地保留了原始正確知識的完整性，並防止了在新增新知識時引入錯誤知識。儘管可加性有了顯著改善，但仍遠低於令人滿意的水平，凸顯了所提出的鄰近擾動的嚴重性和複雜性。應對這一挑戰需要社群的共同努力。

5.3 答案機率變化

為了進一步分析編輯模型中的鄰近擾動和提出的 APP 的機制，下圖說明了在 PEAK-CF 上用不同方法編輯的 LLaMA-2 模型中正確和錯誤答案的平均機率。這裡可以得出兩個結論。

現有的編輯方法嚴重擾亂了機率。與原始 LLaMA-2 相比，正確答案的機率顯著下降，而錯誤答案（Hard）的機率增加了很多，尤其是對於 MEMIT 和 ROME。與錯誤答案（Hard）相比，編輯後錯誤答案（Random）的機率的偏移明顯較小，這表明與新附加答案聯絡更緊密的錯誤答案值得更多關注。

APP 有效地緩解了機率擾動。將現有的編輯方法與所提出的 APP 結合起來後，正確和錯誤答案的機率擾動都得到了顯著緩解。這些結果解釋了為什麼 APP 可以有效地緩解擾動，從而保留正確的知識並防止包含錯誤的知識。

總結

本文研究了大模型上知識編輯的鄰近擾動。引入了可加性度量，並構建了 PEAK 的基準來評估鄰近知識的擾動程度。提出了一種即插即用框架 APP，透過最小化知識附加過程中的機率中斷來緩解擾動。對各種知識編輯方法和大模型的綜合實驗表明，它們在編輯過程中不可避免地會擾動鄰近知識，此外所提出的 APP 方法在一定程度緩解了這種擾動。

更多閱讀