MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

轉載自 | RUC AI Box

作者｜湯奕如@中國人民大學

研究方向｜大語言模型

大語言模型在自然語言處理方面表現出令人印象深刻的能力。然而，大模型內部機制仍然不明確，其缺乏透明度的黑盒特性給下游應用帶來了不確定的風險。因此，理解並解釋LLM內部的執行機制對於設計更好的模型結構，提高模型在下游任務上的表現效能十分重要。本文將介紹大模型可解釋性的幾種研究方法和相關論文。

1. 迴路分析

迴路分析方法通常假設模型裡面的只有部分的引數是重要的，因此可以將模型簡化為一個稀疏的電路。那麼具體如何去找這個電路呢？比較通用的方法是構建計算圖，論文[1]定義了一個比大小的簡單任務，並透過構建計算圖來理解大模型對於數值比較的內部機制，該方法視模型內各層的注意力頭和前饋神經網路為計算圖的基本節點，並透過觀測節點對於預測結果的影響來定影計算圖的邊，具體來講，對於特定的節點，我們會觀測移除該節點前後語言模型預測 logits 的變化，如果對預測結果影響不大，那麼就認為該節點對該能力沒有貢獻，並在計算圖中去除與該節點關聯的邊，經過迭代遍歷後，就能得到最終的計算圖。該論文用測試集進一步驗證了構建迴路的正確性，即發現如果對計算圖中的重要節點所在的邊進行干預的話，會使模型在下游相關任務上的效能顯著下降，而如果幹預不重要的模型模組，那麼效能表現變化則不明顯。

論文[2]也採用了類似方法，探索了不同任務下的模型內部的知識迴路構建，並探究了不同場景下（如知識編輯、幻覺、上下文學習）知識迴路的變化，例如，作者透過不同知識編輯方法下模型內部知識迴路的變化發現，對模型內部引數進行直接編輯很可能會影響與之無關的知識迴路，進而導致意料結果的的偏差，而透過對比不同上下文場景下知識迴路的變化，作者發現合理的示範示例有助於啟用模型內部與任務相關的知識迴路，進而提高模型在下游任務中的效能表現。

此外，還有一些別的類似研究，如論文[3]介紹了一種自動建立迴路的方法、論文[4]透過對比原模型和微調後模型的迴路，發現微調透過增強推理時的相關機制來提高模型在下游任務上的效能。總結來說，這類方法通常以模型某層的注意力頭或者前饋神經網路作為基本模組，透過搭建計算圖來解釋模型處理相關任務時內部各模組的功能和他們各自之間的相互作用。

2. 因果追蹤

因果追蹤核心思路是是追蹤模型在處理資料時的因果鏈路，即輸入變數如何透過一系列中間變數影響最終輸出，以分析模型中對於輸出貢獻較為重要的模組。透過逐層追蹤輸入在模型內部的傳播鏈路，我們可以分析模型中每個中間狀態（如某些隱藏層的神經元啟用）如何影響最終輸出。

大部分這類工作的方法起源於ROME[5]，這篇工作透過因果追蹤的方法，識別並定位了模型在處理事實語句過程中事實關聯在模型內部所處的位置，並提出了一種稱為ROME的方法，該方法能夠透過對MLP模組進行微小的修改，來精確編輯模型內事實關聯知識，並使模型在不同語境下都能正確應用編輯後的知識。實驗證明，ROME修改後的模型具有很好的專一性和泛化性，這表明模型真正理解了新知識，而不是對新資訊的簡單重複。

受ROME啟發，Memit[6]在其基礎上進一步提出了一種能夠同時為大模型注入大量知識的方法，ROME揭示了模型知識的儲存與提取主要發生在中間層的MLP層中，因此該方法主要聚焦於對中間層的MLP進行操作，從而達到向大模型注入知識的目的。進一步的，為了防止模型發生遺忘，Memit額外增加了模型引數關於原有知識的約束。這樣編輯後得到的模型仍然能夠保留對原有知識的記憶。

此外，還有很多其他類似研究，例如，論文[7]將適用於transformer模型的因果追蹤方法的模型拓展到了Mamba上，並得出了類似結論，論文[8]以資訊流的視角研究模型內部如何聚合主語和關係資訊以檢索和提取內部的知識，並分析模型各個模組在預測next token中的作用，論文[9]探究了大模型進行算數運算時的內部資訊的流動過程，這篇論文透過對注意力頭進行干擾以及對內部神經元進行對比分析的方法定位算數運算中的重要引數。

總結來說，因果追蹤的實現方法多種多樣，但主要思路是透過干預來測試和驗證模型內部的因果關係，通常包括以下步驟：

（1）在模型中選擇一個或多箇中間變數，這些變數通常為輸入和輸出之間潛在的因果橋樑。

（2）對選擇的中間變數進行干預。

（3）觀察並對比模型在無干預的正常情況下和進行了干預的情況下的輸出的差異，如果變化明顯，那麼相關的中間變數和最終輸出很可能具有因果關係。

3.unmbedding space投影

論文[10]指出，transformer 中的前饋神經網路 ffn 的作用可視為根據 key vector 計算獲得的係數將 value vector 進行線性組合，其中 value vector 對應了特定的token機率分佈，key vector 用於計算機率分佈的啟用值。自然而然的，我們會想到，將 ffn 層的向量投影到unmbedding space上或許能獲得一些較強的可解釋性資訊，論文[11]對這一觀點進行了實驗探究，它將每個token表示看作詞彙表上不斷變化的分佈，每個FFN層將會對該分佈進行加性更新。具體來說，token 進入 FFN 層前後的表示式為 output=input+FFN(input) ，因此FFN層的輸出則為對詞彙表的更新，但是這個更新解釋性較差，因此作者考慮在此基礎之上將其分解為更小的子更新，即將各層的value vector投影到unmbedding space，並根據靠前的token對其進行concept標註（但注意並不是所有value vector都能標註concept），然後觀察FFN層中value vector對應的logit分佈變化對最終預測 token的影響。進一步的，論文[12]發現除了ffn層，模型內部的其他引數也可以投射到token空間中，這篇工作推匯出一種簡單的理論框架來支援所提出的論點，並證明訓練和微調模型的引數都可以在嵌入空間中得到解釋。

總結來說，這種方法通常情況下能對模型中間層隱表徵的變化有不錯的可解釋性，但是並非在所有條件下都能適用，比如淺層的相關表徵一般不具備較好的可解釋性，且模型內部同一個neuron-level引數可能具有多個作用，不能簡單將其解釋為單一的concept。

參考文獻

[1] Hanna M, Liu O, Variengien A. How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model[J]. Advances in Neural Information Processing Systems, 2024, 36.

[2] Yao Y, Zhang N, Xi Z, et al. Knowledge Circuits in Pretrained Transformers[J]. arXiv preprint arXiv:2405.17969, 2024.

[3] Conmy A, Mavor-Parker A, Lynch A, et al. Towards automated circuit discovery for mechanistic interpretability[J]. Advances in Neural Information Processing Systems, 2023, 36: 16318-16352.

[4] Prakash N, Shaham T R, Haklay T, et al. Fine-tuning enhances existing mechanisms: A case study on entity tracking[J]. arXiv preprint arXiv:2402.14811, 2024.

[5] Meng K, Bau D, Andonian A, et al. Locating and editing factual associations in GPT[J]. Advances in Neural Information Processing Systems, 2022, 35: 17359-17372.

[6] Meng K, Sharma A S, Andonian A, et al. Mass-editing memory in a transformer[J]. arXiv preprint arXiv:2210.07229, 2022.

[7] Sharma A S, Atkinson D, Bau D. Locating and editing factual associations in mamba[J]. arXiv preprint arXiv:2404.03646, 2024.

[8] Geva M, Bastings J, Filippova K, et al. Dissecting recall of factual associations in auto-regressive language models[J]. arXiv preprint arXiv:2304.14767, 2023.

[9] Yu Z, Ananiadou S. Interpreting arithmetic mechanism in large language models through comparative neuron analysis[J]. arXiv preprint arXiv:2409.14144, 2024.

[10] Geva M, Schuster R, Berant J, et al. Transformer feed-forward layers are key-value memories[J]. arXiv preprint arXiv:2012.14913, 2020.

[11] Geva M, Caciularu A, Wang K R, et al. Transformer feed-forward layers build predictions by promoting concepts in the vocabulary space[J]. arXiv preprint arXiv:2203.14680, 2022.

[12] Dar G, Geva M, Gupta A, et al. Analyzing transformers in embedding space[J]. arXiv preprint arXiv:2209.02535, 2022.

技術交流群邀請函