AI失憶術!只需3個注意力頭,就能讓大模型忘記「狗會叫」


新智元報道  

編輯:海狸 英智
【新智元導讀】AI也能選擇性失憶?Meta聯合NYU釋出新作,輕鬆操控縮放Transformer注意頭,讓大模型「忘掉狗會叫」。記憶可刪、偏見可調、安全可破,掀開大模型「可編輯時代」,安全邊界何去何從。
大模型在預訓練階段「讀萬卷書」,幾乎囊括了全網的知識與語料。
但你有沒有想過:我們能否讓它「選擇性遺忘」某些事實,甚至是常識性事實,比如「狗會叫」?
近日,Meta和紐約大學的研究團隊釋出了突破性論文《From Concepts to Components》,首次揭示了在 Transformer架構下,精準定位並控制AI認知模組的突破性方法。
論文連結:https://www.arxiv.org/pdf/2506.17052
也就是說,我們不僅可以知道「狗」這個概念在模型裡具體「存在於哪些部位」,還可以用一個引數輕鬆精準放大或抹除它的影響力!
以GPT、LLaMA為代表的Transformer模型在語言理解、影像識別等領域取得了驚人成就,但它們的工作機制卻像一個神秘的黑箱。
這帶來了兩大問題:一方面,我們無法解釋模型為何會產生特定輸出,難以排查偏見或錯誤。
另一方面,當需要調整模型行為(如增強推理能力或提升安全性)時,只能透過海量資料重新訓練,效率極低。
紐約大學計算機科學教授Julia Kempe指出:「當模型在醫療診斷、自動駕駛等關鍵領域應用時,可解釋性不僅是學術問題,更是安全剛需。如果不能理解AI如何做出判斷,就無法真正信任它。」
論文中的引數調整立竿見影。
在研究者讓模型「忘記」狗會叫之後,模型真的忘記了這個常識,並輸出了「蜂鳥會叫」、「蝴蝶會叫」等「胡言亂語」:
研究團隊提出的SAMD(可擴充套件注意力模組發現) 和SAMI(標量注意力模組干預) 方法相輔相成。
前者能像CT掃描一樣定位模型中負責特定概念的注意力模組,後者能像精密手術一樣微調強度,實現精準控制。

概念控制術
如何定位AI的認知模組?
研究團隊實現概念的定位和權重調整主要依賴於兩大關鍵技術。
SAMD的靈感來自一個簡單而深刻的洞察:Transformer中的每個概念,都對應著一組特定的注意力頭組合。
這是一種無需預設標籤的通用方法,能將任意概念(例如「狗」或者「法語」)編碼成向量,並透過與每個注意力頭計算餘弦相似度,找到高度相關的top-K模組。
具體來說:
  1. 概念向量化:將任意概念轉化為數學向量。對於「狗」這個概念,可以生成一個能代表「狗」的特徵向量;像「推理」這樣的抽象概念,則可以利用思維鏈(CoT)提示資料集來構建向量。
  2. 注意力頭相似度計算:Transformer模型通常包含數十層,每層有多個注意力頭。SAMD會計算概念向量與每個注意力頭輸出的餘弦相似度。
  3. 模組構建:選取相似度最高的top-K個注意力頭(通常只需3-10個),組成該概念的專屬模組。這些關鍵注意力頭往往集中在模型的特定層,形成有規律的空間分佈。
這種方法不僅適用於語言模型,在視覺Transformer(ViT)上同樣有效。

給AI「調參」
精確控制模型行為
另外一個是SAMI(Scalar Attention Module Intervention)。這是團隊提出的大模型「概念控制術」的核心。
SAMI方法簡潔而高效,僅透過一個標量引數,就能放大或減弱特定概念的影響,無需修改模型權重或重新訓練。
只需對上一步SAMD中定位到的這些注意力頭的輸出加一個係數(如×0.1或×10),即可放大或抹除某一概念在模型輸出中的作用。
簡單來說,只要你告訴模型忘記指定概念,如「狗是會叫的」,它就真的記不起來了。
SAMI的工作原理類似於調節音響的音量旋鈕:當引數s>1時,相當於放大模組的輸出,增強對應概念的影響力;當s<1時,則減弱模組作用。
這種干預直接作用於殘差流計算,透過調整特定注意力頭的貢獻強度來改變最終輸出。

10個注意頭,輕鬆調語義
讓大模型忘記指定概念的「失憶手術」流程可拆解為三步。
首先,研究者使用Supervised Autoencoder(SAE)對模型的中間層特徵空間進行編碼,提取出某一語義概念的向量表示。
這個過程可以理解為,給出一個概念,用一組神經特徵刻畫它。
接著,SAMD(Scalable Attention Module Discovery)方法將概念向量與每一個注意力頭輸出進行餘弦相似度計算,找出最相關的top-K模組。
這一過程的目的是在模型中「定位知識的儲存位置」。例如,下圖中「French」概念對應的是第15-26層的5個 attention head。
最後,SAMI(Scalar Attention Module Intervention)直接對上述模組的輸出進行干預。
只需乘以一個縮放因子(如×0.1或×10),即可有效「抹除」或「放大」該概念的表達。
這一干預效果立竿見影,除了忘記「狗會叫」外,還能讓模型在「忘記San Francisco」後胡亂生成與地理無關的城市名。
透過這三步,研究者驗證了概念模組的存在性和AI可控記憶的可行性。
更顛覆的是,團隊發現:一個複雜概念,往往只由3-10個注意力頭承載。
這個發現把Transformer的可解釋性推向了新的高度:大模型的知識儲存高度稀疏、具備極強的可干預性。
可以用類似「調音臺」的方式,精確控制每一個語義模組的「響度」。

實驗結果
研究團隊在四種典型場景中驗證了方法的有效性,覆蓋從簡單概念到複雜能力,從語言模型到視覺模型。

稀疏自編碼器(SAE)特徵
利用SAE提取的可解釋特徵,研究人員測試了「狗」「舊金山」等四個概念。
透過SAMD定位的模組在干預後表現出一致規律:
  • 負干預(s=-1)會顯著減少概念出現頻率,甚至導致模型錯誤識別(如將「會汪汪叫的動物」回答為「蜂鳥」);
  • 正干預(s=10⁴)則會引發概念重複,如 「舊金山」模組被放大後,模型會連續四次重複「舊金山以金門大橋聞名」。
如此靈活的「調音效果」令人驚喜,但也讓人「細思恐極」。
這給個性化微調大模型、提高模型特定維度能力打開了全新的思路。

增強數學推理能力
在GSM8K數學推理資料集上,研究人員透過SAMD定位了LLAMA-3.1-8B-INSTRUCT和GEMMA-7B-BASE的推理模組。
當用s=1.4和s=1.2進行正干預後,前者準確率從84.61%提升至85.44%,後者從54.36%提升至56.71%。
這種增強並未以犧牲其他能力為代價。在常識問答(Commonsense QA)、程式碼生成(Humaneval+)等測試中,模型效能幾乎沒有變化。
這表明SAMI能夠精準增強目標能力,避免了傳統訓練方法的顧此失彼。

安全模組與越獄控制
透過對比有害和無害提示資料集,研究團隊在Llama-2-Chat-7B等對齊模型中定位了「安全模組」。
該模組主要分佈在模型的中間層(11-18層),包含10個關鍵注意力頭。
當對安全模組施加負干預時,模型的越獄率顯著提升。
在HarmBench基準測試中,Llama-2的攻擊成功率飆升至71.1%,超過了GCG(34.5%)等現有攻擊方法。
在放大安全概念時,模型陷入了「safety/saf/cert」迴圈。
而在抑制安全概念的負干預下,模型欣然回答了「如何製造炸彈」的有害請求,實現高效「越獄」。
這些發現為AI安全研究提供了新方向:與其試圖透過海量資料訓練讓模型學會拒絕有害請求,不如直接增強其安全模組的敏感性。
正如研究中指出的:安全不是與生俱來的能力,而是可以精確調控的認知模組。

ViT的概念操控
ViT-B/32視覺模型上的實驗進一步證明了方法的跨模態能力。
研究人員成功定位了200 個ImageNet 類別的識別模組,每個模組僅由3個注意力頭組成。
當調整「打火機」類別的模組引數時,模型對該類別的識別錯誤率飆升至100%,而對其他類別的平均錯誤率僅上升約15%。
這意味著未來可能實現精準失能,例如讓自動駕駛系統暫時忽略特定干擾物,同時保持對其他物體的識別能力。
未來,AI或許不再是一個神秘的黑箱,而是由無數可理解、可調控的模組組成的智慧系統。
參考資料:
https://x.com/karen_ullrich/status/1942580999566811457
https://www.arxiv.org/abs/2506.17052


相關文章