
新智元報道
新智元報道
編輯:KingHZ
【新智元導讀】來自UIUC等大學的華人團隊,從LLM的基礎機制出發,揭示、預測並減少幻覺!透過實驗,研究人員揭示了LLM的知識如何相互影響,總結了幻覺的對數線性定律。更可預測、更可控的語言模型正在成為現實。
大語言模型(LLMs)已經徹底改變了AI,但「幻覺」問題如影隨從,堪稱LLM癌症。
LLM會一本正經、義正辭嚴的捏造事實,「臉不紅,心不跳」地說謊。
「幻覺」被普遍認為與訓練資料相關。
但在掌握真實訓練資料的情況下,為什麼LLM還會幻覺?能否提前預測LLM幻覺的發生?
來自美國伊利諾伊大學香檳分校UIUC、哥倫比亞大學、西北大學、斯坦福大學等機構的研究團隊,在Arxiv上釋出預印本,提出了知識遮蔽定律(The Law of Knowledge Overshadowing):揭示、預測並減少LLM幻覺!
一作張雨季宣佈新發現,介紹了LLM幻覺的對數線性定律(Log-Linear Law),分享了最新研究成果:

此研究深入研究了LLM幻覺,有4大亮點:
1 發現幻覺的對數線性規律:幻覺率隨著相對知識流行度、相對知識長度和模型規模的對數線性增長
2 在訓練或推理前預測幻覺:在訓練前「知識遮蔽效應」可預測幻覺發生的可能性
3 提出全新解碼策略CoDA(Contrastive Decoding with Attenuation)強調被遮蔽的知識,降低主流知識偏差,大幅提升LLM事實性(Factuality)
4 更可預測、更可控的語言模型正在成為現實!研究加深了對LLM幻覺機制的理解,為未來的可解釋性與可控性研究開啟新方向

論文連結:https://arxiv.org/abs/2502.16143
LLM存在一種根本矛盾:
即使使用高質量的訓練資料,「幻覺」依舊存在。
要解決這一矛盾,需要對LLL的根本機制有更深入的理解。
為此,本次研究團隊提出了新概念:「知識遮蔽」,即模型中的主導知識可以在文字生成過程中,掩蓋那些不太突出的知識,從而導致模型編造不準確的細節。
基於這一概念,研究者引入了新的框架來量化事實性幻覺,透過模擬知識遮蔽效應實現。
事實性幻覺的發生率會隨著以下3個因素的對數尺度線性增加:(1)知識普及度,(2)知識長度,以及(3)模型大小。
基於這一規律,可以預先量化幻覺現象,甚至在模型訓練或推理之前,就能預見幻覺出現。
在遮蔽效應基礎之上,研究人員還提出了一種新的解碼策略CoDa,以減少幻覺現象,這顯著提高了模型在Overshadow(27.9%)、MemoTrap(13.1%)和NQ-Swap(18.3%)測試中的事實準確性。
新研究不僅加深了對幻覺背後基礎機制的理解,也為開發更加可預測和可控的語言模型提供了可行的見解。

什麼是「LLM幻覺」
LLM的「幻覺」指的是模型生成不真實或非事實陳述的現象。
給出提示「LLM幻覺」,AI自己可以解釋什麼是LLM幻覺:

排名第一的原因就是訓練資料問題。
然而,發現即使在嚴格控制預訓練語料庫僅包含事實陳述的情況下,這一問題仍然存在。
具體來說,在使用查詢提取知識時,觀察到某些知識傾向於掩蓋其他相關資訊。
這導致模型在推理過程中未能充分考慮被掩蓋的知識,從而產生幻覺。

知識遮蔽導致幻覺
「知識遮蔽」(knowledgeovershadowing)是指更常見的知識會抑制較少出現的知識,從而導致幻覺的產生。
為了系統地描述知識遮蔽現象,在訓練語料庫中,研究人員定義了知識對(knowledge pairs)。
具體來說,設
和
代表一對知識集合。


其中,K_A包含m個知識陳述樣本ka_i,而K_B包含n個知識陳述樣本kb_j。
在K_A和K_B中的每個陳述都透過一個共享的詞元集合X_{share}相關聯。
在知識集K_A中,每個宣告ka_i由一個共享的token序列Xshare、一個唯一的token序列xai和輸出Ya組成。
每個宣告kai表示為:

其中⊙表示將獨特的序列xai插入Xshare中(整合位置可以變化)。
同樣,對於不太受歡迎的知識集K_B,用xbj表示獨特的token序列,每個宣告kbj表述為:

當在推理過程中抑制獨特的token序列xbj或xai時,會發生知識遮蔽。
以xbj被遮蔽為例,當提示Xshare⊙xbj時,模型輸出Ya,形成
,錯誤地將事實宣告kai和kbj合併成事實幻覺,違背了地面真相
,如圖1所示。



為了測量由知識遮蔽引起的事實幻覺,引入了相對幻覺率R。
當KA是更受歡迎的知識集時,首先量化模型正確記憶來自KA的樣本的召回率,記為
。

然後,量化模型在xbj被遮蔽時產生輸出的幻覺率HR,記為
。

相對幻覺率R=HR/RR表示不那麼受歡迎的知識集由xbj編碼的知識被更受歡迎的知識集由xai編碼的知識抑制的程度。這個比率表示較不流行的知識(xbj)在多大程度上被較流行的知識(xai)所抑制。

圖2:大語言模型(LLMs)在一個具有可控變數S、P和L的合成數據集上從零開始預訓練。
在每個子圖中,透過改變其中一個變數進行實驗,同時保持另外兩個變數不變。
LLMs採用自迴歸(auto-regressive)方式進行訓練,並基於整句話計算交叉熵損失(cross-entropyloss)。
關於訓練資料的統計資訊、訓練引數及具體實現細節,請參考原文附錄A.1和A.2。

由於影響事實幻覺的潛在因素尚未被深入研究,從全域性和區域性兩個角度分析這些變數,重點關注導致「知識遮蔽」(overshadowing)效應的知識佔比。
當K_A比K_B更流行時,樣本數量滿足m>n。
全域性視角下,定義相對知識流行度(relative knowledge popularity)為P=m/n,該值表示在整個訓練語料庫中,某一知識的相對佔比。
區域性視角下,量化單個句子中知識的權重,定義相對知識長度(relativeknowledgelength)為:
其中,長度(length)是指token的數量。

此外,先前研究表明,擴大模型規模可以提升模型效能。因此,研究增加模型規模(S)是否能緩解事實幻覺現象。

何時會出現事實幻覺?
為了研究知識幻覺出現的條件,研究人員在以下三種情境下探測了知識掩蓋現象:
1、未經過額外訓練的開源預訓練LLM,
2、從零開始訓練一個新的LLM,
3、以及對預訓練LLM進行下游任務的微調。

研究人員探測了開源預訓練大語言模型Olmo和公開訓練語料Dolma,調查了模型幻覺與資料樣本頻率之間的關係。
結果表明,頻率更高的知識傾向於掩蓋頻率較低的知識。
這一發現與「高頻知識掩蓋低頻知識」的現象相一致,說明資料中出現頻率高的內容容易主導模型的輸出,從而導致幻覺。
當向語言模型提出包含多個條件的問題時,有研究報告稱,模型的回答往往只部分滿足這些條件。
為了驗證較流行的知識是否會遮蔽較不流行的知識,設計了一項探測實驗。
實驗使用了典型查詢句式,例如:「告訴我一些著名的<A><B>」。
其中A和B代表不同的條件,比如性別、種族、職業、性取向、國籍、時間等。
B條件的上下文關係趨勢與訓練資料中的提及頻率一致。
這些研究結果證實了,當知識不平衡滿足 m > n 時,就會出現事實性幻覺。
正如下表5所示,模型往往會優先滿足條件B,而忽略條件A,導致生成幻覺性回答。
值得注意的是,條件A通常存在一個更占主導地位的對應項。

表5:預訓練的OLMO模型在推理時產生的嚴重幻覺(可能具有冒犯性)。主導知識以粉色/藍色標註,被掩蓋的知識以橙色/綠色標註。

實驗設定:為了準確量化幻覺與其影響因素之間的關係,在具有受控變數設定的合成數據集上,研究人員從頭開始預訓練語言模型。
之所以這樣做,是因為現實世界訓練資料中,自然語言天生就有變異性和不精確性,無法以完全準確地列舉所有流行/不流行知識的表達形式。
對於每個受控變數實驗,從分詞器詞彙表中,取樣詞元來構建每個資料集,如表1所示。

研究人員從零開始預訓練每個LLM,使用表1中的資料集,共包含19.6億tokens,並在自迴歸(auto-regressive)方式下進行訓練。
同時控制變數,最佳化交叉熵損失(cross-entropy loss),直到模型收斂(訓練細節見原文附錄A.1)。
正如圖2所示,事實幻覺(factualhallucination)與知識流行度P、知識長度L和模型規模S呈對數線性關係:

其中α、β、γ、Pc、Lc、Sc為常數。
從圖2可以看出,幻覺率隨著相對知識流行度P、相對知識長度L和模型規模S的對數值線性增長。

更高的流行度會導致資訊被掩蓋:高頻知識會主導模型的學習,而低頻知識則更容易被忽略或錯誤替代。
更長的文字會導致資訊被掩蓋:在句子內部,如果x_{bj}的token長度短於X_share,它的語義邊界會變得不清晰,導致資訊被掩蓋。
更大模型導致資訊被掩蓋:在保持低頻知識的清晰語義區分方面,更大的模型的能力有所下降。最終可能導致低頻知識在生成過程中被忽略或誤用,從而增加幻覺(hallucination)發生的機率。

在上文中,研究結果基於預訓練模型。
對數線性規律(log-linear law)是否在微調LLM中依然成立?
對數線性規律是否可用作量化LLM產生幻覺的預測工具,尤其是在下游任務微調過程中?
具體來說,研究人員對引數規模從160M到13B的模型進行微調,涵蓋多種事實類任務,包括:
時間、地點、性別、否定查詢(negation queries)、數學和邏輯推理與知識衝突解析(knowledge conflict resolution)。
對於每個任務,研究人員生成:
(1)m組樣本,對應

;
(2)n組樣本,對應

。
為了嚴格控制微調後的知識分佈,研究人員使用人工構造的事實來生成查詢,以減少預訓練知識的干擾,從而能夠更加精準地評估對數線性規律中的P(知識流行度)和L(知識長度)。
表1展示了多個任務的知識對(k_a,k_b)示例,原文附錄A.2提供了更多資料集示例和統計資訊。


研究人員利用訓練LLM在受控的合成數據集上擬合出的對數線性規律(log-linear law),來預測經過微調後的LLM在不同下游任務中的幻覺率。
具體來說,研究人員使用該規律預測幻覺率R,並分析它如何隨以下變數變化(見圖3):模型規模S、相對知識流行度P、相對知識長度L。
隨後,研究人員比較預測的幻覺率與微調實驗中實際觀測到的幻覺率之間的差異。
研究人員使用相對預測誤差來評估對數線性規律的預測能力,其計算公式如下:

這一方法使研究人員能夠量化並預測LLM在不同微調任務下的幻覺現象,為最佳化和改進模型提供理論依據。
研究人員在圖4中可視化了不同任務中幻覺率的預測誤差,報告了平均相對預測誤差為8.0%。
對於L(知識長度)和P(知識流行度)的誤差略高於S(模型規模)。
這是因為儘管微調資料集包含了未見過的事實,但其中仍然存在一些與預訓練知識相似的語言表達,這對P和L的量化產生了輕微的影響,而S並未受到影響。
精確量化不準確的真實世界知識的流行度仍然是一個未解決的挑戰,研究人員將在未來的工作中進一步探討。


表2展示了一個案例研究,說明了最先進的大語言模型如何受到知識掩蓋的擴充套件效應影響。
由於這些模型的訓練語料庫是閉源的,且P(知識流行度)和S(模型規模)的值是固定的,直接研究P、S和L對模型的影響較為困難。
因此,研究人員在推理階段操控L(知識長度),以觀察模型行為的變化。
例如,當查詢GPT-4o關於薛定諤貓的狀態時,如果增加周圍文字的長度,同時保持「死」的詞不變,就會提高周圍上下文的相對長度L,從而導致相較於「死」這個詞,幻覺的可能性增大。
其他LLM也存在知識掩蓋問題。
例如,當查詢DeepSeek-V3-671B論文的作者時,「Scalinglaw」這一短語掩蓋了標題中的其他描述性元素,導致錯誤的回應——「Kaplan」,即另一篇著名的Scalinglaw論文的作者。

表2:SOTALLM中的事實幻覺

為什麼知識會被掩蓋?
在實驗中觀察到的知識掩蓋的擴充套件效應(scaling effects of knowledge overshadowing)現象。
對此,研究團隊也提供了理論解釋。

研究人員發現事實幻覺遵循的對數線性規律與記憶(memorization)的對數線性規律驚人地一致。
兩者都與樣本頻率、樣本長度和模型規模的對數值呈線性關係。
這一高度一致性促使研究人員深入探討事實幻覺的本質,並引出了一個關鍵問題:
幻覺是否可以被理解為記憶階段之後——即泛化(generalization)階段的必然副產物?
隨著模型記憶大量資訊並捕捉關聯關係,它們會在泛化過程中適應新的分佈。
然而,在這一過程中,不佔主導地位的知識可能會因過度平滑(smoothing)或資訊壓縮(compression)而被更常見的模式所掩蓋。
與長尾效應不同,知識掩蓋並不僅僅是資料不均衡的結果,而是知識表徵之間競爭的直接產物。
即使是並不罕見的知識,也可能在表徵空間中被更占主導地位的知識壓制。
這種表徵競爭機制直接推動了事實幻覺的產生,尤其是在模型從記憶(memorization)過渡到泛化(generalization)處理更復雜的資料分佈時,幻覺現象變得更加明顯。

研究人員推導了主流知識的泛化誤差界,以理解相對知識流行度P和相對知識長度L的增加如何增強泛化能力,同時加劇LLM的事實幻覺。
在使用自迴歸(auto-regressive)目標最佳化的LLM中,下一個token預測任務的泛化誤差界可表示為:

在受控實驗設定下,可以將除了L和m之外的變數視為常數。
在這裡,h(L)表示一個與L正相關的函式值,μ反映了輸入變化的敏感度,即相對知識長度L對泛化能力的影響。此外m代表K_A的樣本數量。
理論上,更低的誤差下界意味著更強的泛化能力。
當L增加(即知識的相對長度增長)或m增加(即知識的相對流行度提高)時,二者都會降低泛化誤差界,也就是說說,提高泛化能力。
但與此同時,這也與幻覺率的上升趨勢一致,即泛化能力增強的同時,模型更容易產生事實幻覺(hallucination)。
更多詳細的理論推導可在原文附錄A.5中檢視。

如何消除幻覺?
為了減少事實幻覺(factualhallucinations),在幻覺影響模型預測之前,主動識別被掩蓋的知識。

在語言模型(LLM)中,給定輸入token序列X,模型會生成續寫token序列Y,其中X和Y都由詞彙表V中的token組成。
如果X中的某些token x_b被掩蓋(overshadowed),模型可能會生成幻覺輸出(hallucinated output)。
比如說,輸入X是下列內容:
「Who is a famous African researcher in machine learning area?」
如果「African」(x_b)被「machine learning」掩蓋,則模型可能會錯誤地輸出:
Y=「Yoshua Bengio」
此時,模型忽略了「African」這一約束,導致幻覺生成。
解決方案:研究人員提出CoDA(對比解碼),用於放大被掩蓋的知識,從而減少幻覺現象的發生。

為了識別被掩蓋的token x_b,研究人員採用逐步遮蔽(masking)的方法,即依次遮蔽X中的x_b,形成X',直到找到被掩蓋的token(具體的x_b選擇方法見原文附錄A.4)。
如果x_b被掩蓋,則模型的條件機率會發生退化:

換句話說,模型的輸出會從Y_b偏向Y_a,導致資訊丟失或幻覺。
為了確保研究人員能夠量化輸出候選yi∈P(Y|X)和P(Y|X′)的足夠語義,採用自適應合理性約束,保留滿足以下條件的token:

,其中α=0.01是一個超引數,Υ是一個全域性變數,表示所有yi候選中的最大機率。
然後,R-PMI在
上進行量化:


本質上,負的R-PMI值表示token yi更傾向於與X′相關聯,且沒有受到遮蔽資訊的影響。
因此,為了量化P(Y|X)在多大程度上推廣到P(Y|X),需要找到下列最小值:

此外,值得注意的是,儘管某些token被X′遮蔽,但仍有一些token逃脫了這種遮蔽效應,定義為Vesc:

這些逃脫的token展示了消除幻覺的潛力。
研究人員提出了一個逃避獎勵機制(ERM),該機制透過向負R-PMI的總和新增正獎勵來評估逃避效應是否超過了遮蔽效應。
將所有具有負R-PMI的yi表示為yi∈S,ERM的計算方式如下:

這裡的計算是為了使ERM與RPMI保持平衡,兩者具有相似的分母p(yj|X′),在方程7中表示來自X′的最小偏差。
然後,研究人員可以透過以下公式計算遮蔽知識指標:Indicator=R-PMI總和+ERM。
指標值為負表示進行了適當的泛化而沒有遮蔽其他知識,而正值則表示過度泛化並遮蔽了token xb。
接著,研究人員可以在定位被遮蔽的token後,預測潛在的幻覺,表8顯示了準確率。


研究人員提出了一種方法,用於提升被遮掩的知識。
一旦識別出編碼被遮掩知識的token xb,研究人員就會對這些token採用對比解編碼,以減少X′的影響並突出X的重要性。
具體來說,為了降低X′的偏差,研究人員對每個yi∈Vtop(X)∩Vtop(X′)減去X′的先驗偏差P(yi|X′),計算方式如下:

同樣,對於每個yi∈Vesc,研究人員進行以下操作:

在這裡,右式後一項表示來自普遍知識的最小先驗偏差。
這種減法旨在平衡yi∈Vesc和yi/∈Vesc之間的偏差調整,確保對兩者進行成比例的調整。
然後研究人員透過以下方式預測最優輸出y^{∗}_{i}

到目前為止,研究人員已經減少了由X′編碼的普遍知識帶來的遮掩效應,然後放大了編碼有意義被遮掩知識的逃避token,以減少幻覺。

在Overshadow、MemoTrap和NQ-Swap任務上,CoDA分別將貪心解碼的效能提升了27.9%、13.1%和18.3%。
增強推理能力的基線方法在處理因知識遮蔽(knowledge overshadowing)導致的幻覺現象時表現不佳。
而基於自一致性(self-consistency)的方法則表現出不穩定性,甚至可能出現效能下降,這可能是由於強化了來自流行知識的偏差。
圖5展示了對CoDA受兩個因素P和L影響的定量分析。
隨著知識的過度泛化,提取有價值資訊變得越來越困難,因為有用的知識表示受到了抑制。

圖5:關於流行度P和長度L對CoDA在消除知識遮蔽方面表現的定量分析。

一作簡介

一作張雨季,目前是伊利諾伊大學厄巴納-香檳分校(University of Illinois at Urbana-Champaign,UIUC)的博士後研究員。
她之前在香港理工大學、東南大學就讀。
她的主要研究興趣是自然語言處理、計算社會學和機器學習。
參考資料:
https://arxiv.org/pdf/2502.16143

