大模型訓練或無需“純淨資料”！北大團隊新研究：隨機噪聲影響有限，新方法讓模型更抗噪

北大團隊投稿

量子位 | 公眾號 QbitAI

傳統的大語言模型訓練需要依賴”純淨資料”——那些經過仔細篩選、符合標準語法且邏輯嚴密的文字。但如果這種嚴格的資料過濾，並不像我們想象中那般重要呢？

這就像教孩子學語言：傳統觀點認為他們應該只聽語法完美的標準發音。但現實情況是，孩童恰恰是在接觸俚語、語法錯誤和背景噪音的過程中，依然能夠掌握語言能力。

來自北大的研究人員透過在訓練資料中刻意新增隨機亂碼進行驗證。他們試圖測試模型在效能受損前能承受多少”壞資料”。

實驗結果表明，即便面對高達20%的”垃圾資料”，訓練依然可以正常進行，且Next-token Prediction (NTP) loss受到的影響不足1%！他們不僅揭示了噪聲與模型效能的複雜關係，還提出了一種創新的“區域性梯度匹配”方法，讓模型在噪聲環境中依然保持強勁表現。

是什麼：隨機噪音會有什麼影響？

研究者利用OpenWebText資料集，訓練了多個GPT-2相同架構和引數量的語言模型。他們首先生成了一串範圍在0到50256（GPT-2 tokenizer的大小）的整數，其中每個數都遵循0到50256的均勻分佈。這樣是為了模擬由於解碼錯誤或網頁崩潰導致的隨機亂碼經過tokenizer之後的結果。之後，研究團隊向OpenWebText中注入佔比1%-20%的隨機噪聲，正常進行Next-token Prediction的預訓練。

實驗結果揭示了一個反直覺現象：儘管NTP loss受到噪音的影響有些微提升，但是增加幅度遠小於噪音佔比。即使20%的資料被汙染，模型的下一個詞預測損失僅上升約1%。

更令人驚訝的是，在arXiv和Wikipedia語料測試中，含噪模型甚至展現出更低的NTP loss。

這些反常現象的出現引發了研究團隊的思考。他們想要知道這種現象出現的背後原因。

為什麼：理論角度分析隨機噪音

遵照之前的理論工作，研究團隊把NTP過程建模成在 (給定字首, 下一token) 的聯合機率分佈上的分類任務。用P^c表示乾淨分佈，P^n表示噪音分佈，作者指出，我們真正關心的不是模型在噪音P^n上的損失，而是在噪音分佈上訓練出來的模型 h 與最優模型 h* 在乾淨分佈P^c上的 NTP loss 差距。

為了給出證明，研究團隊首先注意到，在隨機亂碼中找到一段有意義文字的機率極低。用數學語言來描述，這意味著乾淨分佈P^c和噪音分佈P^n的支撐集（support set）的交集可以認為是空集。

基於這條假設，研究團隊成功證明，當噪音佔比 α 足夠小時，P^n的存在不改變 NTP loss的全域性最小值。哪怕 α 足夠大，噪音對損失函式帶來的影響也遠小於其佔比。

由於Assumption 1並不只在隨機噪音時成立，因此結論可以推廣到其他情況。最直接的場景便是多語言模型的訓練。顯然，在一種語言（英語）看來，另一種語言（漢語）就是隨機亂碼，他們之間的token彼此是不重合的，兩者對應的分佈自然沒有交集，也就滿足了Assumption 1。因此，Proposition 1表明，在多語言資料集中進行預訓練，單個語言的效能不會受到太大的影響。這就解釋了多語言模型的成功。此外，Proposition 1還可以解釋為什麼在充滿背景噪音的資料集上訓練的音訊模型可以成功。

為了進一步檢驗上述理論，研究團隊還隨機生成了先驗分佈服從高斯分佈的隨機噪音。由於高斯分佈有規律可循，這種噪音對應的NTP loss更低。按照Proposition 1的結論，更低NTP loss的噪音P^n對模型效能的影響更小。實驗結果驗證了這一預言，也就證明了Proposition 1的正確性。

怎麼做：如何彌補隨機噪音的影響

儘管預訓練損失變化微弱，下游任務卻暴露出隱患。實驗顯示，在高斯噪音上訓練的模型，儘管其相比隨機噪音對應模型的NTP loss更低，但在文字分類下游任務中的準確率卻下降高達1.5%。這種“損失-效能解耦”現象表明，預訓練指標NTP loss無法全面反映模型的實際能力。研究者指出，噪聲會扭曲特徵空間的梯度分佈，導致微調時模型對細微擾動過於敏感。

針對這一挑戰，團隊提出了一種即插即用的解決方案——區域性梯度匹配損失（LGM）。具體來說，由於在下游任務應用大模型時幾乎不會從頭預訓練，研究團隊在黑盒模型的假設下提出了LGM這一微調方法。其無需訪問模型引數，而是透過向特徵新增高斯噪聲並約束原始/擾動特徵的梯度差異，直接增強分類頭的抗噪能力。其核心思想在於：迫使模型在特徵擾動下保持決策一致性，從而彌合噪聲導致的特徵偏移。對於黑盒模型提取的特徵 t，首先新增一定程度高斯擾動得到 \hat{t}，然後將分類頭關於t和 \hat{t} 的梯度差作為損失函式