別再卷資料了,LLM也怕「過勞死」!CMU等揭秘災難性過度訓練


新智元報道  

編輯:KingHZ
【新智元導讀】顛覆LLM預訓練認知:預訓練token數越多,模型越難調!CMU、斯坦福、哈佛、普林斯頓等四大名校提出災難性過度訓練。
如果訓練資料越多那麼LLM越好。
這到底對不對?
不對!
增加更多的預訓練資料來擴充套件語言模型,反而可能會導致後訓練階段的效能下降!
這就是「災難性過度訓練」現象。
圖1:經過高強度預訓練的語言模型,可能出現「災難性過度訓練」現象。
來自CMU、斯坦福、哈佛、普林斯頓「四大名校」的研究團隊,用實驗挑戰了「預訓練規模越大越好」這一傳統觀點。
在實驗中,研究團隊發現使用3T tokens預訓練的模型,表現接近於僅用1.5T tokens預訓練的模型。預訓練token並非越多越好!
論文連結:https://arxiv.org/abs/2503.19206
研究的貢獻,總結如下:
  • 現實世界的證據:展示了災難性過度訓練在現有語言模型和任務中的普遍性,表明更長的預訓練時間可能會在指令微調和多模態微調後導致效能下降。
  • 控制實驗:識別出漸進敏感性是災難性過度訓練的關鍵機制,擴充套件的預訓練增加了模型引數對後續更新的脆弱性。
  • 理論分析:線上性遷移學習框架中,提供了災難性過度訓練的正式表徵,展示了增量特徵學習如何導致漸進敏感性和不可避免的效能退化。
在保持模型引數數量不變的情況下,最新的語言模型,預訓練使用的tokens越來越多——
而且這一趨勢並沒有放緩!
更多的預訓練tokens,意味著更好的基礎模型。
但這是更好的後訓練起點嗎?
來看看一些例子:OLMo-1B在3萬億tokens上訓練後,再經過指令調優,表現比使用2.3萬億tokens版本得分下降超過2%。
換而言之,資料量增加了30%,效能不升,反而下降了2%
在許多其他後續訓練設定中,也觀察到了類似的現象。
災難性過度訓練的例子
為什麼擴充套件預訓練會損害微調效能呢?
不妨退後一步,考慮更簡單的情況:測試高斯噪聲在不同預訓練階段對模型引數的影響。
-早期檢查點:對高斯擾動具有較強的魯棒性。
-後期檢查點:對擾動非常敏感,導致擾動後表現變差!
圖3|左圖:敏感性隨著訓練的進行而增加,右圖:最終效能逐漸下降。
生了什麼?擴展的預訓練增加了模型對所有型別的引數更新的敏感性:
  • 訓練初期:模型敏感性較低,但效能提升
  • 訓練後期:模型變得高度敏感,效能下降
微調的表現也類似:在不同的預訓練檢查點,使用固定的學習率,會看到任務效能和網路資料困惑度最終都會下降。
即使經過超引數調優,這種現象仍然存在。
也就是說,過度訓練=更差的微調結果!

過度訓練,可能導致效能下降
在兩種典型微調場景,研究團隊驗證了延長預訓練時間的負面影響:
1)指令微調(instruction tuning)對模型指令跟隨能力的提升效果;
2)基於LLaVA框架的多模態微調(視覺指令微調)
總體而言,在進行指令調優後,3T tokens預訓練的模型表現不如2.3T tokens預訓練的模型,其表現接近於僅用1.5T tokens(少了50% tokens)預訓練的模型
圖2對比了不同OLMo-1B模型在不同預訓練預算下的表現(橫軸)。
延長預訓練總是能提升基礎模型的表現
與以往的研究一致,發現延長預訓練能夠使基礎模型的效能持續提高。在我們評估的所有下游任務中,效能不斷提升(圖2中的虛線)。
延長預訓練可能會影響後期訓練的表現
儘管基礎模型在提升,但發現在基礎模型進行後訓練後,出現了意外的效能下降
具體來說,在Anthropic-HH資料集上,進行指令跟隨微調,經過3T tokens預訓練的基礎模型在響應率(AlpacaEval分數)上比用2.3T tokens的模型低了多達3%(約少了23%的tokens)。
在各種OOD任務(如推理和問答)上,也觀察到了類似的效能下降,評估基準包括ARC-Easy、ARC-Challenge、HellaSwag和PIQA等。
圖2:延長預訓練可能會導致在Anthropic-HH(左)和LLaVA(右)上的微調效能下降。
在多模態微調方面,發現延長預訓練能持續提升VLM得分。
然而,預訓練使用更多tokens的模型,表現出更強的遺忘現象,並在多個OOD基準測試中出現更大的效能下降。
在某些資料集(如PIQA)上,效能下降如此嚴重,以至於延長預訓練在後期訓練後,反而會對效能產生負面影響(見圖2右側)。
總體來說,雖然延長預訓練總是能提升預訓練效能,但這些提升並不總是能轉化為後期訓練中的表現。
在一些設定中,延長預訓練實際上會對後期訓練的效能產生負面影響。

災難性過度訓練:Why?
傳統觀點認為:延長預訓練時間應能持續提升最終效能。
但新研究發現:當預訓練超過某個臨界點後,反而會損害模型最終表現——
這一現象被命名為「災難性過度訓練」(catastrophic overtraining)。
災難性過度訓練是因為在預訓練過程中,模型對引數變化的敏感性逐步增強,導致在微調後更容易「遺忘」之前預訓練所獲得的能力。
實驗發現,修改預訓練模型的引數會導致模型遺忘之前獲得的能力,而這種遺忘的程度取決於引數修改的幅度。
然而,影響遺忘的另一個關鍵因素所謂的漸進性敏感性
對於相同幅度的修改,經過更長時間預訓練的模型表現出更大的遺忘(見圖4)。
當由於後訓練修改引起的遺忘超過預訓練過程中效能提升時,就會發生災難性過度訓練。
雖然限制後訓練中引數修改的幅度可以緩解這種效能退化,但這也可能限制預訓練模型的適應能力和學習能力。
這揭示了一個內在的權衡關係,這種關係決定了在實踐中,防止災難性過度訓練的可行性(見圖7)。

高斯擾動
使用在不同token預算下預訓練的基礎模型,並新增以下形式的高斯噪聲
其中,Σ是引數初始化分佈的協方差矩陣(即在預訓練之前的分佈),γ控制擾動的幅度。
首先,繪製了高斯噪聲對C4困惑度的變化如圖3(左)所示。
也就是說,追蹤基礎模型和擾動模型之間困惑度的變化,隨著預訓練token數量的變化。
對噪聲的逐漸敏感性:對於固定的擾動幅度,基礎模型和擾動模型之間的困惑度變化隨著預訓練token數量的增加單調增加。
同時,繪製了基礎模型的絕對C4困惑度(圖3右側,虛線)。基礎模型的困惑度隨著預訓練token數量的增加而下降。
圖3:高斯擾動敏感性演進
圖3左圖:隨著預訓練時長增加,高斯引數擾動對模型困惑度的負面影響逐漸加劇。
圖3右圖:災難性過訓練最終將導致預訓練困惑度整體惡化。
在此實驗框架下,觀察到災難性過度訓練現象的產生,其根源在於模型對噪聲的敏感性隨預訓練程序逐步提升,與基礎模型自身效能的單調增長相互作用。
具體而言,在預訓練初期,模型效能的提升速度顯著超越其對噪聲敏感性的增長,因此即使引入高斯擾動,模型的困惑度仍呈現淨下降趨勢
然而,當預訓練程序跨越某一臨界點後,模型對噪聲的敏感性增長速率反超其效能提升速率,從而導致擾動後困惑度不降反升。這一現象在圖3右側清晰地展現為一個U型困惑度變化曲線。
跟蹤拐點:在圖3中,較大的擾動與預訓練的更大且更迅速的惡化相關聯。
因此,敏感性引起的惡化超過基礎模型提升的點。對於較大的擾動來說,會加速這一過程,導致拐點出現在較低的token預算下。
直觀解釋:更多的預訓練tokens能夠提升基礎模型(如預期),但同時也使基礎模型對噪聲更敏感。
逐漸增加的敏感性會導致災難性過度訓練,因為噪聲引起的困惑度增加最終會壓倒模型的提升。
對於大幅度的擾動,這種惡化會在較低的token預算下出現,而對於較小幅度的擾動,直到較大的token預算時,可能才會觀察到災難性過度訓練。

固定學習率的微調
首先,類似於在固定幅度的高斯擾動(γ)下量化效能下降的方法,也需要以某種方式對微調進行正則化,以確保在不同的預訓練檢查點之間的變化程度,保持一致。
對於每個學習率,研究人員繪製了從預訓練模型到微調模型的C4困惑度變化,如圖4所示。
在圖4中,隨著預訓練token數量的增加,C4困惑度在不斷變化。
首先,較大的學習率會更大程度地扭曲模型,因此表現出更明顯的困惑度增加。
其次,觀察到預訓練tokens的數量與高斯噪聲下的行為趨勢相似,但這次是針對微調的。
微調中的逐漸敏感性:對於固定的學習率,困惑度的變化隨著預訓練token數量的增加而單調增加。
圖4|微調敏感性演進現象:延長預訓練時間會逐步加劇微調過程對模型困惑度的負面影響。
在敏感性增加超過基礎模型提升速率的拐點處,觀察到災難性過度訓練。這導致了微調後C4困惑度呈現U型趨勢(圖5上)。
跟蹤微調的拐點
與高斯擾動設定類似,由於較大的學習率會加速降解的增加,因此使用較大學習率訓練的模型在較低的token預算下會出現拐點,並且降解更為明顯。
ID(領域內)困惑度
雖然較小的學習率通常會導致C4困惑度的降解較小,但微調模型的ID困惑度呈現不同的趨勢:較大的學習率,直到某個臨界點,會導致較低的ID困惑度,儘管有時也會在ID困惑度上呈現U型趨勢(圖5下)。
這意味著調整學習率有時可以減輕降解,但通常是以犧牲微調效能為代價。
我們將在第3.4.2節探討,何時調整學習率以最小化ID困惑度能緩解隨著預訓練延長而出現的C4困惑度降解,何時又不能。
直觀解釋
來自高斯擾動設定的直覺可以延續到固定學習率的微調上。
更多的預訓練tokens將提升基礎模型的質量,同時也會導致模型在微調時的降解更嚴重。
超過某個臨界點後,預訓練更多tokens會導致最終微調模型的C4困惑度下降,且通常也會影響微調任務的領域內ID困惑度。
圖5|固定超引數微調下的災難性過度訓練:當使用固定超引數進行微調時,延長預訓練可能會導致C4困惑度(上圖)和ID困惑度(微調任務;下圖)整體增加。

權衡效能退化和微調收益
然而,學習率是在來自領域內(ID)任務的驗證集上進行調優的。
調優過程可能會導致在不同的預訓練檢查點上獲得不同的最優學習率,從而有可能緩解災難性過擬合。
效能下降既取決於學習率,也與敏感度有關。
因此,如果一個在更多標記上進行預訓練的模型在微調時能夠採用更小的學習率來獲得良好的領域內表現,它就能補償敏感度的增加。
總體來說,實驗表明,逐漸增加的敏感性在兩種型別的修改下都會表現出來:非結構化的高斯噪聲和結構化的微調。
於是,研究人員推測:逐漸增加的敏感性是普遍現象
在固定的擾動幅度或固定的微調學習率下,逐漸增加的敏感性導致災難性過度訓練,因為效能的退化最終超過了延長預訓練帶來的提升。
然而,在實踐中,最優學習率是在目標領域內任務上進行調優的,其變化可能導致領域內效能或領域外(預訓練)指標的降解。
這突出了在延長預訓練中的權衡的重要性,即最優學習率的演變最終決定了這些模型在微調時是否會發生災難性過度訓練。
最優學習率
研究人員調節學習率,以最大化微調後的領域內表現。
圖6中繪製了與最優學習率對應的領域內表現和預訓練困惑度。
圖6.超引數調優後的災難性過度訓練:即使在進行超引數調優後,延長預訓練仍可能導致C4困惑度(上圖)和ID困惑度(微調任務;下圖)的最終降解。
研究結果表明,災難性過擬合的出現取決於最優學習率的變化方式。
領域內表現和預訓練困惑度之間的權衡,可以分為為三種情況,如圖7所示:
1. 恆定最優學習率:當預訓練計算量T較大時,在不同token預算下采用恆定不變的最優學習率會導致域內(ID)和域外(OOD)效能同時下降(圖7左)。
2. 緩慢下降最優學習率:採用緩慢衰減的最優學習率可以提升域內效能,但會導致域外效能下降(圖7中)。
3. 快速下降最優學習率:隨著預訓練計算量的增加,快速衰減的最優學習率能同時提升域內和域外效能(圖7右)。
圖7:隨著預訓練tokens數T的變化,最優學習率的規模如何影響模型評估,
使用非最優學習率來緩解降解
在微調時如果使用最優學習率導致災難性過度訓練,採用非最優學習率有時可以緩解降解或延遲拐點的到來。例如,在圖7中,調優導致OOD損失最終降解的情況下,選擇使用最小的學習率可以延遲拐點的到來。然而,這也會導致較低的ID效能。
超越學習率的正則化
對於高斯擾動和微調設定,我們觀察到較大的引數擾動加速並放大了模型效能降解的速度。
在微調設定中,學習率有效地控制了整體引數更新的幅度。
然而,顯式的正則化方法來防止大幅度的引數更新,也可能減輕或延遲災難性過度訓練。我們將在第4節探討一種正則化微調的理論例項。

理論分析
災難性過度訓練這一現象令人驚訝,因為它與普遍的觀點相反——
即更長時間的預訓練總是能導致更高質量的模型。
因此,災難性過度訓練如何以及何時出現,值得探討。
研究團隊在在簡化的預訓練和微調二層線性網路的設定中,從理論上分析了災難性過度訓練。
主要發現表明,延長預訓練週期最終必然會導致模型出現逐漸增加的敏感性以及災難性過度訓練。儘管適當的正則化可以延緩這些現象的發生,但這通常會以犧牲下游任務效能為代價(參見定理4.4、4.6和4.7)。
對相關理論感興趣的可以參閱原文。
參考資料:
https://arxiv.org/abs/2503.19206
https://x.com/jacspringer/status/1904960783341023521

相關文章