精度效率雙冠王!時序預測新正規化TimeDistill:跨架構知識蒸餾,全面超越SOTA


新智元報道  

編輯:LRST
【新智元導讀】TimeDistill透過知識蒸餾,將複雜模型(如Transformer和CNN)的預測能力遷移到輕量級的MLP模型中,專注於提取多尺度和多週期模式,顯著提升MLP的預測精度,同時保持高效計算能力,為時序預測提供了一種高效且精準的解決方案。
如何在保證預測精度的同時降低計算成本,是時序預測應用面臨的核心挑戰。
傳統的時序預測模型(如基於Transformer或CNN的複雜結構)雖在精度上表現卓越,但計算開銷往往難以滿足實際部署需求。而輕量級MLP(多層感知器)雖然具備較高的推理速度,卻常因建模能力不足,導致預測精度較低。
這引出了一個有趣的問題:是否可以將MLP與其他先進架構(如Transformer和CNN)結合,以構建一個既強大又高效的模型?
一個直覺的解決方案是知識蒸餾(Knowledge Distillation),透過將更大、更復雜的模型(教師模型)的知識遷移到較小、更簡單的模型(學生模型),使其在提升效能的同時實現更高的計算效率。
近期,來自美國埃默裡大學、澳大利亞格里菲斯大學等多地的華人科研團隊聯合提出了一種跨架構知識蒸餾(Cross-Architecture Knowledge Distillation)框架TimeDistill,將MLP作為學生模型,其他複雜先進架構(如Transformer和CNN)作為教師模型,透過蒸餾複雜模型的優勢至輕量級模型,實現計算負擔大幅降低的同時顯著提升預測精度。
相比於教師模型,TimeDistill加快了最多7倍推理速度,降低了最多130倍引數量,同時TimeDistill還在多個數據集上展現了超越教師模型的SOTA表現,為構建高效、高精度的時序預測模型提供了全新思路。
論文連結:https://arxiv.org/pdf/2502.15016
透過蒸餾,TimeDistill在多個數據集上取得超越教師模型的預測精度並實現了最佳的效率平衡。
TimeDistill模型方法
設計思路
首先,研究人員對MLP與其他時序模型的預測模式進行了對比分析。
研究發現,儘管MLP的整體預測精度較低,但往往在某一部分樣本上表現出色,突顯了其與教師模型之間存在一定的優勢互補,強調了透過知識蒸餾向教師模型的學習互補知識的重要性。
為了進一步探索需要蒸餾的時序「知識」,研究人員聚焦於兩個關鍵的時序模式:
  • 時間域的多尺度模式(Multi-Scale Pattern):真實世界的時序資料通常在多個時間尺度上呈現不同的變化。可以觀察到,在最細粒度時間尺度上表現良好的模型通常在較粗粒度上也能保持較高的準確性,而MLP在大多數尺度上均表現不佳。
  • 頻率域的多週期模式(Multi-Period Pattern):時序資料往往存在多個週期性,效能較好的模型能夠捕捉到與真實資料接近的週期性特徵,而MLP無法有效識別這些週期性結構。
因此,為了增強MLP的時序預測能力,從教師模型中蒸餾並整合多尺度和多週期模式至關重要。
跨架構知識蒸餾(Cross-Architecture Distillation)
對於任意教師模型,TimeDistill均能有效提煉其在時序預測中的多種模式,並將其壓縮排輕量學生模型(例如MLP),使後者具備更強的預測能力。
其中

即學生模型的預測,

即學生模型的中間特徵,S即預測長度,D即中間特徵維度,C即變數數量。下標為t即代表教師模型。

多尺度、多週期特徵的系統性提煉
多尺度蒸餾(Multi-Scale Distillation):在不同的時間解析度上分別下采樣教師模型與學生模型的預測和中間特徵,確保學生模型同時捕捉粗粒度的整體趨勢與細粒度的瞬時變化。
多週期蒸餾(Multi-Period Distillation):透過傅立葉變換(FFT)分析頻域資訊,將教師模型在週期性模式上的優勢提煉並傳遞給學生模型,使後者在應對長週期波動(如季節、年度週期)與短週期干擾(如日內流量峰谷變化)時,都能維持穩定高精度。
由於FFT得到的頻譜往往包含很多低頻噪聲,研究人員透過低溫蒸餾使得頻率(週期)分佈更加鋒利,使得學生模型可以直接學習最顯著的頻率(週期)分量。
理論解釋
從理論上,研究人員將多尺度和多週期蒸餾損失詮釋為一種資料增強策略,類似於分類任務中的標籤平滑(Label Smoothing)。
蒸餾過程實際上等同於將教師模型的預測結果與真實標籤進行混合,類似生成了經過Mixup變換的增廣樣本,這種資料增強帶來了以下三個益處:增強泛化,顯式融合多種模式,穩定訓練,為TimeDistill的優異表現提供了理論支撐。
實驗效果
效果全面領先
TimeDistill在8個時序資料集上進行實驗,其中7個數據集的MSE指標優於基線教師模型,在所有資料集的MAE指標上均取得最佳表現,展現出卓越的預測能力。
相容多種教師模型
TimeDistill適用於多種教師模型,能夠有效蒸餾知識並提升MLP學生模型的效能,同時相較教師模型本身也有顯著提升。
相容多種學生模型
TimeDistill不僅適用於MLP結構,還可以增強輕量級學生模型的效能。例如,在以ModernTCN作為教師模型的實驗中,TimeDistill使兩個輕量模型TSMixer和LightTS的MSE分別降低6.26%和8.02%,驗證了其在不同學生模型上的適應性。

相容多種回溯視窗長度
時序模型的預測效能往往隨回溯視窗(歷史觀測長度)變化而波動,而TimeDistill在所有視窗長度下均能提升MLP表現,甚至超越教師模型,體現出對不同時間依賴模式的強大適應能力。

消融實驗
TimeDistill透過消融實驗進一步驗證了模型設計的合理性。值得注意的是,即使去掉Ground Truth監督訊號(w/o sup),TimeDistill仍然能夠顯著提升MLP預測精度,表明其可以從教師模型中有效學習到豐富的知識。

總結
TimeDistill的提出,標誌著時序預測領域正在向更高效、更通用的方向發展。它不僅展示了輕量級模型在蒸餾複雜模型知識後所能達到的卓越效能,還為學術界和工業界提供了新的思考方向:
如何在計算成本、模型規模與預測精度之間找到最優平衡?
如何透過知識蒸餾讓輕量模型超越其原有能力上限?
未來,期待更多研究機構與企業推動TimeDistill在金融、能源、流量預測等領域的廣泛應用,為資料驅動時代的時序分析注入新的動力。
參考資料:
https://arxiv.org/pdf/2502.15016

相關文章