通道依賴還是通道獨立？清華、同濟等提出時間序列依賴建模新正規化TimeFilter

深度學習在多變數時間序列預測領域取得了顯著進展。現有方法從依賴建模視角，大致可以分為通道獨立（CI）和通道依賴（CD）兩類。其中，通道獨立方法只利用每個通道各自的歷史值進行預測，相反，通道依賴方法則融合全部通道間關係。

然而，我們觀察到，來自不同領域的時序資料往往在潛在的分佈和特徵上表現出顯著的差異，例如在氣候相關資料中，通道間往往存在天然的物理學依賴，而在使用者用電資料中，不同使用者的使用習慣可能迥然不同，幾乎沒有依賴關係。這說明通道獨立性假設和對盲目通道間依賴關係的建模，均存在固有的侷限性。

為了解決這個問題，現有一些工作設計了通道聚類（CC）策略，根據通道相似性劃分出不同的簇，動態地為簇內和簇間分配不同的依賴建模策略，比如 CCM [1] 在簇內使用通道依賴策略，簇間使用通道獨立策略，DUET [2] 則在通道維度和時間維度上雙重聚類擴充套件這一想法。

然而，粗粒度地通道聚類方法往往利用全部時間點資料進行聚類，無法針對特定的時間段靈活地選擇適當的依賴建模策略。

如圖 1 所示，我們選取了電力資料集中3個通道資料，通道間複雜的依賴關係會隨時間推移而演變，被聚類為相關性強的通道在某些時刻會出現截然相反的波動，而被聚類為相關性弱的通道在某些時刻也會表現出一致性。這些限制更加強調了，我們需要更動態和靈活的方法從而捕獲時變的依賴關係。

為了滿足這個目標，清華大學、同濟大學、復旦大學、格里菲斯大學等單位，提出了 TimeFilter，它透過細粒度、自適應且魯棒地劃分和過濾依賴關係，動態地為各個領域的時序資料定製設計依賴建模策略，提升時序表徵能力。

背景介紹

近年來，基於深度學習地時序預測方法展現出了卓越的效能，他們往往透過神經網路擬合時序變數的依賴關係。

在圖2中，我們可視化了通道獨立（CI）、通道依賴（CD）和通道聚類（CC）三種策略在補丁（Patch）級別的依賴關係圖，並進行了依賴劃分，其中同一通道不同時間戳下的補丁間關係為時間依賴（Tempoarl Correlation），同一時間戳不同通道內補丁間關係為空間依賴（Spatial Correlation），其餘不同時間戳不同通道內補丁間關係為時空依賴（Spatial-temporal Correlation）。

通道獨立方法，如圖 2(a)，只保留時間依賴，魯棒性高而容量低；通道依賴方法，如圖 2(b)，保留全部型別的依賴關係，魯棒性低而容量高。為了權衡兩者的優點，現有研究設計了通道聚方法，如圖 2(d)，保留了簇內全部依賴，以及簇間的時間依賴。

然而，這些關係在現實世界的時間序列資料中經常是錯複雜地交織在一起的，研究人員和開發者面臨著如何選擇最有效的依賴關係以表徵時序資料內在聯絡，從而進行精確地預測。以上粗粒度的通道建模方法均難以捕獲不同關係隨時間的演變。

TimeFilter 為解決這個問題提供了一個從時空圖視角的優雅進路。如圖 2(c)，TimeFilter 從粗粒度通道級的方式轉變為細粒度補丁級的新正規化，並設計了自適應且魯棒的過濾機制，為差異化的時序資料保留所需的依賴型別，消除無關的依賴關係，從而大大增強泛化能力和預測效能。

▲ 圖2 在 MMLU benchmark 的兩個子集上不同拓撲的 token 消耗以及效能比較

TimeFilter

在本文中，我們提出了一種名為 TimeFilter 的時間序列依賴建模新正規化，旨在透過資料驅動的混合專家架構動態構建針對特定的時間片段定製化依賴建模。TimeFilter 的整體框架如圖 3 所示：

3.1 時空依賴圖構建（Spatial-Temporal Construction）

本模組中，我們通過歷史輸入構建時空圖，我們首先將原始輸入進行補丁操作：

之後以多頭方式計算投影距離並利用 -nearest neighbor 方式建圖，其中為鄰接矩陣：

然而整圖具有不可忽略的噪聲，為了地址噪聲，我們將其以每個補丁為中間，分解為個 Ego-graph ，之後又按照依賴型別將每個 Ego-graph 分解為三個具有不同依賴型別的子圖：

每個子圖的鄰接矩陣可以透過對進行掩碼操作得到。

3.2 補丁特定過濾（Patch-Specific Filtration）

基於特定的依賴型別，TimeFilter 設計了3中不同的過濾器公式如下：

之後我們透過路由機制資料驅動地計算每個補丁是否需要不同的依賴型別的置信度，其中，表示標準高斯噪聲。

根據計算出的置信度，我們設計了動態專家分配方式來為每個補丁定製需要的依賴關係，其中為置信度閾值，為該補丁所需過濾器的個數：

根據前過濾器的個數大的的置信度，我們選取所需的過濾器集合，並得到動態專家選擇的輸出：

最終根據對每個 Ego-graph 進行過濾。具體比如時，過濾機制由下式給出：

3.3 自適應圖學習（Adaptive Graph Learning）

我們將過濾之後的子圖重新拼接為整圖，其中為鄰居節點集合：

之後透過圖神經網路和預測頭得到預測結果：

最佳化目標損失函式包括均方誤差損失（），負載均衡損失（）已經動態分配損失（），其中為權重係數：

透過這種方法，TimeFilter 能夠自適應地為差異化領域的時序資料設計出細粒度、自適應、魯棒的依賴建模策略，極大地提升模型泛化能力。

實驗分析

4.1 長期預測

TimeFilter與其它通道獨立方法（如 DLinear、PatchTST、PDF 等）、通道依賴方法（如Leddam、CrossGNN、MSGNet 等）、通道聚類方法（CCM、DUET）以及其他權衡通道獨立和通道依賴的方法（如 SOFTS 等）在 9 個基準資料集上進行了測評。

固定輸入長度為 96 的長期預測結果如圖 4 所示，TimeFilter 在被廣泛認可的真實資料集上大幅領先於當前最先進模型。從絕對效能角度看，相比次優基線模型 Leddam，均方誤差（MSE）降低了 4.48%，平均絕對誤差（MAE）降低了 2.23%，另外我們還進行了 Wilcoxon 檢測驗證了 TimeFilter 顯著好於次優基線模型 Leddam。

▲ 圖4 固定 96 輸入長期預測的實驗評估

根據時序預測的 Scaling Law [3]，回測長度並非越長越好，對於固定量的訓練資料和模型大小，存在一個最優視野。因此，我們探索了固定資料集下的最優回測長度，經過回測長度引數搜尋的長期預測結果如圖 5 所示，另外，我們在具有 1763 個通道的 Climate 資料集上進行實驗，說明了在及其困難的大資料集預測任務上，TimeFilter 仍有較好的表現。

▲ 圖5 輸入長度搜索長期預測的實驗評估

4.2 短期預測

TimeFilter 與同樣與多種現有方法在 4 個基準資料集上進行了測評。短時預測任務中資料的時變特性較強，對模型的區域性依賴捕捉能力提出了更高要求。圖6實驗結果表明，TimeFilter 在捕捉短期波動方面表現出色，超越了多種先進模型，尤其在 PEMS08 資料集。

▲ 圖6 短期預測的實驗評估

4.3 消融實驗

相比於 TimeFilter 中基於混合專家框架的過濾機制，我們還額外設計了 6 種過濾機制來驗證模型中模組選擇的有效性。其中，（1）Top- 表示選取權重最大的個關係；（2）Random- 表示隨機選取個關係；（3）RegionTop- 表示在三種依賴區域選取各自權重最大的個關係；（4）RegionThre 表示透過基於學習的方法獲得三種依賴區域的閾值，選擇權重大於該閾值的關係；（5）C-Filter 表示在通道粒度的過濾不同區域的關係；（6）w/o Filter 表示不進行過濾，即全連線圖。

另外，我們還對混合專家框架中的動態路由機制和額外的負載均衡損失函式進行了消融實驗。

結果如圖7，表面了 TimeFilter 各個模組的有效性。另外根據結果，我們分析各種過濾機制選擇，認為不同資料集往往需要不同型別的依賴關係，而不是權重最大的依賴關係，權重大可能是由於偽迴歸現象引起 [4]。

▲ 圖7 消融實驗

4.4 模型分析

如圖 8 所示，我們可視化了 TimeFilter 過濾之後在 ETTh2、Weather、Electricity 三個資料集上的依賴圖以及路由機制對過濾器的選擇分佈。結果發現，不同的資料往往需要不同的依賴型別，且透過 TimeFilter 的過濾機制可以選擇出需要的依賴，提升了模型在複雜時間序列資料中的表徵能力和可解釋性。

▲ 圖8 TimeFilter 依賴建模視覺化分析

我們還比較了在不同回測長度對模型效能的影響，結果如圖9所示。實驗證明 TimeFilter 可以有效抵制更長輸入序列中的噪聲，在各個回測長度下效果好於其他先進模型。另外，我們觀察到，當超引數補丁長度也隨著回測長度等比例增加，TimeFilter 的記憶體佔用幾乎不變，有效地解決了超長輸入記憶體爆炸的問題。

▲ 圖9 回測視窗對模型效能影響

最後，我們分析了 TimeFilter 與其他先進模型分別在大小資料集 ETTm2 和 Traffic 上的訓練效率、記憶體佔用以及預測表現，結果如圖 10 所示。可以觀察到，TimeFilter 相比其他非基於純線性層模型，有更快的訓練效率，更小的記憶體佔用，也取得了更好的預測效果，說明了 TimeFilter 的強大表現。