橋接學術與落地!同濟、清華提出實用的金融時間序列全維度評測系統

©作者 |胡逸凡
單位 |同濟大學
研究方向 |時序預測
背景介紹
▲ 圖1 現有金融時間序列預測方法分類
金融時間序列預測在量化投資領域中佔據著核心地位。由於市場價格變化受到多種因素的影響,如宏觀經濟資料、政策變化、突發事件、市場情緒以及全球經濟環境等,準確預測股票、債券、外匯等金融資產的價格和市場趨勢,對於投資者和金融機構來說至關重要。
金融市場的動態特性和複雜性要求投資者依賴先進的預測技術來識別潛在的投資機會,並進行風險控制。因此,金融時間序列預測不僅是量化投資的核心環節,也直接關係到市場參與者的決策效率和資本的有效配置。
現有的解決金融時間序列預測任務的模型層不出窮,如圖 1 大體可以分為 6 類。包括根據經驗得出的經典策略,傳統機器學習演算法,深度學習演算法,強化學習演算法,生成模型以及金融大語言模型。隨著越來越多的不同種類的方法被提出,金融時間序列模型的公平和全面評測成為了亟待解決的問題
如圖 2,該領域現有的評測方法常常無法避免以下三個侷限性:
多樣性鴻溝(Diversity Gap),難以包含金融市場中全部的波動模式,導致模型泛化能力不足,尤其在未見過的模式上比如極端黑天鵝事件;
標準化匱缺(Standardization Deficit),現有研究使用的資料集、評測標準差異較大,導致不同模型的比較缺乏一致性;
落地脫節(Real-World Mismatch),現有的評測往往忽略了真實交易中的限制條件,導致基於投資組合的指標過高,難以在真實場景中落地。
為了解決以上問題,同濟大學國家級(省部共建)網路金融安全協同創新中心團隊聯合清華大學、上海人工智慧實驗室提出了金融時序評測框架(FinTSB),它構建細粒度、多元的股票波動模式資料集來實現多樣性涵蓋,倡導採用多維度的全面評測指標並設計統一的評測框架來增強公平一致性,考慮真實的交易場景限制來對齊落地業務,輔助金融時間序列預測評測。
論文標題:
FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting
作者單位:
同濟大學,清華深圳國際研究生院,上海人工智慧實驗室
論文連結:
https://arxiv.org/pdf/2502.18834
框架程式碼:
https://github.com/TongjiFinLab/FinTSB
awesome paper倉庫:
https://github.com/TongjiFinLab/awesome-financial-time-series-forecasting
▲ 圖2 現有金融時間序列評測方法的三大侷限
FinTSB
2.1 資料集構建
在本文中,我們首先利用真實的歷史資料來構建資料集,具體流程包括資料脫敏、波動模式分類、資料預處理、序列指標評價等等步驟。大體上,我們把金融時間序列的波動模式分為了上升、下降、波動、極端事件共 4 類。在獲得資料集後,我們透過 Hexbin 圖驗證了 FinTSB 的全面性。
如圖,相比 ALSP-TF(IJCAI'22)、ADB-TRM(IJCAI'24)、CI-STHPAN(AAAI'24)所採用的 2013 年到 2017 年的資料,LSR-iGRU(CIKM'24)、FinMamba 所採用的 2018 年到 2023 年的資料,LARA(IJCAI'24)、RSAP-DFM(IJCAI'24)採用的 2008 年到 2020 年的資料,FinTSB 涵蓋了最豐富的波動模式,全面反映了變化多端的金融市場。
▲ 圖3 FinTSB 與其他工作所採用資料集的多樣性對比
我們還計算了非平穩性、可預測性等指標來觀察不同波動模式的性質,可以看到極端事件的可預測性最低,而上升或下降模式則更容易被預測。
▲ 圖4 FinTSB 的統計指標
2.2 統一評測框架設計
本模組中,我們首先倡議實用 3 個維度的全面指標進行評測,包含誤差指標(MSE、MAE)即最經典的時序預測誤差衡量方式,排名指標(IC、ICIR、RankIC、RankICIR)評價預測收益率與真實收益率之間的相關性和排名準確性,以及基於投資組合的指標(ARR、AVoL、MDD、ASR、IR)評價根據預測結果生成投資組合的表現。
之後我們搭建了基於 Qlib 的統一評測框架,主要分為 4 個模組,資料層用於資料預處理和資料構建,訓練層用於呼叫各種基於不同 backbone 的模型,回測層用於根據預測結果生成符合真實市場限制的投資組合並進行評測,反饋層用於記錄日誌、儲存輸出結果和視覺化檔案。
在訓練層中,我們的損失函式全部採用了迴歸誤差損失和排名損失。
▲ 圖4 固定96輸入長期預測的實驗評估
2.3 回測交易協議
我們採用了 TopK-Drop 投資組合方法,用以避免 TopK 方法帶來的高換手率問題,並考慮交易手續費。具體來說,在交易日  時,根據預測的日收益率排名可以構造一個等投資權重的股票集合  ,其中共  支股票。
由於換手率限制,每天需要交易的股票數量 需要滿足  。我們選擇  為全部標的股票的 10%,即  為 5。另外,我們按照每次交易的 0.1% 收取手續費。
實驗分析
3.1 各個模型在 FinTSB 表現
我們評測了各種 backbone 在 FinTSB 上的表現如下表所示,其中加粗為最好的指標,下劃線為最不好的指標。我們發現沒有一個模型可以在幾乎全部的指標上達到最優,及時基於相同的架構,模型間表現差異也比較大,我們將其歸因於各個模型捕獲時間依賴和股票間關係的能力差距。
另外,值得注意的是,隨著引數量增加,基於 LLM 的模型表現先表差,在超過某個引數閾值之後,模型效果顯著變好,體現了 LLM 在金融時間序列預測任務上的湧現能力。其次,傳統機器學習演算法與經典策略並不如想象中不如更新的深度學習模型等等,說明了全面考慮各種型別模型的重要性。
▲ 圖6 FinTSB 實驗結果
3.2 真實市場遷移學習實驗
為了驗證 FinTSB 的有效性,我們將在 2024年全年的中國股市上評測了再 FinTSB 上訓練的模型,其中,在 FinTSB 上表現好的 GAT 、Transformer、Localformer 等模型在真實歷史市場上也有較好的表現。
▲ 圖7 遷移學習實驗結果
3.3 交易即時性要求
TimeFilter 與同樣與多種現有方法在 4 個基準資料集上進行了測評。短時預測任務中資料的時變特性較強,對模型的區域性依賴捕捉能力提出了更高要求。圖 6 實驗結果表明,TimeFilter 在捕捉短期波動方面表現出色,超越了多種先進模型,尤其在 PEMS08 資料集。
為了考察演算法的效率能否滿足真實交易環境的即時性要求,我們還可視化了多個演算法的推理時間、記憶體佔用和年化夏普比率。
▲ 圖8 推理時間比較
結論
在本文中,我們提出了 FinTSB,一個針對 FinTSF 的綜合基準,解決了三大挑戰。
首先,透過將股票走勢分為四種類型,確保評估更具多樣性和代表性,填補了以往研究中的“多樣性缺口”。其次,引入統一評估框架,標準化多維度效能指標,緩解“標準化不足”,使跨研究比較更可靠。最後,結合關鍵市場結構因素,克服“現實世界不匹配”,減少效能指標的失真。
FinTSB 為 FinTSF 方法的評估與發展提供了堅實平臺,有望推動 FinTSF 在實際應用中的進一步研究。
團隊介紹
同濟大學國家級(省部共建)網路金融安全協同創新中心致力於研究透過大資料、人工智慧等前沿技術手段,提升金融服務效率和風險管理能力,助力金融行業的數字化轉型。中心以服務於國家金融安全和全球金融中心建設為科技創新目標,協同金融機構、高校、企業單位等開展科學研究、技術開發、人才培養與學術交流。
團隊部分開源的學術工作詳見:
https://github.com/TongjiFinLab
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·


相關文章