機器學習因子:預測週期怎麼選?


量化投資與機器學習微信公眾號,是業內垂直於量化投資、對沖基金、Fintech、人工智慧、大資料領域的主流自媒體公眾號擁有來自公募、私募、券商、期貨、銀行、保險、高校等行業30W+關注者,曾榮獲AMMA優秀品牌力、優秀洞察力大獎,連續4年被騰訊雲+社群評選為“年度最佳作者”。
來自:Robeco

作者:David Blitz、Matthias X. Hanauer、Tobias Hoogteijling、Clint Howard
標題:The Term Structure of Machine Learning Alpha

前言
非線性的機器學習模型確實能夠捕捉股票特徵和未來回報之間複雜關係。然而,相關文獻主要側重預測收益,而忽略了相關交易成本。在基於美股的資料測試後,我們發現這類模型表現較好的區間集中在2004年之前。2004年之後的表現大幅下滑。
在本文中,我們首先證明了有效的投資組合構建規則能夠使機器學習模型在2004年後的表現有明顯提升。然後,我們展示了2004年後基於更長週期的預測的機器學習策略能夠帶來更好的表現。
本文主要的發現有:
  • 我們發現機器學習模型的多空收益非常明顯。但隨著預測週期的增加,模型表現很換手同時降低,但換手降低的更明顯。所以考慮交易成本後,長週期的預測模型更優。
  • 在短週期預測模型中,高換手的短期因子佔主導;而在長週期預測模型中,低換手的基本面(如質量和價值)佔主導;
  • 考慮交易成本後,我們發現長週期模型與短週期的Alpha是正交的。而且在2004之後,長週期模型表現更優。
資料和模型
  • 去除微盤股的所有美股上市公司1957年至2021年的資料(以2004年分成前後兩段),平均每月2651個股票;
  • 因子:Chen和Zimmermann的開源因子庫(OSAP)中206個因子;
  • 預測目標:未來1、3、6及12個月的收益;
  • 模型,從簡單到複雜:
    • OLS
    • ENET,elastic net
    • GBRT
    • 三層神經網路,DNN3
    • ENS,以上模型的組合
  • 測試方法:每個月末更具模型未來的預測對所有股票進行排序,並分為十組,每組市值加權。
有啟發的測試結果
1、整體而言模型越複雜,表現越好;複合模型表現最好。(費前)預測週期越長,策略表現越差。在網際網路泡沫破裂和全球金融危機期間,這些策略都表現強勁,在2018年至2020年所謂的“量化危機”期間,特別是價值投資掙扎普遍存在弱點。其次,在樣本的後半段,效能顯著減弱。在2004年後的這段時間裡,1M策略與其他週期的差異顯著減小。(費後)1M相對其他週期的優勢不再那麼明顯,而且2004年之後甚至表現墊底。
2、下圖左邊包含了1M預測期排名前10重要的因子,以及這些因子在其他預測週期的重要性;下圖右邊包含了12M預測期排名前10重要的因子,以及這些因子在其他預測週期的重要性。在較短的預測期,重要的因子主要是短期因子,如短期反轉(STreversal),趨勢(TrendFactor)和行業勢頭(IndRetBig)是重要的
在12M預測期裡,與價值(BM、CF和NetEquityFinance)、盈利能力(GP和CBOperProf)和動量(High52)相關的更傳統的因子占主導地位。在所有四個預測範圍內,我們發現Size特徵是最重要的。在某種程度上,這是由樣本早期規模因子的強勁表現驅動的,導致模型將規模確定為回報的強大預測因子這也部分解釋了2004年後模型表現較弱的原因,當時規模因子的表現衰減嚴重。
3、對1M、3M、6M、12M、XENS的多空收益兩兩配對做迴歸,表格中的數字是迴歸的截距,也就是未被自變數解釋的部分。Panel A用的費前收益,Panel B用的費後收益。無論從Panel A還是B,都可以看出,短週期的收益大部分不能被中長週期的收益解釋,而中長週期的能被短週期解釋。但是相對費前,費後中長週期無法被短週期解釋的部分更大,說明經過長期預測訓練的機器學習模型能夠釋放額外的淨Alpha。
參考文獻
1、CHEN, A.Y., and ZIMMERMANN, T., 2022. “Open Source Cross-Sectional Asset Pricing.” Critical Finance Review 11 (2): 207–264.
2、Blitz, David and Hanauer, Matthias Xaver and Hoogteijling, Tobias and Howard, Clint, The Term Structure of Machine Learning Alpha (June 12, 2023). 


相關文章