QIMLInsight|基於兩階段機器學習模型的因子擇時方法


量化投資與機器學習微信公眾號,是業內垂直於量化投資、對沖基金、Fintech、人工智慧、大資料領域的主流自媒體公眾號擁有來自公募、私募、券商、期貨、銀行、保險、高校等行業30W+關注者,曾榮獲AMMA優秀品牌力、優秀洞察力大獎,連續4年被騰訊雲+社群評選為“年度最佳作者”。
量化投資與機器學習公眾號 獨家解讀
量化投資與機器學公眾號 QIML Insight——深度研讀系列 是公眾號全力打造的一檔深度、前沿、高水準欄目。
公眾號遴選了各大期刊前沿論文,按照理解和提煉的方式為讀者呈現每篇論文最精華的部分。QIML希望大家能夠讀到可以成長的量化文章,願與你共同進步!
本期遴選論文
來源:

The Journal of Portfolio Management Quantitative Special Issue 2024

標題:

Equity Factor Timing: A Two-Stage Machine Learning Approach

作者:

Kevin J. DiCiurcio、Boyu Wu、Fei Xu、Scott Rodemer、Qian Wang

核心觀點
  • 兩階段方法顯著增強了因子預測結果,突顯了在評估因子表現之前確定市場風險體制的重要性,強調了在動態因子投資策略中納入市場條件的必要性。
  • 市場風險訊號(金融動盪)和金融條件成為跨不同市場風險體制確定因子表現的關鍵特徵。這一發現強調了在開發因子預測模型時納入這些特徵的價值,以更好地應對不同的市場條件。
  • 同時整合宏觀經濟和市場風險因素進一步提高了模型的預測能力。這一發現表明,整合一般市場特徵和特定因子屬性可以導致更有效的因子投資策略,最終為投資者提供更全面的因子動態理解。
兩階段方法是本文提出的一種動態因子模型,旨在更好地應對不同市場條件下的因子表現。該方法包括以下兩個階段:
第一階段
市場風險體制的識別和預測階段,其過程如下:
1、市場風險體制預測器:首先,使用K均值聚類演算法對S&P 500指數的最大回撤資料進行分類,以識別不同的市場風險體制。這一步驟旨在將市場條件劃分為不同的簇,以反映不同的市場風險體制。如下圖是標普500滾動3個月的最大回撤資料,我們對下列資料進行聚類分析,根據K-Means聚類的Elbow分析,決定聚為3類,如圖7所示。
2、三種市場風險體制:在聚類過程之後,基於聚類結果確定的三種特定市場風險體制。其中cluster 0表示正常市場,cluster 1表示修復性反彈市場,cluster 2表示熊市。
3、市場風險預測:有了上述市場當前風險體制的標籤,可以使用各種監督學習的分類技術對市場風險體制進行分類學習,以預測未來市場的風險體制。監督學習需要X變數,y就是步驟2的聚類標籤。本文選取以下特徵:
除了以上表格中的特徵,還定義了一個Financial Turbulence指標,金融動盪的計算方法如下所示:
其中:
  • 代表特擇時間段t的金融動盪
  •  代表時間段t的資產回報率向量
  •  代表歷史回報率的樣本平均向量
  •  代表歷史回報率的樣本協方差矩陣
由於大部分時間市場處於正常階段,所以訓練時,採用了過取樣技術,如SMOTE,以解決資料不平衡問題,最終最小化了模型的偏差。下圖給出了模型預測準確度和特徵重要性。
在這一階段,透過聚類和分類技術,識別和預測了不同的市場風險體制,併為第二階段的因子相對錶現預測提供了基礎。整體而言,第一階段的過程旨在為第二階段的因子相對錶現預測提供基礎,併為動態因子擇時決策提供支援。
第二階段
是因子相對錶現的預測
在第一階段中,我們使用聚類演算法將市場風險體制進行分類,得到了不同市場風險體制下的因子表現資料。在第二階段中,我們使用監督學習技術來預測每個因子在不同市場風險體制下的相對錶現。
具體而言,第二階段的過程如下:
1、將整個資料集分成多個子資料集,每個子資料集對應於第一階段中識別出的不同市場風險體制。
2、對於每個子資料集,我們使用監督學習技術來預測每個因子的相對錶現。我們使用了多種監督學習技術,包括隨機森林、支援向量機和神經網路等。本文精選了六個常見的股票因子,包括價值、成長、動量、低波動性、質量和小市值。為了簡化分析並提高便利性,作者將代表時間週期僅佔3.8%的熊市階段合併到市場修正階段中。在每個階段的每個月,對上述6個常見因子的表現最佳的因子標註為1,其他因子標註為0。同樣選取階段1模型的特徵,訓練有監督的分類模型。
3、為了增強模型的動態性,我們採用了滾動視窗模型訓練方法,而不是使用擴充套件視窗。這使得模型能夠更好地適應不同的市場條件,並提高因子擇時策略的預測能力。
最後,我們使用歷史資料進行模型的回測測試,以評估模型的效能和有效性。我們使用了等權重因子和僅基於商業週期的方法作為基準(如下圖所示),以展示我們的模型相對於其他常見方法的優勢。而當使用本文的兩階段機器學習模型時,因子的權重為分類器最後給出的機率。
下圖是不同方法結果的對比:
總之,第二階段的過程旨在使用監督學習技術預測每個因子在不同市場風險體制下的相對錶現,以支援資料驅動的因子擇時策略。
最終,透過整合兩個階段的結果,得出每個因子在不同市場風險體制下的相對錶現機率,以指導動態因子輪換策略的決策。該方法的優點在於,它能夠更好地適應不同的市場條件,並提高因子輪換策略的預測能力。
下圖整體展示了本文提出的兩階段機器學習框架。
總結
因子擇時對於動態因子策略至關重要,並指出以前的學術研究已經成功建立了因子表現和宏觀變數之間的相關性。然而,真正的關鍵在於有效和系統地擇時這些因子以實現切實可行的結果。
在本研究中,作者利用宏觀經濟和金融市場資料的力量,採用了一個兩階段的機器學習框架來開發更動態的因子擇時方法。他們的框架的多功能性允許在不同的時間頻率下采用,並便於使用更廣泛的因子進行測試。
因此,作者提出了一個強大且替代性的因子擇時解決方案,具有在資產定價和投資策略中廣泛應用的潛力。他們的方法在準確預測市場風險階段和確定表現優異的因子方面的有效性展示了其實際相關性,並有助於推動因子投資領域的發展。透過利用宏觀經濟洞察力和機器學習技術之間的協同作用,作者的研究為最佳化投資組合配置和增強投資決策提供了新的途徑,以適應不斷變化的金融環境


相關文章