作者:石川,北京量信投資管理有限公司創始合夥人,清華大學學士、碩士,麻省理工學院博士,著有《因子投資:方法與實踐》、《Navigating the Factor Zoo》,譯有《機器學習與資產定價》。
封面來源:www.pexels.com
未經授權,嚴禁轉載。
摘
要
本文解析協變數的高維數時代,實證資產定價研究中機器學習的機遇和挑戰。
0 前文回顧
本系列的前文分析表明,當面對時序和截面收益率資料量有限的情況,同時存在大量具有預測資訊的協變數,並且這些協變數之間可能透過互動作用對收益率產生非線性影響時,傳統的計量經濟學方法(如 OLS)往往顯得低效甚至難以適用。
在這種背景下,機器學習演算法憑藉其強大的建模能力,或許不再是錦上添花,而是成為解決問題的關鍵工具。作為本系列最後一篇,本文首先針對前文有關測試資產選擇和模型設定偏誤的問題給出機器學習模型的解決辦法,之後會從模型複雜度和泛化效能、漸近分佈以及可解釋性幾個角度進一步闡釋機器學習在實證資產定價中的機會和挑戰。
1 測試資產與機器學習
由前面的論述可知,測試資產一方面應該包含關於資產預期收益率截面差異的足夠資訊,另一方面則應該包含較低的噪聲以防止估計誤差或者定價模型被過度拒絕。而傳統方法中無論是使用變數進行雙重排序還是直接使用個股都難以滿足上述條件。在這方面,Bryzgalova et al. (forthcoming) 結合了機器學習中的決策樹和資產定價理論,構造了資產定價樹,取得了一定的進展。
首先,該文使用大量協變數作為決策樹的劃分依據。假設共有 K 個協變數,則一棵深度為 d 的決策樹共有潛在 K^d 種構造順序,且每次劃分的節點都是一個由滿足該劃分的股票而構成的投資組合。如果考慮所有可能的劃分產生的全部投資組合,無疑會陷入維數災難。為此,該方法的第二步是使用剪枝(pruning)。剪枝的目的是為了留下對資產定價而言最重要的節點(投資組合)。
由於目標是構造測試資產,因此剪枝的目標是使留下的節點所構成的 MVE 組合的夏普比率最大。該目標在數學上可以透過估計 MVE 組合中每個節點的權重實現。為了防止樣本內過擬合,該文在損失函式中同時加入了 L1 和 L2 罰項。二者可以有效控制模型複雜度,且 L1 罰項能夠施加稀疏性約束。實證結果表明,基於上述資產定價樹所構造的測試資產所涵蓋的截面資訊遠遠超過傳統 portfolio sort。
2 模型設誤與機器學習
為了避免遺漏變數問題,Feng et al. (2020) 提出了兩步 LASSO 迴歸來識別真實的因子。第一步 LASSO 首先從眾多候選因子中找出能夠解釋資產預期收益率的因子。之後,在第二步 LASSO 中,該文透過考察“已選出因子和資產的協方差”以及“剩餘因子和資產的協方差”之間的相關性,再選出額外的因子。第二步有效地避免了第一步存在模型設定偏誤導致遺漏變數的問題。
遺漏變數問題可導致因子溢價估計有偏。因此,如何準確的估計因子溢價以及在這個基礎上檢驗異象就是非常重要的問題。由於真實的因子結構是未知的,因此學術界把研究的目光移到了隱性因子模型上。在隱性因子模型框架下,任何一個可觀測因子的風險溢價等於它對隱性因子的暴露乘以隱性因子的溢價。在這個性質下,Giglio and Xiu (2021) 利用主成分分析(PCA),透過隱性因子模型估計可觀測因子的溢價。
計量經濟學中的重要性質使得 PCA 在這方面大有可為。首先,利用線性因子模型的旋轉不變性,即便只能觀察到隱性因子的某個滿秩變換,也不妨礙估計可觀測因子的溢價。其次,只要隱性因子足夠強,PCA 總是可以復原對因子空間的某個旋轉變換。透過這兩個性質,該文準確地估計了可觀測因子的溢價。
3 模型複雜度和泛化效能
機器學習屬於應對維數災難的密集建模技術,為解決高維預測問題提供了強大的工具庫。機器學習模型能夠透過高維協變數揭示出錯綜複雜的資料關係,捕捉那些在傳統統計方法中可能被忽視的模式。例如,金融市場中,透過綜合大量的經濟指標、公司特徵、市場資料以及非結構化資訊,機器學習模型可以識別出影響資產價格的細微變化和深層次因素。這種深入分析能力為理解市場動態和預測未來趨勢提供了新的視角。從這個意義上說,相比於傳統方法,機器學習的靈活性使它在近似複雜、非線性或高維資料生成過程(Data Generating Process,DGP)方面具有潛在優勢。
然而,對 DGP 的更好近似並非沒有代價。如果使用不當,機器學習模型可能會過於靈活,導致過擬合。為了避免這種情況,引入正則化來控制模型的複雜度非常必要。正則化有助於提升模型在樣本外的泛化能力。當模型複雜度很低時,模型的方差很小但偏差很高;當模型複雜度高時,模型的偏差降低但方差增大。二者共同作用導致泛化誤差隨模型複雜度呈現人們熟悉的 U 型,即模型太簡單或太複雜都不好,而最小化泛化誤差的複雜度位於一個折中的位置,微妙地平衡了偏差和方差。
上述傳統的模型複雜度與泛化效能的關係是以協變數的個數小於樣本個數為前提。然而,近年來機器學習領域的諸多突破成果表明,在其他應用中取得成功的深度神經網路中,模型引數的個數超過樣本個數並不罕見,但它們卻有著很好的泛化效能。這個現象促使這人們搞清楚背後的原因。當協變數個數超過樣本個數時,模型能夠完美的擬合訓練集樣本。
對這樣一個模型來說,人們以往的認知是,它在樣本外的泛化誤差一定會“爆炸”,因為它過度擬合了訓練集資料的全部噪聲。然而,Belkin et al. (2019) 指出,在施加足夠正則化約束的前提下,模型複雜度超過樣本個數之後,泛化誤差並沒有“爆炸”,而是隨著複雜度的提升下降。因此,如果我們以樣本個數表示模型複雜度,並以它為界限觀察泛化誤差在其左右的曲線,會發現在其左側(即經典 U 型區域),泛化誤差會隨複雜度的下降而下降(這是因為模型會逐漸接近傳統區域內實現偏差-方差權衡的那個點);而在其右側(即過度引數化區域),泛化誤差會隨模型複雜度的上升而下降(下圖)。Belkin et al. (2019) 把這個現象稱為雙側下降(double descent)。

從直覺上解讀上述現象,在過度引數化區域,由於協變數個數超過樣本個數的時候,因此訓練集的解是不唯一的。然而,在必要強度的正則化作用下,最優的解實現了方差最小。隨著協變數越來越多(即模型越來越複雜),最優解的方差總能單調下降。再來看偏差,由於所有模型都是真實 DGP 的某個誤設版本,因此當變數個數超過樣本個數時,偏差也會在一定範圍內隨著複雜度而下降。最終,二者的綜合結果是在過度引數化區域,模型的泛化誤差隨複雜度的上升而下降。
我們還可以換個角度來理解傳統的偏差-方差的權衡。當模型簡單時,它的引數很少因此能夠有效規避過擬合,但卻無法很好地近似 DGP;當模型複雜時,它的引數很多甚至過度引數化,但也更有可能近似 DGP。因此偏差-方差權衡也可以被理解為更好地近似 DGP 與防止過度引數化之間的權衡。當近似 DGP 帶來的好處超過過度引數化帶來的統計成本時,提升模型的複雜度就是有益的。
對於實證資產定價而言,真實的 DGP 是十分複雜的,協變數也是高維的。那麼上述機器學習領域的最新發現對預測資產收益率又有什麼啟示呢?過度引數化的複雜模型是否也能夠被應用於實證資產定價之中呢? Bryan Kelly 一系列以“複雜度美德”為題目的論文對此做了初步的探討,認為在實證資產定價中提升模型複雜度能夠帶來樣本外的好處。例如,Kelly et al. (2024) 使用神經網路研究了美股市場的擇時問題;Didisheim et al. (2023) 則將“複雜度美德”擴充套件到截面定價模型。
4 漸近分佈
估計量的漸近分佈描述了該估計量在樣本大小趨向無窮時的分佈特性。它為人們提供了一種評估估計量長期行為的方法,幫助人們瞭解其在大樣本下的性質。對於機器學習模型,雖然其關注的重點是預測而非引數估計,但瞭解模型引數的漸近特性仍然是非常有益的,特別是對實證資產定價而言。
例如,考慮一個簡單的線性迴歸模型。在傳統的統計學中,我們知道其係數估計的漸近正態性。這意味著,隨著樣本大小的增加,這些係數的估計會圍繞真實值波動,並服從正態分佈。在機器學習的背景下,尤其是當我們使用更復雜的模型時,這種漸近性質可能不再成立,或者可能更難以推導。每個機器學習模型都有其特定的引數。這些引數通常是透過最佳化演算法從資料中學習得到的。但隨著資料量的增加,它們的取值會如何變化?是會收斂到某個固定值,還是會不斷波動?這就是漸近分佈回答的問題。
考慮到金融市場的噪聲和不確定性,機器學習模型的漸近特性對於評估模型的穩定性和過擬合風險尤為重要。一個具有良好漸近特性的模型更可能具備良好的泛化效能。Athey and Imbens (2019) 指出,即使在複雜的機器學習模型中,理解和分析漸近行為仍然是確保模型穩健性的關鍵步驟。透過分析模型在大樣本下的行為,研究人員可以更好地理解模型的收斂性和穩定性。
5 可解釋性
關於金融領域中的機器學習,一個常見的誤解是認為它只重視預測準確性而忽視可解釋性,常被視為一種“黑箱”方法。然而,這種觀點過於簡化了機器學習在實證研究中的角色,特別是在資產定價的背景下。儘管機器學習模型確實複雜,但已有大量努力確保這些模型保持可解釋性,與傳統學術界對理解預測背後“為何”和“如何”的強調相一致。
在傳統的多因子模型中,可解釋性一直是基石。例如,Fama-French 五因子模型是基於股息折現模型,而 Hou-Xue-Zhang 模型則基於 q 理論。同樣,對異常現象的研究通常將其分類為基於風險或由於錯誤定價,提供了其存在的明確解釋。當機器學習模型進入這一領域時,向複雜演算法的轉變引發了對失去這種可解釋性的擔憂。然而,機器學習並非與可解釋性本質上對立。
對於線性機器學習模型來說,可解釋性相對簡單。例如,Kozak et al. (2018, 2020) 使用主成分分析(PCA)從投資組合中提取主成分,發現前兩個成分完全對應於著名的規模(SMB)和價值(HML)因子。同樣,Kelly et al. (2019) 提出了條件 PCA(即 Instrumented PCA)。雖然其數學複雜,但本質上是從橫截面迴歸中得出的管理投資組合的線性組合。這些例子表明,即使在機器學習框架內,線性模型仍然保留了根植於迴歸分析和投資組合排序法中的可解釋性。
對於非線性模型來說,可解釋性更具挑戰性,但仍然是學術研究的重點。例如,Gu et al. (2020) 使用 permutation importance 來識別在預測中最重要的協變數。其研究結果顯示,最重要的協變數——動量、流動性、風險和基本面變數——與數十年的實證資產定價研究一致。同樣,Chen et al. (2024) 透過分析隨機折現因子(SDF)權重對協變數的敏感性來評估模型的可解釋性,識別出交易摩擦、價值、無形資產、盈利能力以及投資等最重要的協變數。
其他創新方法進一步突出了機器學習模型的可解釋性。例如,Kozak (2020) 應用核技巧將協變數對映到更高維空間,使得 PCA 能夠在保持計算效率的同時揭示出關鍵的協變數。透過將結果映射回原始協變數,該文仍然可以識別出最重要的解釋變數。此外,Avramov et al. (2023) 展示了觀察不同協變數中被選中股票的共同特徵可以揭示變數的重要性,加強了機器學習洞察與傳統資產定價原則之間的一致性。
這些例子強調了機器學習模型不僅能夠提高預測準確性,還能揭示與既有實證發現一致的關鍵解釋變數。最後,我們想強調的是,追求機器學習中的可解釋性並非事後之舉;相反,這是在複雜演算法與資產定價基本原則之間架起橋樑的積極探索。隨著機器學習的不斷發展,其預測能力和可解釋效能夠確保其在金融研究中發揮更大的作用。
6 What's Next
2020 年,RFS 推出了 New Methods in the Cross-Section 的專刊,標誌著實證資產定價從計量經濟學向機器學習的轉變,而它背後所折射出來的,更是從 sparse-modeling 向 dense-modeling 的轉變。
站在當下,再次回顧 Breiman 提出的兩種文化所帶給我們的啟發。在面對實際問題時,我們不應該盲目地堅持某一種文化,而應該根據問題的性質和資料的特點來選擇最合適的方法。當然,對實證資產定價而言,問題絕非像使用機器學習取代計量經濟學那麼簡單,且金融資料低信噪比、不滿足平穩性等特徵也決定了現成的機器學習演算法也並非即插即用。如何在實證研究中成功應用機器學習,才是必須回答且必須回答好的問題。
感謝各位小夥伴看到這裡。本系列寫到此就暫時告一段落了。而關於如何回答好這個問題,今後自會有答案的。
Stay tuned.
參考文獻
Athey, S. and G. W. Imbens (2019). Machine learning methods that economists should know about. Annual Review of Economics 11, 685-725.
Avramov, D., S. Cheng, and L. Metzker (2023). Machine learning vs. economic restrictions: Evidence from stock return predictability. Management Science 69(5), 2587-2619.
Belkin, M., D. Hsu, S. Ma, and S. Mandal (2019). Reconciling modern machine-learning practice and the classical bias–variance trade-off. PNAS 116(32), 15849-15854.
Bryzgalova, S., M. Pelger, and J. Zhu (forthcoming). Forest through the trees: Building cross sections of asset returns. Journal of Finance.
Chen, L., M. Pelger, and J. Zhu (2024). Deep learning in asset pricing. Management Science 70(2), 714-750.
Didisheim, A., S. Ke, B. T. Kelly, and S. Malamud (2023). Complexity in factor pricing models. Working Paper.
Feng, G., S. Giglio, and D. Xiu (2020). Taming the factor zoo: A test of new factors. Journal of Finance 75(3), 1327-1370.
Giglio, S. and D. Xiu (2021). Asset pricing with omitted factors. Journal of Political Economy 129(7), 1947-1990.
Gu, S., B. T. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning. Review of Financial Studies 33(5), 2223-2273.
Kelly, B. T., S. Malamud, and K. Zhou (2024). The virtue of complexity in return prediction. Journal of Finance 79(1), 459-503.
Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances: A unified model of risk and return. Journal of Financial Economics 134(3), 501-524.
Kozak, S. (2020). Kernel trick for the cross-section. Working paper.
Kozak, S., S. Nagel, and S. Santosh (2018). Interpreting factor models. Journal of Finance 73(3), 1183-1223.
Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section. Journal of Financial Economics 135(2), 271-292.
免責宣告:入市有風險,投資需謹慎。在任何情況下,本文的內容、資訊及資料或所表述的意見並不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自於相應論文,僅為介紹之用,版權歸原作者和期刊所有。

川總寫量化
分享量化理論和實證心得