
作者:石川,北京量信投資管理有限公司創始合夥人,清華大學學士、碩士,麻省理工學院博士,著有《因子投資:方法與實踐》、《Navigating the Factor Zoo》,譯有《機器學習與資產定價》。
封面來源:www.pexels.com
未經授權,嚴禁轉載。
摘
要
本文解析協變數的高維數時代,實證資產定價研究中計量經濟學的侷限性。
0 前文回顧
協變數的高維數給傳統計量經濟學提出了諸多挑戰。首先,過多的預測變數可能會存在多重共線性問題,從而使得模型引數估計變得不穩定。有時多重共線性可能導致某些變數的係數估計符號與預期不符,造成結果難以被經濟學理論所解釋。其次,當協變數的數量接近或超過樣本大小時,模型會過度引數化(over-parameterization)。如果不施加正則化,模型會過度擬合數據中的噪聲,影響其在樣本外的預測效能。
上述挑戰使得能夠應對維數災難(curse of dimensionality)的推斷方法越來越受歡迎和重視。根據 Ng (2013) 和 Chernozhukov et al. (2017) 的建議,這些方法可以被分為兩類。第一類是稀疏建模,旨在透過一些演算法從大量協變數中找到最具預測資訊的變數。第二類是密集建模,即認為儘管個體影響可能很小,但所有協變數都含有預測資訊。因此,密集建模仍然會使用大量協變數,但會透過正則化來防止過擬合。下文聚焦於實證資產定價中重要的問題,進一步說明計量經濟學的侷限性。
1 稀疏性導致投資機會的損失
傳統的多因子模型毫無疑問屬於稀疏模型。然而最新的實證研究表明,為了獲得更好的表現,定價模型中應該納入更多的協變數,那麼為什麼傳統多因子模型都是稀疏的呢?為了公允的回答這個問題,我們必須意識到一些早期的模型年代久遠(比如 Fama-French 三因子模型出現在 30 年前),因此現在的實證發現遠非當時能比。不過,這一事實依然無法解釋自 2010 年之後新出現的傳統模型所帶有的稀疏性約束。究其原因,可以從兩方面來回答。
第一點是對可解釋性的重視而造成的對簡約性的鐘愛。在傳統多因子模型中,每個模型背後都有一個令人信服的動機。例如,當 Fama 和 French 將規模和價值兩因子加入模型之後,這兩位實證研究的先驅又花費了很多的精力試圖探討它們分別代表了哪種系統性風險(Fama and French 1995, 1996)。又比如 Fama and French (2015) 和 Hou et al. (2015) 這兩個最流行的傳統模型,它們背後的動機分別為股利貼現模型和實體投資經濟學理論。再或者 Stambaugh and Yuan (2017) 和 Daniel et al. (2020),它們的出發點則是行為金融學。從這理論出發,一個自然的結果就是模型不會包含太多的因子,否則便難以自圓其說。這也造成了不同的模型依賴於特定的(ad-hoc)稀疏性假設,即每個人選擇幾個以及哪些因子,完全是因動機而異的、缺乏普適性。
這種因人而異的稀疏性假設還體現在構造因子時的變數選擇上。當 Fama and French (1993) 構造價值因子的時候,除了賬面市值比(BM)之外,還有諸如盈利市值比(EP)等變數供選擇,而他們最終使用 BM 而非 EP 更多的是一個數據驅動的選擇。在三因子模型被提出的前一年,Fama and French (1992) 基於排序和迴歸法同時指出,儘管 BM 和 EP 都能預測收益率,但當同時控制它們以及公司市值後,EP 不再顯著,表明 EP 的可預測性可能源自其和 BM 以及市值的相關性。不過有意思的是,在二十多年後的一篇針對中國股票市場的論文中,Liu et al. (2019) 卻使用 EP 代替了 BM,原因是在中國股票市場中 EP 比 BM 更能顯著地解釋股票預期收益率的截面差異。站在機器學習的視角,考慮到兩個變數不同且都帶有一定的預測資訊,也許更好的辦法是將它們結合起來使用,而非強加稀疏性約束。
第二個原因則是偏技術性的,和實證方法有關。Fama and French (1993) 的開創性讓它一舉成為實證研究的標杆。自此開始,使用投資組合排序來構造因子被競相效仿。在構造因子時,為了排除市值的影響,通常的做法是使用目標協變數和市值進行雙重排序。有時,為了排除變數間的相互影響,甚至會出現三個變數進行三重排序的情況(例如 Hou et al. 2015)。然而,當協變數繼續增大時,使用投資組合排序構造因子將變得無法操作。
為定量描述一個定價模型代表的投資機會並考察稀疏性假設造成的損失,我們可以用該模型的因子作為標的,並用它們構造均值—方差最最佳化(MVE)投資組合,然後透過考察該 MVE 組合的夏普比率來衡量該因子模型代表的投資機會。為此,Baba-Yara et al. (2021) 比較了傳統模型和近年來基於機器學習方法提出的實證模型在樣本外能夠獲得的最大夏普比率。

表中結果清晰地傳遞出,即便是考察樣本外,基於機器學習的這些實證模型也能夠獲得較傳統模型更高的夏普比率。例如,在傳統模型大戰中勝出的 Hou et al. (2015),其樣本外的夏普比率為 1.81。然而,同樣是屬於線性模型的 PCA 模型(Kozak et al. 2020)以及 IPCA 模型(Kelly et al. 2019),其樣本外的夏普比率則高達 2.77 和 3.21。這些結果表明了帶有稀疏性假設的模型在投資機會方面的不足,也意味著學術界數十年來指望用帶有特定稀疏性約束的簡約因子模型來為資產定價的嘗試註定是徒勞的。
2 測試資產選擇
在實證資產定價中,測試資產(test assets),即用來檢驗定價模型的資產(或為個股,或為由個股構造的投資組合),和因子就像是一枚硬幣的兩面,缺一不可。在實證中,因子溢價的強弱在很大程度上依賴於測試資產的選擇,而非因子的固有屬性(Giglio et al. 2025)。然而,在過去的三十年中,雖然學術界先後提出了諸多實證模型,但在測試資產方面卻鮮有進展。為什麼?因為 Fama and French (1993)。
正如前所述,這篇文章不僅僅是多因子模型的開山鼻祖,更是為學術界之後近三十年的實證研究鋪墊了一系列基礎的方法論,其中就包括構造測試資產的方法。在 Fama and French (1993) 中,二位作者透過雙重排序法不僅構建了價值和規模兩個因子,也同樣構造了用於檢驗該模型的測試資產。自此之後,使用市值和另一個協變數,透過 5 × 5 雙重排序構造出 25 個投資組合作為測試資產就成為學術界的標配。但是,將個股按照某個協變數排序分組實際上是一種降維處理,所產生的投資組合會丟失掉很多個股收益率在截面上的資訊(Lewellen et al. 2010)。如果待檢驗的因子和這些測試資產的分組屬性正交,這種處理方法將不能保證測試資產對於待檢驗的因子有足夠的暴露,進而導致無關因子(或弱因子)問題(Giglio et al. 2025)。以有限個透過雙重排序法構造的投資組合作為測試資產,大大降低了檢驗多因子模型的門檻。
面對這種困局,通常有兩種解決辦法。第一種是擴充作為測試資產的投資組合,即使用更多協變數作為排序變數來構造投資組合(並同時將行業組合也加入進來),從而構造上百個測試資產。後續的很多實證研究都採取了這種方法(例如 Fama and French 2020)。但第種做法仍難言完美。當使用協變數對股票排序時,往往最多同時考慮三個變數進行三重排序。如果繼續增多排序變數的個數可能導致不合理的結果,例如無法保證每個組裡面有足夠多的股票。
第二個解決辦法是直接使用個股作為測試資產。不過,這給因子暴露的引數估計帶來了巨大的挑戰。人們之所以鍾愛使用投資組合作為測試資產,是因為比起個股,它們的因子暴露估計不容易受到變數誤差(EIV)問題的影響。反觀個股,EIV 問題是個無法逃避的挑戰。為此,Jegadeesh et al. (2019) 透過引入工具變數的方法,在一定程度上降低了 EIV 問題的影響。此外,Clarke and Momeni (2021) 使用雙層自助法實現了利用個股作為測試資產的目標。儘管使用投資組合作為測試資產時,因子暴露的估計更加準確,但是 Ang et al. (2020) 從指出,這個好處並不能直接導致在估計因子溢價時獲得更低的標準誤(standard error)。這是由於因子風險溢價的標準誤是由因子暴露的截面分佈以及殘差風險決定的。使用投資組合作為測試資產破壞了因子暴露的分散度所涵蓋的資訊,從而導致了較大的標準誤。
3 模型設定偏誤
模型設定偏誤往往是帶有稀疏性約束的實證模型所面臨的問題。模型設定偏誤包括遺漏變數和無關變數兩方面。例如,Fama and French (2015) 曾指出 Fama and French (1993) 三因子模型是不完整的,以及加入了盈利和投資兩因子後,價值因子似乎變得多餘。
首先來看前者。遺漏變數問題指的是模型中遺漏了重要的解釋變數。對實證資產定價而言,遺漏變數可導致因子溢價的估計存在偏差,且偏差的方向可正可負。為理解這一點,考慮下面這個簡單的模型,即假設在真實資料生成過程中 和 以及 滿足如下線性迴歸模型:
接下來,假設我們分析中遺漏了變數 ,而認為 只是 的模型並透過 OLS 估計二者的關係。由計量經濟學知識可知, 的迴歸係數的偏差如下:
式中 是真實模型中 對 的迴歸係數, 是 對 的迴歸係數。上式說明, 的偏差由 和 共同決定,它的符號受這兩部分的影響。當我們透過 OLS 來估計因子溢價時,遺漏變數的存在會使得因子溢價的估計有偏,即遺漏變數偏差。從計量經濟學的角度來說,遺漏變數問題可以透過加入更多的解釋變數來解決;此外,也可以透過加入固定效應(fixed effect)來消除時不變的遺漏變數。然而,在模型中塞入太多的因子容易造成樣本內的過擬合。
為了檢驗一個給定的多因子模型中是否存在遺漏變數,Gagliardini et al. (2019) 提出了一個簡單有效的方法。如果不存在遺漏變數問題,則測試資產對多因子模型迴歸的殘差中就不應該存在殘留的因子結構。殘留的因子結構可以透過分析殘差協方差矩陣最大的特徵值來確定。若該特徵值超過了一定閾值就可以認為殘差並不獨立,存在遺漏變數問題。不過很顯然,這種方法也在很大程度上受到測試資產選擇的影響。
再來看後者,即無關變數問題。由計量經濟學的知識可知,迴歸模型中存在不相關的變數雖然不會影響其他解釋變量回歸係數的無偏性,但是會增大回歸係數的標準誤,從而降低估計量的效率。在多因子模型的場景下,上述過度識別問題的表現為模型中加入了弱因子,即和資產相關性非常微弱的因子。在這樣的模型設定下,一個常見的結果是弱因子的因子溢價很顯著,而真實的因子的溢價不顯著,從而造成真實的因子被捨棄(Gospodinov et al. 2014)。就這一問題,Bryzgalova et al. (2023) 透過貝葉斯方法給出了弱因子存在的前提下如何準確估計因子溢價的方法。
4 What's Next
上述分析表明,當面對時序和截面收益率資料量有限、同時存在大量具有預測資訊的協變數、並且協變數之間可能透過互動作用對收益率產生非線性影響時,傳統的計量經濟學方法往往顯得低效甚至難以適用。在這種背景下,機器學習演算法或許不再是錦上添花,而是成為解決問題的關鍵工具。
那麼,機器學習將如何應對上述計量經濟學所面臨的種種困難?而其自身在實證資產定價中的應用又將遇到哪些挑戰?且聽下回分解。
參考文獻
Ang, A., J. Liu, and K. Schwarz (2020). Using stocks or portfolios in tests of factor models. Journal of Financial and Quantitative Analysis 55(3), 709–750.
Baba-Yara, F., B. H. Boyer, and C. Davis (2021). The factor model failure puzzle. Working paper, Indiana University, Brigham Young University.
Bryzgalova, S., J. Huang, and C. Julliard (2023). Bayesian solutions for the factor zoo: We just ran two quadrillion models. Journal of Finance 78(1), 487–557.
Chernozhukov, V., C. Hansen, and Y. Liao (2017). A lava attack on the recovery of sums of dense and sparse signals. The Annals of Statistics 45(1), 39–76.
Clarke, C. and M. Momeni (2021). Testing asset pricing models on individual stocks. Technical report, University of Kentucky.
Daniel, K. D., D. A. Hirshleifer, and L. Sun (2020). Short- and long-horizon behavioral factors. Review of Financial Studies 33(4), 1673–1736.
Fama, E. F. and K. R. French (1992). The cross-section of expected stock returns. Journal of Finance 47(2), 427–465.
Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33(1), 3–56.
Fama, E. F. and K. R. French (1995). Size and book-to-market factors in earnings and returns. Journal of Finance 50(1), 131–155.
Fama, E. F. and K. R. French (1996). Multifactor explanations of asset pricing anomalies. Journal of Finance 51(1), 55–84.
Fama, E. F. and K. R. French (2015). A five-factor asset pricing model. Journal of Financial Economics 116(1), 1–22.
Fama, E. F. and K. R. French (2020). Comparing cross-section and time-series factor models. Review of Financial Studies 33(5), 1891–1926.
Gagliardini, P., E. Ossola, and O. Scaillet (2019). A diagnostic criterion for approximate factor structure. Journal of Econometrics 212(2), 503–521.
Giglio, S., D. Xiu, and D. Zhang (2025). Test assets and weak factors. Journal of Finance 80(1), 259–319.
Gospodinov, N., R. Kan, and C. Robotti (2014). Misspecification-robust inference in linear asset-pricing models with irrelevant risk factors. Review of Financial Studies 27(7), 2139–2170.
Hou, K., C. Xue, and L. Zhang (2015). Digesting anomalies: An investment approach. Review of Financial Studies 28(3), 650–705.
Jegadeesh, N., J. Noh, K. Pukthuanthong, R. Roll, and J. Wang (2019). Empirical tests of asset pricing models with individual assets: Resolving the errors-in-variables bias in risk premium estimation. Journal of Financial Economics 133(2), 273–298.
Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances: A unified model of risk and return. Journal of Financial Economics 134(3), 501–524.
Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section. Journal of Financial Economics 135(2), 271–292.
Lewellen, J., S. Nagel, and J. Shanken (2010). A skeptical appraisal of asset pricing tests. Journal of Financial Economics 96(2), 175–194.
Liu, J., R. F. Stambaugh, and Y. Yuan (2019). Size and value in China. Journal of Financial Economics 134(1), 48–69.
Ng, S. (2013). Variable selection in predictive regressions. In Handbook of Economic Forecasting, Vol. 2, pp. 752–789. Amsterdam: Elsevier.
Stambaugh, R. F. and Y. Yuan (2017). Mispricing factors. Review of Financial Studies 30(4), 1270–1315.
免責宣告:入市有風險,投資需謹慎。在任何情況下,本文的內容、資訊及資料或所表述的意見並不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自於相應論文,僅為介紹之用,版權歸原作者和期刊所有。

川總寫量化
分享量化理論和實證心得