資產定價中的實證挑戰(II)

作者:石川,清華大學學士、碩士,麻省理工學院博士。《因子投資:方法與實踐》領銜作者,《機器學習與資產定價》譯者。
封面來源:www.pexels.com
未經授權,嚴禁轉載。
人們對於資產定價的理解離不開層出不窮的實證挑戰。本文梳理當下的一個重要的驅動力:協變數和收益率之間的複雜關係。
0
如前文《資產定價中的實證挑戰 (I)》所述,現如今,實證資產定價研究正規化從計量經濟學轉向了機器學習;而這背後的驅動因素來自(至少)兩方面的實證挑戰:(1)協變數的高維數;(2)公司特徵和收益率之間的複雜關係。
作為第二篇,本文聚焦公司特徵和收益率之間的複雜關係。
1
資產收益率代表了投資者關於資產未來現金流的預期;這一預期建立在每個投資者各自掌握的資訊集之上。大資料時代協變數的激增讓資訊集不斷擴充;協變數和收益率之間的關係也更加撲朔迷離。作為實證研究者,我們無法觀測到投資者使用的所有資訊,甚至很難在模型中包含其中的哪怕一小部分資訊(Cochrane 2005)。
類似地,我們無從知道投資者使用資訊的具體方式,因此也就無法在引數統計模型中做出相應的結構性假設(Kelly and Xiu 2023)。我們可以透過模型的高度不確定性來審視協變數和資產收益率之間的未知複雜關係。此外,協變數之間的互動作用是上述複雜關係的重要體現之一。
2 模型不確定性
Giannone et al. (2021) 研究了大資料時代經濟學領域常見的六大類預測問題,其中之一就是實證資產定價。該文線上性模型的框架下,透過兩個引數控制模型納入協變數的機率以及協變數的係數被向先驗(零)收縮(shrinkage)的程度(此處,將係數向先驗收縮是一種正則化手段)。
對於高維協變數,收縮是防止過擬合的有效手段。透過貝葉斯統計,該文得出了上述引數的後驗聯合分佈並以此給出了諸多非常有益的定量統計推斷。在他們考慮的資產定價案例中,協變數被納入機率的後驗均值很高(0.6 左右)且分佈緊密圍繞在均值周圍。其次,從聯合分佈來看,被納入的機率越高,協變數係數的收縮的程度也越高(從而防止過擬合)。
Kozak et al. (2020) 的實證結果也支援這一觀點,即納入更多的協變數和施加必要強度的正則化對於模型在樣本外的表現至關重要。該文使用 50 個協變數構造因子並研究了它們對於資產定價的作用。實證結果表明,只有當上述兩點均滿足時才能在樣本外獲得更好的表現。
此外,Giannone et al. (2021) 還考察了每個協變數被納入模型的機率。對於我們關心的問題,該文使用的 144 個協變數均有一定的機率被納入模型。結合所有協變數的整體被納入機率,我們可以得出實證資產定價問題中並沒有明顯的稀疏性模式。換言之,每個協變數都有一定可能存在於真實的模型之中,即模型有很高的不確定性。
上述結論在 Bryzgalova et al. (2023) 中得到了進一步確認。該文以 51 個因子的超過 2 千萬億種排列組合所構造的模型為分析物件,發現不存在某個最優的模型,而是存在數百種可能的模型設定,給出了幾乎相同的資產定價實證結果(即 cross-sectional model space is FLAT)。
此外,Bryzgalova et al. (2023) 指出,最終的資產定價模型可能由 factor selection 和 factor aggregation“雙向奔赴”構成,即有一些因子被納入 SDF 的機率很高(確定性很高),而其他絕大多數因子都有高度的不確定性。這意味著,在公司特徵層面,SDF 是非稀疏的,因此僅僅指望使用極少數變數以構造簡約的定價模型(FF3、FF5)是不切實際的。
當然,或許你會問,那麼 PCA 以及各種 PCA 的延伸(例如 Risk Premium PCA)如何。實證結果(下圖)顯示,並非所有的 RP-PC 因子都進入最終的模型;且在被納入的 RP-PC 因子之外,模型中依然有 standalone 公司特徵。這意味著,人們依然不完全清楚如何最合理的 aggregate 公司特徵;而更有可能的是處於 factor selection 和 factor aggregation 的某種“平衡”之中。
模型的高度不確定性意味著,最佳的預測往往是透過對平均帶有不同協變數的模型而獲得。這合理地解釋了模型平均技術以及更廣泛的整合機器學習方法(如提升、裝袋和隨機森林等)為什麼能在實證上取得成功。此外,上述研究對於樣本外的啟發是,忽視模型不確定性且強加稀疏性假設會造成投資機會的損失。
3 非線性關係
近年來,收益率與協變數之間的非線性關係越來越受到重視(Kirby 2020),特別是在考慮宏觀經濟因素、交易成本或投資者行為時。
非線性關係可能源於多種原因。首先,資產的收益率會隨著時間變化,受到宏觀經濟週期、貨幣政策和全球金融危機等因素的影響。其次,交易成本和市場摩擦也可能導致非線性關係。此外,投資者的反應過度以及反應不足也會致使這種現象出現。投資者的異質性和行為也可能導致收益率與協變數之間的非線性關係。不同的投資者可能對資訊有不同的反應,或者在不同的時間尺度上做出投資決策,從而影響資產價格和收益率。
從實證角度來說,考慮協變數之間的互動作用而單一協變數的高階項非是捕捉這種非線性的關鍵(Bryzgalova et al. forthcoming,Gu et al. 2020,Nagel 2021Chen et al. 2024)。例如,Gu et al. 2020 透過比較不同模型發現,和僅考慮變數自身高階項的廣義線性模型相比,考慮變數之間相互作用的迴歸樹模型以及神經網路模型能夠獲得更好的樣本外實證結果。
在學術發現中,有關協變數互動作用的一項經典實證研究要數 Stambaugh et al. (2015)。該文從套利風險的角度研究了特質性波動率(idiosyncratic volatility)和收益率的關係。套利風險指的是套利活動常常因為各種原因被阻止。關於套利風險的來源,最常見的便是噪聲交易者的行為。套利交易者在價格高估時會賣空股票,但此時噪聲交易者可能繼續買入,進一步推高價格,甚至最終迫使套利交易者因追加保證金的壓力等原因而止損。
鑑於上述假設,該文提出了關於特質性波動率、套利風險以及錯誤定價三者之間關係的猜想,即特質性波動率越高,套利風險也就越高,因而股票的錯誤定價就更難以被消除。此外更重要的是:(1)對於被低估的股票而言,其錯誤定價越嚴重,則該股票的價格相對其內在價值越低,因此未來的預期收益率越高,這意味著特質波動性和預期收益率正相關;(2)反觀被高估的股票來說,其定價錯誤越嚴重,則該股票的價格相對其內在價值越高,其未來的預期收益率越低,這意味著特質波動性和預期收益率成反比。從以上論述不難看出,錯誤定價的程度導致了特質波動性和收益率之間的非線性關係。實證結果證實了他們的猜想。
上述結果對於實證研究的另一個啟示是,我們可以在控制一個協變數的前提下,研究另一個協變數和收益率之間的關係。這對應著學術界在構造因子是廣泛使用的雙重排序法(該方法因被 Fama and French 1993 用來構造因子而得以發揚光大)。
與之對應的另一個手段是將協變數的交乘項加入到迴歸模型之中。然而,哪些變數之間存在互動作用呢?金融學先驗在這方面似乎沒有給出太多的指引。此外,在協變數的高維數時代,想要窮盡兩兩變數的雙重排序或是交乘項也是不切實際的。在這種困境下,透過資料驅動的方法捕捉隱藏在資料之中的潛在非線性關係或許是可行之道。
以上簡要梳理了當下資產定價研究的第二個實證挑戰。本文和前文勾勒的兩個實證挑戰也在很大程度上驅動了實證研究從計量經濟學向機器學習轉型。
在下一篇,我們將會對比這二者在實證資產定價研究中的異同。
Stay tuned.
參考文獻
Bryzgalova, S., J. Huang, and C. Julliard (2023). Bayesian solutions for the factor zoo: We just ran two quadrillion models. Journal of Finance 78(1), 487-557.
Bryzgalova, S., M. Pelger, and J. Zhu (forthcoming). Forest through the trees: Building cross-sections of asset returns. Journal of Finance.
Chen, L., M. Pelger, and J. Zhu (2024). Deep learning in asset pricing. Management Science 70(2), 714-750.
Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33(1), 3-56.
Giannone, D., M. Lenza, and G. E. Primiceri (2021). Economic predictions with big data: The illusion of sparsity. Econometrica 89(5), 2409-2437.
Gu, S., B. T. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning. Review of Financial Studies 33(5), 2223-2273.
Kelly, B. T. and D. Xiu (2023). Financial machine learning. Foundations and Trends® in Finance 13(3-4), 205-363.
Kirby, C. (2020). Firm characteristics, cross-sectional regression estimates, and asset pricing tests. Review of Asset Pricing Studies 10(2), 290-334.
Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section. Journal of Financial Economics 135(2), 271-292.
Nagel, S. (2021). Machine Learning in Asset Pricing. Princeton University Press.
Stambaugh, R. F., J. Yu, and Y. Yuan (2015). Arbitrage asymmetry and the idiosyncratic volatility puzzle. Journal of Finance 70(5), 1903-1948.
免責宣告:入市有風險,投資需謹慎。在任何情況下,本文的內容、資訊及資料或所表述的意見並不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自於相應論文,僅為介紹之用,版權歸原作者和期刊所有。
總寫量化
分享量化理論和實證心得

相關文章