
作者:石川,北京量信投資管理有限公司創始合夥人,清華大學學士、碩士,麻省理工學院博士。《因子投資:方法與實踐》領銜作者,《機器學習與資產定價》譯者。
封面來源:www.pexels.com
未經授權,嚴禁轉載。
摘
要
人們對於資產定價的理解離不開層出不窮的實證挑戰。本文梳理當下的一個重要的驅動力:協變數的高維數。
0
很大程度上,資產定價的發展歷程是由實證挑戰來驅動的。
這裡,通過幾張我自己的 slides 簡單整理一下。由於小夥伴們都比較熟,此處不再過多的說明。









從最後三張 slides 可知,現如今,實證資產定價研究正規化從計量經濟學轉向了機器學習;而這背後的驅動因素來自(至少)兩方面的實證挑戰:(1)協變數的高維數;(2)公司特徵和收益率之間的複雜關係。
我想透過兩篇小文對這兩方面進行梳理。作為第一篇,本文聚焦於協變數的高維數。
1
時至今日,恐怕沒人會否認我們已經步入了協變數的高維數時代。僅僅是基於量價和公司財務報表資料,學術界就已經挖掘出了數百個因子(Harvey et al. 2016, Hou et al. 2020),而業界使用的只會更多。除了傳統資料外,另類資料也在近年來不斷湧現。它們在金融領域,特別是資產定價領域,迅速嶄露頭角並得到了廣泛的關注。
與傳統的資料相比,另類資料提供了從不同維度觀察市場和經濟活動的可能性,為投資決策提供了更為豐富和多元的資訊來源。它們中不乏非結構化和半結構化資料。機器學習演算法的進步使得處理和分析複雜的另類資料成為可能。由於能為資產定價研究提供更為細緻和深入的見解,其成功應用不僅在投資業界落地開花,也促使學術界將實證研究的重點轉移到檢驗新資料中蘊含的股票收益率截面資訊。
此外,近年來 ESG(環境、社會和治理)概念越來越受到重視。隨著對 ESG 評估的需求增加,另類資料成為了收集和評估 ESG 相關資訊的重要來源。例如,衛星影像可以用來監測工廠的排放量或者森林砍伐情況,從而為環境評估提供資料。社交媒體和新聞源可以提供關於公司社會責任事件或爭議的即時資訊。因此,另類資料會透過 ESG 這個渠道影響投資者對於公司的看法,從而可能改變他們的投資策略和決策,最終間接地影響資產的收益率和市場表現。
然而,另類資料也帶來了新的挑戰,如資料清洗、完整性和時效性問題,以及如何從這些非傳統資料中提取真正有價值的資訊。但無可否認,另類資料重新定義了人們對市場的理解和投資策略的制定,為金融領域帶來一場創新革命。
2
本節挑選一些最具代表性的另類資料類別和論文,簡要介紹學術界基於這些新資料的實證資產定價發現。需要明確說明的是,本節絕非全面的文獻綜述。我只是希望透過所選擇的文章幫助讀者對另類資料在資產定價方面的多樣應用有一個整體的瞭解。
2.1 交易賬戶資料
關於散戶投資者(retail investors)交易賬戶資料的研究至少可以追溯到 20 年前。這方面的研究成果有助於幫助散戶糾正錯誤的交易習慣。不過,這類資料通常是非公開的。在諸多研究中,Barber and Odean (2000) 所用的包含約 78,000 個賬戶的交易資料集非常有名(學術界後來稱之為 Odean 資料集),在後來針對散戶投資者以及行為金融學的相關研究中得到了廣泛的應用。使用賬戶交易資料的最大問題在於資料集是非公開的,這往往使得相關研究難以被複現或擴充套件,而前述的那些代表性研究均存在這個問題。不過,該問題在 Boehem et al. (2021) 中得到了改善。該文並沒有使用賬戶資料,而是透過演算法從交易資料中有效識別出散戶的交易資料。
2.2 訂單簿資料
訂單簿(order book)記錄了市場參與者對特定資產的買賣意向。這些記錄反映了參與者的預期和市場的潛在壓力。訂單簿資料在市場微觀結構和高頻交易研究中起著重要作用。實證研究發現,訂單簿資料帶有揭示關於未來價格方向的預測資訊。Cont et al. (2014) 使用紐交所交易和報價資料,研究了 50 支股票的訂單簿事件(如限價訂單、市價訂單和取消訂單)對價格的影響,發現在短時間內,價格變化主要由最佳買入價和賣出價之間的供求失衡(訂單流失衡)驅動,並且這種失衡與價格變化之間存線上性關係。此外,文章還探討了這種關係對於日內股價波動動態的意義。
2.3 社交媒體資料
社交媒體和線上平臺為金融市場提供了豐富而即時的資料,這些資料被證明在預測股票收益率乃至公司基本面方面具有價值。從負面新聞的影響,到社交媒體上的人群智慧,再到特定平臺如 Twitter 的資料分析,學術研究探索了新資料來源的多種應用方式。舉例來說,Chen et al. (2014) 探討了透過社交媒體媒介傳播的投資者觀點能夠在多大程度上能預測股票未來的收益率以及公司的預期外盈利。透過對美國最受歡迎的投資者社交媒體平臺上釋出的文章以及文章下的評論進行文字分析,作者發現二者均能預測收益率和預期外盈利。上述研究不僅表明社交媒體資料帶有預測資訊,也強調投資者和實證研究人員應給予這些資料足夠的重視,以獲取和捕捉有關股票市場動態的更多資訊。
2.4 眾包資料
另一類應用廣泛的另類資料是眾包資料。Green et al. (2019) 使用 Glassdoor.com 資料研究了員工評價與股票收益率之間的關係。該網站提供了員工對公司的綜合評價和五個標準化評價指標,包括職業機會,薪酬福利,工作/生活平衡度,高層管理,企業文化與價值,所有評價皆為 1 至 5 星。理論上,員工評價變高,意味著經濟環境及公司前景很可能在變好,在其他條件相同的情況下,公司應有更好的表現,因此股票的預期收益率更高。為了驗證上述猜想,該文依據員工評價變化高低將股票分為三組,並透過做多高分組、做空低分組構造了因子,實證結果支援了他們的猜想,該因子的平均超額收益率非常顯著。此外,Da et al. (2021) 所使用的資料是一個名為 Forcerank 的移動應用上散戶對股票的周度評分。該文研究了投資者過度外推信仰和未來股票收益率之間的負相關關係。
2.5 文字資料
隨著機器學習演算法的普及,文字即資料這一看法早已深入人心,對文字資料的研究也成為了學術界的必爭之地,文字資料也在金融學領域得到了廣泛的應用。Cohen et al. (2020) 發現美股上市公司季報和年報中的文字措辭變化能夠預測股票收益率。具體而言,文字改動越少的公司未來的預期收益越高。透過做多改動少的公司、做空改動多的公司,該投資組合可以獲得超過 20% 的年化超額收益率。除了實證結果外,該文的精彩之處在於對背後機制的討論。該文發現財報中措辭變動背後的原因通常是以下幾種:更加負面的情緒、更高的不確定性、更多的訴訟以及 CEO/CFO 變動。這些原因往往意味著公司的運營面臨更高的風險和不確定性。另一方面,Bybee et al. (2023) 則基於文字資料構造了一個實證資產定價模型,發現基於新聞資料的多因子模型不輸諸如 FF5,HXZ 等主流多因子模型。
2.6 影像資料
Obaid and Pukthuanthong (2022) 和 Jiang et al. (2023) 將卷積神經網路應用於挖掘影像資料中關於資產收益率的預測資訊。前者對新聞照片進行情感分類並建立了一個每日投資者情緒指標。該情緒指標能夠預測市場收益率以及交易量。此外,該文還探討了照片中的悲觀情感與新聞文字中的悲觀情感在預測股價方面的可替代性,發現二者的關係更傾向於替代而非互補。後者則將機器學習直接應用於股票的 K 線圖之上。與傳統的按照特定模式定義動量或反轉不同,他們的方法可以靈活地識別與收益率高度相關的價格模式。機器學習演算法識別的模式與常規技術分析中的趨勢訊號有很大差異,並含有更高的預測資訊。值得一提的是,這些模式在不同的市場環境中同樣適用,例如短期內的價格模式在長期時間尺度上表現良好,而從美國股市中學到的模式在國際市場上也依然有效。
2.7 另類資料與分析師預測
除了用來預測資產收益率外,另類資料的豐富是否也在其他方面提高了金融預測的質量呢?Dessaint et al. (2024) 探討了另類資料的使用如何影響賣方分析師關於上市公司盈利預測的準確度,加深了人們關於另類資料對市場有效性的理解。該文首先透過梳理 26 篇相關學術論文(使用的另類資料包括社交媒體、衛星資料、搜尋引擎資料等),發現另類資料的預測時間尺度均不超過 1 年。換句話說,它們都是短期導向資料,只能對短期的預測提供資訊增量。在這個前提下,一系列問題自然而然地浮出水面。分析師的估值模型中往往需要同時應用短期和長期的盈利預測作為輸入,那麼大量含有短期預測資訊的另類資料的湧現對於分析師不同時間尺度(短期 vs. 長期)的盈利預測結果會有怎樣的影響?不同尺度上的綜合影響又是否能夠提高整體的預測質量呢?在另類資料愈加普及的今天,回答這些問題對於使用分析師盈利預測資訊至關重要。就上述問題,該文透過理論和實證給出了精彩的論述。
理論模型,該文假設分析師在進行盈利預測時,需要最優地分配其投入到不同時間尺度預測的精力,從而最小化預測誤差以及獲取不同時間尺度預測資訊的成本這二者之和。另類資料的出現降低了獲取短期預測資料的成本,並同時提高了短期預測資料的準確度。因此,它促使分析師將更多的精力投入到獲取和分析短期預測資訊上,以此來提高短期預測的準確度。然而顧此失彼,由於分析師的精力是有限的,這造成的後果是降低了他們長期預測的準確度。
實證方面,該文繪製了分析師盈利預測準確度的期限結構(即預測準確度隨預測的時間尺度的變化曲線),並考察了該期限結構的斜率如何隨另類資料的出現和普及而變化。首先,不管實證視窗如何,該期限結構都呈現出短時間尺度預測準確性高、長時間尺度預測準確性低的結構。接下來(最重要的一點),隨著另類資料的出現,期限結構變得更加陡峭,即短時間尺度上預測準確度增加,而其代價是長時間尺度上預測準確度下降。此外,該文考察了不同行業的期限結構隨時間的變化趨勢與另類資料的使用關係。迴歸結果顯示,另類資料使用越多的行業,其期限結構變得更加陡峭,從而說明了另類資料的使用以及長短期預測準確度變化差異二者之間的聯絡。
針對 A 股,利用朝陽永續的分析師預測資料(時間跨度為 2012 到 2023,共 4208520 個樣本),我們此前考察了分析師準確度的期限結構如何變化。具體而言,以 2016 年為分界將分析師盈利預測樣本分成前後兩個區間,分別計算並繪製這兩個區間內分析師盈利預測準確度的期限結構。從下圖所示結果可知,後一個區間內的短期預測準確度確有提升(和美股一致),另外有意思的現象是在跨度為 1 至 2 年(即 12 到 24 個月)的預測尺度上,第二個區間內的準確度較第一個區間顯著降低。不過和美股不同的是,在大於 2 年的預測尺度上,兩個區間內的結果並無顯著差異。

3
另類資料中蘊含的潛在預測資訊固然令人興奮,但因資料可得性問題(比如資料成本往往很高、有些甚至無法獲取)的原因,其在學術研究中廣泛普及尚需時日。另一方面,與之相對應的準另類資料則得到了更多的關注。關於準另類資料,其非正式的定義包含以下三點:(1)它不是典型的公司特徵或宏觀經濟資料;(2)它比另類資料的可得性更高;(3)它往往被忽視,因而被研究和利用的不夠充分。準另類資料中最重要的兩類是公司間關聯和基金隱藏資訊。它們均能為預測股票收益率提供增量資訊。
3.1 公司間關聯
在經濟活動和業務操作中往往存在直接或間接關聯的公司,這種關係被稱為公司間關聯。它可能基於供應鏈、行業關係、合作伙伴關係或共享資源等因素。這些經濟上相關聯的公司的經濟表現可能會受到彼此的影響或反映相似的市場動態,其股票收益率往往存在領先-滯後效應(lead-lag effect),即當一組資產對某一資訊或事件的反應比另一組資產更早或更迅速,導致後者的價格變動在時間上滯後於前者。
這種效應反映了資訊在市場中的不均勻擴散或某些資產的反應速度相對較慢。只要我們從某個切入點找到公司之間的關聯,就可以利用領先公司的收益率作為預測變數來預測滯後公司未來的收益率。在學術界的術語中,將被預測的公司(即滯後的公司)稱為焦點公司,將與之關聯的領先公司稱為關聯公司。因此,公司間的關聯是關聯公司對焦點公司的一種溢位效應,對它的研究有助於揭示資產價格動態背後的經濟機制和市場行為。
領先-滯後效應實證研究的第一步往往是從某個經濟視角出發度量公司之間的關聯度。在這方面,學術界的研究由來已久。下表彙總了發表在頂刊上的最重要的公司間關聯,包括行業內關聯、重要客戶關聯、複雜公司關聯、科技關聯、地理關聯以及分析師共同覆蓋關聯。

一旦有了關聯指標,接下來便可以按照如下的方法構造預測變數:
式中 表示 期和焦點公司 相關聯的關聯公司集合, 為 期關聯公司 和焦點公司 的關聯度指標(取值越高說明二者的關聯越強), 為 期關聯公司 的(累計)收益率。由該定義可知,焦點公司預測變數是 期其關聯公司收益率的加權平均(即關聯收益率),權重由關聯度強弱決定。利用預測變數 ,做多關聯收益率高的股票,同時做空關聯收益率低的股票。實證結果顯示,以此構造的投資組合能夠獲得顯著的超額收益,意味著公司間關聯中蘊含著關於資產收益率的有用資訊。
以分析師共同覆蓋動量為例,下表展示了其在 A 股上的實證檢驗結果。透過將該預測變數和市值進行雙重排序檢驗發現,無論是對小市值、大市值還是全市場平均,該關聯效應均能顯著預測股票的收益率。比如全市場平均而言,透過做多關聯收益率高、做空關聯收益率低股票而構造的投資組合的月均超額收益率為 0.71%,t-statistic 為 2.68。

和上述既有公司間關聯的研究不同, Eisdorfer et al. (2022) 另闢蹊徑,對年報的競爭章節進行了文字分析,並使用一家公司被多少其他公司當作競爭對手來衡量該公司的競爭力或競爭關聯。競爭關聯的基本邏輯非常容易理解,即被被提及的次數越多,表明公司越有競爭力,從而其股票的未來收益更高。在競爭關聯的機制方面,他們討論了一家公司 A 為何會在報告中提及另一家公司 B 作為其競爭對手:若 B 公司比 A 公司大很多(比如 B 可能是行業龍頭),那麼 A 公司提及 B 公司可能是很自然的事,因而這種提及並沒有非常深刻的寓意;另一種情況是 B 公司比 A 公司小很多,這種情況下,A 公司提及 B 公司更可能是因為 A 公司的管理層注意到了 B 公司有一些獨特的、很可能成功的商業模式,因此這一提及包含著對 B 公司基本面的有用且尚未被投資者充分利用的預測資訊。實證結果證實了上述猜想,即競爭關聯能夠預測股票收益率,且第二種情況下的預測資訊更高。
究其內在原因,公司間關聯的可預測性主要源於投資者對於關聯資訊的注意力缺乏,從而導致的反應不足(Huang et al. 2022)。這種注意力不足可能表現為兩種主要形式。首先是資訊溢位,即當關聯公司釋出重要資訊或有重大事件發生時,這些資訊可能首先影響該公司的股票價格。但隨後,與之密切相關的其他公司也可能受到影響。這是因為市場參與者可能預期這些資訊或事件也會對焦點公司產生影響。其次是經濟效應溢位。當關聯公司的經濟狀況發生變化,如盈利增長或下降,這種經濟變動可能會對焦點公司產生溢位效應,特別是當它們在同一供應鏈中或在相同的市場環境下運營時。由於投資者沒有充分關注或理解這些企業之間的關聯性,導致他們對相關資訊的反應不足或滯後。這種資訊的不完全反應為其他更為敏感和知情的投資者提供了套利機會。進一步地,這種企業間的關聯效應還能為公司的未來基本面變化提供預測線索。
值得注意的是,這類關於公司間關聯的資料在許多公開渠道都可以輕鬆獲取,為研究者提供了深入研究和分析的基礎。基於已有的實證研究,公司間關聯效應在 A 股市場上被證明具有很好的應用前景。
3.2 基金隱含資訊
公募基金的隱含資訊在資產定價領域已成為一個重要的研究方向,它為投資者提供了關於未來股票收益率的潛在預測資訊。在諸多隱藏資訊之中,和基金持倉以及基金的資金流入流出相關的資訊尤為重要。
基金的持倉結構為投資者提供了一窺基金經理所持資訊和看法的途徑。Wermers et al. (2012) 利用基金持倉資料以及基金的歷史表現等指標構造了個股收益率的預測訊號。該訊號有效彙總了跨基金的選股資訊,捕捉了基金經理在選股方面的集體智慧。和早期的研究相比,該研究的一個關鍵之處在於它同時考慮了基金經理的技能差異以及不同基金之間的持有股票的相似性,從而更準確地提取股票選擇的資訊。實證結果顯示,該訊號和股票下期的收益率在截面上成正比。
基金流是指投資者的資金流入或流出基金。當基金經歷大量的資金流入時,基金經理可能會購買更多的股票,這反過來可能會推高這些股票的價格。相反,當基金流出時,基金經理可能會出售股票,導致價格下跌。Lou (2012) 探討了資金流動對股票回報預測性的影響,併為公募基金業績可持續性、“聰明錢''效應和股票價格動量這些典型事實提供瞭解釋。首先,該文透過彙總全部基金的資金流導致的交易資訊,構建了一個衡量個股需求衝擊的指標。鑑於公募基金的資金流是高度可預測的,作者進一步指出預期資金流能夠在未來一年正向預測股票和基金的收益率,但在隨後的年份會發生逆轉。更重要的是,這種基於資金流的效應能夠完全解釋公募基金績效的持續性“聰明錢"效應;而對於股票價格的動量,它也提供了部分解釋。
以上簡要梳理了當下資產定價研究的第一個實證挑戰。我大機率不會再專門寫 2024 年的公眾號總結了,所以各位小夥伴,我們 2025 的第二個實證挑戰再見了。
最後,一首《青花》送給各位。每個成年人心中,都有一首周傳雄。
參考文獻
Ali, U. and D. Hirshleifer (2020). Shared analyst coverage: Unifying momentum spillover effects. Journal of Financial Economics 136(3), 649-675.
Barber, B. M. and T. Odean (2000). Trading is hazardous to your wealth: The common stock investment performance of individual investors. Journal of Finance 55(2), 773-806.
Boehmer, E., C. M. Jones, X. Zhang, and X. Zhang (2021). Tracking retail investor activity. Journal of Finance 76(5), 2249-2305.
Bybee, L., B. T. Kelly, and Y. Su (2023). Narrative asset pricing: Interpretable systematic risk factors from news text. Review of Financial Studies 36(12), 4759-4787.
Chen, H., P. De, Y. Hu, and B.-H. Hwang (2014). Wisdom of crowds: The value of stock opinions transmitted through social media. Review of Financial Studies 27(5), 1367-1403.
Cohen, L. and A. Frazzini (2008). Economic links and predictable returns. Journal of Finance 63(4), 1977-2011.
Cohen, L. and D. Lou (2012). Complicated firms. Journal of Financial Economics 104(2), 383-400.
Cohen, L., C. Malloy, and Q. Nguyen (2020). Lazy prices. Journal of Finance 75(3), 1371-1415.
Cont, R., A. Kukanov, and S. Stoikov (2014). The price impact of order book events. Journal of Financial Econometrics 12(1), 47-88.
Da, Z., X. Huang, and L. J. Jin (2021). Extrapolative beliefs in the cross-section: What can we learn from the crowds? Journal of Financial Economics 140(1), 175-196.
Dessaint, O., T. Foucault, and L. Fresard (2024). Does alternative data improve financial forecasting? The horizon effect. Journal of Finance 79(3), 2237-2287.
Eisdorfer, A., K. Froot, G. Ozik, and R. Sadka (2022). Competition links and stock returns. Review of Financial Studies 35(9), 4300-4340.
Green, T. C., R. Huang, Q. Wen, and D. Zhou (2019). Crowdsourced employer reviews and stock returns. Journal of Financial Economics 134(1), 236-251.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5-68.
Hou, K. (2007). Industry information diffusion and the lead-lag effect in stock returns. Review of Financial Studies 20(4), 1113-1138.
Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies. Review of Financial Studies 33(5), 2019-2133.
Huang, S., C. M. Lee, Y. Song, and H. Xiang (2022). A frog in every pan: Information discreteness and the lead-lag returns puzzle. Journal of Financial Economics 145(2), 83-102.
Jiang, J., B. Kelly, and D. Xiu (2023). (Re-)Imag(in)ing price trends. Journal of Finance 78(6), 3193-3249.
Lee, C. M. C., S. T. Sun, R. Wang, and R. Zhang (2019). Technological links and predictable returns. Journal of Financial Economics 132(3), 76-96.
Lou, D. (2012). A flow-based explanation for return predictability. Review of Financial Studies 25(12), 3457-3489.
Obaid, K. and K. Pukthuanthong (2022). A picture is worth a thousand words: Measuring investor sentiment by combining machine learning and photos from news. Journal of Financial Economics 144(1), 273-297.
Parsons, C. A., R. Sabbatucci, and S. Titman (2020). Geographic lead-lag effects. Review of Financial Studies 33(10), 4721-4770.
Wermers, R., T. Yao, and J. Zhao (2012). Forecasting stock returns through an efficient aggregation of mutual fund holdings. Review of Financial Studies 25(12), 3490-3529.
免責宣告:入市有風險,投資需謹慎。在任何情況下,本文的內容、資訊及資料或所表述的意見並不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自於相應論文,僅為介紹之用,版權歸原作者和期刊所有。

川總寫量化
分享量化理論和實證心得