
作者:石川,北京量信投資管理有限公司創始合夥人,清華大學學士、碩士,麻省理工學院博士,著有《因子投資:方法與實踐》、《Navigating the Factor Zoo》,譯有《機器學習與資產定價》。
封面來源:www.pexels.com
未經授權,嚴禁轉載。
摘要:本文系統梳理《Introductory Econometrics》的截面迴歸知識點。
要問去年公眾號的文章中,閱讀量最高的兩篇是什麼,你一定想不到。答案是《寫給你的金融時間序列分析:迴歸篇》和《寫給你的金融時間序列分析:預測篇》。公眾號的小夥伴是真的喜歡 technical 的文章。(我很欣慰。)
這兩篇關於時間序列分析的小文,都參考了 Wooldridge 的神書 Introductory Econometrics: A Modern Approach (5th Ed). 可見你們對 Wooldridge 和計量的鐘愛。今天,我們不妨從截面的視角,來梳理這本書中 Part I: Regression Analysis with Cross-Sectional Data 的內容。對於量化投資、因子投資以及實證資產定價而言,截面迴歸的作用怎麼強調都不過分。
我把本文命名為《很 Wooldridge 風格的計量經濟學筆記》。
Let's get started.
1. 一元迴歸
一元線性迴歸(simple linear regression)用於檢驗單個自變數(解釋變數)與因變數(被解釋變數)之間的關係。儘管多元迴歸在實際應用中更為常見,但為了完整性,這裡先介紹一元線性迴歸。一元線性迴歸模型假設,在總體中,自變數 和因變數 滿足以下關係:
其中 和 是未知引數, 是誤差項。我們可以使用普通最小二乘法 (OLS) 來估計引數。然而,人們關心在何種條件下,OLS 是無偏且一致的。以下是一元迴歸的 Gauss-Markov 假設:
-
Linear in parameters:模型正確描述了總體中 和 的關係,即模型沒有設定錯誤。
-
Random sampling:從總體中隨機抽取了一個大小為 的樣本,這通常意味著樣本是隨機的。
-
Sample variation in the explanatory variable:樣本中解釋變數的取值不是完全相同的,即 並非全都相同。
-
Zero conditional mean:誤差項 在給定解釋變數 的條件下期望為零,即 。這一條件意味著 與 不相關(注意,這比 更強,因為協方差只描述線性關係。從 可以推出 ,但反之不成立)。如果這一條件不滿足,通常表明模型設定存在問題,此時 OLS 估計量是有偏的。
-
Homoskedasticity:在給定 的條件下,誤差項 的方差是常數,即 ,其中 也是總體的未知引數,需要透過估計得到。
值得一提的是,只要前四個假設成立,OLS 就是無偏的。同方差性假設是否成立並不影響 OLS 的無偏性。然而,如果存在異方差性,OLS 估計量的 standard error 將不準確,從而導致檢驗統計量不可靠,需要採用其他方法來處理異方差性。
對於給定的觀測樣本 ,OLS 的擬合值為:
其中 和 是未知引數 和 的 OLS 估計值。 與 之間的差值 稱為殘差。OLS 的目標是最小化樣本中所有觀測值的殘差平方和:
這個目標函式可以透過 first order conditions 求解,得出:
其中 和 分別是 和 的樣本均值。需要注意的是, 的表示式實際上是 和 的樣本協方差除以 的樣本方差。
OLS 在樣本資料上具有以下數學性質:
-
所有殘差 的總和為零。這直接來源於關於 的一階條件。因此, 的均值與 的均值相同,即 .
-
殘差與任何解釋變數(在一元迴歸中只有一個 )的樣本協方差為零。這直接來源於關於 的一階條件。
此外,還可以證明擬合值 和殘差 的樣本協方差也為零。從 和 出發,可以定義迴歸中的幾個常見量:
簡單推導可知 SST = SSE + SSR,並可以定義常說的 goodness-of-fit,即 R-squared():
R-squared 的大小不隨對 和 做尺度縮放而改變。此外,R-squared 也是一個總體的概念,總體的 R-squared 等於 ;而上述 OLS 計算的 R-squared 是它的一個有偏估計。這是因為在樣本 R-squared 計算中,我們用 和 分別估計 和 (分母上兩個 抵消了),但是它倆都是有偏估計;無偏估計是 和 。把這兩個無偏估計帶回到樣本 R-squared 就得到調整後 R-squared,即 Adjusted R-squared:
不幸的是,上述調整後 R-squared 也不是總體 R-squared 的無偏估計,這是因為兩個無偏估計相除並不能得到另一個無偏估計。不過,由於對自由度進行了懲罰,Adjusted R-squared 通常被拿來考察一個新的解釋變數是否應該加到模型裡。一個新的解釋變數加到模型之後,只有當它的迴歸引數的 絕對值大於 1 時,才不會造成 Adjusted R-squared 的降低。
為了進行統計檢驗,除了得到 ,還需要知道其方差。對於一元迴歸,我們往往更關心 的迴歸係數:
其中 。由於總體的 是未知的,只能對它進行估計。其無偏估計為:
將上面開根號得到 ,這個值被稱作 standard error of the regression(SER)。由於不知道 而是對它進行了估計,因此將估計值代入 ,再對其開方,便得到 的 standard error,簡記為 s.e.:
2. 多元迴歸
多元迴歸(multiple regression)是同時考慮多個解釋變數的迴歸分析模型。該模型的優勢在於,它能夠在控制其他變數的影響後,研究某個特定變數 與因變數 之間的關係。為了說明這一點,我們以兩個解釋變數 和 為例,多元線性迴歸模型可以表示為:
假設我們關注 與 的關係。在模型中, 的迴歸引數為 ,其中 是將 作為被解釋變數、將 作為解釋變進行迴歸得到的殘差。這個關係說明,在多元迴歸中, 和 之間的關係是在把 的影響排除了(即 是控制變數被控制了)之後得到的。
對於一般情況,假設有 個解釋變數,總體的多元線性迴歸模型可以表示為:
在多元迴歸中, 的計算方法與一元迴歸相同。此外, 還有另一種解釋:它是 與 的相關係數的平方。此外,多元迴歸模型通常用矩陣形式表示:
-
: 維的因變數向量; -
: 維解釋變數矩陣,其中第一列為截距項(全為 1 的向量); -
: 維迴歸係數向量; -
: 維誤差向量。
迴歸模型的矩陣形式為:
OLS 估計量為:
和一元迴歸類似,多元迴歸模型的 Gauss-Markov 假設如下:
-
假設 1:總體中變數之間的關係是線性的。 -
假設 2:樣本是從總體中隨機抽取的。 -
假設 3:所有解釋變數(包括全是 1 的截距列向量)之間不能有完美的共線性(這就是為什麼在考慮 category 變數的時候,必須 drop 一個預設的當 base,否則就會和全 1 的列向量共線性了)。 -
假設 4:總體殘差 和全部 個解釋變數 滿足條件零期望,即:。 -
假設 5:同方差性。
Again,只要前四個假設成立,OLS 估計量就是無偏的。當這五個假設全部滿足時,OLS 估計量是最佳線性無偏估計量(BLUE)。在上述五個假設下,迴歸係數的樣本方差為:
其中:
-
; -
: 的方差(需要估計); -
:將 對其他 個解釋變量回歸後的 。
這一公式表明:
-
當 的變化越大時, 的方差越小; -
如果 與其他解釋變數高度相關, 的方差將會很大。
這解釋了為什麼高相關性是不受歡迎的。儘管它不會影響 的無偏性,但會增加其方差,從而影響統計推斷。換言之,高方差會使估計結果不夠可靠。另外,模型中包含過多無關變數也不會影響 OLS 估計量的無偏性,但會增加其方差。
由於 未知,因而需要透過樣本資料進行估計。其無偏估計為:
其中 是殘差。將該估計值代入迴歸係數方差的公式,並取平方根,便得到迴歸係數的 standard error:
3. 統計推斷
3.1 檢驗單個解釋變數
為了進行統計推斷,我們需要構造檢驗統計量,而這需要對資料的分佈作出假設。假設誤差 服從正態分佈,即 。即使這一假設並不完全成立,在樣本量足夠大的情況下,中心極限定理能夠確保漸近正態性。
Gauss-Markov 假設加上上述第六個假設的被稱為經典線性模型(Classical Linear Model, CLM)假設。在 GLM 假設下,OLS 估計量是所有估計量(包括線性和非線性估計量)中方差最小的無偏估計量。在正態分佈假設下,OLS 估計量 服從正態分佈:
如果我們知道 的方差(這需要已知誤差項 的方差 ),則可以得到:
儘管不知道 的方差,但我們可以使用其 standard error 平方來替代。在這種情況下,右側的正態分佈變為自由度為 的 分佈:
在金融市場相關的問題中,原假設通常是 。將其代入上式:
因此,無論是一元迴歸還是多元迴歸,如果我們的目標是檢驗某個解釋變數 對因變數 的預測能力是否顯著,可以使用上述檢驗統計量來判斷其統計顯著性。在樣本量足夠大的情況下,若 -statistic 的絕對值大於 2.0,則可以認為該變數在雙尾檢驗下的 5% 顯著性水平上是顯著的。
3.2 同時檢驗多個解釋變數
有時,我們希望檢驗一組解釋變數是否共同對因變數 有預測作用。這可以透過 檢驗來實現。假設有 個解釋變數,並希望檢驗其中 個是否能夠預測 。該檢驗的原假設為:這 個變數聯合對 沒有預測能力(注意:即使 檢驗表明其中一些變數是顯著的,也可能整體不顯著)。 檢驗的具體步驟如下:
-
第一步:將 對全部 個解釋變數和截距項迴歸,得到殘差平方和(SSR),記為 (下標 表示未受限模型)。
-
第二步:將 對剩餘的 個解釋變數和截距項迴歸,得到殘差平方和(SSR),記為 (下標 表示受限模型)。
-
構造 F 統計量: 根據上述結果,構造 -statistic(自由度為 和 ):
由於 不會小於 ,因此 -statistic 總是非負的。 檢驗的核心是評模型中加入這 個變數(以犧牲自由度為代價)是否顯著減少了殘差平方和。如果減少幅度較大,則表明這 個解釋變數聯合對 有顯著預測作用(即使我們不知道具體是哪一個或哪些變數在起作用);如果減少幅度很小且不足以彌補自由度的損失,則表明這 個解釋變數聯合起來對 沒有顯著預測作用。
除了 檢驗外,拉格朗日乘數(LM)檢驗也可以用來檢驗多個解釋變數的聯合顯著性。其步驟如下:
第一步:將 對 個解釋變數(以及截距項)迴歸,得到殘差 。
第二步:將殘差 對所有 個解釋變數(包括截距項)迴歸,得到 R-squared,記為 。
構造 LM 統計量:LM-statistic 透過將樣本量 乘以 構造,且服從自由度為 的卡方分佈:
最後,將 LM 統計量與卡方分佈 的臨界值 進行比較。如果 ,則拒絕原假設。無論使用 檢驗還是 檢驗,受限模型和未受限模型中的觀測值必須保持一致。否則,F 檢驗和 LM 檢驗都是無效的。
3.3 預測誤差
一旦建立了迴歸模型,給定一組新的解釋變數值,便可以計算出其預測值(擬合值)。然而,我們還必須考慮它與真實值之間的誤差。令 代表一個新的觀測點。為了計算它的預測值及對應的方差,我們可以利用原始樣本資料 構造以下回歸方程:
在這個迴歸模型中,截距項 表示該新觀測點的預測值,而回歸分析還會給出 。新觀測點的預測誤差 不僅來源於 的估計誤差,還來源於 。雖然 未知,但可以用其無偏估計值來替代:
然後,預測誤差 的 standard error 為:
4. 啞變數
在迴歸分析中,為了研究不同類別之間的差異(例如,男性與女性、白人與黑人),一個常見的做法是引入啞變數(Dummy Variables)。在金融市場中,啞變數可以用來區分來自不同行業的股票或不同板塊的商品。
新增啞變數的一般方法是將它們直接作為解釋變數引入模型,而不考慮與其他解釋變數的互動項。這種方法假設不同類別在迴歸模型中的截距不同,但其他解釋變數的斜率在各類別之間保持不變。例如,迴歸結果可能表明某一行業的股票平均收益率自然高於另一行業。
假設共有 個類別,此時定義一個具有 個取值的單一分類變數來解釋迴歸結果並無意義。通常的做法是用 個啞變數(每個變數取值為 0 或 1)來表示這些類別。之所以用 而不是 個,是為了避免多重共線性。如果使用全部 個啞變數,它們會與截距項完全線性相關,從而違反線性迴歸的假設。
此外,我們可能還對啞變數(如行業)與其他解釋變數的互動項感興趣。在迴歸中將這些互動項作為解釋變數,可以讓迴歸係數反映不同類別之間的迴歸斜率差異,從而提供新的見解。
在實踐中(根據經驗),在迴歸中檢驗互動項的顯著性時應該謹慎。雖然可以使用 檢驗來檢驗互動項是否顯著,但有時我們更傾向於使用 檢驗來檢驗啞變數和互動項是否聯合顯著。例如,考慮以下包含啞變數 和解釋變數的迴歸方程:
我們可以將其視為未受限模型,然後使用前文提到的 檢驗來檢驗 和 是否聯合顯著。在此例中,受限模型排除了啞變數 和互動項 ,因此自由度為 。-statistic 的計算公式與之前一致。
有時,對於同一個迴歸模型,我們希望檢驗不同類別的觀測樣本之間是否存在統計顯著差異(包括截距差異)。例如,在商品期貨市場中,農業產品與工業金屬之間的迴歸係數是否存在顯著差異。這可以透過 Chow 檢驗來實現。具體步驟如下:
第一步:對兩類觀測樣本分別進行 OLS 迴歸,得到兩個殘差平方和(SSR),分別記為 和 。將這兩個 SSR 相加得到未受限模型的殘差平方和:。
第二步:將兩類觀測值合併,進行一次整體的 OLS 迴歸。這稱為受限模型,其殘差平方和記為 。
第三步:利用上述結果,Chow 檢驗的 -statistic 為:
Chow 檢驗的原假設是:兩個模型之間的所有迴歸係數都沒有差異。這一假設通常過於嚴格,因為它甚至不允許截距存在差異。在實際應用中,人們通常只關心解釋變數的迴歸係數在不同類別之間是否存在差異。為此,可以對 Chow 檢驗進行適當修改。在第二步的受限模型中加入一個啞變數,用於表示兩類觀測值的截距差異。使用修改後的受限模型計算 ,並按以下公式計算 -statistic:
注意,由於在受限模型中添加了一個啞變數,自由度減少了 1。
5. 異方差性
5.1 檢驗異方差
前文中,我們假設迴歸模型的誤差項具有同方差性。然而,在實際問題中,人們經常遇到異方差性(Heteroskedasticity),即誤差項的方差不是常數。異方差性是金融收益率資料的一個常見特徵。
異方差性意味著誤差項的方差是解釋變數的函式,而不是一個常數。因此,為了檢驗異方差,可以使用 OLS 獲取殘差,然後將殘差的平方作為因變數對解釋變量回歸,以檢查解釋變數是否共同顯著影響殘差的平方。這種方法被稱為 Breusch-Pagan(BP)檢驗,具體步驟如下:
第一步: 使用 對解釋變數 迴歸,得到殘差 。
第二步:將殘差平方 作為因變數,對解釋變數(包括截距項)迴歸,得到 R-squared,記為 。該回歸模型為:
第三步:原假設 是解釋變數對殘差平方的變化沒有共同顯著影響,即 。該原假設意味著同方差性。為了檢驗這一假設,可以構造 -statistic 或 -statistic:
第四步:根據上述統計量,決定是否拒絕原假設。如果拒絕原假設,則表明存在異方差性。
Breusch-Pagan 檢驗是檢測迴歸模型中異方差性的常見方法。透過識別殘差方差是否與解釋變數相關,人們能夠更好地理解資料的結構,並對模型進行必要的調整。在處理金融資料時,它有助於提高模型的可靠性。
5.2 處理異方差
異方差性不會影響 OLS 估計量的無偏性或一致性,但會影響 efficiency。因此,我們無法直接使用 OLS standard error 進行統計推斷。為了解決這個問題,可以使用異方差穩健推斷(Heteroskedasticity-Robust Inference)。這種方法的優點在於,人們無需已知異方差性的具體形式(哪怕誤差實際上是同方差的,該方法也能正常工作)。換句話說,無論異方差的形式如何,該方法都可以用來計算 standard errors。
首先考慮一元迴歸模型:
的方差為:
其中 。對上式開平方可以得到 的 standard error。然而,問題在於總體異方差性 是未知的。幸運的是,可以利用樣本殘差 ,將 替換為 :
這就是 heteroskedasticity-robust standard error,它適用於任何異方差性形式。這種方法最早由 White (1980) 提出,時至今日仍被廣泛應用於實證資產定價研究之中。
多元迴歸的情況與一元迴歸類似。考慮以下多元迴歸模型:
在未知異方差性形式下,迴歸係數 的方差估計為:
其中 是將解釋變數 對其他解釋變數(包括截距)迴歸後得到的第 個觀測樣本的殘差, 是該回歸的殘差平方和。對上述方差估計開平方後,得到 heteroskedasticity-robust standard error:
利用該 standard error,可以對迴歸係數進行 檢驗。由此得到的 -statistic 稱為 heteroskedasticity-robust -statistic。
既然 heteroskedasticity-robust standard error 適用於任何形式的異方差性,甚至在同方差的情況下也適用。那麼,是否意味著我們可以無腦使用這種方法呢?答案是否定的。原因在於:如果誤差是同方差的,則迴歸係數的檢驗統計量在任何樣本量下都服從 分佈。然而,異方差穩健 -statistic 僅在樣本量足夠大時才有效。
最後,上述調整僅修改了迴歸係數的 standard error,從而使我們能夠進行正確的 檢驗。然而,它僅用於檢驗單個迴歸係數的顯著性。而當我們希望透過 F 或者 LM 檢驗來檢驗 個解釋變數是否聯合顯著時,這兩種檢驗也因為異方差而需要相應調整。以下以異方差穩健 LM 檢驗為例說明。
假設我們有一個包含 個解釋變數的多元迴歸模型,希望檢驗其中 個變數是否聯合顯著:
該模型對應的受限模型(僅包含 個解釋變數和截距項)為:
LM 檢驗的步驟如下:
-
估計對受限模型,得到殘差,記為 。
-
對 個解釋變數中的每一個,用它對剩餘 個解釋變量回歸(也就是將其作為受限模型的因變數),得到殘差序列,記為 。
-
對每個 和 ,將對應觀測值相乘,得到新的向量 。因此,我們得到 個新向量:。
-
將一個全為 1 的向量作為因變數,對上述 個向量 迴歸(注意,此時迴歸模型不包含截距項),得到殘差平方和,記為 。
-
最後,異方差穩健 -statistic 為 , 其中 是觀測值的數量。該統計量服從自由度為 的 分佈。透過該統計量,可以判斷是否拒絕原假設。
本文說了很多,其實想要傳達的是,量化研究從來都是一個 carefully designed process。到底基於什麼樣的假設,到底用怎樣的模型,需要結合金融知識先驗和靠譜的統計檢驗來決定。謹慎設計模型(如移除無關變數)和使用穩健的統計方法(如異方差穩健迴歸)可提高迴歸分析的可靠性。
免責宣告:入市有風險,投資需謹慎。在任何情況下,本文的內容、資訊及資料或所表述的意見並不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自於相應論文,僅為介紹之用,版權歸原作者和期刊所有。
