

什麼是SEM
以下路徑圖描述了變數間的某種簡單相互關係(Y~X1+X2),這種情形中,所關注的是X1和X2如何直接影響Y,Y直接透過X1和X2進行建模:

如果X1和X2與Y的關係屬於下面這種形式,即分別存在X2~X1和Y~X2的直接作用,Y與X1的相互作用是間接的,並使用兩個方程式綜合描述這種關係,那麼這兩個方程即組成了一個簡單的SEM:

這就是SEM的一個簡單示例。一個模型中,根據推測的變數X1能夠影響X2、X2影響Y而進一步推測變數X1可能也會影響Y,即X1-X2-Y。該模型具有兩個方程,一個方程使用X1預測X2,另一個方程使用X2預測Y。為了驗證這個模型,測量觀察到的X1、X2和Y之間的關係,並應用SEM提供以下測試:(1)X1是否真的是X2的有效預測因子,(2)X2是否真的是Y的有效預測因子,(3)模型整體上是否符合觀測資料。最後一項測試相對於前兩項測試並非冗餘的,因為對於測試X1是否是Y的有效預測因子時,在(1)(2)均透過時,模型也可能不太合適,若忽略(3)則可能會錯誤地指定了X1與Y的直接關係。
綜合來看,SEM是資料分析的一種特殊形式,從一個指定了多變數間(假定的)相互關係的模型開始,變數間的關係被形式化為一組方程,用於測試這些變數並量化它們之間的關係。對模型的測試涉及對方程再現或“擬合”假定關係的評估。
SEM要求事先考慮變數間相互關聯的方式(如因果關係,透過先驗知識給出假定),從這個意義上說,SEM是驗證性的,而非探索性的分析方法。
對於變數間的關係,可以是線性的,也可以是非線性的。並且SEM能夠同時識別直接和間接關係,對於量化級聯影響非常有用。
如果意在探尋變數間的因果關係,SEM可以給出單向的推論,即模型顯示X1直接或間接影響Y,而反過來則無效。因此與常規的統計方法(如相關性分析)相比具有優勢,可以測試複雜關係的競爭性假設,考慮了“相關性並不意味著因果關係”這一問題。
SEM的主要建模方法
作為一種強大且靈活的資料分析框架,SEM允許將許多其它型別的資料分析策略視為SEM特定形式,如線性和非線性迴歸、路徑分析、因子分析、層次建模等。
以下簡單展示常見的4種建模方法。
路徑分析
路徑分析(Path Analysis)是目前使用的主要SEM模型之一,是沒有潛在變數的SEM應用。
路徑分析的優點在於,它包含了在一個模型中充當預測變數的變數之間的關係。一個典型的例子是中介模型。

路徑分析是另一種SEM模型型別—迴歸模型的擴充套件。在相關矩陣的路徑分析模型中,比較兩個或更多的隨機模型,模型預測迴歸權值。
驗證性因子分析
驗證性因子分析(Confirmatory Factor Analysis,CFA)是一種降維方法,在SEM中也稱為測量模型,CFA意在描述潛在因子(ε1和ε2,在SEM中等同於潛在變數)與觀測變數(x1-x8)的關係。

CFA模式圖。
潛變數結構模型
潛變數結構模型(Latent Variable Structural Model)主要在路徑分析框架內使用測得的潛在變數。
例如,潛變數結構模型的一種常見形式是因子分析和路徑分析的組合,因子分析挖掘潛在因子(潛在變數),之後可將潛在變數代入路徑分析,假設並測試它們之間的關係。

潛在變數結構模型模式圖。
增長曲線模型
SEM模型的另一種流行用法是縱向模型,通常稱為增長曲線模型(Growth Curve Models)。
例如,假設隨時間對同一變數進行了多次觀測,則可以宣告一個截距,透過以特定的方式約束路徑係數,將變數隨時間變化的斜率作為潛在變數。由於路徑是有約束的,必須在增長曲線模型上估計潛在變數的均值,這些均值給出了總體截距和總體斜率。
潛在增長曲線模型與在縱向資料上執行混合模型有關,並提供了一種替代方法,這些混合模型通常稱為“個體增長曲線模型”。

潛在增長曲線模型模式圖。
協方差SEM
常規的SEM有兩個主要目標:
(1)瞭解一組變數之間的相關/協方差模式;
(2)用指定的模型儘可能解釋它們的方差。
因此常規SEM也有人直接稱為協方差SEM(下文允許我也使用這一稱呼,儘管可能不貼切,因為分段SEM也基於協方差,只是情況比常規SEM複雜一些)。
觀測協方差矩陣(原始變數觀測值的協方差矩陣)與預測協方差矩陣(模型預測值的協方差矩陣)之間的差異量化了模型的擬合優度。
協方差SEM的擬合度評估
可用於反映模型擬合優度的指標有很多,例如卡方值(CMIN)、卡方自由度比(CMIN/DF)、比較擬合指數(CFI)、近似值的均方根誤差(RMSEA)、Akaike資訊準則(AIC)、貝葉斯資訊標準(BIC)等,它們均以比較兩個協方差矩陣的差異為準。
通常使用諸如極大似然之類的方法,選擇最能重現觀測協方差矩陣整體的引數估計值(最小化兩者差異),並使用卡方檢驗來評估SEM的擬合優度,將估計值與觀察到的協方差矩陣進行比較。
協方差SEM的侷限性
協方差SEM假定所有變數均來自正態分佈,即資料服從多元正態分佈。
協方差SEM假設所有觀察結果都是獨立的,換句話說,假設資料沒有底層結構。例如在生態學研究中,這些假設經常被違反,變數間的空間、時間等相關關係普遍存在;儘管實際中通常忽略該假設。
SEM通常需要相當大的樣本量,每個估計引數至少需要5個樣本,更普遍在10個以上。如果變數是巢狀的,則此問題可能會更為棘手,此時通常只能在層次結構的最高層考慮變數,會極大降低分析的能力。
分段SEM
出於上述限制,導致了另一種SEM的發展,稱為分段結構方程模型(piecewise structural equation modeling),或者稱驗證路徑分析(confirmatory path analysis),由Shipley(2000)提出。
分段SEM透過引入一個靈活的數學框架,合併各種型別的模型結構、分佈和假設,擴充套件了傳統的SEM。分段SEM中,每組關係都是獨立(或區域性)估計的,此過程將整體關係分解為與每個響應對應的簡單或多個(一般為線性)迴歸,分別對每個響應進行評估,最後合併以生成有關全域性SEM的推論。即分別在各個模型中估計路徑,然後將它們拼湊起來以構建因果模型。假定的變數關聯模式,包括互動作用和非正態響應、隨機效應和層次模型以及其它相關結構(包括系統發育、空間和時間)等。
因此與傳統的協方差SEM相比,更多的變數間關係更容易估計(因為該方法是模組化的),並且關於響應的分佈和協方差的具體假設可以使用線性迴歸的典型擴充套件來解決,例如固定協方差結構、隨機效應或其它複雜的建模技術。
分段SEM的擬合度評估
出於以上原因,分段SEM是一種更靈活且更強大的技術,但它也有其自身的一系列限制。
首先,估計擬合優度和比較模型並非易事。如上所述,在傳統SEM中,可以直接透過卡方統計量描述所觀測協方差矩陣和所預測協方差矩陣之間的一致性程度;但在分段SEM中則無法進行這樣的操作,因為每個分段模型均估計了一個單獨的協方差矩陣,整體的卡方統計量無法直接獲得。
Shipley建議了適用於分段SEM模型擬合優度評估的兩種標準。
有向分離測試
Shipley的觀點基於所謂的有向無環圖(Directed Acyclic Graph,DAG),即如上所述的路徑圖結構型別,如果兩個變數之間有箭頭,則認為它們是因果相關的,如果它們之間沒有箭頭,則是因果獨立的。考慮以下示例:

X1直接獨立於Y2,歸因於它們之間沒有箭頭。
但是,Y2可能透過Y1而被X1間接影響,因此X1獨立於Y2的條件取決於Y1。這是一個重要的區別,因為它暗示了我們必須測試X1和Y2之間缺失的箭頭是否重要。
這種情況下,常使用有向分離(directional separation,簡稱D分離,d-separation)在控制變數路徑的條件下,測試因果獨立的路徑是否有意義。d-separation測試既定模型中是否缺失某些(直接)路徑,以及是否需要將缺失的路徑考慮來改進模型。
首先,列出所有沒有(直接)箭頭的變數對,然後列出所有可能介導變數對的其它變數,這些獨立宣告對及其條件變數構成基礎集。對於上述DAG,獲得的基礎集則包括:

然後可以將基礎集轉換為一系列線性模型,將條件變數(Y1和Y2)作為協變數考慮在內,目的是關注DAG中可能缺失的直接路徑(例如X1~Y2)。

在控制Y1或Y2的條件下,分別執行這些模型,並提取與缺失直接路徑相關的p值,並根據p值計算Fisher’s C統計量:

Fisher’s C統計量遵循具有2k個自由度的卡方分佈(其中k =基礎集中變數對的數量)。如果對其進行卡方檢驗並且檢驗獲得的p<0.05,則該模型不是很好的擬合,換句話說,變數對中存在一個或多個缺失的直接路徑是有意義的,可能還需將它們加入至模型中進行最佳化;相反,如果p>0.05,則該模型可以很好地表示資料,原模型中已經識別的所有有效路徑,沒有遺漏的路徑。
Akaike資訊準則
如上提到的,相對於那些探索性分析(如PCA、探索性因子分析等),SEM通常在模型測試框架中實現,即屬於驗證性質的。就變數間的因果關係而言,SEM首先構建了一種先驗模型,並透過反轉路徑、刪除變數或關係等對它們進行相互測試,確定模型的有效性。
當使用統計模型來表示生成資料的過程時,幾乎永遠不會是精確的,歸因於模型構建時的資訊丟失。通常會選擇最穩健的一種模型表示資料,其中涉及了多種模型的評估,以選擇最優模型。
比較巢狀模型的一種流行方法是使用Akaike資訊準則(Akaike Information Criterion,AIC)。AIC會在給定模型的複雜性與其擬合優度之間進行權衡,可以將AIC值視為對應了模型的準確性,AIC值越小的模型表明越有可能準確地預測新資料。
Shipley(2013)結合使用AIC擴充套件了d-separation測試:

C即為Fisher’s C統計量,K是所有模型中估計的引數數量。可以對附加項進行修改,以提供對小樣本量(AICc)校正的AIC估計值。
分段SEM的侷限性
除了上述提到的在分段SEM中估計擬合優度和比較模型的問題(已透過其它渠道解決),對於其它的缺點。
關於混合模型的p值計算是否有意義的問題再次暴露出來。
分段SEM無法處理潛在變數,這些潛在變數由已觀測變數間的相互關係推導,常被當作觀測變數的結構基礎或原因。(類似於使用PCA降維環境資料,並使用少數幾個特徵軸代表“環境”,見PCA分析概述;或者因子分析中的潛在因子,見因子分析概述)。
無法在“閉環”模型中準確測試d-separation(例如,A -> B -> C -> A)。
d-separation測試和AIC有時存在衝突。例如,d-separation顯示模型已“完全識別”,也就是沒有遺漏的路徑,但AIC值提示模型有待最佳化。
SEM應用舉例
最後再簡單列舉4例SEM模型(協方差或分段)的實際應用分析,幫助大家加深理解。
Løberg等(2006)使用SEM檢查了精神分裂症陽性症狀的持續時間對患者的二重聽覺的作用。

精神分裂症陽性症狀的持續時間和二重聽覺關係的模型。
SEM表徵了群居物種Synalpheus shrimps(一種蝦)的真社會性、體型、寄主範圍大小和區域丰度比例之間的關係(Duffy and Macdonald, 2010)。

(a)使用協方差SEM的原始分析,(b)分段SEM模型與協方差SEM模型相同,並附加了基於分子系統發育距離得到的固定相關結構。箭頭表示變數之間的單向關係,黑色箭頭表示正向關係,紅色箭頭表示負向關係,非顯著路徑(p≥0.05)是半透明的,有效路徑的寬度根據關聯框中給出的標準化迴歸係數的大小進行了縮放。模型的R2在響應變數的框中給出,路徑係數顯示在各路徑連線框中。
Byrnes等(2011)使用SEM分析了風暴頻率(海浪干擾)對海帶群落結構和食物網複雜性的影響。

(a)使用協方差SEM的原始分析;(b)使用分段SEM擬合併納入隨機效應的相同模型;(c)分段SEM模型來自(b),其中附加了一個表示年份的自相關項。方框代表測量變數,箭頭表示變數之間的單向關係,黑色箭頭表示正向關係,紅色箭頭表示負向關係。非顯著路徑(箭頭p≥0·05)是半透明的,有效路徑的寬度已根據關聯框中給出的標準化迴歸係數的大小進行了縮放。模型的R2在響應變數的框中給出,路徑係數顯示在各路徑連線框中。
Mamet等(2019)使用SEM構建了無芒雀麥(Bromus inermis Leyss)與土壤性質、細菌多樣性和沿無芒雀麥覆蓋梯度上微生物網路連通性之間相互作用的複雜關係。

網路中的每個節點代表一個OTU,節點大小與度相對應;每個邊代表基於最大資訊係數(MIC)>0.6的成對關聯,邊的寬度隨MIC的增加而增加。
SEM協變數按來源著色,淺綠色表示植被,棕色表示土壤。實線箭頭表示顯著的效應大小(p<0.10,虛線p>0.10),箭頭的粗細表示關係的強度,綠色和紅色分別表示正、負關係。路徑上顯示了標準化的路徑係數。
關於R語言實現SEM
R中存在很多包可以執行SEM,如sem、openMx、lavann、ltm、lcmm、FlexMix、piecewiseSEM等。
參考資料
https://psychology.iresearchnet.com/social-psychology/social-psychology-research-methods/structural-equation-modeling/
https://jonlefcheck.net/2014/07/06/piecewise-structural-equation-modeling-in-ecological-research/
https://rdrr.io/cran/piecewiseSEM/f/vignettes/piecewiseSEM.Rmd
https://www.thoughtco.com/introduction-to-akaikes-information-criterion-1145956
https://www.digitalvidya.com/blog/structural-equation-modeling/
Byrnes J E, Reed D C, Cardinale B J, et al. Climate-driven increases in storm frequency simplify kelp forest food webs. Global Change Biology, 2011, 17(8):2513-2524.
Duffy J E, Macdonald K S. Kin structure, ecology and the evolution of social organization in shrimp: a comparative analysis. Proceedings of the Royal Society B: Biological Sciences, 2010, 277(1681):575-584.
Løberg E-M, Jorgensen H A , Green M F , et al. Positive symptoms and duration of illness predict functional laterality and attention modulation in schizophrenia. Acta Psychiatrica Scandinavica, 2006, 113(4):322-331.
Lefcheck J S. piecewiseSEM: Piecewise structural equationmodelling in rfor ecology, evolution, and systematics. Methods in Ecology and Evolution, 2016, 7(5).
Mamet S D, Redlick E, Brabant M , et al. Structural equation modeling of a winnowed soil microbiome identifies how invasive plants re-structure microbial networks. The ISME Journal, 2019.
Shipley, B. A New Inferential Test for Path Models Based on Directed Acyclic Graphs. Structural Equation Modeling: A Multidisciplinary Journal, 2000, 7(2):206-218.
Shipley B. The AIC model selection method applied to path analytic models compared using a d‐separation test. Ecology, 2013, 94(3).



