


由於PCA只是探索性分析,用於描述資料分佈,不涉及統計檢驗,因此無法給出一個指標(如p值)作為我們評估組間差異程度的標準。儘管很多情況下可能並不需要,但如果存在必要,我們還需結合其它方法用作評估。
這裡就需要考慮特定的統計檢驗方法,用作組間差異分析。
對於多變數情形下的組間差異分析,可能首先會想到多元方差分析(MANOVA)。然而,MANOVA的有效性取決於嚴格的前提假設,如多元正態性、方差–協方差矩陣的同質性等,導致在實際情況中大部分案例都是直接拒絕的,因此MANOVA不具普適性。考慮到這一點,統計學家們已經提出了許多方法替代經典的MANOVA,它們在比較多變數的組時更為穩健,並得到了廣泛應用。
其中一些方法並非直接透過原始的變數作比較,而是首先基於多變數計算物件間的“距離”,然後將距離測度用作檢驗的輸入,進而確定各組物件間的差異程度。這類方法通常稱為“基於距離的檢驗方法”(Distance‐Based Tests),常見的如置換多元方差分析(PERMANOVA)、相似性分析(ANOSIM)、Mantel test等。
好了,到這裡就開始接本篇的正文部分了,簡單地對這些常見的基於距離的檢驗方法作個概述。
上文描述透過PCA這個示例,僅為引出“基於距離的檢驗方法”這個概念,以加深大家對這種方法的印象。請允許我以這種方式作為本篇的開頭,儘管降維排序與統計檢驗是相互獨立的兩種統計方法。
實際的比較分析中,這種基於距離的檢驗方法也並不總和PCA這些降維分析結合在一起。如上所述,在分析變數間的差異後,期望透過全域性變數水平評估物件間的區別,這是它們常出現的應用場景。
PERMANOVA
首先是最廣為熟知的置換多元方差分析(Permutational multivariate analysis of variance,PERMANOVA),又稱非引數多因素方差分析(nonparametric multivariate analysis of variance),或者ADONIS分析,其基於偽F值的置換檢驗,透過對兩組或兩組以上物件距離平方和的分解檢驗它們之間有無差異的非引數方法(Anderson, 2001)
PERMANOVA計算過程概括如下:
(2)計算所有物件的平均距離(SST);
(3)計算組內物件之間的平均距離(SSW);
(4)計算組間的平均距離(SSA= SST – SSW);
(5)計算F值,式中N為資料集中的物件總數,a為分組數量。


之後透過隨機置換的方式,計算置換後資料的偽F值。多次置換後,偽F值大於觀測F值的機率即為p值。p值即代表了檢驗的顯著性資訊,p越低越顯著。

ANOSIM
相似性分析(Analysis of similarities,ANOSIM)是一種用於分析高維度資料組間相似性的非引數檢驗方法,它透過檢驗組間的差異是否顯著大於組內差異,評判目標分組是否有意義(Clark, 1993)。

首先根據變數組成資訊,計算物件間的距離,將所有距離從小到大進行排序後(最小距離的物件距離排位1,以此類推)計算R值。R值可以得出組間與組內比較的差異程度,其取值範圍(-1,1);R>0,說明組間差異大於組內差異,即組間差異顯著;R<0,說明組內差異大於組間差異;R值的絕對值越大表明相對差異越大。
計算如下,其中,`ra為組間(Among groups,或稱Between groups)距離排位的平均值,`rw為組內(Within groups)距離排位的平均值,n為測試的物件總數。

之後透過隨機置換的方式,計算置換後資料的R值(R*)。多次置換後,隨機R*大於觀測R值的機率即為p值。p值即代表了檢驗的顯著性資訊,p越低表明越容易接受觀測R值,ANOSIM結果越可信。

Mantel test
儘管Mantel test通常用於確定兩個距離矩陣的相關性,但也可用於檢驗假設或模型。透過在模型矩陣中比較組間距離與組內距離的差異程度,用以確定分組是否顯著。此時Mantel test和ANOSIM的工作方式相似,但其特殊形式在於,為模型矩陣選擇的特定值是根據距離數值本身而非根據排位確定的。

MRPP
首先根據變數組成資訊,計算物件間的距離,並計算各組內物件間的平均距離(`di),之後計算δ值(組內距離的加權平均)。下式中g為總分組的數量;ni表示第i個分組的物件數量,N為資料集中的總物件數量;注意有的公式中n和N使用自由度(即物件數量-1)。


之後透過隨機置換的方式,計算置換後資料的δ值(δ*)。多次置換後,δ*小於初始δ的機率即為p值。p值即代表了檢驗的顯著性資訊,p越低表明越容易接受觀測δ值,MRPP結果越可信。

MRPP結果中通常會提供兩種δ值:observed δ,即直接由公式計算的觀測δ,值越小表明組內差異越小;以及expect δ,由置換過程得到的平均δ,值越大暗示了組間差異越大。
同時會結合observed δ和expect δ再計算一個簡稱為A值(chance-corrected within group agreement)的統計量。小於0表明組內差異大於組間差異,大於0表明組間差異大於組內差異。

關於方法的選擇
對於具體選擇哪種方法用於分析,考慮到在方法選擇上本身就存在很多主觀因素在裡面,以下可以提供一些參考建議。
資料離散程度對各方法的影響
對於真實的資料集,PERMANOVA通常(但並非總是)比其它方法更強大。
總體而言,ANOSIM和Mantel test對離散程度比較敏感,二者中,ANOSIM通常比Mantel test更敏感。PERMANOVA在很大程度上不受均衡設計異質性的影響,也不受相關結構差異的影響。
對於非平衡的設計,上述所有的檢驗方法:當較小的組具有更大的異質性時過於寬鬆;當較大的組具有更大的異質性時過於保守,尤其是ANOSIM和Mantel test。也即表明,它們在不平衡設計中使用時需謹慎對待結果。
對於平衡設計,PERMANOVA可以在所選相似度量的範圍內嚴格確定位置與分散效應;ANOSIM和Mantel test可以用作更多的“綜合”測試,對組間位置、離散度或相關結構的差異敏感。
對於與排序分析相結合
如本篇開始提到的,這種基於距離的檢驗方法常和排序分析一起使用,很多文獻中將它們與PCA、PCoA、NMDS等結合在一起,共同描述組間差異水平。
如下文獻,顯示了24個樣品(2×2分組)的Bray-Curtis相異矩陣的NMDS分析,結合ANOSIM確定顯著水平(Mendes et al, 2014)。

對於選擇哪種差異檢驗方法與哪種排序方法結合,我看網上有教程說,由於ANOSIM是基於距離排名的方法,與NMDS配合更好;對於PERMANOVA,與PCoA配合更好。出現這些方法的文獻中,也基本上這樣搭配的。
參考資料
Anderson M J. A new method for non-arametric multivariate analysis of variance. Austral Ecology, 2001, 26(1):32-46.
Clarke K R. Non-parametric multivariate analyses of changes in community structure. Australian Journal of Ecology, 1993, 18(1):117-143.
Discrimination Among Groups:http://www.umass.edu/landeco/teaching/multivariate/schedule/discriminate1.pdf
Mendes L W, Kuramae E E, Navarrete, Acácio A, et al. Taxonomical and functional microbial community selection in soybean rhizosphere. The ISME Journal, 2014, 8(8):1577-1587.
Mielke P W, Berry K J, Johnson E S. Multi-response permutation procedures for a priori classifications. Communication in Statistics- Theory and Methods, 1976, 5(14):1409-1424.
Walsh A D C I. PERMANOVA, ANOSIM, and the Mantel test in the face of heterogeneous dispersions: What null hypothesis are you testing?. Ecological Monographs, 2013, 83(4):557-574.



