R語言執行RLQ分析和第四角分析

R包ade4的RLQ分析和第四角分析
在使用降維排序的方法,探索物種響應環境的關係中,常見的約束排序型別,如冗餘分析(RDA)、典範對應分析(CCA)等,透過迴歸實現環境梯度對物種丰度建模;非模型的排序型別,如典範相關分析(CCorA)、協慣量分析(CoIA)等,則透過某種方式的相關性確立;還有像在物種多度的非約束排序中,被動擬合環境梯度等。這些分析中通常考慮兩種型別的資料,樣方物種丰度矩陣和樣方環境變數矩陣。
透過使用物種功能代替其種類屬性,更有助於提高對生態群落結構的見解。物種性狀通常是適應環境的產物,同時也可反作用於環境,進而可能影響群落結構和生態系統功能。因此,識別物種性狀與環境的關係是功能生態學的一個關鍵問題。
這種情況下,在對群落的測量中將得到三個矩陣,RQL,分別對應了三種不同型別的資料集:
樣方環境矩陣Rn×m),記錄樣方n中環境變數m的測量值,用於描述樣方的環境特徵;
物種性狀矩陣Qp×s),記錄物種p的性狀,用於描述物種特徵;
樣方物種矩陣Ln×p),記錄樣方n中物種p的丰度,用於描述樣方之間的物種分佈。

Dolédec et al, 1996
接下來就需探討怎樣確立三種類型資料集之間的關聯。
下文列舉兩種方法。
Legendre等(1997)提出第四角(fourth‐corner)分析,將三種資料集組合成一個可描述性狀環境關聯的矩陣(稱為第四角矩陣),並透過置換檢驗評估這些關聯的重要性。
Dolédec等(1996)提出RLQR-mode linked to Q-mode)分析,透過對三種資料集同時排序,概括它們之間的聯合結構。儘管RLQ分析和第四角分析分別獨立被提出,但在數學方法上,它對應了第四角矩陣的廣義奇異值分解。
本篇接下來就透過一些示例,簡介這兩種方法在R語言中的實現過程。
RLQ分析

RLQ分析可視為協慣量分析(Co-inertia AnalysisCoIA)的拓展。在生態學研究中,RLQ透過結合RLQ的三個獨立分析過程,旨在確定物種丰度介導的環境梯度與物種性狀之間的關係。
注:RLQ分析屬於對稱分析,非模型類的排序分析,環境和物種之間無解釋與被解釋關係,它們之間的關聯透過某種型別的“相關性”作為描述。

Dolédec et al, 1996
RLQ分析在其它領域同樣應用廣泛,例如在組學研究中,使用RLQ分析關聯樣本特徵、基因表達譜以及基因功能。
Baty et al, 2013
暫且先撇開RLQ分析在其它領域的應用場景,還是以物種性狀物種丰度環境梯度這種關係為例,對這種方法作個初步認識。
接下來以Rade4中的RLQ方法為例做演示。
資料集
ade4的內建資料集“aravo”,記錄了75個地點中82種高山植物的分佈,同時還測量了物種性狀特徵和環境特徵。
library(ade4)
#資料集,詳情 ?aravo

data(aravo)

summary(aravo)
head(aravo$env) #環境資料

head(aravo$spe[1:6]) #物種丰度資料

head(aravo$traits) #物種性狀資料

#head(aravo$spe.names) #物種名稱

執行RLQ分析
RLQ分析在過程上CoIA存在幾分相似,首先分別對每個資料集執行特徵分解,之後將三步排序過程的結果整合。由此,RLQ可以找到環境特徵(即由環境變數分解所得的特徵向量)和物種性狀特徵(即由物種性狀變數分解所得的特徵向量)之間平方協慣量最大的線性組合,以一組協慣量軸作為呈現,各軸之間正交。最後將RQL中的原始物件和變數投影至協慣量軸中,據此判斷它們之間的關係。並可結合置換檢驗,確定RLQ的有效性。
例如根據ade4包中的方法,物種丰度資料集可使用dudi.coa()(對應分析);全部為定量變數的物種性狀資料集使用dudi.pca()(主成分分析),同時根據物種權重進行加權;環境資料集中包含定量和分類變數,可使用dudi.hillsmith()處理,該函式允許考慮各種變數型別的混合,同時根據樣方權重進行加權。
#三種資料集各自的排序分析過程
#樣方-物種丰度的對應分析(CA),結果中保留兩個排序軸,詳情 ?dudi.coa

afcL.aravo <- dudi.coa(aravo$spe, scannf = FALSE, nf = 2)
#詳情 ?dudi.hillsmith(),如果資料集中的變數全部為定量變數,則等效於 PCA;如果全為因子變數,則等效於 MCA

#行權重根據樣方-物種丰度排序結果中的樣方權重進行加權,結果中保留兩個排序軸

acpR.aravo <- dudi.hillsmith(aravo$env, row.w = afcL.aravo$lw, scannf = FALSE, nf = 2)
#物種性狀的主成分分析(PCA),詳情 ?dudi.pca

#由於各性狀型別的量綱不同,需要對資料集標準化處理

#行權重根據樣方-物種丰度排序結果中的物種權重進行加權,結果中保留兩個排序軸

acpQ.aravo <- dudi.pca(aravo$traits, row.w = afcL.aravo$cw, center = TRUE, scale = TRUE, scannf = FALSE, nf = 2)
#RLQ 整合上述三步結果,結果中保留兩個排序軸,詳情 ?rlq

rlq.aravo <- rlq(dudiR = acpR.aravo, dudiL = afcL.aravo, dudiQ = acpQ.aravo, scannf = FALSE, nf = 2)

rlq.aravo
summary(rlq.aravo)

結果中,若RLQ的前幾協慣量軸承載的總協慣量越多,且原始資料集在協慣量軸中的投影特徵與其獨自排序分析中的特徵越相似,則表明RLQ的結果越具有代表性,原始QLQ資料集中的大部分共同結構都可以透過較少的RLQ軸呈現出來。
#對於所需結果的提取,如 RLQ 軸的特徵值

names(rlq.aravo)

rlq.aravo$eig

可透過排序圖,直觀呈現RQL的相互關係。
#作圖,展示前兩軸,詳情 ?rlq

plot(rlq.aravo, axes = 1:2)

圖中,R代表樣方環境變數資料集RQ代表物種性狀資料集Q
上方排序圖展示了兩資料集中,物件在RLQ協慣量軸中的位置。透過左圖,可評估哪些樣方之間在物種組成上具有相似性;透過右圖,可評估哪些物種具有相似的分佈特徵;結合左右側兩圖,可評估物種在樣方中的丰度,左圖中某樣方的位置,在右圖中相似位置處存在某物種,表明該物種在該樣方中的丰度較高,或者出現頻率較大。
下方排序圖展示了兩資料集中,變數對RLQ排序空間的貢獻,相關性高的變數箭頭方向趨於一致,箭頭長度代表了變數對排序的貢獻程度。透過左圖或右圖,可分別推測環境變數之間或物種性狀之間的相關性;結合左右側兩圖,即可推測哪種環境與物種的哪些性狀之間有較大關聯。
圈圖中,背景圓圈的正交線代表RLQ的協慣量軸,箭頭代表兩資料集單獨的排序分析的排序軸,若相互之間重合度相對較好,則表明RLQ可有效表徵對應資料集單獨的排序分析中的特徵結構。
右下方為RLQ特徵值柱形圖,可知RLQ前兩軸承載了絕大部分的協慣量,表明我們這裡選擇展示的RLQ前兩軸具有較好的代表性。
結合置換檢驗可確定RLQ分析結果的有效性。
#RLQ 全域性檢驗,999 次置換為例,詳情 ?randtest

rlq_rand <- randtest(rlq.aravo, nrepet = 999)

rlq_rand

plot(rlq_rand)

第四角分析

透過上述RLQ分析,我們可從中推斷環境和物種性狀的關係。並透過在RLQ分析中應用置換檢驗,獲得資料集之間整體相關性的顯著程度。但是,對於具體的環境變數和物種性狀之間關係的顯著性,RLQ分析則無法呈現。
第四角分析可以用來檢驗特定物種特徵和環境變數之間的關聯。
接下來繼續使用上述資料集,以及Rade4中的方法演示第四角分析過程。
變數之間的相關性
將三種資料集作為輸入執行第四角分析,確定物種丰度介導的環境變數和物種性狀變數間的相關程度,並透過置換檢驗顯著性。
#第四角分析評估變數間的相關性,999 次置換檢驗確定顯著性,Benjamini 方法校正 p 值,詳情 ?fourthcorner

four.comb.aravo <- fourthcorner(tabR = aravo$env, tabL = aravo$spe, tabQ = aravo$traits,

modeltype = 6, p.adjust.method.G = 'BH', p.adjust.method.D = 'BH', nrepet = 999)
four.comb.aravo
#綜合考慮 D、D2、G 統計量作為相關性的統計值

#顯示的圖中,顯著的相關(預設 p<0.05)使用紅色(Obs 正值代表正相關)或藍色(Obs 負值代表負相關)標註

par(mfrow = c(1, 2))

plot(four.comb.aravo, alpha = 0.05, stat = c('D', 'D2', 'G'))

plot(four.comb.aravo, x.rlq = rlq.aravo, alpha = 0.05, stat = c('D', 'D2', 'G'), type = 'biplot')

計算結果中存在三種不同型別的統計量,均可作為衡量相關性的指標:
D2:分別測量定量變數和各類別之間的關聯,相關係數用於指示給定類別與定量變數數值大小間的關聯強度;
G:定量變數與所有分類變數之間的關聯透過全域性統計量(F)進行度量;
D:透過組內同質性的度量分別估計定量變數與各類別之間的關聯,關聯的強度由給定類別的定量變數值的離散度來表示。
上述結果綜合考慮了這三種統計量,現在我們準備只考慮其中一種。
#只使用 stat = 'D2' 作為相關性的統計值,詳情 ?fourthcorner

par(mfrow = c(1, 2))

plot(four.comb.aravo, alpha = 0.05, stat = 'D2')

plot(four.comb.aravo, x.rlq = rlq.aravo, alpha = 0.05, stat = 'D2', type = 'biplot')
#提取主要結果,如 D2 統計量

names(four.comb.aravo)

four.comb.aravo$tabD2

變數和RLQ軸的相關性
此外,對於上文RLQ分析結果中,變數與RLQ軸之間關係的顯著程度,也可透過第四角分析給出。
#評估資料集 R、Q 中的變數與 RLQ 協慣量軸之間關係的顯著程度

#999 次置換為例,Benjamini 方法校正 p 值,詳情 ?fourthcorner.rlq

testRaxes.comb.aravo <- fourthcorner.rlq(rlq.aravo, type = 'R.axes',

modeltype = 6, p.adjust.method.G = 'BH', p.adjust.method.D = 'BH',nrepet = 999)

testQaxes.comb.aravo <- fourthcorner.rlq(rlq.aravo, type = 'Q.axes',

modeltype = 6, p.adjust.method.G = 'BH', p.adjust.method.D = 'BH',nrepet = 999)
testRaxes.comb.aravo

testQaxes.comb.aravo
#以 stat = 'D2' 統計量為例展示

#顯示的圖中,顯著的相關(預設 p<0.05)使用紅色(Obs 正值代表正相關)或藍色(Obs 負值代表負相關)標註

par(mfrow = c(2, 2))

plot(testRaxes.comb.aravo, alpha = 0.05, stat = 'D2')

plot(testRaxes.comb.aravo, x.rlq = rlq.aravo, alpha = 0.05, stat = 'D2', type = 'biplot')

plot(testQaxes.comb.aravo, alpha = 0.05, stat = 'D2')

plot(testQaxes.comb.aravo, x.rlq = rlq.aravo, alpha = 0.05, stat = 'D2', type = 'biplot')

RLQ和第四角分析的結合

RLQ和第四角分析代表了分析物種性狀與環境關係的一種綜合方法。儘管二者的原理存在相似(都考慮到第四角矩陣),但具體的實現過程(排序與假設檢驗)和輸出結果存在較大差異。RLQ分析提供的排序將樣方、物種、性狀和環境變數沿正交軸分配得分,在低維空間中產生表徵原始資料集主要結構的圖形摘要;第四角分析則一次測量並檢驗一種物種性狀和一種環境變數之間的多重關聯。
這些差異暗示了兩種方法各自存在一些侷限性。RLQ分析總結了多元結構,但全域性測試無法識別具體哪些環境變數與哪些特定性狀相關,且存在較多變數時,結果可能難以被解讀;四角分析關注二元關聯的顯著性,沒有考慮性狀或環境變數間的協變,也沒有關於樣方和物種的資訊。暗示了僅使用單一方法可能不足以解釋生態效應。
因此,RLQ第四角分析通常在性狀環境研究中聯合使用,充分體現了兩種方法在描述多元模式和檢驗二元關聯重要性方面的互補性。它們的組合為我們評估生物特徵對環境變化的響應提供了更加靈活的方案。
在上文的示例過程中,即已展示了這種結合在一起的過程,透過對同一組資料集執RLQ和第四角分析實現。
參考資料
A tutorial to perform fourth-corner and RLQ analyses in R:http://esapubs.org/archive/ecol/E095/002/suppl-1.pdf
Baty F, Jochen Rüdiger, Miglino N, et al. Exploring the transcription factor activity in high-throughput gene expression data using RLQ analysis. BMC Bioinformatics, 2013, 14(1):178.
Dray S, Choler P, Doledec S, et al. Combining the fourth‐corner and the RLQ methods for assessing trait responses to environmental variation. Ecology, 2014, 95(1): 14-21.
Dolédec S, Chessel D T, Braak, et al. Matching species traits to environmental variables: A new three-table ordination method. Environmental and Ecological Statistics, 1996, 3(2).
Legendre P, René Galzin and Mireille L. Harmelin-Vivien. Relating Behavior to Habitat: Solutions to the Fourth-corner Problem. Ecology, 1997, 78(2):547-562.
連結

相關文章