處理同時含有定量和分類變數的資料集的PCA方法

R包ade4處理包含定量和分類變數資料集的PCA方法
常規的主成分分析PCA)中,資料集所涉及的變數通常全部為定量變數。
對於定性變數而言,通常將它們轉化為0-1型別的二元資料後,作為PCA的輸入(儘管效果可能不是很好)。
如果是變數全部為分類變數,則可以透過多重對應分析MCA)實現,其相當於處理分類變數的PCA
那麼,對於混合有定量和分類變數的資料集,則該如何實現PCA呢?
HillSmith1976)提出了適用於多狀態離散特徵分類資料的主成分分析,用於實現這種需求。
ade4包中提供了該方法的實現函式。
例如,資料集aravo中記錄了75個觀測樣方的環境特徵,現在期望透過PCA探索這些樣方之間環境組成的相似性。
library(ade4)
# aravo$env 含定量變數和分類變數的環境測量資料

data(aravo)

head(aravo$env)
#環境資料的 PCA,結果中保留前 4 個排序軸的座標便於觀測資料

pca <- dudi.hillsmith(aravo$env, scannf = FALSE, nf = 4)
#PCA 概要

pca

summary(pca)
#展示前兩軸的排序圖,以及特徵值柱形圖

scatter(pca, choices = 1:2)

#或者

biplot(pca, choices = 1:2)
#提取結果,例如

#names(pca)

pca$l1 #標準化後的樣方得分(排序座標)

pca$c1 #標準化後的環境變數得分(排序座標)

pca$eig #各 PCA 軸特徵值

pca$eig/sum(pca$eig) #各 PCA 軸的貢獻度

參考資料

Hill, M. O., and A. J. E. Smith. 1976. Principal component analysis of taxonomic data with multi-state discrete characters. Taxon, 25, 249-255.
連結

相關文章