當你學習了 RDA、PCA 和 PCoA 這三種常見排序方法后,腦子里是不是也冒出過類似的疑問:
PCA、PCoA、RDA 不都能畫圖嗎?是不是可以互相替代?
RDA 圖上也有樣本點,那我還需要 PCoA 干什么?
...
這些看似“都在畫點圖”的方法,其實背后的原理、假設和適用場景大不相同。如果不搞清楚,就可能用錯方法、畫錯圖,甚至在結果解讀上南轅北轍。
01 PCA:變量出發,尋找主要變異方向
PCA(主成分分析)關注的是樣本在變量空間中的最大方差方向,分析的是變量之間的協方差結構,它強調正負方向。
舉個例子:你有 10 個水樣本,每個樣本測了 5 種金屬(鉛、汞、鉻、鎘、鋅)的濃度。你想知道哪些樣本之間在“污染物組成”上差異最大,這時候就可以使用 PCA。
在 PCA 中,如果兩個樣本點在某條主成分軸(PC1、PC2 等)上方向相反,
那么它們在這個主成分所代表的變量組合上,存在“相反的趨勢”或“對立的特征”。
適用場景:多個連續性變量之間的結構探索;沒有主次之分的變量(不區分因變量、自變量)
02 PCoA:距離出發,還原相似性結構
PCoA是基于距離矩陣進行降維的排序方法。它的目標是:在保留樣本之間原始距離關系的前提下,將樣本映射到一個低維空間中進行展示。
舉個例子:你采集了多個土壤樣本,記錄了每個樣本中出現的真菌種類(是/否,0/1),這個時候可以利用Jaccard系數這個指標算出距離,再用 PCoA 展現樣本之間的相似性或差異性。
數據類型可以是:二元數據(0/1,表示物種是否出現);豐度數據(連續型),非常靈活。
適用場景:樣本之間差異更關注“距離感”而不是變量結構;適用于各種類型的數據,尤其是群落數據、稀疏數據(很多0);同樣不區分因變量、自變量,屬于“自由排序”
03 RDA:模型出發,解釋結構背后的驅動因子
RDA是一個受約束的排序方法,它的本質是將多個因變量(如物種數據)在多個解釋變量(如環境因子)構建的回歸模型上做PCA,關注的是“解釋變量是否能解釋群落結構的差異”。
舉個例子:你采集了 15 個浮游生物樣本,同時記錄了每個樣本點的水溫、鹽度、pH 等環境數據。現在你不僅想知道樣本之間群落結構是否不同,更重要的是——你想知道,“是不是溫度或鹽度影響了這些差異?”
這時,RDA 就可以幫你回答這個問題:它會把樣本在被解釋變量(如溫度、鹽度)張成的空間中排序,從而可視化這些因子的解釋方向與作用強度。
適用場景:你同時有環境變量(解釋變量)和群落結構(響應變量);想研究“哪些環境因子可能驅動了樣本間的差異”;想對解釋變量進行顯著性檢驗,量化它們對群落結構的貢獻。
04 總結與個人習慣
PCA 看重“方向”、PCoA 注重“距離”、而 RDA 的關鍵則在于“解釋變量和響應變量”的對應關系。
PCA 是探索型的、PCoA 是結構還原型的,而 RDA 則是解釋型的排序方法。 理解這三者背后的出發點不同,才能在實際應用中真正做到“方法對題、圖對解”。
在實際分析中, 我更喜歡:用PCoA來確定樣本之間的關系,PCoA 對“樣本之間的距離感”還原得更加直觀清晰;用PCA來探索“自由”的變量之間的關系;用RDA來探索“有因果關系”的變量之間的關系。
TomatoSCI科研數據分析平臺,歡迎大家來訪!