1/3
2/3
3/3
PCA、PCoA、NMDS 、RDA和CCA等排序分析方法
努力呗还能咋样呐
2020年06月16日 10:52
收录于文集
共82篇

原来你是这样的排序分析

杨慧 宏基因组 2017-12-16

微生态相关文献中都经常出现。这些分析成图相似,且都是通过样本点之间的距离反映样本间菌群结构的相似性和差异性。因此很多研究人员纠结于如何选择恰当的排序方法来研究自己的测序数据或展示自己的研究结果?

今天就由小美手持放大镜,咱们一起领略排序分析的新视界......

排序分析的异同点?

PCA、PCoA和NMDS分析属于非约束性排序分析,而RDA/CCA和db-RDA分析属于约束性排序分析,即分别是在环境因子的约束条件下进行的PCA和PCoA分析。因此,一般主要利用PCA、PCoA或NMDS分析进行样本比较,反映样本间菌群结构的相似性和差异性,从而分析组间样本能否明显区分开;而RDA/CCA和db-RDA分析则多用来阐述环境因子对样本菌群结构变化的影响,不仅可以反映样本、物种和环境因子之间的相关性,而且可以找出对物种分布变化影响程度较大的环境因子。

小美还贴心的为您总结了这“5胞胎”的异同点:

距离算法为何会影响排序结果?

很多人在对数据进行分析时会惊奇的发现,PCoA和db-RDA分析选择不同的距离算法会产生不同或类似的结果,WHY?

我们以PCoA分析为例:

图注:4种距离的PCoA分析。不同颜色代表不同的样本组别

同一数据,小美分别选择了euclidean,weighted _unifrac,binary_euclidean和unweighted_unifrac这4种距离进行分析,结果发现后2种距离可以将3组样本明显区分开来,且组内差异较小;反之,前2种距离区分效果不佳。

究其原因,在于前2种距离除此之外还考虑了物种在各个样本中的丰度分布,而后2种距离只考虑了样本中物种存在与否。因此在只考虑样本中物种是否存在时能够将不同的样本组区分且组内差异较小。那么后续针对这种数据类型是选择只考虑物种有无的距离算法将获得更佳的聚类效果,反之亦然。

PCA添加环境因子与RDA有何区别?

PCA分析也是可以添加环境因子的。那我做个带环境因子的PCA不就O啦,为啥还要进行RDA分析呢?

如下图所示:

图注:不同颜色代表不同的样本组别

使用同一数据分别进行PCA和RDA分析。小美无论选择多少环境因子对PCA排序结果是没有任何影响的;而RDA分析中选择不同的环境因子可得到不同的排序结果。

出现这种情况的结果的原因是PCA分析作为非约束性排序,环境因子加入并不会影响样本间菌群差异获得的排序结果;而RDA分析是在所选择的环境因子的约束条件下进行的PCA分析,因此选择不同的环境因子组合会产生的不同的排序分析结果。

 

高能预警!!!排序分析文献大放送啦!让我们看看科研人员们都是如何选择排序分析的......

1. PCA分析 

Title: Impacts of addition of natural zeolite or a nitrification inhibitor on antibiotic resistance genes during sludge composting

DOI.org/10.1016/j.watres.2016.01.010 

析解读:PCA分析发现,在污泥堆肥过程中(图中不同的圆圈代表不同的污泥堆肥过程)的不同阶段,微生物的群落结构发生了较大的变化,天然沸石和硝化抑制剂DMPP的加入不会改变微生物群落的演变速率。

2. PCoA分析 

Title:Maturation of the infant microbiome community structure and function across multiple body sites and in relation to mode of delivery

DOI:10.1038/nm.4272 

分析解读:PCoA分析表明,分娩时新生儿身体各部位菌群结构组成差异较小;而出生6周后的婴儿身体各部位菌群结构组成差异显著。

3. NMDS分析 

Title: The microbiome of coral surface mucus has a key role in mediating holobiont health and survival upon disturbance

DOI:10.1038/ismej.2016.9 

分析解读:NMDS分析发现,珊瑚表面粘液与海水和沉积物样本可以明显区分开;新粘液与老化粘液菌群具有一定差异;当老化粘液层释放后,其菌群恢复至新粘液的初始状态。此外,该图右下角展示了NMDS分析的stress值。

 友情提示:近一年来,我们可能会发现文献中使用NMDS分析时大多会在图中添加这个神秘的stress值,那么它到底有何含义呢?Strees值其实反映了NMDS分析结果的优劣。通常认为stress<0.2时,使用NMDS分析的结果具有一定的解释意义;当stress<0.1时,可认为是一个好的排序结果;当stress<0.05时,则表明分析结果具有极好的代表性。

4. RDA/CCA分析 

Title: Comparison of community structures of Candidatus Methylomirabilis oxyfera-like bacteria of NC10 phylum in different freshwater habitats 

DOI:10.1038/srep25647

分析解读:CCA分析表明,沉积物/土壤中氨氮(NH4+-N)和总无机氮(TIN)含量是与检测样本中NC10细菌集合体变化相关的2个最重要环境因素。

5. db-RDA分析 

Title: Weight gain in anorexia nervosa does not ameliorate the faecal microbiota, branched chain fatty acid profles, and gastrointestinal complaints

DOI:10.1038/srep26752

分析解读:db-RDA分析表明,疾病状态和年龄与菌群结构显示出相关性,其中疾病状态与菌群结构显著相关(p=0.011,图A);仅分析AN患者发现AN亚型对微生物菌群结构具有显著影响(p=0.008,图B)。

友情提示:一般运用RDA/CCA或db-RDA分析的文献中还会以文字描述的形式提供某个环境因子对物种分布影响程度的大小(r2值)和显著性P值。

rda_envfit表格文件结果:

表格解读:

  • RDA1和RDA2列:表示环境因子与排序轴之间的相关性;

  • ef.vectors.r(即r2值):表示环境因子与物种分布的决定系数,该值越小则该环境因子对物种分布的影响越小;

  • Ef.vectors.pvals(即p值):相关性的显著性检验值。

三文读懂PCA和PCoA(一)

宏基因组 2018-04-30

以下文章来源于金唯智生物科技 ,作者Baicun

金唯智生物科技

金唯智在全球范围内为科学研究人员提供高通量测序、Sanger测序、基因合成、引物合成、分子生物学服务及GLP标准规范服务。让我们一起做世界最好,为世界更好。

本文转载自“金唯智生物科技”,已获授权。

在微生物NGS测序领域的高分文章中,PCA(主成分分析)和PCoA(主坐标分析)会很常见。甚至在RNA分析领域,很多研究和文章也会依据基因的表达量作PCA和PCoA分析。

常见的PCA和PCoA分析以下图的形式呈现:

国际空间站与喷气推进实验室依据种群多样性进行的PCoA分析[1]

不同培养条件马铃薯浆发酵液的菌群差异[2]

很明显,我们可以通过分析坐标轴中样本和样本之间的距离直观地看到2个样本或2组样本之间的菌群差异性。若2个样本或2组样本之间的直线距离较近,则表示这2个样本或2组样本的菌群差异性较小;相反,若2个样本或2组样本之间的直线距离较远,则表示它们之间菌群差异性较大。所以,PCA和PCoA所呈现的结果,具有直观性(直接看两点之间的距离)和完整性(呈现所有样本),且数据易于分析和解读(大家都看得懂)。

那么,PCA和PCoA是如何定义的?PCA和PCoA之间是否有区别?何时该选用PCA或何时该选用PCoA?PCA和PCoA背后的分析原理如何?相信这些问题是比较困扰读者的。

PCA和PCoA的定义

PCA(Principal Components Analysis)即主成分分析,也称主分量分析或主成分回归分析法,首先利用线性变换,将数据变换到一个新的坐标系统中;然后再利用降维的思想,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上。这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系[3]。

PCoA(Principal Co-ordinates Analysis)分析即主坐标分析,可呈现研究数据相似性或差异性的可视化坐标,是一种非约束性的数据降维分析方法,可用来研究样本群落组成的相似性或相异性。它与PCA类似,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样本点之间的相互位置关系,只是改变了坐标系统。两者的区别为PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,而PCoA是基于距离矩阵(常用bray, jaccard, unifrac)来寻找主坐标[4]。

好吧,定义比较抽象,我们还是无法看懂看透PCA和PCoA。不急,下面的文字很重要~~~

PCA和PCoA的区别

1.PCA的理解

a. 假如有3个实验样本,它们共有1个物种x,那么我们其实可以用物种x的相对丰度来表示样本和样本之间的差异。这样我们就可以画一个一维坐标轴,将这3个样本的物种x的丰度表示在一维轴线上,如下图所示:

物种x在A, B, C三个样本中的相对丰度

此时数据不发生偏移,样本和样本之间的距离代表样本之间的物种丰度差异(实际上样本A和B间的距离即为A中的物种x的丰度与B中物种x的丰度的差值)。

b. 假如有3个实验样本,它们共有2个物种:x和y。那么我们其实可以用物种x和物种y的相对丰度来在二维坐标系中定位样本。A=(x1,y1), B=(x2,y2),C=(x3,y3),如下图所示:

物种x和y在A, B, C三个样本中的相对丰度

此时数据不发生偏移,样本和样本之间的距离代表样本之间的物种丰度差异。

c. 假如有3个实验样本,它们共有k个物种: x, y, z…………k。那么我们其实可以用物种x, y, z…………k的丰度来定位样本A=(x1,y1,z1……………k1)。同理,样本B与C也可以用这种形式表示。细心的同学可以发现,其实A=(x1,y1,z1……………k1)是一组向量,而且是k维向量(A=(x1)是一维向量,A=(x1,y1)是二维向量,A=(x1,y1,z1)是三维向量)。但是k维向量无法在二维坐标系(平面)中表示(一维和二维向量可以,如上a和b两种情况)。此时我们要么将K维向量作出一些取舍,如削去一些不重要的向量仅保留2个关键向量(削去一些不重要的物种仅保留2个关键物种);要么将K维向量投射到二维坐标系中(降维),但是此时数据便会损失,例如下图,我们将二维坐标系中的数据投射到一维坐标系中,实际数据会折扣掉一部分(A和B的直线距离为5,投射到x轴的一维距离为4,投射到y轴的一维距离为3。从第一维坐标轴上观察A和B的距离只有4,从第二维坐标轴上观察A和B的距离只有3。)。

将二维空间数据投射到一维空间中存在数据损失

因此将k维空间的数据投射到二维空间上(降维),就会产生数据损失,此时坐标轴的贡献率就不再是100%,而是小于100%(而a和b两种情况无需降维处理,因此贡献率为100%)。此时数据如下图所示:

因降维处理,数据发生损失,样本和样本之间的距离代表样本之间的物种丰度差异。

那么如何来选择投影?这就是定义当中所提到的“使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上”。

2.PCoA的理解

a. 假如有2个实验样本,它们都有很多物种,那么我们可以用Bray-Curtis或UniFrac(或其他算法)计算每个样本的物种组成差异度(用一个数值表示物种相对丰度),数值之间的差异就代表了2个样本的物种相对丰度的差异。这样我们就可以画一个一维坐标轴,将这2个样本表示在一维轴线上,如下图所示:

此时数据不发生偏移,样本和样本之间的距离代表样本之间的物种丰度差异。

b. 假如有3个实验样本,同样可以用Bray-Curtis或UniFrac(或其他算法)计算每个样本的物种组成差异度(用一个数值表示物种相对丰度),数值之间的差异就代表了每2个样本的物种相对丰度的差异。这样我们就可以画一个二维坐标轴(三点组成一个面),将这3个样本表示在二维轴线上,如下图所示:

此时数据不发生偏移,样本和样本之间的距离代表样本之间的物种丰度差异。

c. 以此类推,假如有n个实验样本,同样可以用Bray-Curtis或UniFrac(或其他算法)计算每个样本的物种组成差异度(用一个数值表示物种相对丰度),数值之间的差异就代表了每2个样本的物种相对丰度的差异。这样我们就可以画一个n-1维坐标轴,将这n个样本表示在n-1维空间中。但是n-1维空间无法在平面上表示(一维和二维除外,三维勉强可以),因此只能利用矩阵呈现,如下图所示:

n个样本的矩阵示意图

若要将n-1维的数据在二维坐标系中呈现,需降维处理,即将n-1维的数据投影到二维空间当中,方法与思路同PCA类似。此时,2个坐标轴的贡献率均小于100%,如下图所示:

n个样本在二维空间中呈现(只展示了3个样本)

因降维处理,数据发生损失,样本和样本之间的距离代表样本之间的物种丰度差异。

这个时候, PCA和PCoA就好理解了。我们再回过头看定义“PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,而PCoA是基于距离矩阵(欧式距离以外的其他距离)来寻找主坐标”,其实浅显地来理解,就是上面这么回事。

我们知道了PCA和PCoA的定义,也理解了PCA和PCoA的区别,那么它们该何时选用,以及背后的算法如何?欲知后事如何,且听下回分解。

特此声明:

1、 本文仅供读者理解,不涉及专业学术论证;

2、 本文为小编的一点感悟心得,非常欢迎各位业界同行的讨论与交流,同时也非常欢迎各位专家老师的指正,您的一个问题会使我们共同进步!

参考文献:

[1] Aleksandra Checinska et al., Microbiomes of the dust particles collected from the International Space Station and Spacecraft Assembly Facilities. Microbiome. 2015

[2] Zhiman Yang et al., Enhanced methane production via repeated batch bioaugmentation pattern of enriched microbial consortia. Bioresource Technology. 2016

[3] https://baike.baidu.com/item/主成分分析/829840?fr=aladdin

[4] http://blog.sina.com.cn/s/blog_49e55e450102uzj8.html