APP下载

4种相关分析方法在菌群和代谢物相关研究中的初步比较

2018-04-23游懿君梁丹丹陈天璐

转化医学杂志 2018年2期
关键词:基因组学代谢物分析方法

游懿君,梁丹丹,陈天璐

系统生物学是在细胞、组织、器官和生物体整体水平上研究结构和功能各异的生物分子及其相互作用,并通过计算生物学来定量阐明和预测生物功能、表型和行为的科学[1]。基因、蛋白、转录、代谢及元基因等多组学整合研究是系统生物学中常用的研究手段。跨组学研究不仅可了解机体的基因构成,而且对于下游表达产物如蛋白、代谢物也有了一个充分的了解[1-2]。代谢组学是系统生物学领域一门新兴的学科,是利用各仪器平台(气相/液相-色谱联用和核磁共振等)和大数据信息挖掘策略观察生物体系中的大量代谢产物在不同状态下变化规律的科学[3]。元基因组学通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策略研究环境样本所包含的全部微生物的遗传组成及其群落功能。越来越多的研究表明,人体内的代谢物水平波动与肠道内菌群的变化间存在着一定的关联[4-5]。由于人体是一个系统整体,系统性的研究显得尤为必要[2],而代谢组学和元基因组学2大组学平台满足了整体系统性分析的需求,越来越多的应用到了菌群和代谢物的相关研究中。

相关性分析是指对2个或多个具备相关性的变量元素进行分析,从而衡量2个变量因素的相关密切程度[6]。利用相关性分析进行关联变量的筛选是一种常用的科学研究策略。Pearson积相关[7]和Spearman秩相关[8]是2种经典的相关性分析方法。随着相关分析的广泛应用,在经典的相关性方法基础上发展延伸出了很多的适用于不同数据类型的方法。比如,SparCC[9]和CCLasso[10]是针对组分数据内部变量的相关性研究而产生的方法,能够更加精准的在该类数据集中找到关联对。元基因组数据属于组分数据的一种[11-12],反映的是物质的相对丰度信息而非绝对丰度信息,具有稀疏性和内部关联度高等特征。Friedman[9]和Fang等[10]指出,采用经典相关分析(Pearson,Spearman)方法对其进行研究常常产生不合理甚至错误的结果。此外,尚未见有报道尝试采用SparCC和CCLasso对非组分数据进行分析。代谢组学数据和元基因组学数据的数据特点和结构也不尽相同。代谢组学数据是基于“质谱”生成的信息,其变量是连续的且与具体的代谢物的浓度成比例;元基因组学数据是一种基于“计数”的信息,变量是离散的且与基因片段存在的数量成比例。2种不同特性组学数据的相关分析对方法的选择提出了新的要求。

我们以代谢组学和元基因组学间的关联研究为目标,选用4种典型的相关分析方法(Pearson,Spea-rman,SparCC和CCLasso),采用仿真数据集和真实数据集,对这4种相关分析方法进行检测和对比,研究了他们的相似性和独特性,为跨组学数据相关分析方面提供方法学支持。

1 方法

1.1 仿真数据集建立 利用R软件“MASS”包中的“mvrnorm”函数,生成2个含有21个变量(V),200个样本量(S)的数据矩阵A(a1-a21)和B(b1-b21)。其中代表代谢物的矩阵A服从正态分布,代表菌群的矩阵B服从对数正态分布。指定矩阵A与矩阵B中的21个相关对(a1-b1,a2-b2,a3-b3,…,a21-b21)的相关系数分别为-1,-0.9,-0.8,…,0.8,0.9,1。统计学上通常认为相关系数小于0.3是不存在相关或相关程度较弱,易产生不符合真实情况的结果,所以我们将相关系数大于或等于0.3的16个相关对作为有效相关对(编号第1~8和第14~21的相关对)。

1.2 脑代谢组研究数据 由于“菌群-肠-脑轴”的研究逐渐成为新的研究热点,诸多研究证实脑中的代谢物与肠道菌群间存在着密切的相关性[13-15]。我们以42只Wistar大鼠脑组织代谢物的代谢组学数据和大鼠小肠内容物中肠道菌群的元基因组学数据(16SrRNA)为例进行研究。所有的动物实验都在上海交通大学实验动物中心进行。原始的代谢组学数据包含了359个代谢物,原始的元基因组学数据包含了3 421个操作分类单元。我们对原始数据进行进一步的优化:将代谢组学数据按照代谢物的种类进行合并,元基因组学数据操作分类单元表按分类学“门”水平进行合并。最终,得到30种代谢物和18个门的数据。

1.3 相关分析方法

1.3.1 Pearson积相关与Spearman秩相关 Pearson积相关是Pearson[7]在1896年创立的一种经典相关分析方法(公式1)。在此基础上后续延伸出了Spearman秩相关[8]。Spearman从公式上来看是一种非参的Pearson相关,在计算相关系数时,不体现计算的具体数值,而是将具体数值按秩次进行排序,利用秩次进行相关系数的计算。2种方法皆在R中调用“cor”函数实现,选择method=“pearson”或“spearman”。

(1)

1.3.2 SparCC与CCLasso SparCC和CCLasso是主要用于分析组分数据间相关关系的一种非参的相关分析方法,是前期经典相关分析方法的延伸。SparCC方法的大体思路是:将组分数据进行Aitchison对数转换,计算转换后的线性Pearson相关并得到相关系数[9]。CCLasso则是在对数转换后对组分进行基于罚函数的最小二乘法(即Lasso)从而得到相关系数[10]。SparCC和CCLasso方法均可在R软件中实现,方法代码可从https://github.com/huayingfang/CCLasso中获得[10]。

抗胃癌植物类中药药味以苦、甘、辛为主,丰度分别为0.612、0.518、0.271;主要涉及品种包括白花蛇舌草、丹参、缬草、柴胡等,详见表3。临床在选择组方入药时应结合患者临床症状及个体特征充分考虑上述药味特点。

本研究的所有相关方法的实现皆在R软件中进行。

2 结果与讨论

将4种相关方法对仿真数据集和脑代谢组真实数据集进行相关分析,并将结果进行统计分析和可视化处理,用以从不同角度衡量对比各方法的性能。

从图1A中可以得出,16个指定相关对经4种相关方法计算得到的r值(-1~-0.3,0.3~1)大体一致。图1B中可以得出CCLasso的误差百分比大于其他3种方法(22.95%)。Pearson和Spearman方法得出的误差百分比较小(Pearson:6.23%;Spearman:5.14%)。图1的结果说明了CCLasso方法存在较大的误差,计算出的相关系数与真实值差距较大。这可能是由于CCLasso算法复杂度高,对数据结构要求较严格。另一个原因可能是由于前期仿真数据集的构建是根据Pearson系数来设计的(协方差矩阵公式是Pearson相关的一种变换),所以Pearson和Spearman相对来说得到的结果误差百分比偏小,结果偏好。尽管如此,相比之下CCLasso的准确度比SparCC稍差。

A:不同方法对指定r值的16个相关对进行分析得到的相关系数(r) 所有P值均小于0.05

B:4种相关方法所计算出的相关系数的误差百分比(均值±标准误)。 误差百分比=100%×|计算值-设定值|/设定值。4组间ANOVA的P<0.001, *表示两两比较时(Tukey’s方法),该方法与CCLasso比较的P<0.05图1 4种相关方法基于仿真数据集中指定了相关系数 的16个变量对的计算结果

进一步采用4种相关方法对矩阵A、B中未指定相关系数的变量对(变量如a1与b2,b3,…,b21等)进行分析,其相关结果如图2所示。由r值聚类热图(聚类分析中使用欧几里得距离计算变量之间的距离)(图2A)可得,Pearson与Spearman聚为一类,SparCC与CCLasso聚为一类。该结果表明方法Pearson与Spearman得到的结果更为相似,SparCC与CCLasso的结果更为相似。而从数学公式上比较,这2组方法计算相关系数的公式也更为相近。图2B显示的是各种方法找到的显著相关对的数目。我们发现,CCLasso找到的相关对(P<0.05)数目最少(2),SparCC最多(23),Spearman(21)和Pearson(18)居中。这些未指定相关系数的变量对可相当于随机变量,理论上这些变量间不存在相关性。该结果说明CCLasso最为保守,经典方法的性能居中,而采用SparCC的假阳性风险相对较高。在必要时,可采用各种方法对P值进行适当校正或采用更严格的阈值,以降低假阳性。

A:基于相关系数r值的层次聚类结果

B:显著相关(P<0.05)的个数图2 4种相关方法对仿真数据集中未指定相关系数的 变量对(21×20=420个)的计算结果

最后,采用真实数据对各种方法的性能进行进一步比较和评估。根据图3A所示,对于同样的数据集,CCLasso计算得到的相关系数r值相对最小,SparCC计算所得的r值最高,Spearman和Pearson介于两者之间。图3C显示的是显著(P<0.05)相关对数目。与仿真数据集和图3A结果一致的是,CCLasso找到的相关对数目最少,SparCC最多,Spearman和Pearson结果介于两者之间。由此我们判断CCLasso方法相对保守,对数据的要求比较严格。此外,该方法的计算耗时也较其他方法长。这可能是因为其内部算法比较复杂引起的[10]。再次采用相关系数r进行的层次聚类分析(图3B)表明,方法Pearson与Spearman得到的结果更为相似,方法SparCC与CCLasso的结果更为相似。该结果与仿真数据集聚类结果一致。

从仿真数据集和真实数据集的实验结果来看,我们认为传统的相关分析方法在跨组学之间的相关分析中更具有优势。而Spearman由于适合非线性相关,建议其为首选方法。

A:相关系数r值的范围。横坐标为4种相关方法, 纵坐标为相关系数r值(均值±标准差)。 4组间ANOVA的P<0.001。两两比较(Tukey’s)的所有P<0.05

B:基于相关系数r值的层次聚类和热图

C:显著(P<0.05)相关对数目图3 4种相关方法基于真实数据集的计算结果

3 总结与展望

基于以上仿真和真实数据集的结果,可以发现4种相关分析方法计算得到的r值和显著相关对的数量都存在类似的规律:SparCC>Spearman和Pearson>CCLasso。CCLasso误差百分比较大,而得到的显著相关对的数目最少。相比较来说,该方法的结果更容易出现假阴性(即具有相关关系的2个变量关系,在CCLasso较为严格的算法下,结果往往是不具有相关性)。相反的,SparCC更倾向于给出假阳性结果(即不具有相关关系的2个变量关系,在SparCC较为宽松的算法下,结果往往是具有相关性);经典相关方法(Pearson和Spearman)的表现较为稳定平和,Spearman结果稍优于Pearson。部分原因可能是其更适合于分析非线性相关关系。本研究结论仍需要更多实验数据的进一步验证。

【参考文献】

[1]杨胜利.系统生物学研究进展[J].中国科学院院刊,2004,19(1):31-34.

[2]Kitano H.Systems biology:a brief overview[J].Science,2002,295(5560):1662-1664.

[3]Bujak R,Struck-Lewicka W,Markuszewski MJ,et al.Metabolomics for laboratory diagnostics[J].J Pharm Biomed Anal,2015,113:108-120.

[4]Liu R,Hong J,Xu X,et al.Gut microbiome and serum metabolome alterations in obesity and after weight-loss intervention[J].Nat Med,2017,23(7):859-868.

[5]Zheng X,Xie G,Zhao A,et al.The footprints of gut microbial-mammalian co-metabolism[J].J Proteome Res,2011,10(12):5512-5522.

[6]Hauke J,Kossowski T.Comparison of values of Pearson’s and Spearman’s correlation coefficients on the same sets of data[J].Quaest Geo,2011,30(2):87-93.

[7]Pearson K.Mathematical contributions to the theory of evolution.III.Regression, heredity,and panmixia[J].Philos T Roy Soc A,1896,187:253-318.

[8]Spearman C.The proof and measurement of association between two things[J].Am J Psychol,1904,15(1):72-101.

[9]Friedman J,Alm EJ.Inferring correlation networks from genomic survey data[J].Plos Comput Biol,2012,8(9):e1002687.

[10]Fang H,Huang C,Zhao H,et al.CCLasso: correlation inference for compositional data through Lasso[J].Bioinformatics,2015,31(19):3172-3180.

[11]Tsilimigras MC,Fodor AA.Compositional data analysis of the microbiome:fundamentals,tools,and challenges[J].Ann Epidemiol,2016,26(5):330-335.

[12]Weiss S,Van Treuren W,Lozupone C,et al.Correlation detection strategies in microbial data sets vary widely in sensitivity and precision[J].ISME J,2016,10(7):1669-1681.

[13]Zheng X,Chen T,Zhao A,et al.The brain metabolome of male rats across the lifespan[J].Sci Rep,2016,6:24125.

[14]Mayer EA.Gut feelings:the emerging biology of gut-brain communication[J].Nat Rev Neurosci,2011,12(8):453-466.

[15]Ridaura V,Belkaid Y.Gut microbiota:the link to your second brain[J].Cell,2015,161(2):193-194.

猜你喜欢

基因组学代谢物分析方法
阿尔茨海默病血清代谢物的核磁共振氢谱技术分析
一株红树植物内生真菌Pseudallescheria boydii L32的代谢产物*
基于EMD的MEMS陀螺仪随机漂移分析方法
山西在谷子功能基因组学研究领域取得重大突破
新疆和西藏少数民族的群体基因组学研究
系统基因组学解码反刍动物的演化
环孢素A代谢物的研究概况Δ
路堤下CFG桩复合地基稳定分析方法探讨
噻虫嗪及其代谢物噻虫胺在冬枣中的残留动态研究
中国设立PSSA的可行性及其分析方法