APP下载

基于主成分特征投影法建立利用16S rRNA基因序列进行物种分类方法的研究

2015-12-27毕春霞秦江楠郭双双宋旭霞闫志勇

微生物学杂志 2015年6期
关键词:视图投影物种

任 莹, 毕春霞, 秦江楠, 郭双双, 王 斌, 宋旭霞, 闫志勇*

(1.青岛大学医学院 微生物教研室,山东 青岛 266071;2.青岛市市立医院,山东 青岛 266071)



基于主成分特征投影法建立利用16S rRNA基因序列进行物种分类方法的研究

任 莹1, 毕春霞2, 秦江楠1, 郭双双1, 王 斌1, 宋旭霞1, 闫志勇1*

(1.青岛大学医学院 微生物教研室,山东 青岛 266071;2.青岛市市立医院,山东 青岛 266071)

提出一种有别于系统发育树的根据16S rRNA基因序列进行物种分类的新方法。首先将基因的碱基字母形式转换成数字形式,构建多维向量。然后根据主成分分析方法将该向量向数据分布最大方向投影,将原数据用几个“主成分”线性表出,而不丢失原数据的信息,采用主成分的显示功能作出三维主成分特征投影视图,达到分类的目的。在双歧杆菌和肠球菌的分类识别中得到较好的应用。

物种分类;碱基序列;向量;主成分分析

随着测序技术的快速发展,现代细菌分类学多是建立在对16S rRNA基因序列的系统发育学分析基础上,并结合多种微生物信息的多相分类学[1]。1990年Worse[2]利用16S rRNA序列的同源性研究原核生物的分类和系统发育,取得了巨大成功,2004年Li和Ren[3]首先采用16S rRNA序列同源性分析确定了1株发酵产氢细菌,显示出16S rRNA序列同源性分析快速方便的优势。系统发育分析主要分为DNA序列比对、建立核苷酸替代模型、建立系统发育树以及对树的评估4个步骤[4]。但是,从现代生存物种的大分子中获得的进化历史信息是不完全的,因此,所推断出来的系统发育树有一定程度的不确定性和假设性,从同一组数据常常推断出不同的系统发育树。目前系统发育树的构建思想主要包括基于距离的最短距离法、最大简约法、最大似然法以及贝叶斯树估计方法[5]。其中最大似然法是选择概率最高的建树方法,也是目前最常用、最为准确的方法,但其最大的缺点是计算复杂性高,不能有效排除基因突变等因素带来的干扰信息,从而不能处理大规模的数据,与日益凸显的“大数据”时代相矛盾。后基因组时代的到来及各种生物信息的增多,对物种分类的挑战不断增大。而主成分分析 (principal component analysis, PCA)的中心目的就是数据的降维,即用少数几个主因子代替庞大的原始数据而不丢失有用信息,排除相互重叠的冗余信息[6]。目前主成分分析已经广泛应用于人口统计学[7]、化学计量学[8]、数量地理学[9]等领域,在生物学领域[10-13]近年来也得到广泛应用。将该方法应用到利用16S rRNA的分类尚未见文献报道,本文拟利用16S rRNA基因序列转换而成的向量,结合主成分特征投影方法,进行物种的识别以及分类发育的初步探讨。

1 材料与方法

1.1 主成分分析

PCA是一种能够解决“维数灾难”的有效方法,既能降低数据复杂度,又能更好地分析理解数据。在计算机出现以前,PCA由于其计算繁琐并没有得到广泛应用,但是在计算机出现以后,其发展非常迅速,成为多元统计分析中至关重要的一种方法。它是通过正交变换,将原始数据向数据变化最大方向作投影,将数据分解成得分矩阵T和载荷矩阵PT,即X=TPT,这里的得分矩阵T即为原始变量的线性组合。实际应用中,前几个对数据分布影响最大的主成分用于分析,使高维数据降低到二维或者三维等低维空间,同时又不丢失有用信息。

主成分特征投影可通过PCA降维,实现由前几个主成分重构的PCA模型捕获数据的大部分信息,还原原始基因序列的信息。相似度较高的对象在得分图中倾向于聚集在一起,而相似度较低的对象将倾向于相互远离,实现聚类分析。一般地,前3个主成分所代表的信息占到原始数据变量的85%以上,这足以表示基因的分类信息。将4种碱基字母形式转换成数字形式,构成向量,一个列向量代表一条基因序列,采用主成分分析方法基于变量协方差矩阵对信息进行处理、压缩和抽提,再将数据进行三维可视化主成分特征投影作图。不同物种之间基因序列中碱基的差异明显,同一物种间差异较小,从而导致在三维视图中,不同的物种基因序列所处位置不一致,因此该方法可用于物种的分类鉴别。

1.2 奇异值分解

奇异值分解[14]是一种常用的主成分分析方式,可将实数矩阵分解成为3个矩阵的积X=USVT,其中主成分分析中的得分T=US,载荷为PT=VT,采用前3个得分矢量(PC1、PC2、PC3)作图,即可得到可视化的三维主成分特征投影图。

1.3 实例

以双歧杆菌(Bifidobacterium)和肠球菌(Enterococcus)为例,研究该方法的可行性。实验所用基因序列来自GenBank中收录的16S rRNA基因序列,从中筛选出序列长度>1 400 bp的菌株(http://www.ncbi.nlm.nih.gov/pubmed),计算平台为MATLAB2014a,步骤如下:

1:将下载的基因序列转变成数字形式,c改为1,a改为2,t改为3,g改为4,构成列向量,并将数据对齐;

2:将数据进行归一化处理,其目的是归纳统一样本的统计分布性;

3:将归一化后的数据进行奇异值分解,其模型为X=USVT;

4:求取主成分,PC=US;

5:作出可视化的三维主成分特征投影视图。

同时,利用MEGA6.0软件绘制系统发育树。

2 结果与分析

分别采用1 300个基因和100个基因建立分类模型,图1为取序列前1 300个基因时主因子变化示意图,从图1中可以看出第一主成分的贡献最大,已经代表大部分信息,分别采用第一、第二、第三主成分作图可以将基因序列中几乎所有信息抽提出来,用前3个主因子所做三维可视化图(图2),可明显看出2种细菌分属2类,通过三维图中距离的远近即可判别出亲缘关系的远近,因此采用主成分分析方法可以将不同物种区别开来,并能够判别亲缘关系的远近。

同样,采用主成分分析方法使用前100个基因进行聚类分析(图3),发现也可以将物种明显区别开来。

采用主成分特征投影法得到的分类视图与MEGA6.0进行发育树结果(图4)基本吻合,但是在实际应用过程中发现,随着数据量的增多,MEGA6.0发育树计算变慢、时间长,并且当数据超过一定量时也会增加结果显示的难度,而本方法采用数据降维的方式,对数据进行抽提、压缩,能够有效解决上述问题。随着大数据时代的到来,对数据进行抽提、压缩,使其更加直观,势必是今后发展的趋势。

图1 所取主因子数与特征值大小Fig.1 The figure of matrix's eigenvalue

图2 1 300个基因PCA分类效果图Fig.2 The figure of principal component projection when in 1 300 genes

图3 100个基因PCA分类图Fig.3 The figure of principal component projection when in 100 genes

图4 利用N-J法构建系统发育树Fig.4 Neighbour-joining phylogenetic tree based on 16S rRNA gene sequences

3 讨 论

本研究采用主成分分析方法使用前100个基因进行聚类分析,发现也可以将物种明显区别开来,但是与采用1 300个基因分类不同,肠球菌在三维视图中分布相对集中,双歧杆菌在PC1、PC2的二维视图中也是相对集中。这可能是因为在序列测定过程中,100个基因测序误差相对较小,也可能是前100个基因同类之间差异相对较小,因此同一类样品的数据分布方向相对集中,不同类之间数据分布方向变化较大,三维视图中同一类细菌分布集中,不同类之间差异明显。

因此,该方法对基因测序准确性以及对齐与否有一定要求。这在主成分分析的原理中亦能寻得答案,主成分分析是将原始数据向数据分布最大方向作图,如果错误信息过多,数据将不再投影到差异信息的方向,而是投影到错误信息的方向,因此在接下来的研究中应该研究异常值的剔除以及对齐基因的寻找优化。

本文探究了采用主成分特征投影法对双歧杆菌和肠球菌进行分类,发现该方法可以明显的区分这两种物种,为采用多元统计方法进行物种的归类奠定了理论基础,但是对于亲缘关系更为接近的物种分类,有待于基因对齐算法的研究。

[1] 杨霞,陈陆,王川庆. 16S rRNA基因序列分析技术在细菌分类中应用的研究进展[J]. 西北农林科技大学学报(自然科学版),2008,02:55-60.

[2] Worse C R,Kandler O,Wheelis M L. Towards a natural system of organisma:Proposal for the domains archaea,bacteria, and eucaya[J]. Proc Natl Acad Sci,1990,87:5476-4579.

[3] Li Y F,Ren N Q,Yang C P,et al. Biohydrogen production behaviour and molecular characterization of a new species of anaerobic bacterium [A]. Anaerobic Digestion 2004- Proceedings of the 10th World Anaerobic Conference [C]. Montreal,Canada,2004.

[4] 唐晓嗣. 系统发育树构建中的EM算法[D].广州:暨南大学,2006.

[5] 冯思玲. 系统发育树构建方法研究[J]. 信息技术,2009,(6):38-40,44.

[6] 王芳. 主成分分析与因子分析的异同比较及应用[J]. 统计教育, 2003, 5(5): 14-17.

[7] 袁俊, 吴殿廷, 吴铮争. 中国农村人口老龄化的空间差异及其影响因素分析[J]. 中国人口科学, 2007, 3: 41-47.

[8] 许禄. 化学计量学方法[M].北京:科学出版社, 1995.

[9] 沈泽昊, 张新时. 中国亚热带地区植物区系地理成分及其空间析局的数量分析[J]. 植物分类学报, 2000, 38(4): 366-368.

[10]林丽, 李以康, 张法伟, 等. 青藏高原高寒矮嵩草草甸退化演替主成分分析[J]. 中国草地学报, 2012, 34(1): 24-30.

[11]张丽英, 张正斌, 徐萍, 等. 黄淮小麦农艺性状进化及对产量性状调控机理的分析[J]. 中国农业科学, 2013, 47(5): 1013-1028.

[12]Frank D N, Amand A L S, Feldman R A, et al. Molecular-phylogenetic characterization of microbial community imbalances in human inflammatory bowel diseases[J]. Proceedings of the National Academy of Sciences, 2007, 104(34): 13780-13785.

[13]Makeig S, Jung T P, Bell A J, et al. Blind separation of auditory event-related brain responses into independent components[J]. Proceedings of the National Academy of Sciences, 1997, 94(20): 10979-10984.

[14]Wall M E, Rechtsteiner A, Rocha L M. Singular value decomposition and principal component analysis[M].A practical approach to microarray data analysis. Springer US, 2003: 91-109.

Methodology Establishment Using 16S rRNA Gene Sequences to Carry out Species Taxonomy Based on Principal Component Characteristics Projection Method

REN Ying1, BI Chun-xia2, QIN Jiang-nan1, GUO Shuang-shuang1,WANG Bin1, SONG Xu-xia1, YAN Zhi-yong1

(1.Teach. &Res.Div.ofMicrobiol.,Med.Coll.,QingdaoUni.; 2.QingdaoMuni.Hosp.,Qingdao266071)

This paper proposed a new species taxonomy method that differs from the phylogenetic tree based on 16S rRNA gene sequences. Firstly, the letter pattern of bases was converted into digital pattern, to build a multi-dimensional vector. Then according to the method of principal component analysis (PCA) the vector was projected into the maximum direction of database distribution, express the original data into "principal component" linearity, without loss of information of the original data, adopting the display function of principal component to make projection view of the principal component characteristics in three dimentions, to meet the goal of taxonomy. It had been fairly well applied in taxonomical recognition ofBifidobacteriumandEnterococcus.

species taxonomy; base sequence; vector; principal component analysis

山东省优秀中青年科学家科研奖励基金项目(BS2011SW005);山东省科技公关基金项目(2007GG3WZ05009)

任莹 女,硕士研究生。研究方向为病原微生物学。E-mail:qdrenying@126.com

* 通讯作者。男,博士,副教授,硕士生导师。研究方向为病原微生物学。Tel:0532-83780059,E-mail:yanzhiyong@qdu.edu.cn

2015-04-27;

2015-05-24

Q78

A

1005-7021(2015)06-0105-04

10.3969/j.issn.1005-7021.2015.06.021

猜你喜欢

视图投影物种
解变分不等式的一种二次投影算法
基于最大相关熵的簇稀疏仿射投影算法
找投影
回首2018,这些新物种值得关注
找投影
电咖再造新物种
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图