APP下载

蛋白质亚细胞定位预测研究进展

2014-09-02郑珊珊石卓兴代琦姚玉华

科技视界 2014年12期

郑珊珊+石卓兴+代琦+姚玉华

【摘 要】蛋白质的功能与其亚细胞位置有着密切的联系,对于确定一个未知特性蛋白质的功能,亚细胞定位研究能够提供重要的参考信息。采用传统实验的方法研究亚细胞定位需要耗费大量的人力、财力、物力,已经不能满足数据库中蛋白质序列爆炸性增长的现实需要。从已积累的知识和数据出发,利用智能算法、机器学习等工具开发蛋白质亚细胞定位预测的方法成为了当前的重要研究内容。本文对国内外亚细胞定位预测的研究现状进行了综述。

【关键词】亚细胞定位;特征信息提取;预测算法

亚细胞定位是指某种蛋白或某种基因表达产物在细胞内的具体存在部位,即根据所给出的蛋白质序列来预测其所在的亚细胞位置。蛋白质是基因功能的执行者,机体中的每一个细胞和所有重要组成部分都有它的参与,正是由于它是与生命及与各种形式的生命活动紧密联系在一起的物质,越来越多的生物学、生物信息学研究者开始对蛋白质的功能预测及分析进行了研究。然而,蛋白质只有经分选信号引导后运输到特定的细胞器中,才能参与细胞的各种生命活动,执行它的功能,如果其运送位置发生偏差,将会影响细胞功能甚至整个生物体。因此,蛋白质在细胞中的正确定位是细胞系统高度有序运转的前提保障。研究细胞中蛋白质定位的机制和规律,预测蛋白质的亚细胞定位,对于了解蛋白质结构、性质和功能,了解蛋白质之间的相互作用,研究疾病机理和发展新药物以及探索生命的规律和奥秘具有重要意义。

随着核酸和蛋白质序列等生物数据的高速膨胀,单纯以传统实验方法来确定蛋白质亚细胞定位具有成本高、实验时间长,预测精度不理想,会耗费大量的人力和物力等缺点,已经无法满足生命科学研究的需要。因此,需要寻找一种快速、有效、准确的计算方法来预测蛋白质亚细胞定位。近年来,生物信息学在这方面开展了广泛的研究并且取得一系列很有意义的成果,数据库的构建和亚细胞定位分析及预测加速了蛋白质结构和功能的研究。一方面,生物信息学研究可以对大规模的实验数据进行分析和提取生物学信息,同时可以根据现有数据对一些目前还未知的蛋白质做出预测;另一方面,不断增长的亚细胞定位数据也可以用来验证并改进预测结果。目前,利用生物信息学方法进行蛋白质亚细胞定位预测已经成为了一个研究热点。

从20世纪90年代初至今,蛋白质亚细胞定位预测一直是生物信息学研究的热点问题之一。通过分析国内外研究者的研究方法,不难发现这些方法的主要不同在于两个方面: 第一,蛋白质特征信息的提取,主要是指将蛋白质相关特征信息提取出之后转化成高维的特征向量,作为预测的输入。蛋白质序列特征信息主要包括氨基酸顺序相关性、氨基酸在蛋白质中出现的频率、氨基酸物理化学性质等。第二,预测算法的设计,根据提取的特征向量集,利用有效的算法预测蛋白质的亚细胞定位。算法影响亚细胞预测精度的重要因素,现有预测算法中,统计学和机器学习方法使用的最为广泛。

利用计算方法来预测蛋白质亚细胞定位属于统计模式识别中的模式多分类问题。问题的研究一般包括以下四个步骤:(1)具有客观代表性的蛋白质数据集的构建; (2)蛋白质序列的特征提取,即蛋白质序列编码,从蛋白质中提取特征参数,实现字母序列到数值特征的转换;(3)预测算法的选取,即如何根据提取的特征参数,设计有效的分类或识别模型类;(4)对预测结果进行评估,即预测模型的测试与检验以及结果性能的评估。

1 数据集的构建

研究蛋白质亚细胞定位的数据集基本来自SWISS-PROT数据库。该数据库建于1986年,是目前世界上存储蛋白质序列最主要的一级数据库之一。利用这个数据库研究蛋白质的亚细胞定位时,需要对其中的数据进行筛选。通常的筛选标准有:(1)针对研究对象,挑选特定物种的相关蛋白质序列;(2)在构建数据集时,需要知道每个蛋白质序列所在的亚细胞位置,所以只有包含明确的亚细胞定位信息的序列才被选入数据集中;(3)序列长度不能太短;(4)数据冗余度,要求同源性低;(5)排除样本量太少的亚细胞类别。

除了利用SWISS-PROT数据库外,还有LOCATE、TargetP家族数据集等。近年来,随着研究的不断深入,蛋白质序列数据集越来越复杂,目前最复杂的数据集是酵母蛋白质序列数据集,包含22种亚细胞蛋白质。

2 蛋白质特征信息的提取

蛋白质序列特征提取的目的是,从蛋白质序列中提取特征信息,并用适当的数学方法来描述或表示这些信息,使之能正确反映序列与结构或功能之间的关系,这于蛋白质亚细胞定位是至关重要的,也是研究蛋白质功能结构的关键。根据提取特征信息的不同,可以归纳为3类。

2.1 基于氨基酸的组成和性质

氨基酸组成是一种最基本的序列特征,也是亚细胞定位预测中使用得最为普遍的一种蛋白质特征信息。蛋白质一般有20 种氨基酸组成,氨基酸组成将每种氨基酸在蛋白质序列中出现的频率抽取出来作为一个20维的向量。1994年,Nakashima和 Nishikawa最早通过利用氨基酸组成进行了蛋白质亚细胞定位预测,对细胞内和细胞外蛋白质定位分别取得了88%和 84%的预测准确率。

2.2 基于蛋白质序列的N端分选信号的方法

一般认为蛋白质在合成的过程中,其N端包含一些特殊的分选信号,这些信号能够指导新合成的蛋白质分选到特定的亚细胞中,包括信号肽、线粒体转移肽、叶绿体运输肽、核定位信号、类囊体腔转移肽和过氧化物酶体定位信号等。这种信息的有效性取决于蛋白质序列完整性,一旦蛋白质序列的N端信号不完整或者丢失,预测结果就可能失效。

2.3 基于功能域和基因注释的方法

蛋白质序列在长期的进化过程中,某些特定位点上的氨基酸残基具有高度的保守性,这些位点称为功能域。2002年功能域组分的概念首次被用于蛋白质亚细胞定位,这种方法显著提高了亚细胞定位的质量。2006年,引入GO注释来预测人类蛋白质的亚细胞位置。但是,基于功能与和基因注释的方法对于数据库功能注释信息的完善程度依赖性较大,如果数据库中没有足够的功能域或基因注释条目,那么将无法确定蛋白质的亚细胞定位。

由于不同的特征从不同的角度刻画蛋白质序列,目前没有一种特征能够很好地刻画蛋白质的亚细胞定位特征,单独利用某种特征难以在预测效果上取得大的突破。将多种特征提取方法组合起来已经成为亚细胞定位预测中最为普遍的一种方法。

3 蛋白质亚细胞定位预测算法

蛋白质亚细胞定位预测中另一个重要因素是识别算法,成功的分类算法应该是能够高效、正确的将不同亚细胞位置的蛋白质分开。在蛋白质亚细胞定位预测方面,主要的算法包括5类:基于简单选择判别规则的方法;基于距离度量的近邻方法;基于人工神经网络的方法;基于马尔可夫模型的方法;基于向量机的方法。常用预测方法有神经网络、支持向量机 、最邻近算法三种。

(1)神经网络。神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经网络具有良好的鲁棒性和容错性,因此,不仅在蛋白质亚细胞定位领域受到青睐,在模式识别的其他领域也得到了广泛的应用。

(2)支持向量机。支持向量机是一种基于统计学习理论分类技术,它在蛋白质特征向量映射到的高维空间中,找到一个使(下转第32页)(上接第12页)分类误差最小的最优分类面。由于支持向量机具有较好的推广能力,许多学者选择它作为蛋白质亚细胞定位预测的首选分类器。

(3)基于距离的近邻方法。基于距离的近邻方法原理是根据某种距离度量方法来度量样本之间的相似性,距离越近则两样本有可能出现在相同细胞器中。随后的研究中,研究者将基于距离的近邻方法做了推广,如模糊K近邻方法,加权模糊K近邻方法等。基于距离的近邻方法,不需要人为的选择参数,适合求解大规模问题,运算速度较快。

随着研究的不断深入,将多种算法进行融合,来预测蛋白质亚细胞定位已经逐渐成为研究的趋势。2010年,赵禹等用离散增量结合支持向量机方法预测蛋白质亚细胞定位。多种算法的融合,在提高蛋白质亚细胞定位预测的精度和加快算法运行速度方面取得了良好的效果。

4 预测算法的检验和评估

选用适当的预测算法之后,需要对算法进行评估,即检验出算法的准确率,它是评价一个分类算法性能好坏的重要指标,也是与其它分类预测算法比较的依据。预测算法的检验方法主要有自身一致性检验、独立性检验、留一法检验三种[29]。

留一交叉验证(1eave-one-outcross-validation,LOOCV)每次取出数据集中的一条蛋 白质序列作为测试样本,而剩余的蛋白质序列作为训练集对测试样本的亚细胞进行定位预测。直到所有样本序列都被测试一遍为止。LOOCV的缺点是计算成本高,费时,但是其结果更加严格可靠,已经在很多方法中得到了应用。

评估预测算法常用的算法评价指标有 :敏感性、特异性和 Matthew相关系数。敏感性指标是指每类样本中被正确识别的比例,反映了预测成功率;特异性指标是指被判别为第i类的样本中真正属于第i类的比例,反映了预测的可信度。

Sensitivity(i)=■×100%

Spencificity(i)=■×100%

Matthews相关系数MCC可以对算法的准确率进行评估。

MCC(i)=■

其中,tp(i)是第i类样本中被预测正确的数目,fn(i)是第i类样本被错误的判别为其他类别的数目,fp(i)是非第i类样本但被预测为第i类样本的数目,tn(i)是非第i类样本中被预测正确的样本数目。MCC指标取值0至1,取值越高说明分类器的性能越好,当MCC取1时,所有样本均被正确识别;当MCC取0时,分类器的判别效果与随机指派的结果一样,这样的分类器是最差的。

【参考文献】

[1]徐建华,朱家勇.生物信息学在蛋白质结构与功能预测中的应用[J].J Med Mol Biol, 2005,2(3):227-232.

[2]张树波,赖剑煌.蛋白质亚细胞定位预测的机器学习方法[J].计算机科学,2009,36( 4):29-33.

[3]张丽.蛋白质亚细胞定位的序列编码及预测方法研究[D].湖南:湖南大学计算与通信学院,2010.

[4]郭丽丽,陈月辉.基于机器学习的蛋白质亚细胞定位预测[J].信息技术与信息化,2011,5:73-75.

[5]吴文佳.蛋白质亚细胞定位预测方法研究[D].南京:南京航空航天大学,2008.

[6]赵禹,赵巨东,姚龙.用离散增量结合支持向量机方法预测蛋白质亚细胞定位[J].生物信息学,2010,8(3):241-244.

[7]吴泽月,陈月辉.蛋白质亚细胞定位预测研究[J].山东师范大学学报,2012,4(27):33-37.

[责任编辑:谢庆云]

由于不同的特征从不同的角度刻画蛋白质序列,目前没有一种特征能够很好地刻画蛋白质的亚细胞定位特征,单独利用某种特征难以在预测效果上取得大的突破。将多种特征提取方法组合起来已经成为亚细胞定位预测中最为普遍的一种方法。

3 蛋白质亚细胞定位预测算法

蛋白质亚细胞定位预测中另一个重要因素是识别算法,成功的分类算法应该是能够高效、正确的将不同亚细胞位置的蛋白质分开。在蛋白质亚细胞定位预测方面,主要的算法包括5类:基于简单选择判别规则的方法;基于距离度量的近邻方法;基于人工神经网络的方法;基于马尔可夫模型的方法;基于向量机的方法。常用预测方法有神经网络、支持向量机 、最邻近算法三种。

(1)神经网络。神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经网络具有良好的鲁棒性和容错性,因此,不仅在蛋白质亚细胞定位领域受到青睐,在模式识别的其他领域也得到了广泛的应用。

(2)支持向量机。支持向量机是一种基于统计学习理论分类技术,它在蛋白质特征向量映射到的高维空间中,找到一个使(下转第32页)(上接第12页)分类误差最小的最优分类面。由于支持向量机具有较好的推广能力,许多学者选择它作为蛋白质亚细胞定位预测的首选分类器。

(3)基于距离的近邻方法。基于距离的近邻方法原理是根据某种距离度量方法来度量样本之间的相似性,距离越近则两样本有可能出现在相同细胞器中。随后的研究中,研究者将基于距离的近邻方法做了推广,如模糊K近邻方法,加权模糊K近邻方法等。基于距离的近邻方法,不需要人为的选择参数,适合求解大规模问题,运算速度较快。

随着研究的不断深入,将多种算法进行融合,来预测蛋白质亚细胞定位已经逐渐成为研究的趋势。2010年,赵禹等用离散增量结合支持向量机方法预测蛋白质亚细胞定位。多种算法的融合,在提高蛋白质亚细胞定位预测的精度和加快算法运行速度方面取得了良好的效果。

4 预测算法的检验和评估

选用适当的预测算法之后,需要对算法进行评估,即检验出算法的准确率,它是评价一个分类算法性能好坏的重要指标,也是与其它分类预测算法比较的依据。预测算法的检验方法主要有自身一致性检验、独立性检验、留一法检验三种[29]。

留一交叉验证(1eave-one-outcross-validation,LOOCV)每次取出数据集中的一条蛋 白质序列作为测试样本,而剩余的蛋白质序列作为训练集对测试样本的亚细胞进行定位预测。直到所有样本序列都被测试一遍为止。LOOCV的缺点是计算成本高,费时,但是其结果更加严格可靠,已经在很多方法中得到了应用。

评估预测算法常用的算法评价指标有 :敏感性、特异性和 Matthew相关系数。敏感性指标是指每类样本中被正确识别的比例,反映了预测成功率;特异性指标是指被判别为第i类的样本中真正属于第i类的比例,反映了预测的可信度。

Sensitivity(i)=■×100%

Spencificity(i)=■×100%

Matthews相关系数MCC可以对算法的准确率进行评估。

MCC(i)=■

其中,tp(i)是第i类样本中被预测正确的数目,fn(i)是第i类样本被错误的判别为其他类别的数目,fp(i)是非第i类样本但被预测为第i类样本的数目,tn(i)是非第i类样本中被预测正确的样本数目。MCC指标取值0至1,取值越高说明分类器的性能越好,当MCC取1时,所有样本均被正确识别;当MCC取0时,分类器的判别效果与随机指派的结果一样,这样的分类器是最差的。

【参考文献】

[1]徐建华,朱家勇.生物信息学在蛋白质结构与功能预测中的应用[J].J Med Mol Biol, 2005,2(3):227-232.

[2]张树波,赖剑煌.蛋白质亚细胞定位预测的机器学习方法[J].计算机科学,2009,36( 4):29-33.

[3]张丽.蛋白质亚细胞定位的序列编码及预测方法研究[D].湖南:湖南大学计算与通信学院,2010.

[4]郭丽丽,陈月辉.基于机器学习的蛋白质亚细胞定位预测[J].信息技术与信息化,2011,5:73-75.

[5]吴文佳.蛋白质亚细胞定位预测方法研究[D].南京:南京航空航天大学,2008.

[6]赵禹,赵巨东,姚龙.用离散增量结合支持向量机方法预测蛋白质亚细胞定位[J].生物信息学,2010,8(3):241-244.

[7]吴泽月,陈月辉.蛋白质亚细胞定位预测研究[J].山东师范大学学报,2012,4(27):33-37.

[责任编辑:谢庆云]

由于不同的特征从不同的角度刻画蛋白质序列,目前没有一种特征能够很好地刻画蛋白质的亚细胞定位特征,单独利用某种特征难以在预测效果上取得大的突破。将多种特征提取方法组合起来已经成为亚细胞定位预测中最为普遍的一种方法。

3 蛋白质亚细胞定位预测算法

蛋白质亚细胞定位预测中另一个重要因素是识别算法,成功的分类算法应该是能够高效、正确的将不同亚细胞位置的蛋白质分开。在蛋白质亚细胞定位预测方面,主要的算法包括5类:基于简单选择判别规则的方法;基于距离度量的近邻方法;基于人工神经网络的方法;基于马尔可夫模型的方法;基于向量机的方法。常用预测方法有神经网络、支持向量机 、最邻近算法三种。

(1)神经网络。神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经网络具有良好的鲁棒性和容错性,因此,不仅在蛋白质亚细胞定位领域受到青睐,在模式识别的其他领域也得到了广泛的应用。

(2)支持向量机。支持向量机是一种基于统计学习理论分类技术,它在蛋白质特征向量映射到的高维空间中,找到一个使(下转第32页)(上接第12页)分类误差最小的最优分类面。由于支持向量机具有较好的推广能力,许多学者选择它作为蛋白质亚细胞定位预测的首选分类器。

(3)基于距离的近邻方法。基于距离的近邻方法原理是根据某种距离度量方法来度量样本之间的相似性,距离越近则两样本有可能出现在相同细胞器中。随后的研究中,研究者将基于距离的近邻方法做了推广,如模糊K近邻方法,加权模糊K近邻方法等。基于距离的近邻方法,不需要人为的选择参数,适合求解大规模问题,运算速度较快。

随着研究的不断深入,将多种算法进行融合,来预测蛋白质亚细胞定位已经逐渐成为研究的趋势。2010年,赵禹等用离散增量结合支持向量机方法预测蛋白质亚细胞定位。多种算法的融合,在提高蛋白质亚细胞定位预测的精度和加快算法运行速度方面取得了良好的效果。

4 预测算法的检验和评估

选用适当的预测算法之后,需要对算法进行评估,即检验出算法的准确率,它是评价一个分类算法性能好坏的重要指标,也是与其它分类预测算法比较的依据。预测算法的检验方法主要有自身一致性检验、独立性检验、留一法检验三种[29]。

留一交叉验证(1eave-one-outcross-validation,LOOCV)每次取出数据集中的一条蛋 白质序列作为测试样本,而剩余的蛋白质序列作为训练集对测试样本的亚细胞进行定位预测。直到所有样本序列都被测试一遍为止。LOOCV的缺点是计算成本高,费时,但是其结果更加严格可靠,已经在很多方法中得到了应用。

评估预测算法常用的算法评价指标有 :敏感性、特异性和 Matthew相关系数。敏感性指标是指每类样本中被正确识别的比例,反映了预测成功率;特异性指标是指被判别为第i类的样本中真正属于第i类的比例,反映了预测的可信度。

Sensitivity(i)=■×100%

Spencificity(i)=■×100%

Matthews相关系数MCC可以对算法的准确率进行评估。

MCC(i)=■

其中,tp(i)是第i类样本中被预测正确的数目,fn(i)是第i类样本被错误的判别为其他类别的数目,fp(i)是非第i类样本但被预测为第i类样本的数目,tn(i)是非第i类样本中被预测正确的样本数目。MCC指标取值0至1,取值越高说明分类器的性能越好,当MCC取1时,所有样本均被正确识别;当MCC取0时,分类器的判别效果与随机指派的结果一样,这样的分类器是最差的。

【参考文献】

[1]徐建华,朱家勇.生物信息学在蛋白质结构与功能预测中的应用[J].J Med Mol Biol, 2005,2(3):227-232.

[2]张树波,赖剑煌.蛋白质亚细胞定位预测的机器学习方法[J].计算机科学,2009,36( 4):29-33.

[3]张丽.蛋白质亚细胞定位的序列编码及预测方法研究[D].湖南:湖南大学计算与通信学院,2010.

[4]郭丽丽,陈月辉.基于机器学习的蛋白质亚细胞定位预测[J].信息技术与信息化,2011,5:73-75.

[5]吴文佳.蛋白质亚细胞定位预测方法研究[D].南京:南京航空航天大学,2008.

[6]赵禹,赵巨东,姚龙.用离散增量结合支持向量机方法预测蛋白质亚细胞定位[J].生物信息学,2010,8(3):241-244.

[7]吴泽月,陈月辉.蛋白质亚细胞定位预测研究[J].山东师范大学学报,2012,4(27):33-37.

[责任编辑:谢庆云]