APP下载

基于伪氨基酸组成和支持向量机预测人类蛋白质亚细胞定位的研究

2012-03-14杨献光

关键词:氨基酸向量蛋白质

李 雨,杨献光



基于伪氨基酸组成和支持向量机预测人类蛋白质亚细胞定位的研究

李 雨,*杨献光

(河南师范大学生命科学学院,河南,新乡 453007)

蛋白质亚细胞定位是当前生物信息学和蛋白质科学的重要研究领域,本研究从蛋白质一级序列出发,取伪氨基酸组成向量作为输入数据,运用支持向量机作为预测工具,对人类12类蛋白质亚细胞的定位进行预测,得到独立检验的结果为85.2%,Jack knife检验的结果为80.6%;结果显示,用较简单的预测方法,得到了较好的预测结果。

亚细胞定位;伪氨基酸;支持向量机;独立检验;Jack knife检验

蛋白质的亚细胞定位与蛋白质的结构和功能有密切的关系,蛋白质合成后必须进行亚细胞定位才能发挥其功能。因此,蛋白质的亚细胞定位的预测可以为该蛋白质的功能分析提供重要的线索。蛋白质的亚细胞定位的预测方法很多,早在1992年Nakai等发展了第一代的基于氨基酸组分的亚细胞定位预测模型[1], Nakai法首先利用N 端分选信号来预测蛋白质的亚细胞位置, 建立了革兰氏阴性菌蛋白质定位预测系统, 获得了83% 的预测准确率,但该法的适用性有限。随着新的统计理论的发展和机器学习算法在生物信息学领域的应用,诸如神经网络粗糙集(neural network, NN)[2],神经网络模型是通过模拟生物的神经结构以及其处理信息的方式来进行计算的一种算法,其在原核生物中取得了较好的定位效果,但在真核生物中精度稍低。隐马尔可夫模型(Hidden Markov Models, HMMs)等[3-4]算法也成功的应用于蛋白质亚细胞定位的研究中。相对于神经网络而言, 支持向量机(SVM)是一个新的模式识别算法。SVM 的优点就是它的学习收敛速度要快于神经网络。姜小莹等[5]利用的是用电子-离子伪势能(EIIP)对蛋白质序列数字化,经离散傅立叶变换(DFT) 变换处理数字化后的蛋白质序列后,与20种氨基酸在蛋白质序列中出现的频率一起组成伪氨基酸,用SVM 对训练样本建立分类模型,取得了较高的预测精度。本研究基于来源人类蛋白质的一级序列信息,基于20 种氨基酸的亲水值和疏水值,用20+λ维向量来表示蛋白质序列。取伪氨基酸组成向量作为输入数据,运用SVM作为预测工具,进行蛋白质的亚细胞定位预测。笔者将预测方法应用于K.C Chou和H.B Shen用过的数据集,得到了较好的预测结果。

1 材料与方法

1.1 数据材料

选择一个典型的数据集,作为对不同算法评估的统一平台,是很必要的。本研究采用K.C Chou的实验数据(http://chou.med.harvard.edu/bioinf/hum)和H.B Shen的实验数据(http://202.120.37.186/bioinf/ hum)。原数据库共列出人类蛋白质12个亚类,同一个亚类中任意两蛋白质序列相似度都小于25%。各亚类见下表1:

表1 本研究所用数据库中人类蛋白质的12个亚类

1.2 预测方法

1.2.1 伪氨基酸组分(PseAA)

生物信息学中,蛋白质有两种不同的表示方法:序列模式与不关联模式。即一般的氨基酸序列和氨基酸组分。预测蛋白质类型,关键是找到能够包含大量蛋白质信息的模体。Chou[6]考虑了氨基酸序列中位置和顺序的关系,在氨基酸组分的基础上引入了伪氨基酸组分,基于20 种氨基酸的亲水值和疏水值构建了自相关方程,在识别细胞特性、亚细胞定位及酶蛋白识别等领域取得成功。

对于一个由L个氨基酸组成的序列P:

表2 氨基酸信息化后的初始疏水值和初始亲水值

这里

于是序列P的20+维的伪氨基酸组分定义为:

1.2.2 支持向量机

可以通过下面的公式来求解超平面,

其中C 是一个常数,表示错分类的惩罚程度。对于确定超平面详细的步骤请参阅Cristinaini方法[8]。Hsu等[9]研究结果表明, “一对一”更适合在实践中使用,且SVM 的核函数选用径向基函数(RBF)通常能取得较好的分类效果。SVM 的实现采用Chang 和 Lin 开发LIBSVM[10]软件,LIBSVM 软件主要使用“一对一”作为多类分类策略,对于k类分类问题, “一对一”为任意两个类构造超平面,共需训练k×(k-1)/2个两值SVM 分类器。测试时,每个测试蛋白序列经过k×(k-1)/2个SVM 分类器进行判别,对k×(k- )/2个判别结果(类别)进行投票,得票最多的判别结果为测试蛋白序列所属的类别。

2 结果与讨论

2.1 结果

为了评价算法识别能力,定义了敏感性指标、特异性指标、总精度:

其中,TP是真阳性为该类中识别正确的样品数,FN是假阴性(false negative, FN)为该类中识别错误的数目,FP是假阳性(false positive, FP)为其他类被识别为此类的样品数,这样定义的敏感性反映预测成功率,特异性反映了预测的可信度。Sn,Sp,Acc的值越高,表明该方法的识别的结果越好。本研究的检验方法为jack knife和独立检验。其结果与前人预测结果比较如下(表3和表4)。

表3 人类蛋白质的12个亚类用不同方法预测定位的成功率比较

表4 人类蛋白质的12个亚类的蛋白质数目及预测精度

2.2 讨论

蛋白质亚细胞位置预测研究是目前蛋白质组学和生物信息学研究的重点问题之一,它是对蛋白质定位的实验方法的补充,对于实验设计和揭示生命活动的机理起到有益的补充作用。经过几十年的发展,亚细胞位置预测的方法不断扩充和完善,发展了多种蛋白质特征信息的提取方法和定位预测算法[11-14]。但是, 蛋白质亚细胞位置预测研究还存在许多不足之处,各个数据库中的蛋白质数据并不完整。数据库中的蛋白质定位注释不十分统一,且存在许多未注释定位的蛋白质。有些蛋白质并不是固定存在于单个亚细胞位置上,而是动态的在多个亚细胞位置间转运等等[15],造成数据标准不一致、蛋白质定位预测精度低等问题。本研究基于Chou 的伪氨基酸组成成分概念,应用20 种氨基酸的亲水值和疏水值构建的自相关方程,提取特征向量,将这些特征向量输入到支持向量机,进行蛋白质亚细胞定位预测。本研究算法属于从序列出发的预测算法,与同类已报道的结构类预测算法相比具有较高的性能。与他人结果相比,本研究用较简单的算法得到较为满意的预测结果。但是与功能域组成方法相比,在预测能力上还有相当的差距。由于功能域组成方法自身的一些缺陷,且计算复杂。因此,选取蛋白质更有代表性的参数运用本研究的方法,将可能成为一个有用的蛋白质亚细胞预测工具。

[1] Nakai K, Kanehisa M. A knowledge base for predicting protein localization sites in eukaryotic cells [J]. Genomics, 1992(14):897-911

[2] Cao Y, Liu S, Zhang L et al. Prediction of protein structural class with Rough Sets [J]. BMC Bioinformatics, 2006(7):20-25.

[3] Yuan Z. Prediction of protein subcellular locations using Markov chain models [J]. FEBS Lett,1999, 451:23-26.

[4] kuo-chen chou, Hong-bin shen. Recent progress in protein subcellular location prediction [J]. Analytical Biochemistry,2007370:1-16.

[5] 姜小莹,李晓波. 基于伪氨基酸和支持向量机的蛋白质亚细胞定位预测[J]. 广西农业生物科学,2006(4):349- 352,374.

[6] kuo-chen chou, Hong-bin shen, Hum-PLoc. A novel ensemble classifier for predicting human protein subcellular localization [J]. Biochemical and Biophysical Research Communications,2006,347:150-157.

[7] Vapnik V. The nature of statistical learning theory[M]. NewYork: Springer, 1995:88.

[8] Cristinaini N, Shawe-Taylor J. 支持向量机导论[M]. 北京:电子工业出版社, 2004.

[9] Hsu C W, Lin C J. A comparison of methods for multi-class spport vector machines. IEEE Transactions in Neural Networks, 2002, 13(2):415-425.

[10] Chang C C, Lin C J. Libsvm: a library for support vector machines[EB/OL]. Software available at http://www.csie. ntu.edu.tw/-cjlin/libsvm,2001.

[11] 李立奇,张瑷,周跃,等. KNN法在含纤连蛋白域蛋白质亚细胞定位中的应用[J]. 山东医药, 2011(2): 20–21

[12] 赵禹,赵巨东,姚龙. 用离散增量结合支持向量机方法预测蛋白质亚细胞定位[J]. 生物信息学, 2010(3): 237–239,244.

[13] 李利珍,董自梅. 基于整合蛋白质进化保守性的伪氨基酸组成成分预测蛋白质亚细胞定位[J]. 生物物理学报, 2009(2): 125-132.

[14] 杨会芳,程咏梅,张绍武,等. 基于分段伪氨基酸组成成分特征提取方法预测蛋白质亚细胞定位[J]. 生物物理学报, 2008(3): 232-238.

[15] 李立奇,万瑛. 蛋白质的亚细胞定位预测研究进展[J]. 免疫学杂志, 2009(5):602-604.

Protein subcellular location prediction based on pseudo amino acid composition and support vector machines

LI Yu,*YANG Xian-guang

(School of Life Science, Henan Normal University, Xinxiang, Henan 453007, China)

Protein subcellular location is an important field in bioinformatics and protein science. In this paper, the pseudo amino acid composition was taken as input data, and the support vector machine was operated as a predictive tool for 12 categories of human protein subcellular location prediction. The results show that independent test is 85.2% and Jack knife test is 80.6%, which indicate that the prediction method based on pseudo amino acid composition and support vector machines is a simple and powerful tool for protein subcellular location prediction.

subcellular location; pseudo amino acid; support vector machines; independent test; Jack knife test

1674-8085(2012)03-0058-04

Q517

A

10.3969/j.issn.1674-8085.2012.03.012

2012-01-24;

2012-04-27

河南省基础与前沿技术研究计划项目(102300413213);国家级生命科学实验教学中心项目(1006)

李 雨(1992-),女,河南新乡人,河南师范大学生命科学学院本科生(E-mail:37379864@qq.com);

*杨献光(1980-),男,河南邯郸人,讲师,博士,主要从事分子细胞生物学研究(E-mail: yangxg@htu.cn).

猜你喜欢

氨基酸向量蛋白质
蛋白质自由
向量的分解
人工智能与蛋白质结构
聚焦“向量与三角”创新题
月桂酰丙氨基酸钠的抑菌性能研究
UFLC-QTRAP-MS/MS法同时测定绞股蓝中11种氨基酸
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
一株Nsp2蛋白自然缺失123个氨基酸的PRRSV分离和鉴定
氨基酸分析仪测定玉米浆中17种游离氨基酸的不确定度评定