APP下载

基于改进PCA的蛋白质O-糖基化位点的预测

2018-01-25杨雪梅

价值工程 2018年36期
关键词:蛋白质预测

摘要:提出了改进的主成分分析(IPCA)的方法,结合支持向量机(SVM)对蛋白质O-糖基化位点进行预测。IPCA克服了传统主成分分析(PCA)寻找全局主要成分的不足,对类内样本进行加权,在保护局部结构的前提下,消除了变量之间的相关性,提取出具有局部特征的主要成分。然后,在特征空间中用SVM进行分类(预测)。实验结果表明,IPCA+SVM方法是预测糖基化位点行之有效的方法。

Abstract: To improve the prediction accuracy of O-glycosylation sites, a new method of improved principle component analysis (IPCA) was proposed. At first, next the feature of the original data were extracted by IPCA, IPCA protects the local structure of multimodal data by weighting the data in the same class; then the prediction(classification) was done in feature space by Support Vector Machines(SVM). The results indicate that the performance of IPCA+SVM is viable and effect.

关键词:预测;蛋白质;改进主成分分析;SVM

Key words:prediction;protein;improved principal component analysis(IPCA);Support Vector Machine(SVM)

中图分类号:TP391.4                                     文献标识码:A                                  文章编号:1006-4311(2018)36-0194-03

0  引言

糖基化是指在酶的作用下将糖转移至蛋白质,和蛋白质上的氨基酸残基形成糖苷键的过程。糖基化是对蛋白质的重要修饰,有调节、改良蛋白质功能的作用。蛋白质的糖基化程度和糖链结构的异常变化是癌症及其他疾病发生的标志之一[1]。因此,预测糖基化位点重要意义。

糖基化有多种形式,其中的O-糖基化发生在丝氨酸残基(S)或苏氨酸残基(T)的羟基氧上[1]。本文将对O-糖基化位点进行预测,即预测一个含有S或T的氨基酸序列是否带有糖链。

目前,用来进行预测的方法有人工神经网络(ANN)[2]、支持向量机(SVM)[3]以及一些特征提取的方法[4-6],都取得了较好的预测效果。

在特征提取的方法中,FDA和PCA所提取的特征都是全局特征,当数据是多模态时,效果就不能令人满意。多模态是指在同一类中样本数据又形成几个“簇”,即“类内多模态”。这种情况在实际应用中经常可以观测到,比如,引起某种疾病的原因有多种,因而症状就有多种,该疾病的样本数据就是多模态的;用二分类的方法解决多分类问题时也会诱导出“类内多模态”问题。在糖基化位点预测的问题中,可以将样本分为“糖基化”和“非糖基化”两类,而“糖基化”这一类又包括“糖基化S”和“糖基化T”,“非糖基化”这一类又包括“非糖基化S”和“非糖基化T”,显然数据是多模态的。

由于FDA和PCA关注全局特征的提取,而忽略了局部结构的保护,在训练过程中,可能会造成一定的过拟合从而误判。Sugiyama[7]改进了FDA,结合局部保护映射(LPP)和FDA的思想,提出了局部Fisher(LFDA)的方法,对于同类的样本,根据样本之间的“亲密度”赋予它们不同的“权重”,有效地保护了局部结构,成功地解决了FDA分类时的多模态问题。受到LFDA的启发,在本文中,提出了改进的主成分分析的方法(IPCA),在计算样本的协方差矩阵时,对于同类样本根据其“亲密度”赋予相应的“权重系数”,对改进后的协方差矩阵进行分析,提取其特征向量,从而得到具有局部结构的特征,再在特征域用支持向量机(SVM)分类,得到了较好的分类效果。

本文结构如下:第一节介绍蛋白质序列数据与编码;第二节描述用来预测的IPCA+SVM算法;第四節是预测与结果;最后给出结论。

1  蛋白质序列与编码

文中用到的蛋白质数据来自糖基化数据库Uniprot (v8.0)[8]。选择了哺乳动物的蛋白质样本共8组,每组2000个,8组样本的长度e分别为5,7,9,11,21,31,41,51。每个样本以S和T为中心,并对该残基是否糖基化做了标注[1]。糖基化的样本叫做positive,否则叫做negative。编码方式为稀疏编码。

实验用的训练样本和测试样本同文献[1]。

2  改进的主成分分析(IPCA)预测算法

设xi∈Rd,i=1,2,…n是d维训练样本向量,yi∈{1,2}是其类标。传统PCA特征提取的方法是针对全局的,C是所有训练样本的协方差矩阵,

用IPCA提取的特征作为SVM的输入,预测出样本的类别。

3  结果与讨论

首先,计算了四类样本的平均值,如图1,用颜色代表数字,可以看到Positive T和Positive S尽管都属于positive,但还是各有特征,因此数据是多模态的。

取长度为21的样本做实验,此时向量维数为21*(e-1)=420。预测了10次,取10次的平均值。算法用matlabR2014a实现。用IPCA+SVM方法做实验,并和PCA+SVM、IPCA+ANN和PCA+ANN方法比较,其中的参数如计算亲密度的参数s,主成分的个数k等通过实验确定最佳值。结果见表1。

预测最大值在k以及s的不同值达到。IPCA+SVM方法在主成分个数k为95时达到最高预测准确率(亲密度的参数s=7)。总体上看,本文提出的方法优于其他方法,这是因为IPCA用加权的方式提取特征避免了过拟合,保护了局部结构。

进一步,我们用其他7组样本也做了实验,IPCA+SVM方法的结果见表2。

4  结论

对于多模态的蛋白质序列样本数据,提出了改进的主成分分析法提取特征,引入亲密度矩阵对同类样本进行加权,提取的特征有效保护了局部结构,结合SVM进行预测。实验表明,相比于已有的预测方法,该方法能够取得较为理想的效果。

用来进行特征提取的加权主成分分析法,还可以考虑引入核函数,提取更为丰富的非线性特征,有望提高预测的精度。

参考文献:

[1]杨雪梅,苏祯.基于KPCA及SVM的蛋白质O-糖基化位点的预测,科学技术与工程,2013,13(25):87-92.

[2]Nishikawa I, Sakamoto H, Nouno I, et al. Prediction of the O-glycosylation sites in protein by layered neural networks and support vector machines. Lecture Notes in Artificial Intelligence. 2006; LNAI (4252): 953-960.

[3]Kenta S, Nobuyoshi N, Yasubumi S.  Support vector machines prediction of N- and O-glycosylation sites using whole sequence information and subcellular localizition. IPSJ Transactions on Bioinformatics. 2009(2):25-35.

[4]杨雪梅,赵花丽. 蛋白质结构的主成分分析及氧链糖基化位点的人工神经网络预测[J].数学的实践与认识,2009,39(19):108-114.

[5]Zehao Chen. Kernel Independent Component Analysis-Based Prediction on the Protein O-Glycosylation Sites Using Support Vectors Machine and Ensemble Classifiers. ICIC 2015, Part III, LNAI 9227, 651-661.

[6]杨雪梅,李世鵬. 基于核fisher判别分析的蛋白质氧链糖基化位点的预测[J].计算机应用,2010,30(11):2959-2961.

[7]Masashi S.: “Dimensionality reduction of multimodal labeled data by local fisher discriminant analysis”. Journal of Machine Learning Research. 8, 1027-1061, 2007.

[8]http://www.ebi.uniprot[DB/OL].

猜你喜欢

蛋白质预测
无可预测
蛋白质自由
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
人工智能与蛋白质结构