APP下载

基于特征融合和有监督局部保持投影的蛋白质亚核定位

2017-02-27刘树慧王顺芳

计算机应用与软件 2017年2期
关键词:降维分类器氨基酸

刘树慧 王顺芳

(云南大学信息学院 云南 昆明 650504)

基于特征融合和有监督局部保持投影的蛋白质亚核定位

刘树慧 王顺芳*

(云南大学信息学院 云南 昆明 650504)

传统的蛋白质亚核定位利用单一序列特征表达导致信息不足,且表达与定位孤立导致信息不充分利用,为此利用伪氨基酸组成和位置特异性得分矩阵,收集到氨基酸物理化学特性信息和蛋白质进化信息,从而形成信息丰富的融合表达。在该基础上利用有监督局部保持投影学习数据低维流形,进而得到类间分割、类内保持的低维判别特征。然后依据此数据分布,适用最近邻分类器预测亚核位置。最后在标准数据集上,十折交叉验证的评估结果表明:该方法相较于已有方法在精度上有较大提升。

融合表达 有监督局部保持投影 最近邻分类器 十折交叉验证

0 引 言

细胞核内蛋白质只有正确地定位在相应亚核位置上才能正常发挥其作用,完成其功能,否则,生物体就会产生各种疾病[1]。因此,蛋白质亚核定位问题的研究对预防及治疗这些疾病可以提供有效的信息,并且蛋白质亚核位置信息也为蛋白质功能的分析起着重要作用。近年来,研究人员已经开发出许多有效的蛋白质亚核定位方法,目前,蛋白质亚核定位问题依然是现代细胞生物学和蛋白质组学研究的主题[1-2]。

传统的生物学蛋白质亚细胞定位方法提供了较为精确的数据,如亚细胞分离和融合绿色荧光蛋白等[3-4]。但这些方法较昂贵和耗时,且重复性差,单一地使用生物实验预测蛋白质亚核位置代价大,也不现实。随后,研究人员使用机器学习方法在这方面展开广泛研究,能快速、准确地预测蛋白质亚核位置[4]。使用机器学习方法预测蛋白质亚核定位大致分两个关键步骤:一是有效地表达蛋白质序列,将蛋白质序列转为固定维度的特征向量;二是开发高效的预测器。有效的蛋白质序列表达是算法分析的基础,可为蛋白质定位问题提供丰富且具有判别性的信息。目前,已有大量有关蛋白质序列表达和预测方法的文献。

文献[5]介绍一个简单有效的蛋白质序列表达,氨基酸组成AAC(amino acid composition),用20维的向量来表示,向量中每个元素分别代表一种氨基酸在该序列中出现的频率。但AAC丢失了序列顺序等信息。文献[6-7]提到,基于AAC,Chou教授通过考虑序列中氨基酸亲水性和疏水性等以及氨基酸顺序信息提出伪氨基酸组成表达PseAAC(pseudo amino acid composition)。PseAAC是在AAC基础上增加一些相关因子而得到的,该表达在蛋白质定位问题中取得了较好的效果。文献[2]提到二肽组成表达DipC(dipeptide composition),DipC表示,20种氨基酸两两相邻,即氨基酸二联体,在蛋白质序列中出现的频率,于是DipC用400维的向量来表示蛋白质序列。此外,文献[8-9]详细介绍了位置特异性得分矩阵PSSM(position specific scoring matrix),PSSM基于蛋白质序列进化信息对蛋白质序列进行表达,已广泛应用于蛋白质组学研究中。

近年来,使用机器学习算法预测蛋白质亚核定位问题已取得一定显著成果。文献[10]介绍一个基于伪氨基酸组成的证据优化理论K近邻预测器,该方法在后基因时代数据库中基因序列和注释蛋白质之间建立一个桥梁,成为了一个有效的高通量处理工具。文献[11]提出一个基于支持向量机的集成分类系统,能预测多数量未知亚核位置,且具有高预测能力。基于PseAAC表达,文献[12]提出一个由离散增量和二次判别分析融合而得的算法,预测蛋白质亚核位置,该方法在整体预测精度上有很大提高。文献[13]基于支持向量机和蛋白质家族域,提出了SubNucPred蛋白质亚核预测器,该分类器与其他方法相比,具有较高的预测精度。虽然使用机器学习方法预测亚核定位问题已有大量成果,但目前仍然缺少高效表达和精确的预测方法。

然而对已取得成果分析发现,当前工作仍存在两方面问题:一是缺少一种包含较全面的蛋白质信息表达;二是忽略表达和预测模型之间的关联性。因此为构造一个高效表达,首先综合考虑PseAAC和PSSM两种表达差异性,提出融合两种表达,得到高维表达PAAPSSM;第二,由于高维数据会降低分类器性能[2],使用有监督局部保持投影SLPP(supervised locality preserving projection)[14-15]对PAAPSSM降维,从而促进后续K-近邻分类器预测精度[16];最后,在2007年Chou教授创建的数据[17]上开展实验,用十折交叉验证方法评估KNN分类器性能[18]。实验结果表明,PAAPSSM表达结合SLPP降维算法在蛋白质亚核定位中取得较高预测精度,说明该方法是切实有效的。

1 相关概念及原理

1.1 问题描述

有效地表达长度不等的蛋白质序列,是蛋白质亚细胞定位、亚核定位研究中的难点和关键。基于PseAAC和PSSM两种有效且广泛使用的蛋白质序列表达方法[17]展开研究工作。

1.2 概念定义

定义1 为提取蛋白质序列特征信息,便于算法处理,并应对蛋白质序列长度“不等性”,把由氨基酸组成的蛋白质序列转化为由数据表示的数据结构形式,称为蛋白质序列特征表达。下面介绍两种特征表达PseAAC和PSSM。

PseAAC包含了序列顺序和长度信息,PseAAC可形式化表示为:PseAAC=[p1,p2,…,p20,…,p20+2λ], 其中,前20维元素表示20种氨基酸在蛋白质序列中出现的频率,之后的2λ维元素是相关因子,反应了序列中氨基酸的物理化学性质以及序列中相邻氨基酸之间的顺序相关性[7],λ是一待定整数,取值大于零且小于蛋白质序列的长度L。根据经验,本文取λ=10,PseAAC表达用40维向量表达蛋白质序列。

PSSM表示了蛋白质序列的进化信息,它是一个L×20的数据矩阵,其中,L行分别与蛋白质序列中的氨基酸排列一一对应,20列则分别对应20种基本氨基酸的排列。PSSM中的元素表示序列中的某位置的氨基酸被替换为列中对应氨基酸而得的分值[9]。然后利用PP=PSSMT×PSSM处理PSSM,得到一个对称的20×20数据矩阵PP。最后使用向量PP*=[pp1,pp2,…,pp210]存储PP矩阵中上三角元素,以表达序列的进化信息。

定义2PAAPSSM是由PseAAC和PSSM融合而成的表达,产生PAAPSSM特征表达的规则为:PAAPSSM=[r×PseAAC,(1-r) ×PP*],其中,r是权重系数,亦可称为平衡因子,是为了平衡融合向量PAAPSSM,同时也表示PseAAC和PSSM两种表达对蛋白质亚核定位的影响程度。

对于r的取值,利用贪心思想来选取,首先设定r取值从0到1,以0.0001步长进行遍历,然后计算所有r取值对应的蛋白质亚核定位预测精度,最后选取得到预测精度最高值时的r值。图1显示r取值和蛋白质亚核定位整体预测精度的对应情况,图中对应预测精度最高点的r取值是0.9970,r取值在0.9500~0.9990之间,蛋白质亚核定位取得较好的预测效果。

图1 平衡因子r取值与对应整体预测精度的散点图

定义3 预测蛋白质在细胞核内具体部位上出现并执行其功能的过程,称为蛋白质亚核定位。细胞核内这些具体的部位叫做亚核位置。本文基于新提出的PAAPSSM表达,与有监督降维方法结合使用,可精确地定位蛋白质在细胞核中位置。

1.3 融合原理

蛋白质亚核定位问题重点研究之一是如何构建有效的表达。蛋白质序列的特征表示方法[2,17]已有很多,各有优缺点。PseAAC和PSSM是当前较为有效的两种表达。PseAAC具有氨基酸的疏水性和亲水性已及蛋白质序列的顺序信息[7],PSSM包含蛋白质的进化信息[9]。本文综合考虑两种表达所包含信息的差异性,提出PAAPSSM表达。PAAPSSM充分利用蛋白质特征间的互补性和相关性,从而能够更加全面地表达蛋白质序列的特征信息,进而提高蛋白质亚核定位的准确度。

结论1 由PseAAC和PSSM融合而得的PAAPSSM表达能够取得比PseAAC或PSSM都更多的蛋白质特征表达信息。

证明:设I(PseAAC),I(PSSM),I(PAAPSSM)分别对应PseAAC,PSSM,PAAPSSM所具有的蛋白质特征表达信息,据生成PAAPSSM特征规则,问题大致可转化为以下两种情况。

(1) 当I(PseAAC)=I(PSSM),则I(PAAPSSM)=I(PseAAC)=I(PSSM)。

(2) 当I(PseAAC)≠I(PSSM),这时可分为三种情况,一是I(PseAAC)≠(I(PseAAC)∩I(PSSM))≠I(PSSM),则I(PAAPSSM) >I(PseAAC)且I(PAAPSSM)>I(PSSM);二是(I(PseAAC)∩ I(PSSM))=I(PseAAC),则I(PAAPSSM)=I(PSSM)>I(PseAAC);三是(I(PseAAC)∩I(PSSM))=I(PSSM),则I(PAAPSSM)=I(PseAAC)>I(PSSM)。

综上,融合表达PAAPSSM包含的特征信息比PseAAC和PSSM都更丰富,从而更有利于蛋白质亚核定位精度的提高。

2 降维算法和分类方法

2.1 有监督局部保持投影

随着PAAPSSM维度的增加,分类器泛化性能降低,识别准确度下降,且识别时间变长,为此利用有监督的局部保持投影SLPP(supervisedlocalitypreservingprojection)[14-15]对PAAPSSM进行降维。SLPP是一种保持局部结构的降维算法且计算复杂度底[14]。在阐述SLPP前,先介绍局部保持投影算法LPP。设有训练样本X={x1,x2,…,xn},投影矩阵为Z,投影后的样本为Y={y1,y2,…,yn}。则LPP的目标函数为式(1)。

(1)

(2)

(3)

(4)

其中,O(m,xi)是一个集合,由与xi相邻的m个元素组成,n取值为正的常数,且Sij=Aij+Bij。从式(1)可以看出,LPP降维后的数据虽然保持了原数据的局部结构,使高维空间中相邻的同类样本在低维空间中靠近,但同时也使不同类别的相邻样本在低维空间中靠近,这对分类并没有大的贡献[15]。为使投影后的数据保持类内局部结构的同时最大化类间分离度,本文使用了文献[14]提出的SLPP,其目标函数为式(5)。

(5)

对由式(5)转化可得到如式(6)所示的广义特征值问题。

XLAXTz=aXLBXTz

(6)

(7)

(8)

其中,LA=DA-A,LB=DB-A,依据式(6),把求得的特征向量zi按对应特征值a从大到小排列,得到投影矩阵Z=[z1,z2,z3,…]。由Y=ZTX可得到降维后的数据Y。

2.2K近邻分类器

K近邻(KNN)算法核心思想:对一测试样本,在特征空间中,比较该样本与其他训练样本的距离,该样本的类别为与其最相邻的k个样本中多数的类别[10]。KNN依据周围k个近邻样本而分类,而由20种基本氨基酸组成的蛋白质数据,类域间重叠较多,选用KNN算法分类较为合适[9]。

为取得稳定和可靠的实验预测结果,本文用十折交叉验证10FCV(10-foldcrossvalidation)评估KNN分类器的性能。10FCV将数据集随机地分成无交集的十等份子集,这些子集都保持有不同类之间的数据量比例[18]。每一次试验,将其中一个子集作为测试集,剩余九份全部作为训练集,轮流十次试验,求均值得出一次KNN实验的预测结果。为取得比较精确的实验结果,本文实验结果都是运行50次10FCV结果的平均值。

3 实验结果与分析

3.1 数据集描述及整体预测流程

(1) 数据集

为便于验证提出方法的高效性,在Chou教授2007年创建的亚核蛋白质数据集上运行实验。蛋白质序列数据集如表1所示。文献[17]给出创建该数据集的详细说明。

表1 包含9个不同亚核位置的标准数据集

(2) 本文整体处理流程

为提高蛋白质亚核定位的准确度,首先基于PseAAC和PSSM提出PAAPSSM,然后使用SLPP方法降维PAAPSSM,最后使用KNN分类器预测蛋白质亚核位置。图2给出了本文亚核定位的整体处理流程。

图2 蛋白质亚核定位整体处理流程

3.2 实验结果及分析

(1)PAAPSSM与单特征表达的对比及参数k的影响

为验证PAAPSSM表达方法高效性,基于PseAAC,PSSM和PAAPSSM三种表达在表1所示数据集上运行实验,考虑到KNN分类器近邻尺度k的大小会直接影响预测精度,于是对k从1到10遍历,对每次k不同取值,分别运行50次10FCV并计算平均结果,取每种表达都取总体精度最高时的结果及对应k值如表2所示。表2给出基于三种表达蛋白质各亚核位置及总体预测精度,并给出对应此精度k的取值。需要说明,表2中,PseAAC(k=2)并没有PseAAC(k=9)的总体预测精度高。从表2可看出,PAAPSSM的总体预测精度比PseAAC和PSSM都更高,说明PAAPSSM能高效地表示蛋白质序列。

表2 多种表达方法预测精度的对比

此外,为观察不同k值对整体预测精度影响,图3给出三种表达取不同k值整体预测精度变化情况,可选出PseAAC在k=9,PSSM在k=2,PAAPSSM在k=2时,整体预测精度最高,且可看出PAAPSSM的整体精度值始终高于PseAAC和PSSM。

图3 不同表达方法的预测精度随近邻数k变化的趋势

(2)SLPP降维的影响

为观察SLPP对PAAPSSM降维的影响,首先用SLPP降维PAAPSSM到1~20维,然后分别在各维度数据上运行50次10FCV,计算平均结果,图4显示SLPP降维PAAPSSM后维度与整体预测精度之间的关系。从图4可看出,PAAPSSM降到6维(PAAPSSM-6D),整体预测精度最高,因为数据维度增加到一定程度分类器性能会降低。此外,图5给出PAAPSSM-6D与未降维时整体预测精度在各亚核位置上对比情况,从而说明,PAAPSSM降维后整体预测结果有较大提高。

图4 PAAPSSM随不同维度变化的预测精度曲线

(3) 与Nuc-PLoc方法的对比

为验证本文提出的先用SLPP降维PAAPSSM再用KNN预测的高效性,将该方法在数据集上运行的整体预测精度与Nuc-PLoc方法[17]结果对比,如表3所示。从表3可看出本文方法在预测精度上明显高于Nuc-PLoc方法,是因为SLPP聚集同类数据并降低数据维度,促进KNN分类器的预测。

表3 将本文预测方法与Nuc-PLoc方法[17]进行对比

4 结 语

本文首先给出特征表达的概念并描述PseAAC和PSSM表达产生的过程,然后提出PAAPSSM表达,并详细介绍平衡因子r的选取方法,最后为减少高维数据对分类器的影响,利用SLPP对PAAPSSM进行降维,在数据集上进行验证。实验结果表明,本文提出的方法具有以下特点:(1)PAAPSSM比PseAAC和PSSM更高效地表达了蛋白质序列信息,即PAAPSSM包含了更多的判别信息。(2) 使用SLPP降维算法处理PAAPSSM表达能取得更高的预测结果。(3) 本文提出的特征表达以及高维表达先降维的方法可以有效地应用于基于序列预测蛋白质亚核位置、亚细胞位置等问题上。但是本文没有充分考虑传统特征之间的关联性,对特征融合表达方法还有待提高,对此将进一步研究。另外,还需继续研究发现更好的特征表达方法和预测器模型,以期望能更加准确、高效地定位蛋白质亚核位置。

[1]WanS.Proteinsubcellularlocalization:geneontologybasedmachinelearningapproaches[D].TheHongKongPolytechnicUniversity,2014.

[2]ChouKC.Someremarksonproteinattributepredictionandpseudoaminoacidcomposition[J].JournalofTheoreticalBiology,2011,273(1):236-247.

[3] 王彤.高维生物数据的分类与预测研究[D].上海:上海交通大学,2009.

[4]ChouKC,ShenHB.Plant-mPLoc:atop-downstrategytoaugmentthepowerforpredictingplantproteinsubcellularlocalization[J].PLoSOne,2010,5(6):e11335.

[5]LiuS,WangS,DingH.Proteinsub-nuclearlocationbyfusingAACandPSSMfeaturesbasedonsequenceinformation[C]//ElectronicsInformationandEmergencyCommunication(ICEIEC),2015InternationalConferenceon.IEEE,2015:235-238.

[6]SahuSS,PandaG.AnovelfeaturerepresentationmethodbasedonChou’spseudoaminoacidcompositionforproteinstructuralclassprediction[J].ComputationalBiologyandChemistry,2010,34(5-6):320-327.

[7]DuP,WangX,XuC,etal.PseAAC-Builder:across-platformstand-aloneprogramforgeneratingvariousspecialChou’spseudo-aminoacidcompositions[J].AnalyticalBiochemistry,2012,425(2):117-119.

[8] 李小苇,刘太岗,陶珮莹,等.基于ACC变换和RFE算法的蛋白质亚核定位预测[J/OL].http://www.cnki.net/kcms /detail/11.2127.TP.20150521.0856.012.html.

[9] Lin W Z,Fang J A,Xiao X,et al.iLoc-Animal: a multi-label learning classifier for predicting subcellular localization of animal proteins[J].Molecular BioSystems,2013,9(4):634-644.

[10] Shen H B,Chou K C.Predicting protein subnuclear location with optimized evidence-theoretic K-nearest classifier and pseudo amino acid composition[J].Biochemical and Biophysical Research Communications,2005,337(3):752-756.

[11] Lei Z,Dai Y.An SVM-based system for predicting protein subnuclear localizations[J].BMC Bioinformatics,2005,6:291.

[12] Chou K C.Pseudo amino acid composition and its applications in bioinformatics,proteomics and system biology[J].Current Proteomics,2009,6(4):262-274.

[13] Kumar R,Jain S,Kumari B,et al.Protein sub-nuclear localization prediction using SVM and Pfam domain information[J].PLoS One,2014,9(6):e98345.

[14] 龚劬,华桃桃.基于改进的局部保持投影算法的人脸识别[J].计算机应用,2012,32(2):528-530,534.

[15] Zhang Y,Xiang M,Yang B.Linear dimensionality reduction based on Hybrid structure preserving projections[J/OL].http://dx.doi.org/10.1016/j.neucom.2015.07.011.

[16] 乔善平,闫宝强.蛋白质亚细胞定位预测研究综述[J].计算机应用研究,2014,31(2):321-327.

[17] Shen H B,Chou K C.Nuc-PLoc:a new web-server for predicting protein subnuclear localization by fusing PseAA composition and PsePSSM[J].Protein Engineering,Design and Selection,2007,20(11):561-567.

[18] 汪庆华,刘江炜,张兰兰.交叉验证K近邻算法分类研究[J].西安工业大学学报,2015,35(2):119-124,141.

PROTEIN SUB-NUCLEAR LOCALIZATION BASED ON FEATURE FUSION AND SUPERVISED LOCALITY PRESERVERVING PROJECTION

Liu Shuhui Wang Shunfang*

(SchoolofInformationScienceandEngineering,YunnanUniversity,Kunming650504,Yunnan,China)

The drawbacks of traditional methods of protein sub-nuclear localization are the insufficient information of single feature sequence representations, and the independent relationship between sequence representation and prediction methods. Therefore a fusion representation is constructed by combining pseudo amino acid composition with position specific scoring matrix. From these two single representations, the physical and chemical characteristic information of amino acids and protein evolution information are collected respectively. The low dimensional discriminant features are obtained with the inter-class segmenting and inner-class maintaining characteristics by supervised locality preserving projection learning data low-dimensional manifold. Then depending on the data distribution, nearest neighbor classifier is employed to predict sub-nuclear locations. Finally on the standard data sets, the evaluate results by 10-fold cross validation show that the proposed method has significant improvement in accuracy compared with the existing methods.

Fusion representation Supervised locality preserving projection K-nearest neighbor classifier 10-fold cross validation

2015-08-09。国家自然科学基金项目(11261068,11661081)。刘树慧,硕士生,主研领域:计算机应用。王顺芳,教授。

TP3

A

10.3969/j.issn.1000-386x.2017.02.045

猜你喜欢

降维分类器氨基酸
混动成为降维打击的实力 东风风神皓极
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
月桂酰丙氨基酸钠的抑菌性能研究
基于深度优先随机森林分类器的目标检测
UFLC-QTRAP-MS/MS法同时测定绞股蓝中11种氨基酸
基于差异性测度的遥感自适应分类器选择
HPLC法同时测定阿胶强骨口服液中4种氨基酸
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
基于层次化分类器的遥感图像飞机目标检测