基于主成分分析优化参数预测水解酶的亚类

2018-05-07王莹程薇薇

科技创新导报 2018年1期

王莹程薇薇

摘要：本文基于前人建立的数据库，以氨基酸组分、氨基酸紧邻组分、预测的二级结构、低频功率谱密度值和MEME模体及功能模体频数组成向量来表示序列信息，用主成分分析对序列向量进行分析，选取20个主要成分。将每条序列由20维向量来表示。用SVM算法对水解酶的亚类分别进行分类预测，在Jack-knife检验下的预测总精度为96.9%。

关键词：SVM算法主成分分析水解酶模体

中图分类号：TP18 文献标识码：A 文章编号：1674-098X（2018）01（a）-0143-02

酶是一种生物催化剂，存活在细胞中，影响着细胞生长、代谢等生命过程的化学反应[1]近些年，许多研究者通过利用生物信息学建立了相应的酶序列的数据库，并通过分类预测算法及酶序列的相关特征建立数学模型对酶的家族类及其亚类的研究上取得了较好的预测结果。随着酶序列的相关特征的增多，用来表示序列的向量维数也相应的增加，急需对其进行优化，降低向量的维数，以提高预测的总精度。因此，本文将用主成分分析的方法来降低序列特征的维数，得到较好的预测精度。

1 数据库和方法

1.1 数据库

本文选取2011年由我们小组构建和整理新数据库，其中水解酶5个亚类共4498条序列。

1.2 特征参数

1.2.1 氨基酸组分

蛋白质序列都是由20种基本的氨基酸组成的。并反映了序列的全局信息。前人的研究表明，不同类的酶序列的氨基酸有一定的差异。因此，本文选用氨基酸组分的信息（A）作为参数，来表示酶的序列信息。我们可以将一条酶序列替换为一个20维的向量。

1.2.2 氨基酸紧邻组分

本文用氨基酸紧邻组分将每条酶序列用400维向量来表示，以反映序列的结构信息。将一条酶序列替换为一个400维的向量，同上一个参数。

1.2.3 预测的二级结构

对于蛋白质分子来说，它不仅只具有一级结构，还有二级结构等。而二级结构反映其空间结构信息。因此，本文选取预测的二级结构信息（P）作为特征参数。

本文所使用的二级结构信息是PSIpred（Position Specific Iterated pred）软件[2]。对于一条酶序列，我们用一个3维的向量来表示3种二级结构在该序列中出现的频数。

1.2.4 低频功率谱密度值（F）

功率谱密度可以反映蛋白质序列的次序信息，本文将用其作为参数取得了较好的预测效果[3]，功率谱密度值的提取方法如下[4]。

（1）将酶序列转为成数字序列。

由于酶具有强疏水性，因此我们使用疏水值作为参数[6]，使得每条酶序列变成数字序列。

（2）离散傅里叶变换。

酶序列数字化后，对它进行离散傅里叶变换，具体公式如下：

1≤k≤L

（3）提取功率谱密度值：，其中T为周期。

（4）功率谱密度值的处理。

因为每条酶序列长短不同，比较和分析其特性有一定的限制，需将长度不同的酶序列变为相同长度。因此，根据信号的组成特点，本文将每条酶序列都转换成15维的向量。

1.2.5 MEME模体和功能模体

模体是刻画蛋白质结构和执行功能的重要部分。因此，通过对模体的研究，我们就能得到该序列的功能信息及结构特征。本文选用已被广泛用于DNA及蛋白质序列中模体搜索的MEME在线搜索器作为搜索工具[3]来搜索水解酶中的模体。本文限定6～15个氨基酸残基作为模体的长度，并且每类亚类搜索5个模体类数，统计每条酶序列。

我们还选取PROSITE搜索得到功能模体[5]。本文將PS_scan模体搜索工具[6]用Perl语言编译实现。用来搜索水解酶的亚类的蛋白质序列中出现的模体。对于每一条酶序列来说，记录模体在序列中出现的频数。把PROSITE搜索得到的5种模体，再加上由MEME软件搜索得到的统计模体，水解酶共得到30个模体频数值。

1.3 主成分分析

主成分分析[5]（principal component analysis）是由Pearson在1901年提出，直到1933年得到发展。主成分分析是一种通过降维的方法把多个变量化成几个主成分的统计分析方法。这些主成分可以有效地反映原始向量的绝大部分信息。

本文以氨基酸组分、氨基酸紧邻组分、预测的二级结构、低频功率谱密度值和MEME模体及功能模体频数组成向量来表示序列信息，将468维向量利用主成分分析的方法优选出贡献率较高的20维向量特征。因此，通过该方法每一条酶序列将由20维向量来表示。

1.4 支持向量机算法

支持向量机[4]（SVM）是一种新型分类预测方法。SVM的基本思想是将把输入数据通过非线性映射映射到一个高维的空间，然后在找到最优超平面，最终超平面与样本之间的距离最大。其中最优超平面的判别函数为：，这里是内积核函数。本文选取径向基核函数进行计算。

2 结语

本文基于前人建立的数据库，以氨基酸组分、氨基酸紧邻组分、预测的二级结构、低频功率谱密度值和MEME模体及功能模体频数组成向量来表示序列信息，水解酶共得到468维向量，并用主成分分析的方法将468维向量降为20维向量，将得到的向量输入到支持向量算法进行分类预测，在Jack-knife检验下进行预测，总精度依次为96.9%。其中各亚类的精度分别为98.6%、97.1%、93.7%、95.0%、97.5%。

参考文献

[1] 阎隆飞，孙之荣.蛋白质分子结构[M].北京：清华大学出版社，1999.

[2] Chou K.C.，CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications，2004，325（2）：506-507.

[3] Bailey T.L.，Mikael B.，Buske F.A.，et al.MEME Suite：tools for motif discovery and searching[J].Nucleic Acids Research，2006（37）：202-208.

[4] Ruijia Shi，Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011：599-604.

[5] 许忠能.生物信息学[M].北京：清华大学出版社，2008.

[6] Castro， D.E.，Sigrist，C.J.，Gattiker，A.，et al. ScanProsite： detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research，2009（37）：202-208.