HIV1蛋白酶切割位点预测研究
2018-09-10范光鹏孙仁诚邵峰晶
范光鹏 孙仁诚 邵峰晶
摘要: 为有效减缓艾滋病毒在人体内的复制速度,本文利用长短时记忆递归神经网络,对HIV1蛋白酶切割位点进行分类预测。使用长短时记忆递归神经网络模型作为主要分类模型,首先对氨基酸分别进行标准正交编码和TVD编码,作为分类模型的输入,模型结果的输出由1和-1表示,1表示可以被切割,-1表示不能被切割,最后对模型分别进行十折交叉验证和AUC评估,并以支持向量机模型作为对比模型进行分析。分析结果表明,在正交编码的条件下,用sigmoid激活函数长短时记忆递归神经网络的分类正确率和AUC值均为最佳,径向基函数支持向量机略高于线性支持向量机,线性长短时记忆递归神经网络分类正确率最低,有助于HIV1蛋白酶抑制剂的研究。该研究具有一定的实际意义。
关键词: 支持向量机; 长短时记忆递归神经网络; HIV1蛋白酶; 氨基酸
中图分类号: TP391.4文献标识码: A
艾滋病是一种危害极大的传染病,由感染HIV病毒引起,虽然全世界众多医学研究人员付出了巨大的努力,但至今尚未研制出根治艾滋病的特效药物,也没有用于预防的有效疫苗。艾滋病已被我国列入乙类法定传染病,并被列为国境卫生监测传染病之一。抗击艾滋病的重要方法之一是阻止艾滋病毒在人体内复制,HIV1蛋白酶能裂解病毒颗粒的蛋白前体,使病毒成熟,形成病毒颗粒,这是艾滋病毒复制前的重要过程。因此,抑制HIV1蛋白酶对多聚蛋白的裂解能有效减缓艾滋病毒的复制速度,对艾滋病的治疗有至关重要的作用。研究人员想通过HIV1蛋白酶抑制剂永久占据多聚蛋白的活性位点,阻止HIV1蛋白酶的正常功能,然而HIV1蛋白酶切割氨基酸之间的肽键位点在很大程度上是未知的,这为HIV1蛋白酶抑制剂的研究造成了很大的困难。自然界中共有20种氨基酸,HIV1蛋白酶只对八聚蛋白(由8个氨基酸组成的蛋白质)起作用,对HIV1蛋白酶切割八聚蛋白的搜索空间是208,这需要计算机和数据分析方法对可能起作用的八聚蛋白进行预测,其中利用机器学习模型进行分类预测是近年来最常用的方法。T.Rgnvaldsson等人[12]讨论了20多年以来解决上述问题的多种方法,总结出解决上述问题需要用非线性模型,并在更多实验数据的基础上,利用线性支持向量机(line support vector machines,LSVM)对八聚蛋白进行分类预测,证明线性支持向量机方法比线性方法要好,因此推测线性方法是解决HIV1切割位点预测的主要方法;S.Jaeger等人[3]提出了新的生物物理特征,并融合了神经网络[45]、支持向量机[67]、决策树3种分类模型对HIV1蛋白酶切割位点进行预测,经交叉验证后,组合模型比单一分类器的分类效果更好;G.Kim等人[8]提出一种特征选择方法,分别利用不同的特征数据输入到已经训练完成的多感知机,分别进行计算,从中选出最好的特征输入。在小的数据集条件下,此方法可以使用较少的特征值,并得出精度较高的预测结果;Li X等人[9]将氨基酸序列映射到核函数当中,并与线性支持向量机一起进行降维处理,用交叉验证的方法证明此方法比其它方法要好;M.Gk等人[10]采用多种氨基酸编码方案,并结合线性分类器进行预测,建议利用基于氨基酸特征的正交与泰勒维恩图结合编码OETMAP方案,有助于提高分类识别精度;Song J[11]提出了基于多特征的支持向量机回归预测方法,这种方法对多种蛋白酶切割位点进行预测,其中的特征提取与选择分别通过双色贝叶斯方法和基尼得分决定,并证明此模型可行;Niu B等人[12]提出了基于相关特征的子集选择方法,其结合遗传算法可以从大量的特征中选择最优的特征子集,这种方法在交叉验证中的效果要好于其它方法;T.Rgnvaldsson等人[13]利用支持向量机对多八聚蛋白数据进行预测,指出数据的大小是影响预测模型预测精度的主要因素,对于利用正交编码的氨基酸数据,线性模型对其分类效果较好,其中线性支持向量机的分类效果最好,其它编码方法与正交编码相比并未产生更具优势的效果。综上所述,HIV1蛋白酶的切割位点预测主要是通过特征提取和分类模型进行预测,使用较多的是支持向量机模型,很少使用长短时记忆递归神经网络(long shortterm memory,LSTM)[1418]进行分类识别。基于此,本文使用长短时记忆递归神经网络对HIV1蛋白酶切割位点进行预测,进一步探究长短时记忆递归神经网络是否有助于提高HIV1蛋白酶切割位点预测的准确率。
1HIV1蛋白酶切割位点预测分析
HIV1蛋白酶切割位点预测问题为一种分类问题,分类器从大量已知数据中学习特征变量与目标变量之间的数学关系,未知结果的数据通过训练完成的分类器来预测此数据的目标值。分类器的预测方式为
Pre=f(x1,x2,x3,…,x8)
式中,f()表示分类器;x1,x2,…,x8表示8个氨基酸的数据编码向量;Pre表示预测值,取值为1或-1,其中,1表示能被切割,-1表示不能被切割。
目前,使用最多的氨基酸编码方式有如下2种:
1)标准正交编码(orthonormal encoding,OE)。自然界共有20种氨基酸,每种氨基酸用20位二进制数表示,其中只有一位有效,其值为1,其它位值为0。一个八聚蛋白由8个氨基酸组成,那么八聚蛋白的编码便是160位的数据向量,所以標准正交编码是氨基酸序列的排列组合数据。
2)泰勒维恩图编码(taylors venndiagram,TVD)。每一个氨基酸的编码由氨基酸分子的物理化学特性组成,本文选取氨基酸的9种特性编码,八聚蛋白每个氨基酸的TVD编码如表1所示。其中,每列的大写字母表示各种氨基酸,每行代表氨基酸的不同性质。
本文分别使用标准正交编码和TVD编码作为分类器的输入数据,分类器采用长短时记忆递归神经网络模型。长短时记忆递归神经网络模型如图1所示,与普通神经网络模型不同的是,长短时记忆递归神经网络的隐含层在第1次计算结束后,隐含层的输出值会同下次计算的输入层输入值一起进入隐含层继续计算,直到整条序列的最后一个输入向量计算结束后,隐含层的输出值会进入输出层,计算输出。按时间计算,长短时记忆递归神经网络模型如图2所示,x1,x2,…,x8分别表示八聚蛋白每个氨基酸的编码向量,即x1表示第一个氨基酸的向量。x1由输入层传播到隐含层,t1时刻在隐含层计算完毕后,其输出值与x2一起作为t1时刻计算的输入值,再次在隐含层进行计算,以此类推,直到最后一个氨基酸编码向量在隐含层计算完毕,传播至输出层进行计算,最终输出层输出目标值。为防止过拟合,本文在对长短时记忆递归神经网络进行计算时使用了dropout算法[1920],即神经网络层与层各节点之间的连接以某种概率丢弃。
2评价指标和结果分析
本文数据来自文献[13]中的Schilling Data和Impens Data,将2个数据集进行融合,对其中的氨基酸分别进行标准正交编码和TVD编码,用长短时记忆递归神经网络作为分类器对HIV1蛋白酶切割位点进行预测。将分类的正确率和模型的接收机工作特性曲线下部面积(area under curve of ROC,AUC)作为评价指标,并与支持向量机模型进行对比分析。
支持向量机模型分别采用线性核函数和径向基核函数,其中,线性核函数支持向量机惩罚因子的取值范围为[2-5,25],径向基核函数支持向量机惩罚因子的取值范围为[1,27]。在惩罚因子取不同值的条件下,线性支持向量机十折交叉验证如图3所示。当数据采取标准正交编码,且C=2-3时,支持向量机正确率取得最优值9289%;当数据采用TVD编码,且C=2-15时,支持向量机分类正确率取最优值90423%。在惩罚因子取不同值的条件下,径向基函数支持向量机十折交叉验证如图4所示。当数据采取标准正交编码,且C=23时,支持向量机正确率取最优值92914%;当数据采用TVD编码,且C=235时,支持向量机分类正确率取最优值91276%。
本文长短时记忆递归神经网络采用随机梯度下降的方法进行训练。训练过程中,为防止过拟合,采用droupout方法,即在每次训练过程中,神经网络的隐含层和输出层之间各节点的连接以一定的概率被丢弃。本文对正交编码的长短时记忆递归神经网络设置隐含层与输出层连接被丢弃的概率为25%,训练时的学习率为003。神经网络最终的预测识别率除了受训练迭代次数的影响,还受隐含层神经元节点数量的影响,因此本文正交编码长短时记忆递归神经网络设置的迭代次数i的取值范围为[200,800],其中增长步长为100,隐含层的节点数量n的取值范围为[7,15]。长短时记忆递归神经网络的隐含层外部激活函数分别取Sigmoid函数和线性函数。在正交编码条件下,Sigmoid长短时记忆递归神经网络十折交叉验证(OE)结果如表2所示。
達到最优。在此对其训练数量进行更为精确的训练,即在神经网络隐含层节点数量为13的条件下,训练迭代次数取值范围为[360,440],增长步长为20。Sigmoid长短时记忆递归神经网络交叉验证结果如表3所示,由表3可以看出,当迭代次数为420时,长短时记忆递归神经网络正确率为93197 5%,达到最优。
正交编码条件下,线性长短时记忆递归神经网络十折交叉验证结果如表4所示。由表4可以看出,在神经网络隐含层节点为11,训练迭代次数为300时,长短时记忆递归神经网络分类正确率为91110 8%,达到最优。
对于TVD编码的长短时记忆递归神经网络隐含层外部激活函数分别采用sigmoid函数和线性函数。Sigmoid函数长短时记忆递归神经网络隐含层节点的数量取值范围为[8,15],迭代次数取值范围为[100,600],Dropout丢弃概率为02,训练学习率为005。Sigmoid长短时记忆递归神经网络交叉验证结果如表5所示。在TVD编码的条件下,Sigmoid长短时记忆递归神经网络的隐含层节点数量为14,训练迭代次数为200时,分类正确率最高为91513 8%。
线性函数长短时记忆递归神经网络隐含层节点的数量取值范围为[8,15],迭代次数取值范围为[100,500],dropout丢弃概率为02,训练学习率为002。线性长短时记忆递归神经网络交叉验证结果如表6所示,在TVD编码的条件下,线性长短时记忆递归神经网络的隐含层节点数量为9,训练迭代次数为400时,分类正确率最高为89523 7%。
由表6可以看出,各分类器在正交编码条件下的分类正确率均高于在TVD编码条件下的分类正确率,且在两种编码中,Sigmoid长短时记忆递归神经网络的分类正确率最高,径向基函数支持向量机略高于线性支持向量机,线性长短时记忆递归神经网络分类正确率最低。然而单凭分类的识别率并不能反映分类器的真实分类能力,尤其在正负样本分布不平衡的条件下。因此,本文选取AUC作为评价指标,AUC是接收机工作特性(receiver operating characteristic curve,ROC)[21]曲线下方的面积,是判断二分类预测模型优劣的标准,AUC的值越大越好。
编码条件下,Sigmoid长短时记忆递归神经网络的AUC值均最高,线性支持向量机高于径向基函数支持向量机,而线性长短时记忆递归神经网络最低。
3结束语
本文通过长短时记忆递归神经网络对HIV1蛋白酶切割位点进行分类预测,与常用的支持向量机模型做对比,结果证明各分类器在OE编码的条件下分类正确率要好于在TVD编码条件下的分类正确率,且在OE编码条件下用Sigmoid长短时记忆递归神经网络进行预测分类的效果最佳,说明Sigmoid长短时记忆递归神经网络有助于提高对HIV1蛋白酶切割位点分类预测的正确率,在HIV1蛋白酶抑制剂研究方面具有重要意义。但是分类器的AUC值并没有达到较高的数值,还需进一步优化分类模型,提升分类器的性能。
参考文献:
[1]Rognvaldsson T, You L, Garwicz D. Bioinformatic Approaches for Modeling the Substrate Specificity of HIV1 Protease:An Overview[J]. Expert Review of Molecular Diagnostics, 2007, 7(4): 435451.
[2]Rgnvaldsson T, Etchells T A, You L. How to Find Simple and Accurate Rules for Viral Protease Cleavage Specificities[J]. BMC Bioinformatics, 2009, 10(1): 149.
[3]Jaeger S, Chen S S. Information Fusion for Biological Prediction[J]. Journal of Data Science, 2010, 8(2): 269288.
[4]Simon Haykin. 神經网络原理[M]. 北京: 机械工业出版社, 2004.
[5]Ito Y. Representation of Functions by Superpositions of a Step or Sigmoid Function and Their Applications to Neural Network Theory[J]. Neural Networks, 1991, 4(3): 385394.
[6]Cortes C, Vpanik V. Support Vector Networks[J]. Machine Learning, 1995, 20(3): 273297.
[7]Williams C K I. Learning with Kernels: SupportVectorMachines, Regularization, Optimization, and Beyond[J]. Publications of the American Statistical Association, 2002, 98(462): 489.
[8]Kim G, Kim Y, Lim H, et al. An MLPBased Feature Subset Selection for HIV1 Protease Cleavage Site Analysis[J]. Artificial Intelligence in Medicine, 2010, 48(2/3): 83.
[9]Li X, Hu H, Shu L. Predicting Human Immunodeficiency Virus Protease Cleavage Sites in Nonlinear Projection Space[J]. Molecular and Cellular Biochemistry, 2010, 339(1/2): 127133.
[10]Gk M, zcerit A T. A New Feature Encoding Scheme for HIV1 Protease Cleavage Site Prediction[J]. Neural Computing and Applications, 2013, 22(7/8): 17571761.
[11]Song J, Tan H, Perry A J, et al. PROSPER: an integrated featurebased tool for predicting Protease Substrate Cleavage Sites[J]. Plos One, 2012, 7(11): e50300.
[12]Niu B, Yuan X C, Roeper P. HIV1 Protease Cleavage Site Prediction Based on Twostage Feature Selection Method[J]. Protein & Peptide Letters, 2013, 20(3): 290298.
[13]Rgnvaldsson T, You L, Garwicz D. State of the Art Prediction of HIV1 Protease Cleavage Sites[J]. Bioinformatics, 2015, 31(8): 12041210.
[14]Hochreiter S, Schmidhuber J. Long ShortTerm Memory[J]. Neural Computation, 1997, 9(8): 17351780.
[15]Gers F A, Schmidhuber J, Cummins F. Learning to Forget: Continual Prediction with LSTM[J]. Neural Computation, 2000, 12(10): 24512471.
[16]Graves A, Schmidhuber J. Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures[J]. Neural Networks, 2005, 18(5): 602610.
[17]Werbos P J. Backpropagation Through Time: What it does and How to do it[J]. Proceedings of the IEEE, 1990, 78(10): 15501560.
[18]Gers F A, Schraudolph N N. Learning Precise Timing with Lstm Recurrent Networks[J]. Journal of Machine Learning Research, 2003, 3(1): 115143.
[19]Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 19291958.
[20]Tobergte D R, Curtis S. Improving. Neural Networks with Dropout[J]. Chemical Information and Modeling, 2013, 9(53): 16891699.
[21]Spackman K A. Signal Detection Theory: Valuable Tools for Evaluating Inductive Learning[J]. International Workshop on Machine Learning, 1989, 283: 160163.
Research on Prediction of HIV1 Protease Cleavage Sites
FAN Guangpeng, SUN Rencheng, SHAO Fengjing
(College of Computer Science and Technology, Qingdao University, Qingdao 266071, China)
Abstract: To effectively reduce the rate of HIV replication in the human body, this article uses the Long ShortTerm Memory to classify HIV1 protease cleavage sites. Using the Long ShortTerm Memory neural network model as the main classification model, the standard orthogonal encoding and TVD encoding of the amino acids are respectively used as the input of the classification model. The output of the model result is represented by 1 and -1, where 1 means that it can be cut, and -1 means that it can not be cut. Long ShortTerm Memory model was subjected to ten fold cross validation and AUC evaluation, and the support vector machine model is used as a comparative model for analysis. The analysis results show that under the condition of orthogonal encoding, the classification accuracy and AUC value of the Long ShortTerm Memory neural network with sigmoid activation function are best. The radial basis function support vector machine is slightly higher than the linear support vector machine. Long ShortTerm Memory neural networks with linear activation function have the lowest classification accuracy, and they are useful for the research of HIV1 protease inhibitors. The research has a certain practical significance.
Key words: support vector machine; long shortterm memory; HIV1 protease; amino acids