基于组合向量的支持向量机算法预测酶的类型
2021-10-22王婷
王 婷
(长治职业技术学院 山西长治046000)
0 引 言
酶是具有高效催化作用的蛋白质,生物体内几乎所有的代谢反应都需要酶的参与,而且对于物质代谢的控制也大多通过酶的活性来实现[1]。已经证实,人类的许多疾病如蚕豆病、白化病、苯丙酮尿病等,均是由于某种酶的变异、减少甚至缺失造成的[2]。酶的类型与其功能和催化性能关系密切,因此对于新发现的酶,可以通过确定它的类型来表明其生物功能。传统的研究酶功能的生化实验方法不仅费时、耗资,而且可能会碰到许多目前无法解决的实际困难。因此,使用机器学习算法来预测酶类型的理论方法应用越来越广泛[3]。
本文从酶的氨基酸序列出发,在特征参数的提取上有创新:采用矩阵打分和离散增量的方法提取,再将这些参数构成的组合向量输入支持向量机。首次使用支持向量机算法对6类酶的类型进行预测,取得了较好的预测结果。
1 材料与方法
1.1 数据库
本文使用的是由 Shen和 Chou等[4]创建的酶家族类数据库。选取酶序列数据遵循以下标准:①序列长度不小于 50个残基;②不存在一个酶同时隶属于多种类型的情况;③酶序列的同源性小于 40%。基于以上标准,最终获得 9832条酶序列,分为以下 6个类型:①氧化还原酶1618条;②转移酶3450条;③水解酶2791条;④裂合酶679条;⑤异构酶518条;⑥合成酶776条。
1.2 计算方法
1.2.1 矩阵打分方法
矩阵打分(S)方法已经在转录因子结合位点和蛋白质折叠子的预测等方面得到成功应用[5~7]。此方法通过以下3个步骤实现:
①引入伪计数pij,位点位置概率作为矩阵元:
②建立位置权重矩阵,即标准打分矩阵:
③对给定的序列片段进行打分,将打分函数定义为:
式中:Ni表示全部氨基酸在第i个位置出现的个数;nij表示第 j种氨基酸在第i个位置上出现的个数;P0j表示第j种氨基酸出现的背景概率。
1.2.2 离散增量方法
离散增量(ID)方法已经在蛋白质结构和超家族的预测[8-9]等工作中获得广泛使用。
两个 S维离散源 X(n1,n2,…,ni,…,ns)和Y(m1,m2,…mi…,ms),其中 ni和 mi分别表示酶的信息参数,定义X和Y的离散量为:
定义混合离散源 X+Y(n1+m1,n2+m2,…,ni+mi,…,ns+ ms)的离散量为:
两个离散源X与Y之间的离散增量为:
氨基酸的化学特性亲疏水性质,主要由其侧链基团决定。根据单个氨基酸的亲疏水分布,将 20种氨基酸划分为 6 类[9]:①强亲水类(R,D,E,N,Q,K,H);②强疏水类(L,I,V,A,M,F);③弱亲水或弱疏水类(S,T,Y,W);④脯氨酸(P);⑤甘氨酸(G);⑥半胱氨酸(C)。
1.2.3 支持向量机算法
支持向量机(SVM)算法是在统计学习理论的基础上发展起来的一种新的机器学习方法,它根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好的推广能力。由于具有强有力的非线性建模能力和良好的泛化性能,它能够解决小样本、非线性和高维数等实际问题[10]。本文使用的是Chang和Lin[11]联合开发的Libsvm程序包。
2 结果与讨论
从酶序列的N端与C端分别选取80个氨基酸残基作为保守位点,使用矩阵打分方法得到 12个打分值;再分别将氨基酸的次邻二联体和亲疏水三联体出现的个数作为信息参数,使用离散增量方法得到12个离散增量值;最后将这 12个打分值和 12个离散增量值构成的组合向量,输入支持向量机中,采用Jackknife检验方法进行分类预测,其预测成功率见表 1。为了比较计算结果,这里还分别采用矩阵打分方法和离散增量方法对单参数进行预测,同时也把运用相同数据库 Chou[4]的 Jackknife检验结果列在了表1中。
表1 Jackknife检验下6类酶的预测结果(%)Tab.1 Prediction results of 6 enzymes by jackknife test(%)
从表1的计算结果可以看出,分别将氨基酸的次邻二联体和亲疏水三联体出现的个数作为信息参数,使用离散增量方法对酶的类型预测效果不是很好,预测成功率较低。选取酶序列的N端与C端的残基片段打分方法的预测效果明显好于离散增量方法,说明酶序列的N端与C端均具有较强的氨基酸位点保守性。把打分值与离散增量值进行组合,共同输入支持向量机中进行预测,获得了非常好的结果。Jackknife检验总体的预测成功率为88.86%,氧化还原酶、转移酶、水解酶、裂合酶、异构酶和合成酶的预测成功率分别为 92.34%、86.69%、83.30%、97.20%、98.26%和97.68%,结果表明此算法对于酶的分类预测非常有效。裂合酶和异构酶的预测成功率比 Chou[4]的方法分别提高了 12.1%和 14.66%,但转移酶和水解酶的预测成功率比Chou[4]的结果差。
本文对酶的类型进行预测,当使用组合向量作为特征参数时获得了较好的预测结果,其主要原因是:①由于不同类型酶的N端与C端所包含的特征信号具有很强的差异性,从酶序列两端的残基片段提取的打分值,其包含的信息更加全面;②支持向量机算法具有很强的融合性能,可以将打分值与离散增量值恰当的融合,共同作为支持向量机的特征参数,取得了更优的预测结果。