基于特征相关性选择的二硫键预测算法∗

2017-12-18刘坤

计算机与数字工程 2017年11期

关键词：二硫键特征选择数目

刘坤

（南京理工大学计算机科学与工程学院南京 210094）

基于特征相关性选择的二硫键预测算法∗

刘坤

（南京理工大学计算机科学与工程学院南京 210094）

二硫键是维持蛋白质结构与功能稳定的重要生物特征，先前关于二硫键模式的预测通常为将相关特征进行特征选择并代入机器学习模型，其缺陷在于没有考虑不同特征之间的关联性，该文根据传统的预测方法，在使用费舍得分进行特征选择的基础上，计算特征子空间中各特征的相关度，剔除线性相关度高的特征，利用支持向量回归对处理后的数据进行四重交叉验证，以取得更加理想的效果。

生物信息学；二硫键；支持向量回归；相关系数；特征选择

1 引言

蛋白质（protein）作为生命现象的物质基础之一，是生命活动过程中的重要的物质承担者，在生物体的生命过程中具有重要的作用。相比基因组学，蛋白质组学对于生命现象解释更加直接、更加准确，近些年得到了快速发展，并得到了国内外学者广泛重视。随着20世纪90年代“人类基因组计划”（Human Genome Project，HGP）工作的展开，以及后续公布的人类基因组图谱和基本完成测序工作，已知蛋白质序列的数量呈爆炸性增长，标志着人类已经跨入到后基因组时代。

作为蛋白质重要的结构特征，二硫键是由两个在相同或不同的蛋白质链上的半胱氨酸上形成的共价交联，与蛋白质的折叠息息相关，可以维持蛋白质结构稳定［1］。目前为止，对二硫键的预测总体分为三类［2］：1）对二硫键的成键状态预测；2）基于先验知识对二硫键关联模式的预测；3）对二硫键成键状态与关联模式共同预测。本文主要的研究方向为预测二硫键的关联模式。

截至目前，二硫键预测工作已取得很大进展，预测算法有DISULFIND，Pair-wise SVM，GASVM，SS_SVR与FS_SVR等［3］。近期，对二硫键的预测主要基于机器学习的方法，首先提取原始特征，包括PSSM，PSS，DOC，CM，PTBCR等，然后对特征筛选，从大量特征中提取显著特征，并利用合适的分类器（主要有支持向量回归［4］与随机森林［5］）进行预测与分类，得出重要的信息。

本文主要基于先验知识，对二硫键关联模式进行预测，预测同一条蛋白质链上形成的二硫键，从蛋白质序列出发，进行特征选择后，对保留的特征子空间进行相关度计算，保留两两相关度低的特征，通过支持向量回归进行分类，进行四重交叉验证，得到理想的实验数据。

2 实验概述

2.1 数据集

为进行实验，需要交叉验证数据集，为验证新算法的有效性，需使用与先前实验相同的数据集，本文所使用的数据集为SP39［6］，该数据集来源于UniProtKB/Swiss-Prot，UniProtKB/Swiss-Prot是高质量的、手工注释的、非冗余的数据集，SP39包含446条蛋白质序列，其中含有2，3，4，5个蛋白质链内二硫键数目的蛋白质序列数目依次为156，146，99，45。所有的蛋白质序列二硫键数目均不超过5个。

2.2 特征提取

2.2.1 位置特异得分矩阵（PSSM）

蛋白质进化信息是从蛋白质序列中获PSSM矩阵，广泛应用于其他领域，例如蛋白质功能预测与跨膜结构预测等，需要使用 PSI-BLAST［7］，滑动窗口大小选取为13，需要将两个可能成键的半胱氨酸组合为样本的PSSM特征。因此，PSSM的特征维数为520。

2.2.2 二级结构特征（PSS）

先前许多实验已经证明，蛋白质二级结构不仅对预测二硫键有重要意义，还应用于许多其他领域，例如绑定位点预测等。原始二级结构分为三类：螺旋（H）、折叠（S）以及无规则卷曲（C）。为获取二级结构特征，可以将蛋白质数据上传到相关服务器计算，也可以使用PSIPRED［8］。所获得的数据每个氨基酸残基形成三种原始二级结构的概率，其具有的特征维数为78。

2.2.3 半胱氨酸预测距离特征（PDBCR）

当前技术条件下，无法精确预测蛋白质三维结构。通过Modeller［9］等3D结构预测软件，将蛋白质序列与模板序列比对，利用同源建模算法预测出三维结构，获得每个氨基酸残基的三维空间位置，进而计算半胱氨酸之间的欧氏距离。通常情况下，两个半胱氨酸欧式距离越小，其构成二硫键的概率越高。

2.2.4 关联突变特征（CM）

两个半胱氨酸如果能够形成二硫键，那么这两个半胱氨酸之间能够发生强烈反应，它们之间相互依存，这种特性可以追溯到蛋白质进化信息。基于以上分析，Rubinstein与Fiser提出了通过关联突变分析预测二硫键的形成，在他们提出的算法中，采用了相同标准，将所有的半胱氨酸对编码为区间［0，1］的实数，详细的算法参见相关文章［10］。

2.2.5 半胱氨酸序列距离特征（DOC）

半胱氨酸序列距离由Tsaietal首次提出，DOC通过以下公式对每个参与构键的半胱氨酸编码：

其中，i和 j分别为半胱氨酸在蛋白质序列上的位置。

DOC特征需要标准化，其中的标准化方法有DOCL，DOCmax，Doclog，分别利用蛋白质链长度，数据集最大蛋白质链长度以及对数对特征进行标准化，经过测试，Doclog为最有效的方法，因此本文将采用Doclog进行归一化处理，具体算法如下

其中，i和 j分别为半胱氨酸在蛋白质序列上的位置。

综上所述，将采用的局部特征组合为特征向量后，所形成的维数为603，高维数据不仅带来计算上的不便，也有许多冗余信息，需要进行特征选择。

2.3 费舍得分

特征选择已被广泛应用于生物信息学，其目的是从原始特征空间中选取有区分性的特征，进而提高预测的准确性。常用的特征选择方法有方差得分，拉普拉斯得分，费舍得分，通过实验证明，费舍得分效果最好。

费舍得分算法是监督学习的算法，广泛应用于分类问题中。利用类标，找到对分类有重要作用的特征。当类内距离相对较小而类间距离相对较大时，这种算法显著性水平较高［2］，假设具有C类，费舍得分计算如下

其中Ni为第i类样本数目，为第i类样本的m维特-征平均值，(σmi)2为第i类样本的m维特征方差，为样本所有数据m维特征的均值。

2.4 相关性选择

线性相关指矢量空间中一个矢量可被其他矢量表示。当线性相关在矢量中存在时，其中至少一个矢量可以被其他矢量所代表，该矢量所含有的信息属于冗余信息，相关性选择便是剔除这些冗余信息［11］。为了得到不同特征之间的相关性，需要计算两两特征的线性相关系数，形成相关系数矩阵，该矩阵对角线元素均为1（任何特征与自身相关系数均为1），对该矩阵所有元素取绝对值，基于以下结论，可以进行相关性选择：

1）相关系数绝对值越大，两特征相关性越高；

2）某一特征相关系数较大值的数目越多，该特征所含信息越冗余；

计算线性相关系数，具体的计算过程如以下所示：

其中，Rm，n为两个特征的相关系数绝对值，计算结果存储到相关系数矩阵中。

通过相关性计算，可以获得K×K（K为特征数目）的相关性矩阵，对于所获得的矩阵，采用如下方式进行处理：

1）指定需要删除的特征数目N；

2）寻找两两之间相关性最高的两个特征；

3）对于1）选择的两个特征，寻找这两个特征相关系数的次高值，二者之间的最大值所代表的特征为最终选择的特征。

4）删除2）中选择的特征，此时特征数目为K=K-1，判断是否 K=N，是则停止，否则重复2）。

利用最终形成的数据进行训练与测试。

2.5 分类器选择

在机器学习领域，提出过许多经典模型，例如贝叶斯回归分析、隐马尔科夫模型、支持向量回归以及随机森林等。其中本文采用了支持向量回归。

支持向量机主要用于分类，是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力。

支持向量回归是一种基于支持向量机的回归模型，它得到的不是具体的分类，而是具体的值。与SVM训练高维样本相同，SVR需要选择合适的核函数，本文选择的是径向基函数，采用LIBSVM进行支持向量回归，对交叉验证需要的最优参数，需要使用LIBSVM的网格搜索算法获得。

2.6 评价标准

为描述模型的预测效果，我们采用了与前人相同的两个指标：Qp和Qc其中，Qp为预测正确的二硫键占二硫键总数目的百分比，表示为

其中，Nc为预测正确的二硫键数目，Tc为样本中的二硫键总数目。

另一个指标Qp是完全正确预测所有二硫键的蛋白质数目所占蛋白质样本总数目的百分比，只有该蛋白质的所有二硫键均被正确预测时，该蛋白质才被认为正确预测，Qp的计算方法如下

其中，Np为正确预测的蛋白质数目，Tp为样本蛋白质总数目。

2.7 工作流程

预测二硫键的工作流程如图1所示，整个预测过程如下所示：

1）从蛋白质序列中获取含有PSSM，PSS，CM，DOC，PDBCR特征的特征向量；2）对特征向量通过费舍得分进行特征选择；3）对特征选择后的特征子空间进行线性得分计算；

4）利用随机森林回归模型与支持向量回归对处理后的数据进行四重交叉验证；

5）预测关联模式，其中令P为所有的关联模式数目，第i种模式的得分计算方法如下

其中，B为半胱氨酸配对的数目，ppcpj为第 j对半胱氨酸对的构键概率。

最终，对i个模式，选取最大的值，该值代表的模式即为所求的最终结果：

以图1为例，对于二硫键数目为2的蛋白质，共有6组不同的半胱氨酸对形成3种不同模式，由于C1与C2，C3与C4的概率和为所有模式最大值，因此预测的半胱氨酸模式为(C1_C2，C3_C4)。

图1 实验流程图

3 实验结果

3.1 对特征进行相关性选择可以有效提高预测精确度

该部分研究特征选择与相关度选择对预测结果的影响，对选用的SP39数据，对每重数据计算特征费舍得分然后取均值并排名，选取费舍得分较高的特征作为特征子空间进行相关性选择，特征选择数目从100取至500，特征选择与相关性选择每次实验区间均取为50，对每次处理后的数据均进行4重交叉验证，然后对剩余特征再次进行相关性选择，重复进行，直到剩余特征达到50，记录每次实验数据。

表1和表2分别为通过采用4重交叉验证进行预测时，通过特征选择与线性选择不同的维数后所Qc与Qp预测结果。

表1 Qc预测结果

在表1和表2中，第一列的特征数目为通过费舍得分保留的特征数目，第一行的特征数目为通过相关性选择删除的特征数目，由于相关性选择在特征选择之后进行，因此只有特征选择的数目大于相关性选择删除特征的数目时才可以进行实验。

表2 Qp预测结果

通过表1和表2可知，特征选择与相关性选择能够提高预测的效果。在首先特征选择维数为450，然后删除相关度排名前200的特征，最终剩余250维特征时，两项指标均取得最大值，分别为0.831与0.794，在特征选择过程中，并非选择数目越高结果越优，在特征数目超过450时，无论是Qp还是Qc值均下降，而相关度剔除的特征到达一定量时预测效果达到最佳，超过该数值，有效信息不足，预测结果同样变差。

3.2 与其他结果比果

表3为本文算法与先前实验结果对比，通过与前人实验比较，本文结果在Qp上整体提高3.4%，在Qc上整体提高3.1%，在链内二硫键数目为2，3，4的情况下，实验整体提高较为明显，而二硫键数目为5的情况下效果反而变差，因此，本文的提出的通过提取蛋白质特征，进行费舍得分选择以及相关性选择，最终利用SVR进行交叉验证的算法，对预测二硫键模式是有效的。

表3 多种算法比较

4 结语

本文之所以能够得到更加准确的预测结果，主要得益于：

1）3D预测功能的改进，能够得到更准确的半胱氨酸3D结构特征；

2）Swiss-Prot（www.ebi.ac.uk/swissprot）不断更新数据集，所获取的蛋白质进化信息更加完善，PSI-BLAST搜索的结果更加精确；

3）将特征进行相关性计算，使特征更具区性分性，模型训练速度更快，预测精度更高。

本文所提出的相关性选择算法，不仅仅可应用于生物信息学，可广泛应用于其他分类问题。

未来的工作包括以下几个方向：

1）寻找新的特征提高预测的准确性；

2）通过提出更优的算法预测链内二硫键数目更多（超过5个）的二硫键模式；

3）除链内二硫键外，利用机器学习的方法，对链间二硫键进行预测。

［1］Inaba K，Murakami S，Suzuki M，et al.Crystal structure of the DsbB-DsbA complex reveals a mechanism of disulfide bond generation［J］.Cell，2006，127（4）：789-801.

［2］Zhu L，Yang J，Song J N，et al.Improving the accuracy of predicting disulfide connectivity by feature selection［J］.Journal of computational chemistry，2010，31（7）：1478-1485.

［3］Tsai C-H，Chen B-J，Chan C-H，et al.Improving disulfide connectivity prediction with sequential distance between oxidized cysteines［J］.Bioinformatics，2005，21（24）：4416-4419.

［4］孙德山.支持向量机分类与回归方法研究［J］.中南大学学报，2004，35（6）：13-15.SUN Deshan.Research on Support Vector Machine Classification and Regression Method［J］.Journal of Central South Oniversity，2004，35（6）：13-15.

［5］李欣海.随机森林模型在分类与回归分析中的应用［J］.应用昆虫学报，2013，50（4）：1190-1197.LI Xinhai.Application of Random Forest Model in Classification and Regression Analysis［J］.Chinese Journal of Applied Entomology，2013，50（4）：1190-1197.

［6］Fariselli P，Casadio R.Prediction of disulfide connectivity in proteins［J］.Bioinformatics，2001，17（10）：957-964.［7］Schäffer A A，Aravind L，Madden T L，et al.Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements［J］.Nucleic acids research，2001，29（14）：2994-3005.

［8］Jones D T.Protein secondary structure prediction based on position-specific scoring matrices［J］.Journal of molecular biology，1999，292（2）：195-202.

［9］Webb B，Sali A.Comparative protein structure modeling using Modeller［J］.Current protocols in bioinformatics，2014，32（5）：1-6.

［10］Rubinstein R，Fiser A.Predicting disulfide bond connectivity in proteins by correlated mutations analysis［J］.Bioinformatics，2008，24（4）：498-504.

［11］张远达.线性代数原理［M］.上海：上海教育出版社，1980.216-235.ZHANG Yuanda.Linear Algebra Principles［M］.Shanghai：Shanghai Education Press，1980.216-235.

Predicting Disulfide Connectivity Based on Correlation Coefficients Selection

LIU Kun
（School of Computer Science and Engineering，Nanjing University of Science and Technology，Nanjing 210094）

Disulfide connectivity is one of significant protein structural characteristic.Previous prediction methods usually used support vector regression，which didn't consider the correlation between different features.According to traditional prediction methods，based on fisher score，this paper calculated correlation coefficient of each pair of features after feature selection，then deleted the features with high correlation coefficient.Based on the rest features，support vector regression was used to train model and test.4-fold validation was used on our benchmark dataset to gain a hopeful result comparing with previous results.

bioinformatics，disulfide bond，support vector regression，correlation coefficient，feature selection

TP311

10.3969/j.issn.1672-9722.2017.11.003

Class Number TP311

2017年5月8日，

2017年6月23日

国家自然科学基金项目（编号：61373062，61371040）资助。

刘坤，男，硕士，研究方向：模式识别。