蛋白质中RNA-结合残基预测的随机森林模型

2012-08-15马昕郭静孙啸

东南大学学报（自然科学版） 2012年1期

马昕郭静孙啸

(1东南大学生物电子学国家重点实验室，南京 210096)(2南京审计学院金审学院，南京 210029)

蛋白质与RNA的相互作用在生物体细胞活动中起到至关重要的作用，如蛋白质的合成、信使RNA的稳定、定位和转录、病毒的复制、非编码RNA发挥生物学作用等.而今国际上对蛋白和RNA相互作用的研究主要关注于蛋白质能否与RNA相互作用、如何相互作用以及在蛋白质链上哪些残基与 RNA分子进行结合等.提高识别RNA-结合残基的能力不仅有助于更好地理解上述生物学过程，还可更好地指导用于研究核酸结合蛋白功能点的突变实验研究，能够进一步地指导药物开发.

目前已有较多利用复合物的三维结构信息来识别RNA-结合残基的算法，但是可得到的高分辨率结构的蛋白质-RNA复合物的结构数据很少；而且，通过实验的方法获得复合物结构不仅价格昂贵而且耗时.一种可替代的方法就是直接从蛋白质序列出发来预测RNA-结合残基，而机器学习方法通过构建分类器提供了一条行之有效的途径来解决这个问题.例如人工神经网络利用氨基酸序列信息和结构信息作为特征预测RNA-结合残基［1］.支持向量机也广泛应用于识别RNA-结合残基并取得了很好的预测效果，如RISP［2］达到了61.0%的敏感性和83.3%的特异性.此外，代表进化保守信息的位置特异性矩阵(PSSM)是一种重要的特征，利用这个特征能有效地预测RNA-结合残基.Kumar等构建了利用支持向量机和PSSM 的模型［3］，预测得到的MCC值、准确率、特异性、敏感性分别为0.45，81.16%，89.55%和 53.05%.

目前构建分类器最重要的工作就是寻找到一些有效的分类特征，所以有必要先通过经典的统计学方法来分析已知结构的复合物中存在的结合规律，得到有效的序列和结构信息，提高分类器的性能.本文提出了一个新颖的特征PSSM-PP，该特征不仅包含蛋白质序列的进化保守信息，还包含了与蛋白质和RNA结合有关的氨基酸理化信息.与以前的相关工作相比，本文利用随机森林算法构建的预测模型最终达到了最优的结果.

1 数据及方法

1.1 数据采集

在本研究中，收集了Protein Data Bank数据库［4］中所有101个RNA-蛋白质复合物，这些复合物结构中至少包括一条氨基酸链和一条长度大于50个碱基的核酸链.利用NCBI中BLAST包中的blastclust程序来剔除这些RNA-蛋白质复合物中所有蛋白质序列数据集里的冗余蛋白质序列，此处设置25%的序列相似度为阈值.去冗余过程中，保留每类中最长的氨基酸序列.最终处理后得到的非冗余RNA-蛋白质数据集(RBP-180)包含了180条蛋白质序列.

与以前的研究相似［2，5-6］，在本次研究中使用了0.35 nm作为定义结合残基的距离阈值.在同一复合物中，氨基酸序列中的某个氨基酸残基如果包含一个原子与RNA分子中任一原子之间距离小于0.35 nm，那么这个氨基酸残基就定义为RNA-结合残基；否则，就定义为非结合残基.在数据集RBP-180中包含33282个残基，通过这个定义，最终获得3865个RNA-结合残基，其余29417个则为非结合残基.

本文将RBP-180数据集中的180条RNA-结合蛋白质序列随机分成一个训练集(RBP-123)和一个验证集(TS-57).训练集中所含的123条随机抽取的蛋白质序列包含了2068个RNA-结合残基和21164个非结合残基.剩余的57条蛋白质序列取作验证集，则验证集包含1797个RNA-结合残基和8263个非结合残基.

1.2 特征提取

模型建立所需的样本，是通过滑动窗口扫描RBP-180数据集中的蛋白质序列得到的.如果窗口的中央残基为RNA-结合残基，则该样本为正样本；如果中央残基为非结合残基，则该样本为负样本.当窗口长度为11时，发现其最终的预测效果是最好的.

本文将样本特征分为PSSM-PP、二级结构特征以及正交编码特征三大类.

1.2.1 PSSM-PP

本文提出了一个新的特征PSSM-PP，该特征包含了位置特异性矩阵和6种理化特性的信息，整合成一个新的矩阵.

PSSM是由BLAST包中的PSI-BLAST程序产生的一组序列谱.PSSM值由

标准化至0～1之间.本文中考虑了与RNA和蛋白相互结合有关的6种氨基酸理化特征(氨基PKa值、羧基 PKa值、孤电子对数目、Wiener值、Balaban值和最低自由能).这6种理化特征通过下式进行归一化:

式中，da(i)是第i类氨基酸第a种理化特征归一化后的数值；Pa(i)是第i类氨基酸第a种理化特征值；为第 a种理化特征20种氨基酸的平均值.

在PSSM-PP中，对于某种特定的理化特性a在第k个位置上的指标为

式中，fk(i)为PSSM对于第i种氨基酸在第k个位置上得到的归一化后的数值(由式(1)计算).通过这个定义，PSSM-PP特征为66(6×11)维向量.

1.2.2 二级结构特征(SS)

在蛋白质和RNA的相互作用中，蛋白质的结构会影响两者的作用模式.所以在本文中选取二级结构信息作为结构特征.在训练模型时，从pdb文件中获取蛋白质序列二级结构信息，而在预测新蛋白质序列时，残基的二级结构是通过PREDATOR程序［7］来预测的，具体编码方式为 α 螺旋(0，0，1)、β 折叠(0，1，0)和其他(0，0，1).因此二级结构为33(3×11)维向量.

1.2.3 正交编码特征(OBVs)

静电作用和疏水作用对RNA-蛋白质相互作用有影响，而静电作用和疏水作用与氨基酸的偶极矩和侧链体积紧密相关.按照其偶极矩和侧链体积以及蛋白质与RNA相互作用机制，将20种氨基酸分成6类，采用6维正交向量来编码每一类型.因此该特征可得到66(6×11)维向量.

1.3 随机森林算法

随机森林算法［8］最早是由Breiman提出的.随机森林算法的基本单元是决策树，它是决策树的集成，并且由随机向量决定决策树的构造.如果将决策树看成分类任务中的一个专家，则随机森林就是许多专家在一起对某种任务进行分类.

随机森林算法融合了Bagging和随机特征选取两大机器学习技术，因此拥有比以往算法更多的优势.

1.4 正负样本数量不平衡的处理方法

数据集中正负样本数量不均衡问题在许多实际的分类问题中存在.在本文中，正样本与负样本比例达到1∶8，存在明显的不均衡问题.解决这类问题的主要方式是发现那些数量少但很重要的样本.解决这类问题的方法主要可以分为2类:① 通过对样本进行预处理使不同类样本数量变得均衡(或增加小类样本的数量或减少大类样本的数量)；②对算法进行修改使其适于处理样本数量不均衡问题.Kubat等［9］提出了一种通过减少大类样本数量的方法.该方法把大类中所有的样本分成噪声样本、边界样本、冗余样本和安全样本4类.该方法的主要目的是创建一个只保留其中安全样本的子数据集.本文提出了一种类似的算法来处理数据集中正负样本数量不均衡的问题，通过减少大类样本数量算法的步骤总结如下:

①设Ω为初始训练数据集，φ为由Ω中所有负样本组成的数据集.

②ψ包含Ω中所有的正样本和从φ中随机挑选的1%负样本.

③利用随机森林算法和ψ训练得到的模型来预测φ中的所有样本，得到它们的F+值，其中F+表示每个样本得到的正投票数.

④重复步骤②和③，共10次.

⑤在10次重复中，φ中的样本如果50%的F+值位于1/10～1/5之间，则被认为是安全样本(因为ψ中正负样本数量的比为2068∶211).

⑥得到处理后的数据集ProRBP-123包含了所有的正样本和φ中的安全负样本.数据集ζ包含有2068个正样本和9381个负样本.

1.5 预测模型的评价指标

对于分类预测问题所预测的样本有4种情况:假阳性值(false positive，FP)、真阳性值(true positive，TP)、假阴性值(false negative，FN)和真阴性值(true negative，TN).其总体预测准确率(accuracy，ACC)、敏感性(sensitivity，SE)、特异性(specificity，SP)和Matthew相关系数(matthew's correlation coefficient，MCC)的定义如下:

ROC曲线［10］是反映敏感性和特异性连续变量的综合指标，通过构图法揭示敏感性和特异性的相互关系，能够直观地衡量预测结果的好坏.ROC曲线下的面积(area under curve，AUC)可反映诊断实验的准确性.这一指标取值范围在0.5～1之间，0.5则表示完全无价值的预测；1表示完全理想的预测；0.5～0.7表示预测准确率较低；0.7～0.9表示准确性中等；0.9以上表示准确性较高.

1.6 随机森林模型的构建和参数的选取

随机森林模型是由许多分类子树生长而成.为了判断新样本类别，先用特征向量表示该样本，再把这个特征向量放到每一颗子树中去判断.每一颗子树都会给一个判断结果，而最后该样本的类别取决于这些判断中投票最多的那个类别.

本文利用R语言中的randomForest包［11］来构建随机森林分类模型.

随机森林模型的构建过程中，参数的选取对于预测的性能有着十分重要的作用.单独用测试数据来决定参数容易产生泛化性.为了保证随机森林模型中的参数选取完全独立于测试数据，本文采用嵌套式交叉验证方法［12］.所谓的嵌套式交叉验证的过程，即构建一个外层交叉验证循环用来验证模型，并构建另一个内层交叉验证循环用来选择参数并训练模型.在整个验证过程中，训练数据集和测试数据集是完全独立的，随机森林会按照测试数据集得到的评价指标来选择最优模型.

2 结果与讨论

2.1 随机森林模型预测效果及特征讨论

不同特征组合构造的随机森林模型的预测特性如表1所示.以PSSM-PP为特征的随机森林模型准确率达到了85.87%，MCC值为0.5204.如果分别将残基的二级结构特征和正交编码特征与PSSM-PP特征结合，所建立模型的性能也得到了一定的提高.当PSSM-PP与二级结构结合时，准确率达到86.85%；当PSSM-PP与正交编码特征结合时，准确率达到86.18%.由此也能说明，二级结构信息和正交编码特征的确在RNA与蛋白结合过程中起到了重要的作用.如果将这些特征结合起来，则模型得到了最佳的预测效果:准确率达到87.02%，MCC值为0.5336，AUC 值为0.8593.

位置特异性矩阵(PSSM)这一特征体现了蛋白质序列的进化保守性.在以往相关的预测工作中可以发现，PSSM对正负样本的分类起到极其重要的作用.本文研究改进了PSSM这一特征，将蛋白质的进化保守性与理化特征的保守性有机结合在一起，使得这个特征体现出了更多的RNA与蛋白质的结合信息.在构建PSSM-PP特征时，所选取的理化特征均是与RNA和蛋白相互作用有关的特征，是经过多次实验筛选得到的.由表2可以发现，利用PSSM-PP构建的预测模型准确率达到了82.47%，MCC值为0.3162；利用PSSM 构建的预测模型的准确率和MCC值分别为80.85%和0.2853.由此说明，与PSSM相比，利用PSSM-PP这一全新的特征区分正负样本的效果会更好.此外，对照表1和表2，将原始数据集RBP-123利用PSSM-PP特征构建模型得到的预测结果与处理后的数据集ProRBP123利用同一特征构建模型的预测结果相比较可知，显然处理后的数据集对区分正负样本有更大的优势.由此可见，本文对正负样本不均衡问题的处理能够提高预测的性能.

二级结构特征体现了蛋白质序列的空间结构的信息，而蛋白质的结构能够决定功能，在蛋白质和RNA相互作用过程中，蛋白质的结构势必会影响两者之间的相互作用.正交编码信息(OBVs)包含了静电作用信息和疏水作用信息，这2个信息对蛋白质和RNA的相互作用也存在着一定影响.因此，本文选取氨基酸的二级结构信息和正交编码信息作为特征能够提高模型的预测能力.

表1 不同组合特征构建的随机森林模型的预测效果

表2 利用不同特征构建随机森林预测模型的预测结果

2.2 与其他方法的比较

近年来，支持向量机已被成功运用于模式识别和数据挖掘领域.本文选用支持向量机和随机森林模型进行比较.2种分类模型都基于相同的训练集ProRBP-123、相同的组合特征和相似的嵌套式交叉验证方法.ROC曲线结果表明，支持向量机分类器(AUC0.8521)的效果略低于随机森林分类器(AUC0.8685)(见图1).由于2个分类器预测效果相似，而随机森林模型计算速度快且对参数的鲁棒性好，因此本文选用了随机森林来构建预测模型.

Wang等［13］利用3种氨基酸的理化特性作为特征，其中包括边链PKa值、疏水性和分子量，并利用支持向量机作为分类器建立了预测模型，用来预测RNA-结合残基，并基于此模型开发了名为BindN的在线预测平台.Tong等［2］利用位置特异性矩阵表示进化信息作为特征，以支持向量机作为分类器，建立了预测RNA-结合残基的在线平台RISP.利用独立的数据集TS-57作为验证集将这3种方法的预测结果进行比较.这3种方法都是以0.35 nm为距离阈值来定义RNA-结合残基.ROC曲线结果表明，BindN，RISP和随机森林模型的AUC 值分别为0.6621，0.7336，0.7641(见图2)，由此说明本文得到的随机森林构建的预测模型达到了最好的预测性能.

图1 2种分类算法取得的曲线

图2 3种预测模型基于TS-57得到的ROC曲线

3 结语

利用随机森林算法和全新的特征，构建了基于蛋白质序列预测RNA-结合残基的模型.构建该模型时使用的全新特征PSSM-PP，不仅包含了位置特异性矩阵(PSSM)所含有的进化保守特征，还包含了若干氨基酸理化特征的保守信息，而这些理化特征均是与RNA和蛋白质相互结合有关的特征.通过研究可以发现，利用PSSM-PP特征构建的预测模型与原PSSM特征构建出的模型相比，前者的预测效果明显高于后者.由此也能够说明，新的PSSM-PP特征能够更好地区分正负样本，对预测模型的建立提供了更有效的工具.最终利用PSSM-PP特征，结合正交编码信息和二级结构信息，通过随机森林构建出分类模型，取得了很好的预测效果，总体预测准确率达到87.02%，特异性达到95.62%，敏感性达51.16%，Matthew相关系数为0.5336.通过与前期RNA结合残基的预测工作相比较，可以发现，本文的工作达到了最优的预测效果.此外，构建出了RNA结合残基的预测平台［14］，从而便于今后蛋白质方面研究工作的应用.

References)

［1］Jeong E，Chung I F，Miyano S.A neural network method for identification of RNA-interacting residues in protein［J］.Genome Inform，2004，15(1):105-116.

［2］Tong J，Jiang P，Lu Z H.RISP:a web-based server for prediction of RNA-binding sites in proteins［J］.Comput Methods Programs Biomed，2008，90(2):148-153.

［3］Kumar M，Gromiha M M，Raghava G P.Prediction of RNA binding sites in a protein using SVM and PSSM profile［J］.Proteins，2008，71(1):189-194.

［4］Berman H M，Westbrook J，Feng Z，et al.The protein data bank［J］.Nucleic Acids Res，2008，28(1):235-242.

［5］Ma X，Guo J，Wu J S，et al.Prediction of RNA-binding residues in proteins from primary sequence using an enriched random forest model with a novel hybrid feature［J］.Proteins，2011，79(4):1230-1239.

［6］Cheng C W，Su E C，Hwang J K，et al.Predicting RNA-binding sites of proteins using support vector machines and evolutionary information［J］.BMC Bioinformatics，2008，9(supp 12):S6

［7］Frishman D，Argos P.Seventy-five percent accuracy in protein secondary structure prediction［J］.Proteins，1997，27(3):329-335.

［8］Breiman L.Random forests［J］.Machine Learning，2001，45(1):5-32.

［9］Kubat M，Matwin S.Addressing the curse of imbalanced training sets:one-sided selection［C］//Proceedings of the Fourteenth International Conference on Machine Learning.San Francisco，CA，USA:Morgan Kaufmann Publishers，1997:179-186.

［10］Swets J A.Measuring the accuracy of diagnostic systems［J］.Science，1988，240(4857):1285-1293.

［11］Liaw A，Wiener M.Classification and regression by random Forest［J］.R News，2002，2(3):18-22.

［12］Scheffer T.Error estimation and model selection［M］.Berlin:Technischen University，1999:74-82.

［13］Wang L，Brown S J.BindN:a web-based tool for efficient prediction of DNA and RNA binding sites in amino acid sequences［J］.Nucleic Acids Res，2006，34(supp 2):243-248.

［14］Ma X，Guo J.RNAPre-RF［EB/OL］.(2011-06)［2011-11］.http://www.cbi.seu.edu.cn/RNAPre-RF/.