APP下载

BMBQA:融合MCNN和BiGRU的蛋白质模型质量评估算法

2022-07-06聂良鹏权丽君吴庭芳孙晓雨何如吉

小型微型计算机系统 2022年7期
关键词:卷积蛋白质特征

聂良鹏,权丽君,吴庭芳,孙晓雨,何如吉,吕 强

(苏州大学 计算机科学与技术学院,江苏 苏州 215006) (江苏省计算机信息处理技术重点实验室,江苏 苏州 215006)

1 引 言

蛋白质是生命的物质基础,生物机体几乎所有的生命活动都需要蛋白质的参与.目前,蛋白质测序已成为一项常规的实验手段,但很难通过序列信息来获得蛋白质结构及其相关的功能信息以助于生物医学的应用研究.然而,通过实验的手段来识别蛋白质的结构非常的繁琐和昂贵.因此,使用计算手段预测蛋白质三维结构,常被作为生化实验的一种补充手段,用来帮助我们在实验结构未知的情况下了解蛋白质的生化功能.蛋白质质量评估(Quality Asessment,QA),通过对蛋白质模型进行评分以挑选尽可能接近天然结构的蛋白质模型,是蛋白质结构预测方法的重要组成部分.由于QA问题的解决对于生物医学领域的重要性,它于2006年第7届蛋白质结构预测技术关键评估比赛(Critical Assessment Of Techniques For Protein Structure Prediction,CASP[1])中成为了一个独立的开放比赛单元[2],利用预测服务器提交的蛋白质预测模型对来自世界各地最先进的QA方法进行评测.其中,作为有监督算法问题,各类QA方法既可预测单一的全局结构精度分数,也可预测每个残基的局部结构精度分数,而大多数的方法会通过平均残基局部分数来计算全局分数.

QA方法分为单一方法和集成方法两大类[3].单一方法是指仅使用自己构建的评估方法对蛋白质模型进行评分,主要有以ProQ2[4],ProQ3[5]为代表的传统机器学习方法和以ProQ3D[6],ProQ4[7],MULTICOM-NOVEL[8]为代表的深度机器学习方法.ProQ2,ProQ3使用了大量人工微调过的蛋白质模型特征,并且所有的特征都被优化在与蛋白质模型大小无关的有限范围内.这些特征被用于训练使用线性核函数的支持向量机(SVM).然而,ProQ2和ProQ3不能识别特征之间更复杂的非线性关系.近年来,基于深度神经网络的机器学习已被证明优于传统机器学习方法.深度网络能够识别输入特征之间的非线性关系.随着3D蛋白质数据的不断增长,基于深度学习的QA方法也得了快速发展[9].ProQ3D使用了与ProQ2和ProQ3相同的输入,但是使用多层感知机(Multi-Layer Perceptron,MLP)代替线性支持向量机,其结果得到了实质性的改善.为了利用局部特征的空间分布,使得深度网络可在局部范围上进行真实值和预测值的比较,ProQ4,MULTICOM-NOVEL实现了由残基局部结构分数训练的1D 卷积神经网络(Convolution Neural Network,CNN),提高整体的预测性能.然而CNN并无法有效的提取残基上下文之间的长程相互作用.集成方法是指构建的QA方法集成了很多专家构建的先进方法,在此基础上输出评分,以达到更加准确的结果,有以ModFOLD7[10],MULTICOM[11]为代表的机器学习方法.ModFOLD7服务器集成了10种单一方法的输出结果,包括MetaPSICOV[12],PSIPRED[13],ProQ2,ProQ2D,ProQ3D,VoroMQA[14],DISOPRED[15],ModFOLDclust_single,ModFOLDclustQ _single[16]以及ResQ[17].MULTICOM服务器将12种先进的QA方法(SBROD[18],OPUS_PSP[19],RF_CB_SRS_OD[20],Rwplus[21],DeepQA[22],ProQ2,ProQ3,Dope[23],Voronota[24],APOLLO[25],Pcons[26],ModFOLDclust2)输出的精度分数和残基接触结果进行集成,用于预测蛋白质模型的全局精度分数.

目前,蛋白质模型质量评估相对于自然语言,图像处理研究领域而言,只探索了深度学习方向的较为浅层的应用.本文为了探索基于深度学习框架的更精确的QA方法,提出了一个基于多尺度卷积神经网络(Multiscale Convolution Neural Network,MCNN)和双向门控循环神经网络[27](Bidirectional Gated Recurrent Unit,BiGRU)的深度模型,并将该方法命名为BMBQA(Quality Assessment Base on MCNN-BiGRU).由于在图像处理领域表现优异的MCNN可以更好的把浅层特征中的细节信息和深层特征中的抽象信息进行融合,因此我们认为它可能在生物领域也存在很大的优势.本文使用CASP7-12历届比赛中各组提交的蛋白质模型进行训练.首先使用Pyrosetta[28]和Psiblast[29]对每个蛋白质模型进行残基级别上的各类属性特征的提取,然后将其输入到MCNN中进行不同尺度的局部细节特征和抽象特征的提取,之后再将其输入到BiGRU中进行双向的运算累积以得到每个残基的全局特征表示,最后输出评分,分值越大代表该蛋白质模型越接近天然蛋白质结构.此外,通过加入了蛋白质数据库(Protein Data Bank,PDB)中与当前训练蛋白质同源的众多天然蛋白质,以达到数据增强的目的,从而提高了BMBQA挑选目标蛋白质中最优蛋白质模型的能力.最后,BMBQA利用CASP13中的数据集与当前先进的12种单一方法进行比较,在4个经典的评价指标中均排名前三,实验结果说明BMBQA在QA领域具有较强的竞争力和先进性.

2 实 验

如图1所示,本文将蛋白质模型(Protein model)作为输入,首先将其通过基于Pyrosetta和Psiblast的特征预处理程序(Feature Preprocessing),获得蛋白质模型对应的序列,结构和能量特征;然后将这些特征组成特征矩阵(Feature Matrix)作为BMBQA模型的输入,最终预测出蛋白质模型的全局结构精度分数Global Distance Test_Total Score(GDT_TS)[30].BMBQA使用基于MCNN-BiGRU的深度学习框架,对蛋白质模型进行局部细节信息和抽象信息以及残基全局特征的提取,以便更好的进行精度评估.

图1 实验流程图Fig.1 Experiment flow chart

2.1 实验数据

2.1.1 CASP数据集

本文使用CASP7~12比赛中来自世界各个小组和自动服务器提交的蛋白质模型来构建训练集和验证集.对于每个目标蛋白质来说,都存在上百个由不同的蛋白质模型预测器提交的蛋白质模型.其中训练集使用了561个目标蛋白质下的309619个蛋白质模型,验证集使用了29个目标蛋白质下的15318个蛋白质模型,且训练和验证数据已保证不同源.对于测试集,本文在CASP13的基准上,对阶段2比赛中的33个目标蛋白质下的4949个蛋白质模型进行评分.

数据标签,即衡量蛋白质模型与天然蛋白质之间的相似程度大小,使用的是GDT_TS.GDT_TS是指天然蛋白质和蛋白质模型叠加之后,对应原子的均方根误差(Root mean squared Error,RMSD)小于1,2,4,8Å得到的最大原子比例的平均值.相对于传统的RMSD而言,GDT_TS的结果更加稳健.CASP在QA结果生成中,GDT_TS被当做主要的度量精度[31].通常,GDT_TS越高,蛋白质模型预测的越好.本文使用LGA[30](Local-Global Alignment)来生成标签GDT_TS,这与CASP评测中心的使用是一致的.

2.1.2 数据增强

由于训练数据是由历届CASP比赛中的蛋白质模型组成的,所以数据分布存在不平衡的现象,劣质的蛋白质模型(GDT_TS<40)多于优质的蛋白质模型(GDT_TS≥40).为了解决这一问题,首先,我们将众多蛋白质模型对应的天然蛋白质加入数据集中;接着,既是为了扩充数据,平衡数据集,也是为了给BMBQA在训练时树立更多的天然蛋白质榜样(GDT_TS=100),本文利用blastp[32]获取训练集蛋白质模型的众多同源蛋白,将其加入训练数据中.blastp可将目标蛋白质序列与PDB中的库序列进行一对一的序列比对.我们将PDB中与训练集蛋白质序列的相似度超过30%的同源蛋白加入训练数据中.

为防止从PDB中加入的同源蛋白同样和测试集中的目标蛋白质存在高度相似,破坏与对标方法之间的比较公平性,我们将测试集中的目标蛋白质序列与同源蛋白序列进行序列比对,筛除掉与测试集有同源性的数据后,用剩余的3387个同源蛋白进行数据增强.本文希望通过加入众多榜样蛋白质来让BMBQA学习到更多优质蛋白质模型应该具有的特性,提高BMBQA挑选最优蛋白质模型的性能.

本文将未进行数据增强的数据集称为DataSet1,数据增强后的数据集称为DataSet2.在不同的数据集上训练出来的BMBQA具有不同的性能.

2.2 特征预处理

如图2所示,通过基于Pyrosetta的蛋白质处理程序,生成该蛋白质模型对应的残基序列(Sequence)和整体总能量值(Tot Energies),以及每个残基对应的二级结构(Secondary Structure,SS),二面角(Dihedral Angle)和原子三维坐标(ATOM Coordinate),以及能量值(Energies).通过Psiblast来生成位置特异性打分矩阵[33](Position Specific Scoring Matrix,PSSM).基于这些不同类别特征的组合,得到BMBQA的特征输入矩阵.

图2 蛋白质模型特征预处理Fig.2 Feature preprocessing of protein model

2.3 BMBQA模型设计

2.3.1 输入与输出

BMBQA模型结构如图3所示,其中的一个输入是900×77的特征矩阵,其中900是指蛋白质残基序列的长度,77为每个残基特征的维度,在长度未满900的序列首尾填充上0使之等长,残基序列使用one-hot进行编码.通过不同类别特征的组合得到:残基级别上所有特征的组合(Mixed features);由Sequence和PSSM组成的序列特征(Sequence features);由SS,Dihedral Angle,ATOM Coordinate组成的结构特征(Structure features);以及每个残基的能量项特征(Energies features).另一个输入是1×19的Tot Energies,代表整个蛋白质模型的19种总能量项的值.模型的输出是[0,100]范围的GDT_TS.

图3 BMBQA结构图Fig.3 Structure of BMBQA

2.3.2 浅层特征提取(Shallow feature extraction)

基于残基的各类特征矩阵可看做是多通道的一维图像,我们可用1D CNN来进行特征提取.BMBQA先将Mixed features输入到卷积核大小为1×64的1D CNN中,其中1是指1D卷积核的长度,64指卷积核的个数.通过长度为1的卷积核来实现跨通道的特征信息的整合,将不同的残基属性特征进行融合得到新的特征图表示.紧接着对特征图使用卷积核大小为5×64的卷积操作,每次对5个残基的特征向量进行卷积,提取到浅层特征图表示.

2.3.3 多尺度卷积(MCNN)

将浅层特征输入到MCNN中得到浅层特征中的细节信息和深层特征中的抽象信息的融合输出.MCNN的结构如图4所示,模块中有4条线路,每条线路都叠加有不同层数且不同卷积核尺寸的CNN,所以每条线路的卷积感受野是不同的,在每条线路上可以描述在不同尺度上的蛋白质模型质量特征.在图像处理领域,认为浅层的卷积网络感受野小,分辨率高,可以提取到浅层的能准确描述图片的细节信息;随着卷积网络的不断加深,感受野的不断变大,提取的图像特征逐渐转化成更加抽象的符合人类大脑感知的深层特征,将细节信息和抽象信息进行融合可以很好的对图像问题进行处理[34],本文认为这个理论同样适合生物领域.模块中的第1、第2条线路,有较少层的CNN和较小的卷积感受野,通过它们来提取蛋白质序列中更加精细的局部细节信息;第3、第4条线路中有较多层的CNN,卷积感受野也相对较大,通过它们来提取蛋白质序列中更深层次的局部抽象信息.将这4条线路输出的局部细节信息和局部抽象信息进行融合,再通过卷积核尺度为1的CNN提取到新的特征.为最大程度的保证信息不丢失,我们进行跳跃连接,将MCNN的输入和输出进行相加,再通过最大池化层(MaxPooling)来降低特征的维度.

图4 多尺度卷积模块Fig.4 Multiscale convolution module

2.3.4 双向门控循环神经网络(BiGRU)

蛋白质是氨基酸脱水缩合形成的多肽链经过盘曲折叠形成的具有一定空间结构的物质,所以每个残基在空间位置上可能既与它前面的残基有相互作用,又与它后面的残基相关.因此,我们将特征输入到BiGRU中.BiGRU每个节点的输出是由该节点的输入与其左右相邻的节点经过特征累积计算得到的.BiGRU可以根据上下文得到每个残基的全局特征.

2.3.5 特征拼接(Concatenate)

Mixed features在进行MCNN和BiGRU之后会导致不同类别属性独立特征信息的丢失,包括Sequence features,Structure features,Energies Features,我们又单独对它们进行了特征提取,然后与Mixed features的输出进行特征拼接,输入到非线性的MLP中.BMBQA中加入了Dropout[35]层来进行一定概率的屏蔽神经元的运算,防止出现过拟合现象;还加入了Batch Normalization[36]层来防止梯度消失,加快训练收敛.最后输出范围为[0,100]的GDT_TS全局评分,分值越高,表明蛋白质模型结构越接近天然蛋白质结构.

2.4 模型训练

对于BMBQA的训练,我们使用TensorFlow2作为深度学习框架,在Ubuntu系统环境下使用NVIDIA GeForce GTX 1080ti的GPU作为计算单元,使用Adam[37]优化器来指导模型的训练,利用早停机制(Early stopping)来训练模型最好的泛化性能,以便更好的拟合数据.

模型的损失函数为:

(1)

3 结 果

3.1 评价指标

(2)

(3)

(4)

Difference from the best[9]指标如公式(5)所示,best为目标蛋白质中最优蛋白质模型对应的GDT_TS分数,top是指QA方法挑选出来的最好的蛋白质模型对应的GDT_TS分数,两者的差值代表了QA方法挑选最优蛋白质模型的性能,值为0代表该目标蛋白质下刚好挑选到了最优的蛋白质模型,值越大代表QA方法的性能越差.QA方法最终的应用是对同一目标蛋白质下的蛋白质模型进行排序,来挑选最优的蛋白质模型进行生物医学研究应用,所以该指标性能至关重要.

Differencefromthebest=|best-top|

(5)

3.2 性能分析

3.2.1 DataSet1

本文首先在DataSet1上训练BMBQA,并在4个评价指标上与12个单一方法进行比较.结果如图5和表1所示.

图5展示了13种方法的Pearson相关系数和Spearman相关系数的数值分布及均值.从图中可以看到,BMBQA的Pearson相关系数均值得分为0.719,排名第2.Spearman相关系数均值得分为0.690,排名第一.说明BMBQA相对其他QA方法来说具有很强的竞争力,体现了BMBQA的先进性.

图5 相关性箱形图Fig.5 Correlation box-plot

表1 13种方法性能比较表Table 1 Performance comparison of 13 methods

表1中展示了BMBQA在Differences与Difference from the best两个指标上的比较结果.相比较两个相关系数排名而言,两个误差指标的排名没有太靠前,但是从指标数值范围来说仍与对标方法具有竞争力.

3.2.2 DataSet2

本文在DataSet2上重新训练BMBQA,在加入众多的榜样蛋白质数据后,BMBQA学习到了更多优质蛋白质应该具有的特性,提高了自身在目标蛋白质中挑选最优蛋白质模型的能力,Difference from the best指标排名上升到了第1名,如图6所示.我们还发现在目标蛋白质T1009上的Difference from the best指标得分为0,说明我们在该目标蛋白质上挑选到了完全正确的最优蛋白质模型,T1009的蛋白质结构如图7所示.

图6 Difference from the best条形图Fig.6 Difference from the best bar chart

图7 T1009蛋白质结构Fig.7 Protein structure of T1009

图8展示了每个QA方法在Difference from the best指标上误差小于1、1-10、以及大于10的目标蛋白质数占总目标蛋白质数的百分比.一个先进的QA方法应该在误差小于1这部分上尽可能多的占有百分比,而在大于10这部分上应尽可能少的占有百分比.BMBQA的实验结果中,小于1的目标蛋白质占总目标蛋白质的20.8%,1-10的目标蛋白质占总目标蛋白质的50%,大于10的目标蛋白质占总目标蛋白质的29.2%.如图8所示,BMBQA方法在Difference from the best指标百分比排名上仍然位居首位,说明BMBQA在挑选最优蛋白质模型能力方面优于其他QA方法.

图8 Difference from the best百分比图Fig.8 Difference from the best percentage chart

数据增强使得BMBQA极大程度的提高了挑选最优蛋白质模型的性能,但这是以其余3个指标的损失为代价的,Pearson相关系数,Spearman相关系数,Differences指标都有一定程度的损失.

3.2.3 BMBQA_Comb

本文认为在DataSet1上训练的BMBQA侧重于评分的相关性指标性能,将其命名为BMBQA_Corr.而在DataSet2上训练的BMBQA侧重于目标蛋白质中最优蛋白质模型的挑选,将其命名为BMBQA_Select.为了更好的结合两个深度模型各自的优点,我们在对蛋白质模型进行评分时,将两个深度模型的输出进行融合,来重新得到新的评分结果,作为最终输出,将融合后的方法命名为BMBQA_Comb.3个方法在4个评价指标上的比较结果如表2所示.BMBQA_Comb在CASP13的基准上,与12个QA方法进行比较排名,Pearson相关系数排名第二,Spearman相关系数排名第一,Differences排名第三,Difference from the best排名第一.说明了BMBQA方法不管在评分的准确性上,还是蛋白质模型排序能力上,以及挑选最优蛋白质的性能上相对其余的QA方法都有很强的竞争力.

表2 3种方法的性能比较Table 2 Performance comparison of 3 methods

3.3 多尺度卷积的有效性分析

为了研究MCNN的重要性,本文以MCNN为变量做了对比实验,在DataSet2上进行训练,所得结果如表3所示.可以看到使用MCNN之后,4个评价指标性能均有提升.说明将浅层特征中的局部细节信息和深层特征中的局部抽象信息进行结合,不仅在图像领域有效,在生物领域同样适合.

3.4 讨 论

CASP13测试结果中,Pearson和Differences指标并未排在首位,说明本文训练的BMBQA模型还存在一定的缺陷.

1)训练BMBQA的数据集偏小,深度学习需要大数据来学习特征,而本文只使用了590个目标蛋白质下的数据进行训练,易造成BMBQA泛化性不足.

2)尽管本文已进行数据增强,但并未完全解决数据分布不平衡的现象,导致BMBQA对劣质蛋白质模型的质量评估相对于优质蛋白质模型更加准确,且导致高质量蛋白质模型(GDT_TS>80)的预测评分普遍偏小,如图9所示.

图9 预测GDT_TS和真实GDT_TS比对图Fig.9 Plot of predicted GDT_TS against the true GDT_TS

3)蛋白质二级结构可分为α-螺旋,β-折叠以及loop-环区.本文的训练数据中70%的蛋白质模型都是α-β-loop结构,α-loop和β-loop结构的蛋白质模型相对较少,造成BMBQA对这两类结构的蛋白质模型预测较差,如图10所示,T0950目标蛋白质只有α和loop结构,其目标下的蛋白质模型Pearson相关系数只有0.244.后续可以使用更多的目标蛋

图10 T0950蛋白质结构Fig.10 Protein structure of T0950

白质,并通过3DRobot[38]生成数据分布更加平衡的数据集训练更加泛化的BMBQA模型,同时也需要平衡3种二级结构类别的目标蛋白质数量.

3.5 小 结

可靠的评估蛋白质模型的质量分数对识别最佳的蛋白质模型和在生物医学领域使用它们起到至关重要的作用.为了实现更精确的QA方法,本文提出了一个基于多尺度卷积和双向门控循环神经网络的BMBQA深度模型.在CASP13盲测试基准上与其余的QA先进方法进行比对,结果表明不管是评分的准确性还是蛋白质模型的排序能力,亦或是挑选最优蛋白质模型的性能上都与当下先进的方法具有较强竞争力,每个评价指标BMBQA均位列前三名,体现了该方法的有效性和稳定性.此外,本文还展示了BMBQA框架中的多尺度卷积模块融合蛋白质序列浅层特征中的局部细节信息和深层特征中的局部抽象信息在生物领域的适用性,以及双向门控循环神经网络捕获长距离的残基相互作用的重要性.

为了进一步弥补不足,未来将进一步研究如何扩充数据集以达到数据平衡的目的,尝试使用网格化蛋白质3D结构丰富特征信息,最后尝试使用3D CNN和自注意力机制[39](Self-Attention)等深度学习手段进行特征提取,以获得更准确的蛋白质质量评估.

猜你喜欢

卷积蛋白质特征
基于全卷积神经网络的猪背膘厚快速准确测定
基于FPGA的卷积神经网络加速优化方法
蛋白质自由
基于图像处理与卷积神经网络的零件识别
人工智能与蛋白质结构
基于深度卷积网络与空洞卷积融合的人群计数
抓特征解方程组
不忠诚的四个特征
春天来啦(2则)
抓特征 猜成语