APP下载

基于深度卷积神经网络的无序蛋白质功能模体的识别

2018-06-26

关键词:模体无序残基

 , , , ,

(1. 山东理工大学 计算机科学与技术学院, 山东 淄博 255049; 2. 山东大学 山东省软件工程重点实验室, 山东 济南 250000)

天然无序蛋白质是一类柔性极强的蛋白质,它们在未绑定到其他分子时,处于不折叠的松散状态却具有正常的生物学功能,不仅广泛参与各种重要的生理与病理过程, 而且与神经退行性疾病和癌症的关系非常密切[1-2]。天然无序蛋白质在生物体内普遍存在,并且生命形式越高级其含量越多[1-2],特别是在人类细胞中,大约30%~50%的蛋白质完全无序或包含显著无序片段[3]。虽然无序蛋白质在单独存在状态下无折叠,但是当绑定到其分子伴侣上时,其中的某些片段会发生从无折叠到折叠的状态改变,通常把这些能改变状态的片段称为分子识别特征(molecular recognition features,MoRF)[4],也称功能模体。同一个MoRF可以与多个不同的分子对象绑定而呈现不同的二级结构折叠状态。MoRF很容易形成蛋白质相互作用网络中的“集线器”[5],是蛋白质相互作用网络中的关键点,因此,识别MoRF在无序蛋白质序列中的位置,对理解蛋白质的功能,研究蛋白质折叠机制和相关疾病的致病机理及寻找药物靶点至关重要。

物理实验方法识别无序蛋白质功能模体具有难度大、 成本高、 耗时长(无序片段在X射线晶体衍射图上电子密度缺失)的缺陷, 而计算机辅助方法能极大地降低成本和缩短耗费时间, 并且为在大数据的基础上进行分析提供可能, 是必不可少的方法。 天然无序蛋白质和MoRF没有固定的折叠结构, 能用的结构特征信息有限, 因此, 基于序列特征的预测方法受到了广泛关注。 目前人们提出一些基于序列特征来预测无序蛋白质MoRF序列位置的方法, 其中, 代表性的方法有MoRFpred[6]、 ANCHOR[7]、 MFSPSSMpred[8]、 Retro-MoRFs[9]、 MoRFCHiB[10]和MoRFPred-plus[11]。这些方法将从其他预测工具得到的大量结果作为输入特征,例如,预测的残基无序倾向概率、二级结构特征、溶剂可及表面面积和二面转角等。大量采用预测的特征值进行串联后再次作为输入,容易造成特征空间的高维稀疏而导致“过拟合”问题,并且极大地增加了算法的复杂度。另外,传统算法将特征抽取和机器学习训练作为2个独立的过程进行,先采用各种统计分析方法提取特征并人工进行预处理,再进行二次编码来生成特征向量作为机器学习的输入,然后进行学习训练,没有考虑特征抽取和机器学习过程之间存在着潜在的不匹配效应,而且人工特征工程也容易导致特征抽取的不全面,因此,有必要提出更加简单、高效的算法来改进无序蛋白质功能模体的预测。

先前的研究[7,12]表明,无序蛋白质功能模体具有特定的序列保守性模式,它是由高度保守残基夹杂着高度可变的残基构成的。高度保守是为了维护特定的功能,而高度可变是为了维护无序结构的灵活性。在结合分子伴侣时,并不是所有残基贡献都一样,只有一些特定的残基模式在分子识别中有贡献,因此,功能模体在蛋白质序列的特征表达中具有特定的模式。

目前,随着人工智能热潮的到来,深度学习受到了高度关注,而深度卷积神经网络(deep convolutional neural networks, DCNN)被视为深度学习的支柱。DCNN最初是被设计用来处理图像像素矩阵中的空间局部关联性[13]。它直接以原始图像作为输入,避开传统识别算法中复杂的特征提取和数据重建过程,隐式地从训练数据中自行抽取特征进行学习。DCNN取得成功的关键是卷积算子能够充分利用图像像素矩阵中密集表示的数据的空间局部相关性[13]。因为这种局部相关性不是图像数据所特有的,任何能表示成矩阵形式的其他类型的数据也具有这类属性,所以DCNN在自然语言、声音、视频等多个领域的应用取得了巨大成功。另外,DCNN不像传统算法那样把特征提取和模型学习作为2个独立的步骤进行,而是交织在一起同时进行,这样可以减少特征提取和模型学习之间潜在的不匹配效应[13]。

本文中采用类似于图像的表示方法(像素矩阵)来表示蛋白质序列(特征矩阵),序列中的功能模体的模式信息也必然包含在该序列所对应的特征矩阵中,所以DCNN也适用于蛋白质中功能模体的序列模式识别问题。基于此本文中提出一种简单的序列表示方法来描述蛋白质的序列信息,并采用DCNN构建模型进行无序蛋白质功能模体MoRF的预测。

1 数据和方法

1.1 数据集

本文中所使用的数据集分为3个部分,即训练集、验证集和测试集,均来自于文献[6]中所使用的数据集。其中训练集取自于421条蛋白质多肽链,包含了5 396个正样本(MoRF残基) 和240 588个负样本(非MoRF残基)。为了解决正、负样本的严重不平衡问题,从负样本中随机抽取了与正样本等量的样本数与正样本合并到一起组成训练集。验证集由419条包含MoRF的蛋白质多肽链构成,测试集由45条包含MoRF的蛋白质多肽链构成。验证集、测试集与训练集的序列相似度均小于30%。上述数据集的统计见表1。

表1 数据集的统计

1.2 蛋白质序列特征表示

本文中使用了2类特征来表示蛋白质序列,即位置性特异性打分矩阵(position specific scoring matrix,PSSM)和氨基酸特征系数。

1)PSSM。本文中使用PSI-BLAST (position specific iterative basic local alignment search tool)命令[14],设置迭代次数为3,比对美国国家生物技术信息中心的非冗余序列数据库来生成PSSM文件。每条长度为l的蛋白质肽链可得到一个l×20型的矩阵(l为蛋白质序列的长度)。该矩阵主要用来代表序列中氨基酸的保守性特征,其元素值分布在[-16,16]之间,元素数值越大,表示保守性越强。

2)氨基酸特征系数。本文中使用了3类特征系数来表示氨基酸特征(图1),分别来自文献[15]中的10种木寺系数(k1—k10)、文献[16]中的5种特征系数(f1—f5)和文献[17]中的7种特征系数(p1—p7)。这些特征系数在相关文献里被认为是能比较丰富地表达氨基酸的各种理化特征信息和微观结构特征信息。这样,每条蛋白质序列可表示为一个l×(10+5+7)型,即l×22型的矩阵。

黄色背景的k1—k10、绿色背景的f1—f5和蓝色背景的p1—p7分别代表了不同类的特征系数,每类分别包含了3×20个、5×20个和7×20个系数常量。图1 3类氨基酸的特征系数

1.3 蛋白质序列的编码方式

用PSSM及3组氨基酸特征系数矩阵横向连接到一起来表示蛋白质序列特征,每条长度为l的蛋白质序列对应到一个l×(20+10+5+7)型,即l×42型的矩阵。采用滑动窗口切分该矩阵,为每个残基产生一个特征矩阵作为神经网络模型的输入。无序蛋白质MoRF片段的长度一般分布在5~25个残基之间,为了让每个残基可能对应的MoRF片段的信息都完整地包含在该滑动窗口内,本文中采用长度为51的滑动窗口(每个残基两侧各取25个残基)来切分序列所对应的特征矩阵。通过这种编码方式,每个残基的特征信息即被表示成一个51×42型的矩阵。

1.4 方法的流程图

本算法的流程图如图2所示。 首先, 由蛋白质序列得到PSSM, 并计算序列对应的3类特征系数(k1—k10、f1—f7和p1—p5)。 用上述PSSM和各种特征系数横向连接来表示蛋白质序列, 使每条长度为l的蛋白质序列对应于一个l×42型的矩阵; 然后, 通过滑动窗口提取每个残基对应的特征矩阵块作为DCNN模型的输入; 最后, 将DCNN模型的输出概率值进一步通过平滑处理, 产生最终的预测结果。

1.5 深度卷积神经网络的结构

本文中采用的DCNN结构如图3所示,3个卷积层(卷积核大小为3×3)、3个丢失层(丢失率为0.2)和3个下采样层(窗口大小为2×2)分别交织在一起,最后再接上2个全连接层,并在全连接层中间也插入1个丢失层(丢失率为0.2)。除了输出层的激活函数为Sigmoid, 用来产生预测概率值外, 其他各层的激活函数均为Relu,模型训练时损失函数为Binary_crossentropy,优化函数为RMSProp。

1.6 评价指标

本研究属于二分类问题,即判断某个氨基酸残基是否属于无序蛋白质的MoRF片段。感受性曲线(receiver operating characteristic curve, ROC)及曲线下的面积(area under curve, AUC)值被用来作为算法的评价指标。AUC值越大,即ROC下的面积值越大,说明该分类器的性能越好。在ROC图中,每个点的横坐标为假阳性率(FPR),代表将负样本错分为正样本的概率;纵坐标为真阳性率(TPR),代表将正样本分对的概率。另外, 正确指数又称约登(Youden)指数,也被用来作为评价指标之一。该指数为正样本分对的概率与负样本分对的概率之和减去1,表示分类器对样本预测正确的总能力,指数越大,性能越好。

2 结果与分析

2.1 平均化处理滑动窗口的优化

因为无序蛋白中的功能模体是一个连续的序列片段而不是单个的氨基酸, 所以本文中采用滑动窗口对DCNN模型的输出概率值进行平滑的优化处理, 即对每个残基取包含其两侧一定长度内的残基预测概率的平均值作为该中心残基的最终预测结果。 为了优化平均化滑动窗口的大小, 本文中在验证集上进行了分析比较。该算法根据不同滑动窗口

conv2d、max_pooling2d、dense、dropout和activation分别表示对应的卷积层、下采样层、全连接层、丢失层和激活层;input和output表示各层网络对应的输入和输出参数。图3 本文中使用的深度卷积神经网络的结构图

大小所得到的ROC曲线如图4所示。当窗口长度大于9后,算法性能趋于稳定,因此,本文中选择最佳的滑动窗口长度13来进行结果的优化。

图4 根据不同平均化滑动窗口大小所得到的感受性曲线

2.2 基于不同特征的方法的性能比较

在验证集上, 本文中对使用不同特征表示蛋白质序列的方法的性能进行了比较。 主要对比了以下4种方法: 1)打分矩阵方法仅使用了PSSM来表示蛋白质序列特征; 2)特征系数方法仅使用了3类氨基酸特征系数来表示蛋白质序列特征; 3)打分矩阵-特征系数方法同时使用了PSSM和3类氨基酸特征系数来表示蛋白质序列特征,但没有采用最后的平滑处理来优化结果;4)本文中提出的方法。上述4种方法在验证集上进行测试得到的ROC曲线如图5所示,本文中提出的方法AUC值达到0.708,优于其他方法的性能。

图5 4种基于不同特征的方法在验证集上的感受性曲线

2.3 与其他方法的比较

目前已有的方法中,Retro-MoRFs[9]、MoRFCHiB[10]和MoRFPred-plus[11]的性能主要依赖于组合多个分类器的预测结果,它们的精确度在很大程度上是“以量取胜”,而本文中提出的方法是基于单个机器学习模型的,因此,只与3个有代表性的单模型方法进行了比较,即MoRFpred[6]、ANCHOR[7]和MFSPSSMpred[8],这些方法也经常在其他文献中作为比较对象。经过在测试集上进行测试,各方法的ROC曲线图如图6所示,详细的正确指数、TPR、FPR和AUC值列于表2中。从图6和表2中可以看出,本文中提出的方法在测试集上取得最好的性能,即正确指数值达到0.444,AUC值达到0.760。

图6 不同方法在测试集上的感受性曲线

方法名称正确指数真阳性率假阳性率线下面积值文献[6]中的方法0.1920.2360.0450.697文献[7]中的方法0.1980.4330.2360.638文献[8]中的方法0.3700.5460.1760.706本文中提出的方法0.4440.7320.2880.760

3 结语

本文中利用一种深度学习方法来预测天然无序蛋白质中的功能模体在序列中的位置。采用位置特异性打分矩阵和3类氨基酸特征系数来描述蛋白质序列信息,将每条序列编码成类似于图像像素矩阵的二维数值矩阵形式,并用DCNN来搭建模型进行预测。 另外, 本文中把无序蛋白质中的功能模体预测作为一个片段识别来对待, 而不是像传统方法那样作为单个的残基分类, 所以在DCNN的输出上加了一个段平均化的平滑处理步骤来进一步优化结果。 在相同数据集上进行测试和比较, 结果表明,本文中提出的方法显著优于其他方法, AUC值和正确指数值均大于其他方法的,说明本算法能有效地识别功能模体在无序蛋白质序列中的隐藏信息模式。本方法也适用于其他聚集型蛋白质功能位点的预测。

冯晓英等学者研究的结论说明:“经过20年的发展,混合式教学的实践与研究已经渐趋成熟;混合式教学被普遍看好,被认为是未来教学的主要形式;政府和教育机构也对混合式教学给予越来越多的战略和政策支持。”具体来讲:

猜你喜欢

模体无序残基
车身无序堆叠零件自动抓取系统
基于各向异性网络模型研究δ阿片受体的动力学与关键残基*
基于Matrix Profile的时间序列变长模体挖掘
“残基片段和排列组合法”在书写限制条件的同分异构体中的应用
植入(l, d)模体发现若干算法的实现与比较
张博庭:煤电不能再这么无序发展下去了
基于网络模体特征攻击的网络抗毁性研究
高速路上右行规则与无序行驶规则的比较研究
无序体系中的国际秩序
基于模体演化的时序链路预测方法