APP下载

基于特征融合的DNA- 蛋白质结合位点预测

2020-06-28薛广富

科学技术创新 2020年16期
关键词:氨基酸位点编码

薛广富

(景德镇陶瓷大学,江西 景德镇333000)

1 概述

蛋白质与DNA 的相互作用是分子生物学的核心问题之一,在基因调控、转录、DNA 复制和DNA 修复等一系列基生命物活动中发挥着重要作用[1]。了解DNA 结合残基的结合特异性和亲和力不仅有助于理解蛋白质-DNA 复合物的识别机制,还可以为蛋白质功能注释提供线索[2]。

为了了解蛋白质-DNA 复合物的识别机理,研究者往往将研究重点放在蛋白质-DNA 结合位点,特别是与DNA 结合的残基上。例如电泳移动性测定分析(EMSAs),常规染色质免疫沉淀(ChIP)等。然而这些实验方法既耗时又昂贵,随着大量的蛋白质序列数据的可用,迫切需要开发从蛋白质序列中识别DNA- 蛋白质结合位点的计算方法。

现如今,DNA 和蛋白质相互作用的机理尚未明确,因此使用生物信息学的方法从海量的蛋白质序列中提取有用的信息,并解释DNA 和蛋白质相互作用的机理不失为有效的途径[3]。尽管已经进行了大量研究,但是准确识别蛋白质-DNA 结合位点的问题仍然有很大的改进空间。由于蛋白质中与DNA 结合的和非结合的氨基酸残基数量极不平衡,因此存在训练样本不平衡的问题,这将导致模型在预测时的过度拟合从而导致较差的性能[4]。

2 数据集和特征提取方法

2.1 数据集。为了测试特征提取方法的有效性,使用了PDNA-224 蛋白质序列数据集。它包括224 个蛋白质序列,并以25%的序列相似性作为指标,去除了任意两个序列之间的冗余度。该数据集中有3778 个DNA 结合位点和53570 个非DNA 结合位点。

2.2 特征提取。使用两种特征提取方法:位置特异性打分矩阵(Position Specific Scoring Matrix,PSSM)以及独热(One-hot)编码来提取每个蛋白质序列的特征。同时采用滑窗的方法分割序列的特征矩阵。

通过设定固定大小的滑窗大小K,可以把长短不一的氨基酸序列分割成固定的长度。滑窗的中心位置作为靶点,从第一个氨基酸开始,将其作为靶点,则左边周期性补齐末端的氨基酸序列,从而得到一个长度为K 的氨基酸序列。由此,一个长度为L 的氨基酸序列,可以得到L 个长度为K 的样本。若靶点位置为DNA-蛋白质结合位点,则将该样本设为正样本,靶点位置非结合位点则全都设为负样本。滑窗过程如图所示。

滑窗处理氨基酸序列示意图

PSSM被广泛的应用在基于蛋白质序列的相关预测模型中,作为蛋白质序列的描述矩阵,PSSM能够表示某个特定的氨基酸占据蛋白质序列中某个位置的频率,因此在PSSM中,每个序列位置都由20 个值表示。

通过运行PSI-BLAST 程序对非冗余(NR)数据库进行三次迭代,设E 值为0.001,从而获得蛋白质序列的PSSM方面的进化信息。每一条蛋白质序列都被由L×20 大小的PSSM矩阵表示,L是蛋白质序列的长度。

One-Hot 编码也被称为一位有效编码,表示某个数据点属于某一个类别,或具有某一种类的特性。其使用了N 位状态寄存器来对N 个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。这首先要求将所有的状态值映射到某一个整数值。然后将每一个整数值编码为一个二进制向量,除了状态的索引之外,它都是零值,它被标记为1。

本文中,将二十种氨基酸作为20 种状态,分别进行One-Hot编码,各个氨基酸由一个二十位的二进制向量表示。通过One-Hot 编码,可以将蛋白质序列编码成L×20 大小的矩阵。

本文设定滑窗大小为23,因此无论是用PSSM 矩阵和One-Hot 编码提取氨基酸的特征,每一条序列进过滑窗处理后得到的样本维数为23×20。

在此,提出特征融合方法,通过对每个样本的PSSM 和One-Hot 编码进行拼接,可以得到一个维数为23×40 的特征融合矩阵来表示每一个样本。

3 结果评估

近年来,深度学习技术与其他机器学习方法相比,已经显示出了提高识别力的能力,并在生物信息学领域得到了广泛的应用[5]。

使用全连接层神经网络和经典的LeNet-5 卷积神经网络对样本进行训练和预测。同时采用五折交叉验证来划分训练集和测试集。

本文采用Keras 框架进行模型构建和训练,使用的全连接层神经网络包含三个隐藏层,隐藏层的节点数量分别为512、256 和128,采用Adam 梯度下降算法,迭代次数为30,批次大小为256;在LeNet-5 卷积神经网络中,第一个卷积层的卷积核数量为16且大小为3×3,第一个池化层的池化大小为,第二个卷积层的卷积核数量为32 且大小为5×5,第二个池化层的池化大小为,紧接着的三个全连接层的节点数量分别为800、120 和84,采用Adam 梯度下降算法,迭代次数为30,批次大小为256。

在二分类问题中,通常使用六个典型的指标来评估模型的训练效果:灵敏度(SN)、特异性(SP)、准确性(ACC)、F1 分数Matthews 相关系数(MCC)。这五个指标可以通过以下公式计算:

在这些等式中,TP,FP,TN 和FN 分别表示真阳性的数目,假阳性的数目,真阴性的数目和假阴性的数目。由于数据集中的不平衡问题,主要用灵敏度(SN)和特异性(SP)进行模型的评估。

不同网络结构模型的预测结果如下:

表1 全连接神经网络模型的预测结果

表2 LeNet-5 卷积神经网络模型的预测结果

由以上结果可以看出,无论是使用全连接神经网络还是使用LeNet-5 卷积神经网络,融合了One-hot 编码与PSSM矩阵两个序列特征的结果优于单个特征。

4 结论

在这项研究中,提出了一种新的基于序列的DNA- 蛋白质结合位点预测方法。该方法在PDNA-224 数据集上使用PSSM、One-Hot 编码进行特征提取。通过构建全连接神经网络和LeNet-5 卷积神经网络,在训练数据集上的实验结果表明了该特征融合方法的有效性。在今后的工作中,将进一步研究用不同的特征融合方法对DNA- 蛋白质结合位点进行预测。

猜你喜欢

氨基酸位点编码
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
生活中的编码
鹅掌柴蜂蜜氨基酸组成识别研究
低蛋白日粮平衡氨基酸对生长猪生产性能的影响
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
基于网络公开测序数据的K326烟草线粒体基因组RNA编辑位点的鉴定与分析
猪回肠氨基酸消化率的评定方法
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
Genome and healthcare