基于深度学习预测赖氨酸巴豆酰化位点
2022-12-30许耀奎宋丽丽王明辉
许耀奎,宋丽丽,王明辉
(青岛科技大学 数理学院,山东 青岛 266061)
蛋白质翻译后修饰(PTMs)对蛋白质功能以及细胞生理学都起着重要作用,并可逆地决定细胞的动力学和可塑性。翻译后修饰通常发生在编码基因DNA序列转录为m RNA并翻译成蛋白质序列之后,而异常的翻译后修饰可能会引起某些疾病的发生,比如人类癌症、免疫疾病和代谢综合症等其它生理机制的疾病。蛋白质巴豆酰化作为一种新型的蛋白质翻译后修饰,在生命体中发挥重要的作用,因此,巴豆酰化作为近年来生物信息学研究的重大领域,已经成为研究、开发药物的新热点。
近年来有很多研究人员采用不同类型的传统实验方法,如细胞培养中氨基酸的稳定同位素标记、高效液相色谱分离、亲和富集和高分辨率液相色谱串联质谱等鉴定巴豆酰化位点,然而这些方法是浪费时间且价格昂贵的。目前,已经有很多文章通过机器学习方法对蛋白质巴豆酰化位点进行研究,极大降低了实验鉴定成本。LIU等[1]基于LightGBM提出crotonylation位点预测器Light GBM-CroSite,采用SMOTE算法对样本进行平衡,选择弹性网去除冗余信息,在刀切法检验下,预测模型的MCC值达到0.98,极大的提高了模型的泛化能力。LYU等[2]开发了一种基于深度学习的方法Deep-Kcr,用于巴豆酰化位点预测,结果表明卷积神经网络在大数据集上总能以较高的计算效率表现出最好的性能。JU等[3]基于支持向量机提出了一种新的预测器CKSAAP_crotsite,使用CKSAAP编码方案预测巴豆酰化位点。
值得注意的是巴豆酰化位点预测虽然取得了显著成果,但是仍然有很大的进步空间。传统研究方法忽视多信息融合对巴豆酰化位点研究的重要性且传统的分类器无法更好的适应大数据发展的要求,使预测的精度较低。
受此启发,本工作提出一种新的蛋白质翻译后修饰预测方法Cro-Deep。首先,将特征提取方法:二元编码(BE)、增强氨基酸组成(EAAC)、BLOSUM62转化为数字信息并进行融合;其次,使用GRU对巴豆酰化位点进行预测;最后,利用十折交叉验证对模型进行检验,建立蛋白质巴豆酰化预测模型。最终,训练集和独立测试集ACC、MCC、和AUC值都达到了较好的指标。
1 实验部分
1.1 数据来源
在本研究中使用的数据集来自LYU等[2]的文献。数据集包括HeLa细胞中3 734个组蛋白的14 311个巴豆酰化位点。CD-HIT程序[4]被用来筛选一致性阈值为30%的序列,去除冗余样本。然后,将序列截取为长度大小为31个的片段,其中K位于中心。如果一个片段的中心K是crotonylation被定义为阳性样本;否则,它被定义为阴性样本。结果,获得了大量的阴性样品。为了平衡正负数据,我们从非冗余的负样本中随机选择正负样本数量相同的序列。结果训练集中13 950个样本,测试集5 978个样本,正负样本各占一半。
1.2 特征提取
BE:二元编码(binary encoding,BE)主要反应蛋白质序列中巴豆酰化位点和非巴豆酰化位点周围氨基酸的种类和相对位置信息,该方法原理较为简单,主要通过将20种常见的氨基酸的字符信号转化为用数字信号表示。20种常见的氨基酸和伪氨基酸X在进行二元编码时,根据ACDEFGHIKLMNPQRSTVWYX的顺序进行特征编码,将每一个氨基酸序列片段中的残基都转化为21维的特征向量,例如对蛋白质序列中的A残基,表示特征向量为(100 000 000 000 000 000 000)。因此,对于长度为n蛋白质序列,将会生成一个21×n维的特征向量。
EAAC:增强氨基酸组成(EAAC),由CHEN等[5]提出,从每条蛋白质序列的N-末端连续滑动到C-末端,计算固定长度子序列的氨基酸出现频率,通常用于编码长度相等的蛋白质序列。增强氨基酸组成特征提取计算公式:
其中,N(t,win)是滑动窗口win中氨基酸类型t的个数win∈(window1,window2,…,window N),N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5。
BLOSUM62:BLOSUM62矩阵[6]是建立在氨基酸序列的比对上,两个肽序列之间的同一性不超过62%。BLOSUM62矩阵中的每一行都被用来编码20个氨基酸之一,用于编码长度相等的蛋白质序列。基于BLOSUM62矩阵中20个氨基酸的取代分数,序列长度为n的氨基酸序列片段可编码为20×n维的特征向量。
1.3 深度学习
门控循环单元(GRU)[7]是RNN的改进版本。GRU包括更新门个重置门,更新门表示以前的信息是否需要更新,重置门用于控制忽略前一时刻的状态信息的程度。更新门zt,重置门rt可以表示为式(3)。
其中,t是时间步长,σ表示Sigmoid激活函数,W代表权重,xt代表时间t的输入,h(t-1)表示在时间t-1的前一层的隐藏状态,b表示偏差,重置门和更新门每个元素都是[0,1]。
接下来,计算时间t的后选隐藏层,计算公式见式(4)。
其中,rt表示重置门得到的数据。下一步是存储上面的信息,为了执行此步骤,GRU计算第t层隐藏状态ht,见式(5)。
随后,将上面得到的隐藏状态输入全连接层并利用Softmax函数对巴豆酰化位点进行分类。
1.4 模型评估
为了有效的评估模型的性能,本研究选择十折交叉验证和独立测试集的方式对模型进行性能评估,选用准确性(ACC),特异性(Sp),敏感性(Sn)与马氏关系数(MCC)来作为评估模型性能的指标,具体公式见式(5)~(9)。
其中,TP表示正确预测巴豆酰化位点定义为真阳性,TN表示正确预测非巴豆酰化位点定义为真阴性。FP表示错误的预测为巴豆酰化位点的数据定义为假阳性,FN表示错误的预测非巴豆酰化位点的数据定义为假阴性。此外,本工作还选择ROC曲线和PR曲线来作为衡量模型好坏标准,曲线下面积越大代表模型鲁棒性越好。
为方便起见,本工作提出的巴豆酰化位点预测方法称之为Cro-Deep,计算流程见图1。实验环境为:Windows Server 2012R2 Intel(R)Xeon(TM)CPU E5-2650@2.30 GHz 2.30 GHz with 32.0 GB of RAM,MATLAB2016a和Python3.6编程实现。
图1 Cro-Deep预测方法流程图Fig.1 Flowchart of the Cro-Deep prediction method
Cro-Deep模型可以描述为以下几个步骤:
1)获得训练集和测试集,并将数据集分成正负样本。
2)特征编码。利用3种特征编码方法BE,EAAC和BLOSUM62,将蛋白质序列信息转化为数字信息并进行融合。
3)分类器。根据步骤(2)将融合后的特征输入GRU分类器进行位点预测。
4)模型评估。根据步骤(1)~(3)中建立的模型采用十折交叉验证对模型进行评估。以ACC、AUPR、AUC、Sn、Sp、MCC值为评价 指标,并 绘制ROC曲线和PR曲线,使用独立的测试数据集对模型进行测试。
2 结果与讨论
2.1 特征提取结果的影响
在生物信息学中使用有效的特征提取序列信息对于模型预测结果有着重要的影响,然而使用单一的特征提取方法不能较好的说明巴豆酰化位点的特征信息,本工作采用使用了三种特征提取方法,分别包括序列信息的二元编码,物理化学性质的EAAC,进化信息的BLOSUM62,将这些方法进行融合输入到分类器GRU中得到新的预测值,预测结果见表1所示。
表1 对比不同特征提取方法指标Table 1 Comparison of indicators of different feature extraction methods
由表1可以看出,融合3种特征提取方法后的ACC,Sn,Sp,MCC和AUC值 分 别 为87.16%,0.857 0,0.886 3,0.743 7和0.935 7,均高于其它特征提取方法的指标。其中ACC高出0.99%~2.36%,MCC高出1.94%~6.5%,AUC高出0.59%~1.69%,不同的特征提取方法融合了不同的方面,使得信息更加全面,充分说明了特征融合的有效性。
2.2 分类器结果的影响
本研究构建的模型使用了GRU分类器,GRU分类器很好地解决了梯度消失以及梯度爆炸问题,且相比于其他深度神经网络在计算方面更为简洁从而有效地降低了计算量。为了验证这种方法的有效性,选用7种分类算法进行对比,其中包括eXtreme Gradient Boosting(XGBoost)[8]、Gradient Boosting(GTB)[9]、Light Gradient Boosting Machine(LightGBM)[10],Extra randomized Trees(Extra Trees)[11]、逻辑回归(LR)。深度神经网络DNN[12]。其 中XGBoost、GTB、Extra Trees、Bagging算法均采用默认参数。DNN使用3个全连接层,GRU使用两个GRU层和一个全连接层。7种分类算法的性能度量指标见表2。
由表2可以看出,在与其它分类方法相比过程中,GRU分类器均在不同程度上优于其它6种分类方法的分类效果,可见GRU分类算法能够更好的分类巴豆酰化位点。
表2 对比不同分类方法的性能度量指标Table 2 Comparison of indicators of different classification methods
不同分类器ROC和PR曲线图见图2。图2中可以看出,GRU分类器的曲线明显覆盖了其它的分类 器,AUC值 和AUPR值 分 别 达 到0.935 7和0.937 0。其中AUC值高出其它分类器对应指标值3.51%~20.54%,AUPR高出4.66%~43.61%,因此,训练集通过十折交叉验证在7种分类算法中性能评估可以得出,GRU分类算法能够更好的对巴豆酰化位点进行分类。
图2 对比不同分类器ROC和PR曲线图Fig.2 Compare ROC and PR curves of different classifiers
2.3 与他人结果的比较
为验证本工作研究巴豆酰化位点的预测模型Cro-Deep的效果,判断模型是否具有很好的鲁棒性,和采用相同数据集的模型Deep-Kcr[2],Position-weight[13],CKSAAP-CroSite[3],Light GBMCroSite[1]4种方法的AUC值进行对比,见图3。
图3 基于训练集和独立集测试本研究方法和现存方法对比的AUC值Fig.3 AUC values of our proposed method and other existing tools based on training dataset and independent dataset
在图3中可以看出,本工作构建的模型Cor_Deep在训练集和独立测试集都达到了较好的效果,AUC值分别达到0.935 7和0.961 5,均超过了其它现存的巴豆酰化位点预测模型,说明本工作构建的模型可以有效预测巴豆酰化位点,具有很好的鲁棒性,在很大程度上提高巴豆酰化位点的预测性能。
3 结 论
提出的一种新的巴豆酰化位点预测模型Cro-Deep,通过融合蛋白质的不同信息,更加全面的将蛋白质的字符信号转化为数字信号。并利用GRU分类器对巴豆酰化位点进行预测。最终,训练集的ACC、MCC、和AUC值达到87.16%,0.743 7和0.935 7,独立测试集ACC、MCC、和AUC值达到91.54%,0.831 3和0.961 5。实验结果表明,本研究提出的Cro-Deep方法能够有效的鉴定巴豆酰化位点,提高蛋白质翻译后修饰的预测效果。因此,本工作提出的模型Cro-Deep对巴豆酰化位点能够进行有效预测,为接下来实验鉴定巴豆酰化位点提供更有意义的指导和帮助。