APP下载

基于多头注意力机制的磷酸化位点预测模型

2022-05-31欧阳艾嘉

关键词:残基磷酸化注意力

吴 军, 欧阳艾嘉, 张 琳

(遵义师范学院信息工程学院, 贵州遵义 563006)

蛋白质翻译后修饰是将一个共价官能团添加到某个蛋白质上的机制。其中,蛋白质磷酸化是翻译后修饰中研究最为广泛的机制,它在大多数真核细胞生命活动中有着不可替代的作用[1]。蛋白质磷酸化是指激酶将磷酸从三磷酸腺苷或三磷酸鸟苷转移到特定氨基酸上磷酸化底物的过程,该过程主要发生在丝氨酸、苏氨酸和酪氨酸上。研究表明,半数以上的磷酸化过程与疾病的发生密切相关[2],因此识别蛋白质磷酸化位点是一个非常有意义的研究。

目前,磷酸化位点识别的方法可以分为2类:实验鉴定方法和计算预测方法。实验鉴定方法通常采用低通量32P标记技术或者高通量质谱技术识别磷酸化位点[3];计算预测方法则使用各种算法对磷酸化数据进行分类预测[4-5]。虽然实验鉴定方法准确率高,但其高成本与高耗时的缺点限制了它的使用范围。相反地,计算预测方法的准确率虽不如实验鉴定方法,但其具有速度快且成本低的优势。因此,计算预测方法被广泛运用于磷酸化位点识别任务的初筛阶段。

在现有的计算预测方法中,大部分方法使用了机器学习技术[6-8]。这些方法首先根据领域知识提取相关特征,然后选择一个合适的机器学习模型进行训练和预测。因此,这些方法预测结果的准确率严重依赖于特征提取的好坏。近几年,深度学习技术在图像识别和自然语言处理领域中取得了重大进展[9]。由于深度学习技术能够自动捕获任务相关的特征,一些研究人员尝试将卷积神经网络运用于磷酸化位点识别任务中并取得了相较于传统机器学习技术更好的效果[10-11]。虽然现有的计算预测方法已经取得了一定的效果,但为了降低错误预测造成的实验开销,计算预测方法的准确率还需要进一步提升。

注意力机制[12]是深度学习中的热门技术,它不仅能促使模型侧重于提取任务相关的特征,还能够提升模型的可解释性,通常搭配各种神经网络一同使用。为了进一步提升磷酸化位点计算预测方法的准确率,本文设计一个基于多头注意力机制的模型MAPhos。本文主要工作包括以下方面:

1)使用氨基酸向量与位置向量的和表示每一个氨基酸残基,这2个向量随MAPhos模型一同进行训练。

2)使用注意力机制关注位点周围残基的局部信息,并设计多头注意力机制生成与磷酸化位点识别任务相关的上下文向量,同时,从磷酸化基序的角度对多头注意力机制进行了解释。

1 研究问题

1.1 问题定义

每个氨基酸残基通常用一个唯一的字符表示。为了便于阐述问题,只考虑3种最容易发生磷酸化的氨基酸,分别是丝氨酸(用S表示)、苏氨酸(用T表示)和酪氨酸(用Y表示)。这3种氨基酸残基具有2种形态:磷酸化和非磷酸化。一条蛋白质序列通常包含多个氨基酸,于是蛋白质序列可以被表示成一个字符串。因为一个蛋白质可能包含多个待预测的残基,所以蛋白质序列通常被分解成定长为k的肽段序列,该肽段序列的中心位置是待预测的残基,也被称作位点。因此,磷酸化位点识别任务可以被看作是一个二分类问题,即预测肽段序列中心位置的残基是磷酸化的还是非磷酸化的。如图1所示,每个S、T、Y残基都是待预测的位点。

图1 肽段序列示例Fig. 1 Examples of peptide sequences

1.2 研究现状

至今,针对磷酸化位点识别任务已经提出了大约40种计算预测的方法。这些方法大都基于传统的机器学习技术,例如:Xue等[6]使用Bayesian Decision理论预测磷酸化位点;Fan等[7]使用Random Forest方法预测磷酸化位点;赵凌志等[8]使用基于SVM的模型预测磷酸化位点。基于传统机器学习技术的方法可以总结为2个步骤:第一步,运用领域知识进行相关特征的提取;第二步,根据提取到的特征,选择合适的机器学习技术训练模型并用于预测位点。大量实验结果表明,传统机器学习模型预测准确率高度依赖于特征提取的好坏。

与传统的机器学习方法相比,深度学习技术能够从原始数据中自动提取与任务相关的特征。在磷酸化位点识别任务中,目前提出了2个基于深度学习技术的预测方法:MusiteDeep模型[10]和DeepPhos模型[11]。这2个模型均采用了卷积神经网络作为核心架构,实验结果表明其性能明显优于传统基于特征提取的方法。

注意力机制能够迫使模型重点关注任务相关的局部特征,因此研究人员将其用到了一些蛋白质序列和基因序列的研究问题中。例如:Venkatesh等[13]使用基于连接的注意力机制预测MHC等位基因与MHC肽段的绑定关系;Uddin等[14]采用基于点乘的注意力机制预测蛋白质的二级结构;Hu等[15]利用基于通道的注意力机制预测艾滋病病毒的整合位点。在磷酸化位点识别任务中,MusiteDeep方法对卷积后的feature map使用了注意力机制并提升了模型的预测准确率[10]。为了进一步提升初筛阶段的准确率,且促进深度学习模型的可解释性,本文提出基于多头注意力机制的MAPhos模型。与基于feature map和通道的注意力机制相比,MAPhos模型使用的注意力机制是针对每个残基对应的特征,而并非肽段或者基因序列转换后的高阶特征,残基特征更好地保留了原始信息;与基于连接和点乘的注意力机制相比,MAPhos模型使用的多头注意力机制能从不同的特征子空间中提取信息,从而更加稳定且效果更好。此外,前述方法都没有利用注意力机制对模型进行解释,而MAPhos模型从磷酸化基序的角度对模型进行了解释。

2 预测模型

MAPhos模型的结构如图2所示,详细的预测流程如下:

图2 MAPhos模型结构Fig. 2 Structure of the MAPhos model

1)用随机初始化的氨基酸向量与位置向量的和把每一个氨基酸残基表示成xi向量;

2)将整个肽段序列包含的氨基酸残基向量送入双向GRU中提取每个残基相应的隐藏单元hi;

3)运用多头注意力机制生成多个子上下文向量cj,并将所有的cj连接起来组成上下文向量c;

4)将c与包含整个肽段信息的隐藏单元合并,并送入全连接神经网络进行非线性变换和计算出相应的预测结果。

2.1 残基表示模块

现有的计算预测模型表示输入肽段的方法有2种:使用one-hot编码表示每一个氨基酸残基;使用特征工程提取的特征表示整个肽段。上述2种表示方法中,one-hot编码方法假定每个残基在肽段序列中的距离相同,但事实上由mRNA的碱基序列翻译得到的残基并不是随机独立出现的,因此one-hot编码无法表达各个残基之间的联系;而特征工程方法需要充足的领域知识,否则提取的特征无法对应到相应的任务。

MAPhos模型设计了一种新的输入肽段表示方法,即运用氨基酸向量和位置向量的和表示每一个氨基酸残基。具体而言,对于每一种氨基酸残基,使用一个随机初始化的向量xami表示,该向量维度为d。考虑到残基与位点的前后位置关系,针对位点前的残基、待预测的位点、位于位点后的残基3种位置分别使用一个随机初始化的向量xpos表示。位置向量的维度与氨基酸向量的维度相同。最终,对它们进行求和表示肽段序列中的每一个残基xi,

xi=xami+xpos。

(1)

式中:xami,xpos∈Rd,且xami和xpos将与MAPhos模型一同进行训练。

2.2 双向GRU模块

图3 GRU神经网络内部结构Fig. 3 Structure of the GRU neural network

zi=σ(Wz[gi-1∶xi]);

(2)

ri=σ(Wr[gi-1∶xi]);

(3)

(4)

(5)

式中:[∶]表示连接操作;ri表示重置门;zi表示更新门;σ表示sigmod函数;gi-1,gi∈Rm;Wz,Wr,Wh∈Rm×2m是GRU中需要学习的参数矩阵。

由于残基之间的联系不具备明确的单顺序性,从而采用双向循环神经网络能更好地捕获相关特征。根据后文3.3.1节对比实验结果,MAPhos模型选用双向GRU循环神经网络进行残基特征提取。双向GRU循环神经网络由2部分构成:前向GRU循环神经网络和反向GRU循环神经网络。前向网络读取残基序列的方向为x1到xk;反向网络读取残基序列的方向为xk到x1。每个残基xi通过前向GRU循环神经网络得到的隐藏单元oi表示为

oi=GRU(oi-1,xi),

(6)

式中oi∈Rm。类似地,每个残基xi通过反向GRU循环神经网络得到的隐藏单元si表示为

si=GRU(si+1,xi),

(7)

式中si∈Rm。通过连接每个残基的前向隐藏单元和反向隐藏单元,可以得到每个残基相应的双向GRU循环神经网络隐藏单元hi,即

hi=[oi∶si],

(8)

式中hi∈R2m。

2.3 多头注意力机制模块

注意力机制被广泛应用到各种类型的神经网络中,它能够促使模型重点关注任务相关的局部信息。注意力机制通常包含3个步骤:首先根据任务生成q向量、k向量和v向量;其次通过q向量和不同的k向量计算出多个注意力权重,并将其转换为权重分布;最后,通过权重分布与相应的v向量相乘得到上下文向量。权重越高,则说明该v向量与任务越相关。一个蛋白质磷酸化位点的形成,通常仅与其上下游某些残基相关,这样的情况非常适用于注意力机制。由于该任务的目标是判断待预测的位点是否磷酸化,从而MAPhos模型直接使用经过线性变换的待预测位点的隐藏单元hsite作为预测任务的q向量,

q=Wqhsite。

(9)

式中q∈R2m,Wq∈R2m×2m是需要学习的参数矩阵。k向量由经过线性变换的各残基隐藏单元生成得到,

卧式加工是主轴轴线与工作台平行设置来加工零部件,主要适用于加工箱体类工件。组成卧式加工中心的重要组成铸件有床身(底座)、立柱、回转工作台、主轴箱等。对卧式加工中心中最大、最重的基础部件床身(底座)铸件来讲,影响到加工精度主要体现在铸件的刚度、强度、水平度、表面粗糙度等方面。

ki=Wkhi。

(10)

式中ki∈R2m,Wk∈R2m×2m是需要学习的参数矩阵。v向量为双向GRU网络提取的各残基的隐藏单元h1,h2,…,hk。随后,MAPhos模型使用q向量和ki向量计算每个v向量的注意力权重ti,

ti=uT[q∶ki]。

(11)

式中uT∈R4m是需要学习的参数向量。通过式(11)计算得到每个ti后,使用softmax函数进行归一化得到注意力权重分布,

(12)

最终,对每个ai与相应的vi向量相乘的结果求和就得到了上下文变量c,

(13)

为了增强注意力机制的效力,MAPhos模型采用了文献[19]中的多头注意力思想,将上述注意力机制拓展为多头注意力机制。多头注意力机制的核心思想是:假设头数为n,首先将hsite与n个不同的Wq相乘生成n个不同q向量,hi与n个不同的Wk相乘生成n个不同ki向量,hi与n个不同的Wv相乘生成n个不同vi向量。接着通过每个注意力头中的q向量、ki向量和vi向量计算生成n个子上下文向量cj。最后把n个cj向量连接起来便得到了最终的上下文向量c。具体计算公式如下:

(14)

c=[c1∶c2∶…∶cn]。

(15)

2.4 全连接神经网络模块

为了增强肽段序列本身的信息,MAPhos模型将包含肽段信息的ok向量和s1向量与上下文向量c连接起来表示整个肽段。随后,把该连接向量投入到三层全连接神经网络中计算预测结果。其中,第一层神经元的数目为8m,第二层神经元的数目为4m。这两层的作用是进行非线性变换,具体计算公式为

(16)

(17)

式中w∈R4m是需要学习的参数向量。

2.5 损失函数

磷酸化位点识别任务是一个二分类问题,因此MAPhos模型使用交叉熵作为损失函数[20]。交叉熵Lcn计算公式为

(18)

式中:yq表示肽段包含的位点的真实标签;Ntotal表示所有肽段的数量。为了防止MAPhos模型过拟合,在最终的损失函数中加入了L2正则项,结果为

Lloss=Lcn+λ(‖W‖2)2。

(19)

式中:λ表示正则化系数;W表示MAPhos模型中所有的参数。

3 实验与分析

3.1 数据描述

实验使用的蛋白质序列数据来自UniProt/Swiss-Prot数据库[21]、PhosphositePlus数据库[22]和dbPTM数据库[23]。为了建立非冗余的蛋白质序列数据集,从所有收集到的蛋白质中删掉了高度相似的蛋白质序列。由于丝氨酸(S)和苏氨酸(T)能够被相同的激酶所磷酸化,因而实验将S肽段和T肽段放入同一个数据集[10]。具体而言,提取蛋白质中53 281条实验标记的S/T肽段和10 427条实验标记的Y肽段作为磷酸化肽段数据,即正例数据,这些肽段的长度为33;提取与正例数据数量相等的未标记的非磷酸化肽段作为负例数据。得到的正负例数据集按照8∶1∶1的比例划分为不重叠的训练集、验证集和测试集。训练集用于训练模型,验证集用于确定模型参数,测试集用于评估模型。详细的实验数据信息如表1所示。

表1 实验数据信息Tab. 1 Information of experimental datasets

3.2 实验设置

MAPhos模型使用Pytorch 1.6.0实现,所有的实验均运行在一台GPU为GeForce GTX 1080Ti 11GiB的计算机上。实验中使用的氨基酸向量和位置向量的维度是32(d=32),双向GRU循环神经网络层数为2,隐藏单元的维度为64(m=64),多重注意力机制的头数为8(n=8)。如果一条肽段序列的长度不足33,使用全为0的氨基酸向量和位置向量进行填补对齐。此外,在模型的训练过程中,选择了Adam作为优化器,且每个mini-batch的大小为512;每次训练的epoch为300,同时还启用了early stopping机制。在防止模型过拟合方面,使用了系数为0.005的L2正则化约束和系数为0.3的Dropout约束。

3.3 实验结果分析

3.3.1 神经网络模型对比

首先对比深度学习中使用最为广泛的几种神经网络模型的预测效果,即全连接神经网络(FCN)[24]、卷积神经网络(CNN)[25]、单双向RNN[16]、单双向LSTM[17]、单双向GRU[18],每种神经网络的实验结果均取自于超参数最优的模型。

表2列出了各种神经网络模型预测磷酸化位点的AUC值,从表2中可以看出:一方面,循环神经网络(除RNN外)预测效果均好于卷积神经网络和全连接神经网络,这是因为循环神经网络在处理每个残基时会融合之前残基的信息;RNN预测效果不理想的可能原因是RNN中存在着梯度爆炸和梯度消失的问题;FCN效果最差的原因是它采用了flatten操作,无法捕捉残基之间的序列关系;一维CNN只能直接捕获filter长度之内的残基特征,因而其效果不如LSTM和GRU。另一方面,由于残基之间的联系不具备明确的单向顺序性,各个双向循环神经网络的预测效果均优于单向循环神经网络。综上,MAPhos模型最终选用了双向GRU神经网络提取残基的特征。

表2 不同神经网络模型预测磷酸化位点的AUC值Tab. 2 AUC values of different neural networkmodels for phosphorylation site prediction %

3.3.2 注意力机制对比

为了体现MAPhos模型使用多头注意力机制的好处,对比了多头注意力机制(MHA)与基于连接的注意力机制(CA)[12]、基于位置的注意力机制(PA)[12]和带缩放的点乘注意力机制(SDA)[19]的预测效果,每种注意力机制均搭配双向GRU神经网络。实验结果如表3所示。

表3 不同注意力机制预测磷酸化位点的AUC值Tab. 3 AUC values of different attention mechanisms for phosphorylation site prediction %

从表3中可以看出,各种注意力机制均能有效提升双向GRU神经网络模型的预测能力。这是由于磷酸化位点通常仅受到周围某些残基的影响,运用注意力机制能够迫使模型重点关注局部残基信息。在4种注意力机制中,PA效果最差,其原因是该注意力机制计算注意力权重时没有考虑与q向量匹配;CA和SDA的效果不及MHA是因为CA和SDA使用了单头注意力机制,MHA使用了多头注意力机制。多头注意力机制能够从不同的特征子空间中生成上下文向量,而单头注意力机制只能从合并的特征空间中生成上下文向量,合并会导致某些特征的弱化甚至消失。

3.3.3 残基表示方法对比

为了验证提出的残基表示方法的有效性,对比了MAPhos模型以one-hot编码[10]、氨基酸向量、氨基酸向量与位置向量的和作为输入肽段表示方法的预测效果,实验结果见表4。

表4 不同残基表示方法的MAPhos模型预测磷酸化位点的AUC值Tab. 4 AUC values of MAPhos model with different representations for phosphorylation site prediction %

从表4中可知,以氨基酸向量表示残基比以one-hot编码表示残基获得了更好的预测效果,其原因是one-hot编码设定了每个残基距离相同,而实际中mRNA的碱基并不是随机独立排列的,因此利用通过训练的氨基酸向量能够更好地表达出各个肽段的信息。同时,分析位置向量的值发现三者之间的差距较大,结合结果可知加入位置向量能够进一步提升MAPhos模型预测的准确率,这证明了同一个残基位于位点前后对位点产生的影响不同,位置向量能够捕捉这样的位置关系。

3.3.4 预测模型对比

为了验证提出的MAPhos模型能够获得更好的预测结果,对比了MAPhos模型与MusiteDeep[10]、DeepPhos[11]、Musite[4]和ModPred[5]等模型的预测效果。MusiteDeep 模型和 DeepPhos 模型是基于深度学习的模型,实验中根据文献[10-11]中的参数对其进行了重新训练。由于文献[4]和文献[5]没有提供详细的特征提取方法,无法重新训练模型,从而直接使用文献[4]和文献[5]中提供的训练好的开源模型进行实验。

图4展示了不同模型预测磷酸化位点结果的AUC值,从图中可以看出基于深度学习方法的预测效果明显优于基于特征提取方法的预测效果。基于特征提取的方法需要针对目标任务利用领域知识手工设计一些特征,比如Musite模型使用了邻居评分、无序评分和氨基酸频率等特征。如果领域知识与任务不匹配,或者没有设计充足的特征,都会对预测结果产生很大的影响。实验测试集中采用的数据是近2年才通过生物实验确认的磷酸化位点,Musite模型和ModPred模型使用的特征不能很好地与这些新的磷酸化位点相匹配,从而它们的预测效果不理想。而深度学习的方法能够以原始数据作为输入自动地提取任务所需的特征,因而其具备更好的泛化能力并表现出了更好性能。

图4 不同模型预测磷酸化位点的AUC值Fig. 4 AUC values of different models for phosphorylation site prediction

另一方面,在3种基于深度学习的方法中,MAPhos模型预测效果最好。一个原因是MAPhos模型采用了双向GRU提取残基特征,而MusiteDeep模型和DeepPhos模型采用了一维CNN提取残基特征。一维CNN提取的特征受限于filter 长度的影响,不能较好地捕获位置较远的残基之间的联系,而双向GRU的门控机制则能够很好地实现残基之间的信息传递。另一个原因是MAPhos模型采用了多头注意力机制,该注意力机制能够从不同的特征子空间中生成与任务相关的上下文向量。MusiteDeep模型采用了基于feature map的注意力机制,该注意力机制仅能对高阶特征进行注意。DeepPhos模型没有采用注意力机制,而是对同一位点不同长度的肽段使用了不同的卷积模块,虽然增加了局部信息,但无法让模型去重点关注这些局部信息对任务的影响。综上,加入多头注意力机制的双向GRU模型更加适用于磷酸化位点识别任务。

基于深度学习的方法虽然在性能上胜过基于特征提取的方法,但深度学习的方法通常缺少可解释性。注意力机制能够促进模型的可解释性,接下来的实验将从磷酸化基序的角度对MAPhos模型进行一定程度的解释。磷酸化基序指的是位于磷酸化位点上下游的氨基酸序列,其通常在磷酸化肽段和非磷酸化肽段中频率呈现显著差异性。首先采用文献[26]中的方法对实验数据进行磷酸化基序挖掘;接着将1 024条磷酸化肽段放入MAPhos模型中进行预测,并提取出每个注意力头中前3大权重对应的残基;随后将上述残基组合成不同的基序在挖掘到的磷酸化基序中进行检索。结果表明,在预测正确的磷酸化肽段中,几乎都能从挖掘结果中检索到相应的基序,这表明多头注意力机制注意到了残基的这种差异特征。以上实验在一定程度上促进了MAPhos模型的可解释性。

计算预测磷酸化位点的方法通常用于位点识别任务的初筛阶段,为了减少模型错误预测造成的开销,需要评判模型在中高特异度下的预测性能[11]。由于基于特征提取的方法预测效果不理想,实验仅对比了MAPhos、MusiteDeep[10]和DeepPhos[11]模型在中高特异度下的预测结果,实验结果如表5和表6所示。从表中可以看出MAPhos模型在中度和高度特异度约束下灵敏度、精度、正确率和F1分数均优于MusiteDeep模型和DeepPhos模型。这再次证明了MAPhos模型的预测性能优于MusiteDeep和DeepPhos模型,更加适用于磷酸化位点识别任务的初筛阶段。

表5 不同模型在中高度特异度下S/T磷酸化位点的预测结果Tab. 5 Prediction results returned from different models on S/T sites at medium and high stringency levels %

表6 不同模型在中高度特异度下Y磷酸化位点的预测结果Tab. 6 Prediction results returned from different models on Y site at medium and high stringency levels %

4 结语

为了进一步提升计算预测方法识别磷酸化位点的准确率,本文设计了一个基于多头注意力机制的模型MAPhos。该模型使用氨基酸向量与位置向量的和表示残基,能够更加准确地体现残基之间的联系。真实肽段数据集上的实验结果表明:MAPhos模型预测结果在AUC值、灵敏度、正确率、精度和F1分数度量上均胜过基于特征提取的模型和基于卷积神经网络的模型。此外,MAPhos模型相较于基于卷积神经网络的模型具有更好的可解释性。

目前的MAPhos模型只适用于普通的磷酸化位点识别任务,未来的工作将会尝试改进MAPhos模型,使其能够预测磷酸化位点对应的激酶。此外,MAPhos模型中相同的残基使用了相同的氨基酸向量表示,该表示无法结合具体的肽段信息,即考虑每个残基所处肽段上下游其余残基的信息,未来工作也会探索基于肽段序列的氨基酸向量表示方法。

猜你喜欢

残基磷酸化注意力
人分泌型磷脂酶A2-IIA的功能性动力学特征研究*
基于各向异性网络模型研究δ阿片受体的动力学与关键残基*
让注意力“飞”回来
T69E模拟磷酸化修饰对Bcl-2与Nur77相互作用的影响
“残基片段和排列组合法”在书写限制条件的同分异构体中的应用
ITSN1蛋白磷酸化的研究进展
磷酸化肽富集新方法研究进展
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
MAPK抑制因子对HSC中Smad2/3磷酸化及Smad4核转位的影响