APP下载

基于图卷积网络的药物靶标关联预测算法

2021-07-02徐国保陈媛晓

计算机应用 2021年5期
关键词:靶标卷积矩阵

徐国保,陈媛晓,王 骥

(广东海洋大学电子与信息工程学院,广东湛江 524088)

(*通信作者电子邮箱xuguobao@126.com;zjouwangji@163.com)

0 引言

药物与人类疾病息息相关,而药物靶标点的确认是药物研发工作的开始,因此,快速准确的预测药物-靶标的相互作用是药物研发的关键。然而,受到成本、通量等的影响,传统的用于阐明药物-靶标关系的生物实验难以展开,很多潜在的药物靶标相互作用关系尚未被研发出来。传统的计算方法主要有分子对接方法[1]和基于配体的方法[2]。然而,当靶标蛋白的三维结构不明确时,分子对接方法的预测性能下降;当只有少数已知配体与靶标结合时,基于配体的方法预测结果往往较差。

过去十年,国内外学者致力于利用机器学习方法来预测药物-靶标相互作用关系,这些机器学习方法主要可分为有监督学习和半监督学习两大类:有监督学习如二分图局部模型方法(Bipartite Local Model,BLM)[3]、基于核的回归模型方法[4]及基于分子特征方法[5]等;半监督学习如基于拉普拉斯正则化的最小二乘法NetLapRLS[6]。文献[6]中提出的NetLapRLS通过整合已知的化学结构信息、基因序列数据和药物-蛋白相互作用网络对药物-蛋白质相互作用关系进行了预测[7]。文献[8]使用带高斯相互作用属性(Gaussian Interaction Profile,GIP)核的正则化最小二乘法(Regularized Least Squares,RLS)分类器,结合局部二分图模型(Bipartite Local Model,BLM),提出基于邻居相互作用谱的局部二分图模型(Bipartite Local Model-Neighbor-based Interaction-profile Inferring,BLM-NII),此外,有监督学习的方法还有二分图模型[9]、基于网络的推断模型(Network-based Inference,NBI)[10]等。文献[11]提出异质网络上的可重启随机游走(Networkbased Random Walk with Restart on the Heterogeneous network,NRWRH)方法,该方法结合已知的药物-靶标关联关系、药物相似网络及靶标相似网络,构建异质网络并在该网络上执行随机游走算法。上述两种方法都没有考虑到靶标信息未知的药物。此外,文献[12]中结合标记数据(已知和未知)提出一种具有网络一致性的药物靶标相互作用半监督预测方法,但是该方法严重依赖于药物和靶标的相似性。

以上这些方法虽然提高了机器学习性能,但它们仅使用了少量的生物特征信息,在预测潜在的药物靶标关系中可能丢失一些重要的信息,如药物靶标网络拓扑结构信息等。

针对现有技术的不足,在前人工作的基础上,本文利用图卷积网络(Graph Convolutional Network,GCN)结合自编码技术来预测潜在的药物-靶标关系对。在考虑药物与靶标多种生物信息与拓扑网络结构的前提下,综合运用深度学习知识,设计合理的预测方案,提高药物-靶标相互作用预测准确度。实验结果表明,该方法能够有效预测药物-靶标相互作用关系,且具有较强的鲁棒性。

1 基于图卷积的药物靶标关联预测算法

1.1 数据集构建

本文的数据集来自文献[13],可以在https://github.com/luoyunan/DTINet 中下载,该数据集包含1 923 个已知的药物-靶标对,1 512 种不同类型的靶标蛋白质和708 种不同类型的药物化合物。本文的任务是要利用已知的药物-靶标关联数据及药物和靶标特征数据,从未标记的药物靶标中寻找潜在的药物靶标对。在现有的数据集中只有药物相似矩阵和靶标相似矩阵,若直接使用稠密相似矩阵作为图,计算是非常耗时的。此外,稠密图还会产生噪声,影响模型性能,因此,需要利用已知数据进行特征提取。本文特征提取的方法参照文献[14]。

为了得到稀疏图来避免耗时的计算,药物G(u) ∈Rd×d和靶标G(v) ∈Rt×t之间的相似性可表示为:

其中:Sim(i,j)为药物相似矩阵和靶标相似矩阵,h(x)是x的邻居集合。本文分别取前10 个药物相似矩阵邻居节点和前50 个靶标相似矩阵邻居节点,得到G(u)和G(v)后,将其作为药物和靶标的特征输入。

1.2 图卷积

将已知药物与靶标之间的关联关系表示成二分图,则本文提到的预测任务可以定义为在这样一个图上进行半监督预测。

给定一个二分图G={V,E},其中V=(vd,vt)表示nd个药物节点和nt个靶标节点,Xd=分别表示药物特征矩阵和靶标特征矩阵。由于药物和靶标节点的特征维度都很高,传统的相似性度量方法如欧几里得距离无法取得很好的效果。为此,本文使用谱图卷积有效利用图拓扑和节点特征信息。

目前在图数据上使用卷积滤波器的方法大致可分为两类:空域图卷积[15-16]和谱图卷积[17-19]。空域图卷积本质是不断聚合节点的邻居信息,即直接将卷积操作定义在每个节点的连接关系上,文献[20]中曾指出这种方法存在的问题。相对于空间卷积,谱图卷积则将卷积网络滤波器与图信号同时变换到傅立叶域后进行处理。

谱图卷积可以定义为滤波器gθ=diag(θ)(θ∈RN)与信号x∈RN在傅里叶域的乘积:

其中UTx表示x的图傅里叶变换,在这里gθ可以看作L特征向量的函数,即gθ(Λ),Λ是特征值对角矩阵。

当图中节点数量多、节点关系复杂时,拉普拉斯矩阵L进行特征分解需要很大的计算量,为了解决这个问题,采用切比雪夫多项式Tk(x)直到第k阶的截断展开来近似gθ(Λ)。

文献[17]通过限制k=1 并将L的最大特征值近似为2,进一步简化了谱图卷积的定义:

1.3 模型概述

如前所述,药物和靶标之间的关联预测问题可以当作一个半监督预测问题。很多基于图卷积神经网络(GCN)的方法主要用于解决同质网络上的节点分类问题,为充分利用图卷积,使其能够解决异质、二部、有属性网络的预测问题,文献[21]首次结合图卷积与自编码技术,提出基于图卷积的MicroRNA 和抗药性关联预测(Graph Convolution for association between MicroRNA and Drug Resistance,GCMDR)算法。为了确保模型有效训练,本文在文献[21]的基础上,引入了集成学习(Ensemble Learning,EL)中的堆叠思想,将两个组件线性组合在一起,联合训练。

给定邻接矩阵M∈,其中Nd为药物节点数量,Nt为蛋白质节点数量,矩阵的值Mij表示药物i与蛋白质j是否已通过生物实验验证存在关联:

模型的目标是通过构建基于图卷积的编码器[Fd,Ft]=fen(v,ε,Xd,Xt)来学习药物和靶标的嵌入特征F,并且通过构建解码器M′=fde(Fd,Ft)来预测新链接,式中Xd∈分别表示药物和靶标的输入特征矩阵,分别表示药物和靶标学习到的特征矩阵。

为此,本文提出的模型由两种不同类型的层组成:1)用于在药物和靶标相互作用网络图上整合其节点特征的编码层;2)使用上一层学到的嵌入特征来预测全连接交互网络的编码层。算法结构如图1。

图1 本文算法结构Fig.1 Structure of the proposed algorithm

1.3.1 编码层

编码层的输入包括药物和靶标的原始特征矩阵Xd、Xt和邻接矩阵M。为了把药物特征矩阵和靶标特征矩阵整合成一个输入矩阵,定义一个新的特征矩阵:

同样,邻接矩阵重新定义为:

然后,GCDTI 对矩阵X进行行归一化:Xrw=D-1X,其中表示输入信号矩阵。根据式(6),可得到一个图卷积矩阵G:

通过引入G的权重矩阵We和偏重矩阵Be构建隐藏层,选择ReLU函数作为激活函数,则编码层的输出F如下:

式中可训练权重矩阵We∈为傅里叶系数矩阵,它将矩阵G转化为描述药物靶标节点与潜在因子之间的关联的隐藏矩阵F,Ne表示潜在因子的数量,是手动设置的。编码层的输出是输入特征到隐藏空间的投影,其由两部分组成,分别是药物的嵌入特征矩阵Fd和靶标的嵌入特征矩阵Ft。

1.3.2 解码层

为了重构药物-靶标关联矩阵,构建解码器M′=fde(Fd,Ft)如下:

式中权重矩阵Wd∈RL×L描述了隐藏层潜在因子的相似性。在本文模型中使用文献[22]提出的初始化方法来随机初始化矩阵We、Be、Wd。

显然,输出矩阵M′与输入矩阵M的维度相同,M′中的值表示所有药物-靶标对的权值。所有在矩阵M中值为0 的药物-靶标对将由解码器赋予一个预测值,预测得分高的药物-靶标对更有可能是关联的。

此外,为了在半监督学习下训练模型,本文使用了负抽样方法。在每个训练阶段,随机选择未标记的药物-靶标对作为负样本进行训练。给定训练集,模型尝试最小化以下损失函数:

1.4 交叉验证

为了评估模型性能,使用了k折交叉验证。将数据随机分成k份,每一份轮流作测试样本(假设关联关系未知)。在性能评估中,将测试样本和所有未标记的药物-靶标对都视为候选样本,若测试样本在所有候选样本中排名较前,则表明该模型具有良好的预测性能。

在本文中,k分别取2、5、10,由于数据集中的样本数量有限,因此对数据集进行10 次划分,最后取10 次实验的平均值作为模型整体的性能指标。

2 实验结果与分析

2.1 算法运行环境

使用PyCharm 集成开发环境,TensorFlow 2.0.0 作为框架。

2.2 图卷积有效性评估

在本节中就图卷积整合原始输入特征数据的能力进行了评估,具体来说,将模型输入原始特征数据与删除输入特征的情况进行对比。为此,将式(9)中输入特征矩阵A的每个值都替换为1,在这种情况下,由于所有节点的特征都相同,因此图卷积就没有意义了。本节使用5 折交叉验证法来做有无特征输入的对比实验,实验结果表明,在没有任何特征输入的情况下,模型的受试者工作特性(Receiver Operating Characteristic,ROC)曲线下的面积(Area Under ROC Curve,AUC)为0.888 9,而有特征输入时,模型的AUC 为0.920 1,明显高于没有特征输入的情况。实验结果证明提出的基于图卷积的模型能够有效地整合输入特征数据。

2.3 k折交叉验证的预测性能

为了评估本文提出的药物靶标关联预测模型的性能,分别使用了2 折、5 折和10 折交叉验证,使用不同交叉验证的AUC平均值见表1。

表1 不同交叉验证方法的预测性能Tab.1 Prediction performance of different cross validation methods

从表中可以看出,预测精度随着训练数据集的增加而增加,由于10 折交叉验证的训练数据集大于2 折交叉验证和5折交叉验证,因此其平均AUC最高,为0.924 6±0.004 8。

此外,图2和图3给出了不同交叉验证方法下的训练损失和训练误差,训练损失和训练误差分别由式(12)和式(12)的第一项计算而得。从图中的曲线可以看出,不同交叉验证方法下GCDTI 的训练过程是相似的。在大多数实验中,训练损失和训练误差可以分别在第300 次遍历数据集和第250 次遍历数据集之前收敛到下界,说明采用不同的交叉验证方法时,数据的差异对计算过程的影响很小,说明模型具有很强的鲁棒性。

图2 不同交叉验证方法下的训练损失Fig.2 Training loss under different cross validation methods

图3 不同交叉验证方法下的训练误差Fig.3 Training error under different cross validation methods

2.4 负样本对模型性能的影响

由于在本文所收集的数据库中只有正样本,因此需要找到负样本进行半监督训练来提高模型的预测性能。为此,对未标记的药物-靶标对进行采样,以生成负样本进行训练。然而,负样本的数量也会对模型的预测性能产生影响,大量的负样本可以为训练提供数据资源,提高模型性能,但这同时也可能会造成训练数据不平衡问题。因此,负样本数量的选择对准确预测GCDTI 模型是非常重要的。在每次采样中,负样本集固定为正样本集的p倍。图4 展示了不同负样本集对预测性能的影响,从图中可以看出,当负样本数是正样本数的10倍时,该模型的预测性能最高,AUC 为0.920 2±0.011 1。当p设为0 时,意味着没有使用负样本,只用正样本进行训练,此时AUC 远低于有负样本的情况。AUC 从p=0 到p=10 的变化体现了负样本对GCDTI的重要性和有效性。

图4 不同负样本数量时的预测性能Fig.4 Prediction performance when having different negative sample numbers

2.5 不同潜在因子数的比较

由于本文提出的模型是基于潜在因子模型构建的,因此隐藏层的大小对其性能预测至关重要。本节讨论潜在因子数量L对模型性能的影响,本节的实验结果基于10 折交叉验证法并且负样本是正样本的10 倍。从图5 可看出,当L在5~80取值时,AUC 的平均值呈单峰分布,且当L=25时,模型性能达到最优。25 这个数字可能反映了药物与靶标之间真实关联的数量。

图5 潜在因子数对模型的影响Fig.5 Influence of the number of latent factors on the model

2.6 与其他方法的比较

为了进一步评估模型的预测性能,将实验结果与其他5种较为先进的药物靶标关联预测方法在同一数据集上的实验结果进行比较,这5 种方法包括BLM-NII[8]、NetLapRLS[23]、异构网络模型(Heterogeneous Network Model,HNM)[24]、多相似度矩阵分解(multiple similarities Collaborative Matrix Factorization,CMF)模型[25]、药物-靶标相互作用预测的网络集成方法(Network integration approach for Drug-Target Interaction prediction,DTINet)[13]。比较结果见图6,从图6可以看出,GCDTI的平均AUC最高,为0.9246±0.004 8,比DTINet 高1.13 个百分点。本节实验结果基于10 折交叉验证并且负样本是正样本的10 倍。这些实验表明利用端到端学习的模型架构,当需要预测大量的药物和靶标数据的关联关系时,GCDTI有潜力成为一种可靠的预测方法。

图6 不同预测方法的性能比较Fig.6 Performance comparison of different prediction methods

3 结语

为了更高效地识别潜在的药物-靶标关系对,本文利用图卷积神经网络结合自编码技术,提出GCDTI 模型。该方法通过输入已知的药物-靶标关系对以及药物和节点的特征信息,以端到端学习的方式提取药物和靶标的嵌入特征。一系列实验结果表明,从模型中学习到的低维嵌入特征能够有效地表达药物靶标之间的相互作用关系。但是在当前的药物靶标相互作用模型中,图卷积只能输入数值型数据,因此其他非数值型的特征仍不适用于当前的模型,接下来的工作将进一步研究解决这个问题的方案。

猜你喜欢

靶标卷积矩阵
纳米载体可缓解农药对靶标作物的负作用
基于全卷积神经网络的猪背膘厚快速准确测定
靶标龙伯球一体化反射器电磁和气动特性融合设计
基于图像处理与卷积神经网络的零件识别
基于网络药理学及分子对接技术分析清眩降压汤治疗高血压的作用机制
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
靶标评改,让习作评改有序更有效
多项式理论在矩阵求逆中的应用
矩阵