APP下载

基于半监督符号图神经网络聚类的药物社区发现

2023-10-20艾邵斌马天明

现代计算机 2023年15期
关键词:聚类符号神经网络

艾邵斌,杨 顺,文 龙,马天明

(湖南师范大学信息科学与工程学院,长沙 410000)

0 引言

近数十年来,药物研发技术得到了迅速的发展,基因组法、基因芯片法、蛋白质组学法等多种方法已被广泛应用于创新药物的发现[1]。但是,新药物的研发周期长、资金需求大,而且风险较高、成功率偏低。截至2019 年,成功开发一种获批罕见病用药物和非罕见病用药物的资本化临床成本估计分别为20.91 亿美元和32.12 亿美元[2]。为了降低新药物研发的时间成本、经济成本和风险成本,专家学者提出了将计算机科学与药物的生物化学信息相结合的方法,通过计算机来辅助药物设计。通过这种方法对药物进行配对,可以为大规模试验筛选提供线索,进一步降低研发成本。

当两种或多种药物一起使用时,它们的药理作用会受到彼此的影响,这种影响被称为药物相互作用(drug-drug interaction, DDI)[3],它会为药物组合的效果带来难以预料的影响,如增强药物组合疗效、降低药物组合疗效、出现额外的正面效果或负面效果等。不明DDI 在现实的临床用药与新药物的研发中经常出现,Drug-Bank 数据库的小分子药物中,平均每个药物会与15 个其他药物产生不同DDI 反应,这大大增加了临床用药与新药物研发的困难程度。

药物社区发现在当今的新药物研发中具有重要的意义。药物社区指的是:在药物网络中的某组节点内部具有较大的相似性,从而形成的一种内部连接紧密,而外部稀疏的结构[4]。其反映了若干药物组成的网络中个体药物的局部性特征以及药物相互之间的关联关系,研究药物网络中的社区对理解整个药物网络的结构和功能有着重要的作用,并且可以帮助相关人员更好地分析及预测整个药物网络各元素的相互关系。目前大多数图神经方法仅局限于挖掘单一药物之间的互作用,而忽略了多种药物共同作用对药理的强化或抑制。

传统的社区发现算法通常使用DDI 以及药物本身的化学特征与结构特征作为划分药物社区的依据,主要有图分割算法、层次聚类算法、分割式聚类和谱聚类等。随着深度学习的发展,人们逐渐倾向于使用图神经网络来解决社区发现问题。符号图卷积神经网络(signed graph convolutional network,SGCN)[5]是第一个适用于符号网络的图神经网络模型,它基于平衡理论[6],为之后众多图神经网络方法打下基础,其弊端则是几乎只适用于无向图。2019 年Huang 等[7]研发的符号图注意力神经网络(signed graph attention networks, SiGAT)利用图注意力机制[8],使用基于平衡理论的新型图神经网络架构,使其可以学习带符号的有向图的节点嵌入。2020年,Li 等[9]通过图注意力学习符号图神经网络嵌入(learning signed network embedding via graph attention,SNEA)提出了一种基于新目标函数的符号图神经网络,用于链路符号预测。随后,Huang 等[10]的有向符号网络的学习节点表示(learning node representation for signed directed network,SDGNN)、He等[11]的基于新型磁符号拉普拉斯算子的图神经网络(graph neural network based on a novel magnetic signed laplacian,MSGNN)等多种多样的神经网络结构在目标函数、架构方式、链路处理等多种角度上拓展延伸该项课题。

本文利用符号网络将药物社区发现问题转化为符号图上的半监督聚类问题,预测节点的归属,依据药物社区推断出潜在的药物特性。引入基于半监督符号神经网络来解决这种问题,该项技术在测试实验中呈现良好的反应,对该思路给出了进一步肯定。

1 符号网络中的药物社区发现问题

药物社区发现问题依赖于药物-药物相互作用组成的同构符号图结构以及其中各个药物自身的特征信息。药物互作用被分为积极作用(Positive)、消极作用(Negative)、无相互作用(Not Interaction)三种方式[12]。本文考虑了药物互作用的具体模式,根据它们的类型定义符号网络并给出药物社区发现的符号化定义。

我们从DrugBank[13]中搜集所需DDI 数据,构建带符号的有向DDI网络:

首先,我们的数据集来源于Shi 团队[14]于2019 发布的两个数据集,它们分别包含1562 个药物节点和1935 个药物节点。然后,我们将其组织成为一个符号DDI网络G(V,E,w,XV),其中网络节点为药物;边E=表示药物互作用。Drug-Bank 中的“increase”和“decrease”信息,分别标记两药物之间连边符号为“+”和“-”;表示边权;表示各药物节点的特征向量。

对于上述的有向符号图,很容易给出如下定义表示药物社区[15](C1,C2,…,Ck):

(2)在C1,C2,C3,…,Ck各自的内部,有较多符号为“+”的边;

(3)连接C1,C2,C3,…,Ck的边中,有较多符号为“-”的边;

(4)从C1,C2,C3,…,Ck各自出发,到图的其他部分只有较少的边。

如图1所示,药物社区发现问题即为根据上述的一个带符号的有向DDI 网络,分割或聚类出数个药物社区,各个药物社区内部连接紧密,外部连接稀疏。

图1 药物社区发现问题示意图

2 基于半监督符号图聚类的药物社区发现

本文选用了2022年He等[16]提出的一种有别于平衡理论的药物社区发现方法:半监督符号图聚类(semi-supervised signed network clustering,SSSNET)。该方法不基于平衡理论地处理有向网络中的问题,端到端地结合了嵌入生成和聚类,没有中间步骤,以节点聚类为主要焦点,侧重于网络中出现的极化效应,具有良好的效应。

2.1 算法目标

算法建立于一张表示为G(V,E,w,XV)的有向符号网络上,其中V为节点集,E为有向边集,w为边的权重集,XV表示各节点的特征向量,节点的总数为n= |V|。在此基础上,定义邻接矩阵A:若节点Vi和Vj之间存在边,则Aij=wij,即为边权;否则Aij= 0。

将有向符号网络G聚类为k个簇是将节点集划分为k个不相交的集合V=C0∪C1∪… ∪Ck-1。在半监督设置中,对于k个簇的每一个,选择一部分训练节点作为种子点,在训练之前已知种子点标签。种子节点的集合表示为Vseed⊆Vtrain⊂V,其中Vtrain是所有训练节点的集合。

在上述的基础上,SSSNET 算法的目标可以表示为:已知部分种子点的标签Vseed与簇总数k,将其余各个节点分配至与之最匹配的簇。

2.2 基于路径的节点关系定义

与平衡理论不同,SSSNET 对“朋友”和“敌人”的定义是基于源节点与目标节点之间给定长度内的一组路径。

如图2所示,若源节点Vi沿着从Vi到Vj的长度为h的给定路径上的所有边均为“正”,则称目标节点Vj是源节点Vi沿着从Vi到Vj的长度为h的给定路径的“朋友”邻居节点;反之,若源节点Vi沿着从Vi到Vj的长度为h的给定路径上的边有且仅有一条为“负”,则称目标节点Vj是源节点Vi沿着从Vi到Vj的长度为h的给定路径的“敌人”邻居节点。否则,Vi和Vj在此路径上彼此中立。对于有向符号网络,只考虑有向路径,因此节点之间的“友谊”关系不再对称。

图2 基于路径的节点关系定义例图

2.3 SSSNET算法过程

我们将邻接矩阵A分解为正和负部分A+与A-,其中。然后,分别对其进行如下归一化操作,得到四个特殊的邻接矩阵:

再对各个部分计算特征映射函数,以为例:

其中:,M均为可学习参数,d为节点嵌入的维度。同理可以得到:四个特征映射函数。将其拼接可得到一个n× 4d的矩阵ZV,其中,节点Vi的嵌入向量Zi是ZV的第i行。

最后,我们对ZV进行线性变换,使得生成的矩阵变换至与聚类数k相同的列数。再对其应用softmax 函数激活,即可将每一行映射到长度等于聚类数k的概率向量Pi,由此最终可以得到各个节点的簇归属。

3 实验

表1 说明了本文所使用的数据集详细情况,本文将在此基础上进行实验以验证本文方法的有效性。实验结果以调整兰德系数(Adjusted Rand Index, ARI)、准确率precision值、召回率recall值、F1值为判定标准。

表1 药物互作用数据说明

本文将数据集采用十折交叉验证的方式进行实验,即:将数据集随机划分为十等份样本,共计进行十次实验,每次实验取其中九份为训练集,一份为测试集,十次实验后取平均指标评估模型性能。

本文采用聚类评价指标调整兰德系数ARI、precision值、recall值、F1 值进行评估,指标定义如下:

其中:TP表示两个同类样本点在同一个簇中的情况数量;FP表示两个非同类样本点在同一个簇中的情况数量;TN表示两个非同类样本点分别在两个簇中的情况数量;FN表示两个同类样本点分别在两个簇中的情况数量。调整兰德系数ARI可以去掉随机标签对于评估结果的影响,其取值范围是[-1, +1 ]。

本文将传统种子点半监督k-means 方法与SSSNET进行对比,实验结果如图3所示。

图3 实验结果展示

实验结果表明,SSSNET 算法在药物社区发现方面的聚类评价指标均超过传统的半监督聚类方法,说明基于半监督符号图神经网络聚类SSSNET 算法在药物社区发现方面具有一定的可行性。

4 结语

将药物关系网络视作符号网络并使用图神经网络方法进行药物社区发现,在帮助加速理解整个药物网络的结构和功能这一方面具有较好的作用,对现代医学具有重要意义。基于半监督的符号图神经网络聚类方法经过实验,在药物数据方面具有良好的效果,具有可行性。

猜你喜欢

聚类符号神经网络
学符号,比多少
“+”“-”符号的由来
神经网络抑制无线通信干扰探究
基于DBSACN聚类算法的XML文档聚类
变符号
基于高斯混合聚类的阵列干涉SAR三维成像
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
图的有效符号边控制数
基于支持向量机回归和RBF神经网络的PID整定