APP下载

融入异构网络特征的深度学习预测中药靶点

2023-02-08黄群富丁长松

智能计算机与应用 2023年1期
关键词:网络拓扑异构相似性

黄群富,丁长松,2

(1 湖南中医药大学 信息科学与工程学院,长沙 410208;2 湖南省中医药大数据分析实验室,长沙 410208)

0 引言

中医临床经验丰富、疗效显著,但对中药成分、治疗靶点的作用机制仍知之甚少,给临床精准治疗带来了极大挑战。然而,中药具有多成分、多靶点等特点,很多潜在成分与靶点间的关系尚未明确。通过生物实验,分别从中药的成分研究其作用靶点花费的时间、经济成本大且难以实现。因此,研究快速高效的中药成分-靶点相互作用预测方法亟不可待。

中药靶点发现的关键,在于探究中药多成分与多靶点的相互作用关系。现有的定量结构活性关系方法预测中药靶点方法,主要以分子指纹、分子描述符结合机器学习为主[1],忽略了中药、成分、靶点3者之间的潜在联系,不利于模型的泛化调用。目前,网络分析已广泛应用于疾病分类、生物医疗、新药研发等领域,其有效性已在实践中得到验证。如:Hao等[2]针对药物-靶点相互作用,提出一种双网络集成逻辑矩阵分解的相似性度量方法;于亚运等[3]基于分子指纹相似度构建中药成分-靶点相互作用分类模型。此类方法的准确度很大程度依赖于分子结构相似性。近年来,深度神经网络(Deep Neural Network,DNN)结合传统算法已成功应用于海量、复杂的药物-靶点网络拓扑结构分析[4]。如:使用DNN 和因子分解机实现自动学习特征的高阶及低阶表达式[5];利用XGBoost 确定药物分子指纹非冗余特征[6],并通过DNN 提高药物靶点分类模型精度等。

本文针对传统中药靶点预测忽略中药、成分、靶点之间的潜在联系和药物-靶点网络研究中存在特征提取不全、过于依赖结构相似性的问题,提出了一种基于中药-成分-靶点(Traditional Chinese Medicine-Ingredient-Target,TCMIT)3 层异构网络的中药靶点预测方法。利用结构相似性和关联矩阵构建TCMIT 异构网络,使用数学统计算法提取网络拓扑特征,并结合深度学习建立TCMIT-DNN 中药成分-靶点相互作用分析模型,通过异构网络从分子维度分析中药治疗疾病的现代物质基础。

1 方 法

基于成分SMILES 相似性、靶点氨基酸序列相似性,以及已知相互作用的中药-成分、成分-靶点关系,构建TCMIT 3 层异构网络。采用重启随机游走、高斯核算法,分别提取层内相似性网络和层间异构网络的拓扑特征;结合信息熵,分别融合成分、靶点特征矩阵,并利用DNN 构建分类模型。本文整体框架如图1 所示。

图1 融入“中药-成分-靶点”异构网络特征的深度学习预测中药靶点框架Fig.1 Prediction of traditional Chinese medicine targets based on deep learning on integrated “TCM-ingredient-target” network features

1.1 结构相似性计算

令D ={d1,d2,…,dI} 表示中药集合;I为中药总数;C ={c1,c2,…,cJ} 表示中药包含的成分集合;J为成分总数;T ={t1,t2,…,tK} 表示种属来源于Human 物种的靶点集合;K为靶点总数。

利用Jaccard 算法[7],分别计算成分扩展连通性指纹向量的结构相似性,构建成分相似矩阵SIMingre∈RJ×J。公式如下:

式中,ci、cj分别表示两种成分的指纹向量。

利用史密斯-沃特曼(Smith-Waterman)算法[8],计算两个不等长氨基酸序列的相似性,构建靶点结构相似矩阵SIMtarget∈RK×K。公式如下:

式中,空位罚分数w设为2,若当前对比的两个元素相同,则s为3,否则s为-3。

1.2 TCMIT 网络构建

中药、成分、靶点分别作为3 个相似性网络的节点,根据节点间的相互作用关系,定义连接中药层与成分层的邻接矩阵M∈RI×J、连接成分层和靶点层的邻接矩阵N∈RJ×K。当矩阵中存在相互作用关系时编码为1,否则编码为0。编码为1 表示异构网络相应的节点间存在连边,编码为0 则不存在连边,分别构建“中药-成分”、“成分-靶点”异构网络;以成分层为连接层,将“中药-成分”、“成分-靶点”异构网络融合为TCMIT 3 层异构网络(如图1 中第三部分所示)。

1.3 相似性网络拓扑特征提取

中药成分-靶点相互作用的预测过程,可被视为节点同时在成分层相似性网络和靶点层相似性网络随机游走的过程。重启随机游走(Random Walk with Restart,RWR),对于解决具有多种异构拓扑结构的生物网络计算具有一定优势[7],可利用相似性网络中的拓扑相似性构建RWR相似矩阵。以成分层网络为例:

定义成分层转移概率矩阵TC∈RJ×J,其中TC(ci,cj)为随机游走过程中,成分节点i到达j的概率,计算公式如下:

1.4 异构网络拓扑特征提取

利用药物靶点的相互作用关系,计算药物高斯核相互作用属性(Gaussian Interaction Profile,GIP)相似性方法[9],同时计算“中药-成分”和“成分-靶点”异构网络间拓扑结构相似性GIPingre∈RJ×J和GIPtarget∈RK×K。以GIPingre为例,计算公式如下:

其中,f(ci)表示在邻接矩阵M中,成分ci与所有中药的对应关系;γd为控制核宽度的调节参数;J为成分集合的总数;的值则是根据使用高斯核的经验而设置。

1.5 特征融合

计算相似矩阵信息熵可获得其携带多少信息,信息熵越小表示该相似矩阵中随机信息越少,从而能为特征矩阵提供更大、更丰富的信息量。在异构网络中,使用信息熵算法融合各特征矩阵,降低矩阵中数据噪声的影响。以矩阵SIMtarget∈RK×K为例,信息熵计算如下:

其中,P(ti,tj)表示靶点节点i和j在网络中相连的概率值,计算公式如下:

SIMingre、RWRingre、RWRtarget、GIPingre、GIPtarget矩阵的信息熵值计算与SIMtarget矩阵类似。根据熵值确定各矩阵融合权重,分别将成分和靶点的结构信息、相似性网络拓扑信息、异构网络拓扑信息线性融合,构建成分特征矩阵FEAingre∈RJ×J和靶点特征矩阵FEAtarget∈RK×K。融合公式如下:

其中,FEAingre(i,j) ∈[0,1]表示成分ci与cj经信息融合后的值,FEAtarget(i,j) 与其类似。

1.6 TCMIT-DNN 分类模型

DNN 采用多层神经网络结构,将复杂映射分解为一系列嵌套的简单映射,以逐层抽象实现从局部特征到整体特征提取解决复杂问题。异构网络的拓扑属性可表示为节点的特征向量,利用DNN 的非线性拟合能力构建TCMIT-DNN 模型,预测异构网络上中药成分和靶点的相互作用。当邻接矩阵N(i,j)=1 时,表示ci与tj存在相互作用,则将ci与tj视为中药成分-靶点对正例样本(y =1),当邻接矩阵N(i,j)=0 时,则将其视为负例样本(y =0),样本特征向量v定义如下:

其中,FEAingre(i,:) 表示矩阵FEAingre的第i行,FEAtarget(j,:) 表示矩阵FEAtarget的第j行。因此,FEAingre(i,:) 和FEAtarget(j,:) 经concat(·)拼接后,生成(J +K)维的样本特征向量v,J和K分别为成分、靶点数据集总数。

TCMIT-DNN 模型由一个输入层、3 个隐含层和一个输出层组成。样本特征向量v由输入层神经元流向下一层神经元,通过3 个隐含层的非线性函数运算后传递至输出层,输出v预测为正例和负例的概率值。

2 实验结果与分析

2.1 数据

本文采用的数据来源于中药药理学数据库和药物化学数据库。在BindingDB 数据库(网址http://www.bindingdb.org/)中收集所有包含Human 物种来源的靶点,共计2 135 个,将靶点信息在TCMID 数据库(网址http://www.megabionet.org/)中查询其具有相互作用的成分,共计1 633 个,将成分信息在Herb 数据库(网址http://herb.ac.cn/)查询其具有所属关系的中药,共计1 558个,并收集成分SMILES(Simplified Molecular Input Line Entry Specification,SMILES)信息及靶点氨基酸序列信息。

2.2 实验设计

2.2.1 建立TCMIT-DNN 分类模型

中药集合D、成分集合C、靶点集合T的数量I、J、K分 别 为1 558、1 633、2 135,由Jaccard 和Smith-Waterman算法分别计算中药成分和靶点的结构相似性,构建结构相似矩阵SIMingre∈RJ×J和SIMtarget∈RK×K,并结合中药-成分和成分-靶点的关联关系构建TCMIT 异构网络。在RWR 算法中,初始随机游走矩阵主对角线的值为1,其余值为0;重启概率a设置为0.5;基于成分-成分和靶点-靶点网络构建具有相似性网络拓扑特征的矩阵RWRingre∈RJ×J和RWRtarget∈RK×K。在GIP 算法中,调节核宽度的参数设置为1,基于中药-成分和成分-靶点网络构建具有异构网络拓扑特征的矩阵GIPingre∈RJ×J和GIPtarget∈RK×K;分别计算SIMingre、RWRingre、RWRtarget、GIPingre、GIPtarget和SIMtarget矩阵的信息熵值,并确定特征矩阵融合权重,结果见表1。融合后生成中药成分特征矩阵FEAingre∈RJ×J和靶点特征矩阵FEAtarget∈RK×K,并将中药成分、靶点结合邻接矩阵N∈RJ×K拼接生成中药成分-靶点对,作为DNN 的输入。

表1 相似矩阵信息熵值Tab.1 Information entropy of similarity matrix

中药成分-靶点对存在相互作用的38 286 条数据作为正例样本集,将中药成分和靶点随机组合,可以获取344.816 9 万条未知标签的组合样本数据,并在未知标签的数据中随机选取与正例样本集数量相同的作为负例样本集[2]。生成正例和负例样本集后,将其混合并打乱生成76 572*3 768 的样本数据,按比例8 ∶1 ∶1 划分训练集、验证集和测试集。

本文选用python3.7 编程语言结合Pytorch 框架建立TCMIT-DNN 模型。模型为5 层网络结构,输入层神经元数为中药成分ci与靶点tj特征向量维数之和,共计3 768 个;隐含层神经元数分别为128、64、32;输出层神经元数为2 个;采用非线性激活函数ReLU,学习率设为0.001,batch_size 一次性输入模型中的样本数设为64,epochs 数据训练轮次设为50;模型的损失函数loss采用交叉熵(Cross Entropy Loss),其公式如(13):

式中,n为样本数量,yi表示第i个中药成分-靶点对的实际标签,正例为1,负例为0,pi表示样本i预测为正例标签的概率。

2.2.2 模型性能指标

为检验TCMIT-DNN 模型的分类结果并对模型进行评估,遵循二分类模型评估指标,采用ROC曲线下面积(Area Under the ROC Curve,AUC)、准确率(Accuracy,ACC)和F1 值(F-Measure)从不同角度评估模型性能。

2.3 对比实验分析

2.3.1 消融实验

为检验TCMIT-DNN 模型整合异构网络拓扑特征的有效性,分别使用包含传统属性特征的STRDNN 模型、包含层内相似性网络拓扑特征的RWRDNN 模型、包含层间异构网络拓扑特征的GIPDNN 模型进行对比;为检验信息熵融合相似矩阵的有效性,使用相似矩阵融合权重取均值的ENTDNN 模型进行对比。各模型相似矩阵融合权重见表2,实验结果见表3。

表3 5 种算法性能比较Tab.3 Performance comparison of 5 algorithms

在相同测试集、实验参数和评价标准下,使用信息熵整合网络拓扑特征的TCMIT-DNN 模型AUC值、F1 值、ACC值均为最高,较传统属性特征STRDNN 模型分别提升了4%、5.6%、5.4%。结果表明,本文整合异构网络拓扑特征,有助于中药成分-靶点相互作用分析模型性能提升,同时信息熵算法有利于降低相似矩阵数据噪声的影响。

2.3.2 与基线模型对比

为检验TCMIT-DNN 模型在中药成分-靶点相互作用分析优越性,将其与近年来基于指纹相似度常用的随机森林(Random Forest,RF)模型[3]、梯度提升树(Gradient Boosting Decision Tree,GBDT)模型[10]、支持向量机(Support Vector Machine,SVM)模型[11]进行对比实验。RF、GBDT、SVM 模型采用成分和靶点结构相似性作为输入,利用网格搜索法寻找最优参数组合,TCMIT-RF、TCMIT-GBDT、TCMIT-SVM 分别为RF、GBDT、SVM 模型在使用TCMIT 3 层异构网络策略后的模型,其中分类模型的参数保持一致。RF 分类模型的参数为:子树的数量为100,最大深度为10;GBDT 分类模型的参数为:子树的数量为50,最大深度为5,子采样系数为0.7;SVM 分类模型的参数为:惩罚系数C为1,核函数为线性核函数。

由表4 可知,在相同测试集上的评价指标表明,TCMIT-DNN 具有最高的AUC、F1值和准确率,TCMIT-GBDT和TCMIT-RF 模型效果稍差,TCMITRF 模型效果较差。究其原因,是由于TCMIT-DNN模拟人脑的工作原理建立多个函数单元,以及其强大的非线性拟合能力,能很好地模拟成分和靶点的子结构,并有效处理具有空间拓扑特征的不规则数据,通过验证集调整确定网络结构参数,建立高精度判别模型。实验结果还表明,在对中药成分和靶点数据进行TCMIT 3 层异构网络的构建和网络特征提取后,GBDT、SVM 和RF 模型的性能均有不同程度的提升。其中,TCMIT 网络结合DNN 模型效果最好,表明TCMIT 异构网络策略能有效提取中药多成分、多靶点之间的潜在关联特征,从而提升中药成分与靶点相互作用的分类性能。

表4 常用算法性能比较Tab.4 Performance comparison of common algorithms

2.4 案列分析

以黄芪为例基于TCMIT-DNN 模型预测中药成分和靶点的关系。将黄芪的成分信息按TCMIT 异构网络策略编码后,输入模型得到预测靶点,并利用Cytoscape 软件构建黄芪成分-靶点网络,由网络图的度筛选出重要潜在靶点,并通过药物化学、药理等理论分析结果,以此验证TCMIT-DNN 模型的有效性。

利用预测结果构建黄芪成分-靶点网络,计算黄芪成分-靶点网络图的度值,并以排序前10 的靶点作为最终的潜在靶点,最终结果见表5。

表5 黄芪靶点预测结果分析Tab.5 Analysis of target prediction results of Huangqi

将结果进行中药化学数据库验证,以及从DrugBank、OMIM 数据库和文献中获取靶点功能和已知药物进行分析。分析结果表明,NQO1、ABCB1、AURKB、ADRB1 均得到中药化学数据库验证,在其余靶点中,HRH1 基因大量表达于平滑肌和神经元中参与觉醒、情绪和激素分泌的控制,靶向HRH1有助于早期治疗一些自身免疫性疾病[12];Huai等[13]发现,KAT8 通过促进I 型干扰素的产生,保护突变小鼠抗病毒感染;DDX1 基因与抗病毒免疫应答、肿瘤发生发展密切相关[14];LIPE 的缺失会导致胰岛素抵抗、糖尿病的风险增加[15];ADAMTS13 是一种多结构域蛋白酶,其缺陷会导致微血管过程触发血小板和内皮细胞的补体激活,从而引发血栓性微血管病[16]。上述结果体现了黄芪镇静、增强免疫力、抗突变、抗病毒、抗肿瘤、降血糖、预防周围血管病变的药理作用。

3 结束语

中药治疗通过多成分、多靶点、多环节、多途径综合调节,作用于机体治疗疾病,其作用机理具有明显的空间拓扑结构,且其拓扑结构具有明显的异构特性。现有的基于分子结构相似性分析中药成分-靶点相互作用的方法忽略了中药、成分、靶点3 者之间的复杂关系,导致分析结果不够精准。本研究通过TCMIT3 层异构网络建立中药、成分、靶点3 者之间的联系,并利用数学统计结合深度学习技术预测中药靶点。实验表明所有对比模型结合TCMIT 异构网络策略时分类性能均得到提升,其中TCMITDNN 模型均优于其他常用模型,并将模型有效应用于黄芪的中药靶点预测。本研究的中药靶点虚拟筛选方法充分利用了不同特征的优势,降低了传统依赖于结构相似性特征和单一描述符的风险,同时拟合了中药多成分、多靶点之间潜在联系,减轻特征提取的影响,有望应用于分子维度分析中药的现代物质基础。

猜你喜欢

网络拓扑异构相似性
一类上三角算子矩阵的相似性与酉相似性
基于通联关系的通信网络拓扑发现方法
试论同课异构之“同”与“异”
浅析当代中西方绘画的相似性
吴健:多元异构的数字敦煌
能量高效的无线传感器网络拓扑控制
2017款捷豹F-PACE网络拓扑图及图注
异构醇醚在超浓缩洗衣液中的应用探索
劳斯莱斯古斯特与魅影网络拓扑图
低渗透黏土中氯离子弥散作用离心模拟相似性