APP下载

基于深度神经网络的药物蛋白虚拟筛选

2020-05-21周世英李福东姜定

软件工程 2020年5期
关键词:特征提取

周世英 李福东 姜定

摘  要:药物的研发是一种投入成本高、耗费时间长且成功率较低的一种研究,为了在药物开发阶段可以快速获得潜在的化合物,针对性地提出一种基于深度神经网络的药物蛋白虚拟筛选的方法。首先从给定数据集中学习如何提取相关特征,获取配体原子和残基类型进行特征分析,快速识别活性分子和非活性分子,然后使用降维方式和K折验证等方法对药物筛选的模型进行处理,最后通过分析富集因子和AUC值验证诱饵化合物与分子蛋白的互相作用验证模型的可靠程度,实验结果表明所提出的筛选方法具有很好的可行性和有效性,有效地加快了虚拟筛选过程。

关键词:深度神经网络;虚拟筛选;特征提取

中图分类号:TP391     文献标识码:A

Abstract: Drug development is a kind of research with high input cost, long development cycle and low success rate. In order to quickly obtain potential compounds in the drug development stage, the paper proposes a deep neural network based virtual screening method for drug proteins. First, by learning how to extract the features from a given data set, the ligand atoms and the residue type are acquired to conduct characteristic analysis. After fast identification of active and inactive molecules, the dimension reduction method and the K-fold validation method are used to process the drug screening model. Finally, by analyzing enrichment factors and the interaction between AUC value bait compounds and molecular protein, the reliability of the model is verified. The experiment proves the feasibility and effectiveness of the proposed screening method which can effectively speed up the virtual screening process.

Keywords: deep neural network; virtual screening; feature extraction

1   引言(Introduction)

虛拟筛选已经成为现代药物开发过程中的一个重要辅助工具[1],它可以在成千上万的候选化合物药物中筛选出与所需的药物目标结合的新型化合物,得到可以激活或抑制选定蛋白的小分子。一般来说虚拟筛选方法可以分为基于受体的虚拟筛选和基于配体的虚拟筛选,前者通过对已知具有相同作用机理的化合物进行定量构效(QSAR)关系研究,依照药效团模型对化合物数据库进行搜索以得到最佳的构象。后者主要应用分子对接技术,实施这种筛选需要获知药物作用靶标的分子结构,通过分子模拟手段计算化合物库中的小分子与靶标结合的能力,预测候选化合物的生理活性。虽然虚拟筛选的准确性有待提高,但是其快速廉价的特点使之成为发展最为迅速地药物筛选技术之一。

到目前为止,随着新的分子生物学技术的出现,药物开发产生了完全性的改变和演变,出现了神经网络等可以增强虚拟筛选能力的方法,可以训练基于输入和输出对生成分类器。Adam[2]将可学习的原子卷积和softmax操作分别应用于每个分子的基础上建立了一种用于基于结构的虚拟筛选的深度学习架构,该架构可以生成固定大小的蛋白质和小分子指纹并进行进一步的非线性变换,通过计算它们的内积并用于预测结合势得到筛选的效果。该方法的筛选效率较高,检索速度快,但在针对不同特征的权重值方面存在着局限性,本文通过使用了深度神经网络来改进虚拟筛选的结果,提出了一种DL的虚拟筛选,它以深度神经网络为基础,可以大量的小分子化合物进行分类筛选并排除不具有活性的小分子化合物,本文其余部分的结构如下。

2  基于深度神经网络药物蛋白虚拟筛选算法构建(Construction of virtual screening algorithm for drug protein based on deep neural network)

2.1   数据采集

A Directory of Useful Decoys(DUD)是由加州大学旧金山分校药物化学系的Irwin和Shoichet实验室所归纳的药物数据集,它用于测试基于配体的诱饵对接算法,DUD是迄今为止用于对虚拟筛选程序进行基准测试的最大,最全面的公共数据集。DUD含有40个受体蛋白酶,每种蛋白酶的配体中都有几十到几百个分子从而组成了2950种配体。又从商业可用化合物ZINC数据库中对每个配体检索到36个诱饵以模拟相关配体的某些物理性质,它们在物理性质上类似于特定的配体,如分子量、cLogP和氢键基团的数量,但在拓扑结构上却截然不同,从而形成了一个包含98266种化合物的数据库。使用的数据集包括复杂晶体的PDB代号和结构活性物的数量,诱饵数及不同的化学类型数。我们使用以下九个具有代表性的受体用于后续分析[3]。

2.2  深度神经网络算法的构建

深度神经网络(DNN)是一种多层神经网络,它包含一个输入层、一个输出层和多个隐藏层,层与层之间通过前向或反馈连接方式相互结合,其中隐藏层可以根据模型需要设置层数以追求最佳的效果,连接强度使用权重因子表达,神经元通过给定的数据集按照一定的规则对网络连接权重进行学习,通过多次训练以达到最佳的实际结构,本文的隐藏层包括三层,是一个全连接层序列,以每个化合物的特征为输入并沿着网络层依次计算,每一层通过前一层中的输入值乘以当前隐藏层中每个单元的权向量计算加权和,其网络拓扑结构如图1所示。本研究还通过在网络中使用词嵌入(word Enbedding)、Adam算法和K折交叉验证进行训练和网络优化。

(1)特征提取:词嵌入是自然语言处理(NLP)语言模型与表征学习技术的统称,它可以将高维度数量的词嵌入到低维度的向量空间中,数据被映射为实数域上的向量,它可以对分子数据的特征进行进一步地进行信息抽取,从蛋白质复合物中提取相关信息得到相关特征,通过相似量的表达得到数据处理,这里输入层使用来自的信息包括Watom、Wdist、Wchrg和Wamino这四个特征量,既原子类型、相关距离、原子的电荷和氨基酸类型,这些特征量矩阵构成一个隐层的权重矩阵,使用词嵌入可以在很大程度上对数据维度缩减,有益于增加后续网络训练的收敛性,并且最大程度上保留了原分子的信息以确保筛选的正确性。嵌入层模型如图2所示。

(2)Adam算法:Adam算法[4]是一种可以替代传统随机梯度下降(SGD)过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重,不同于传统的随机梯度下降Adam算法通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率进行迭代的方式对神经网络进行更新。Adam算法同时获得了适应性梯度算法(AdaGrad)和均方根传播算法(RMSProp)这两种随机梯度下降扩展式的优点,通过维持每个参数的学习率以改善稀疏梯度的性能,自适应地保持学习速率。

(3)交叉验证:交叉验证是一种评估泛化性能的统计学方法,他比单次划分训练集和测试集的方法更加全面稳定,最常用的交叉验证方法是K折交叉验证(K-fold cross-validation),其中K是由用户指定的数字,文中将数据集划分为相等的五部分,每一部分叫作折(fold)。在实验过程中对数据集中化合物具有活性值设为1,没有活性值设为0,分别对应标记1和0标签,以40个药物相关靶标蛋白质对应的活性非活性化合物作为基准测试数据集进行5折交叉验证,对这个神经网络训练过程重复40次,每次用不同的一组DUD的40个受体作为测试受体打分,基于结构的虚拟筛选,需要蛋白质的结构信息来将配体候选体停靠在目标物的结合口袋中。在这里,大量的小分子被筛选来对抗目标蛋白的结构。然后利用评分函数对蛋白质与化合物的结合能力进行评估分类。

研究中基于深度神经网络的药物蛋白虚拟筛选训练步骤具体如下:

(1)将(DUD)蛋白酶数据进行预处理和筛选,考虑交叉富集相似关系去除相似的蛋白酶。

(2)通过原子绑定類型、相邻原子距离和原子电荷作为特征进行筛选。

(3)采用DNN神经网络对网络结构进行调整。

(4)使用K折验证在平均性能的基础上对模型进行准确评估。

(5)计算富集因子和误差和精度,得到筛选结果。如图3所示。

3  实验结果及分析(Experimental results and analysis)

虚拟筛选结果评价是一项十分重要的工作,由于缺乏标准的评价准则,对应的筛选结果差距也十分大,主流评价标准是使用富集因子(Enrichment Factor, EF)和AUC(Area Under Curve),即ROC曲线下的面积[5]。

3.1   富集因子

富集因子是评估分子对接性能的重要指标,主要考察对接计算所使用的参数是否从包含活性分子和诱饵分子的数据库中将活性分子通过打分的形式筛选出来。本文通过这种方法验证对接方法是否有效。其计算公式为:

式中,TP代表预测正确的正样本数,TN代表预测正确的负样本数,FP代表预测错误的负样本数,FN代表预测错误的正样本数。模型的灵敏性分析SE(sensitivity)用于评估正样本的预测正确率,特效性分析SP(specificity)用于评估负样本的预测正确率。Nt为所有化合物分子个数,Ns是取样化合物数量,total actives为取样重活性化合物的个数,total molecules为测试集中所有活性化合物的个数,EFX%为打分结果前x%分子的个数(本文设定为2%),对于同一数据集式中total actives/total molecules的值是固定的。当EF>1时,说明该方法具有显著地活性化合物的富集能力,得到的结果是有效地,而且其富集能力随着EF的值得增加而增加。如表2所示,除了ace蛋白外,我们的DL筛选方法均能得到验证[6]。

3.2   AUC值

AUC是计算ROC曲线下的面积(area under curve),该值可反映虚拟筛选方法的效果。一般认为该值为0.7—1时具有一定的筛选效果,由于ROC曲线一般都处于y=x这条直线的上方,所以AUC正确的取值范围在0.5—1。而且AUC越接近1.0,检测方法真实性越高。当AUC值等于0.5时,则真实性最低,说明无应用价值,得到的结果如表3所示。

将我们建立的模型的预测结果与文献[6]预测的结果进行比较,以便检验我们模型的预测水平。文献使用DOCK、RosettaLigand(RL)和AutodockVina(ADV)这三种筛选软件进行筛选操作,计算结果如表2和表3所示。由于数据的特性问题研究中使用的DL方法与其他相比选取的靶点蛋白富集因子除ace外均大于1,证明对接得到的前期活性分子可被使用,可以验证对接方法及参数适用于该体系。但是需要指出的是直接和不同模型的预测结果相比较不太合理,因为不同的模型采用了不同验证方法和筛选特征。通过实验结果对比可得可知DL这种研究所得到的富集因子和AUC值均能得到较好的结果,深度神经网络相比其他三种传统方法的筛选效果稳定性提高了很多。

4   结论(Conclusion)

本文在这项工作中引入的深度神经网络的方法进行虚拟筛选方法的开发,有效考虑关键数据中的有效特征,通过提取目标原子种类、原子距离、电荷和氨基酸类型增强了虚拟筛选的正确性,这种方法大大减轻了人为干预,可以为后续的对接实验、蛋白活性實验等操作打下了基础。通过比较同类型的虚拟筛选所得到的富集因子和AUC值均表现出较好的结果,研究结果表明,建立深度神经网络模型在虚拟筛选方面的操作是成功的,研究中的DL方法对加快设计和发现药物有着极其重要的意义。

参考文献(References)

[1] Kristy A Carpenter,David S Cohen.Deep learning and virtual drug screening[J].Future.Medicinal.Chemistry,2018,10(21):2557-2567.

[2] Adam Gonczarek,Jakub M.TomczakInteraction prediction in structure-based virtual screening using deep learning[J].Computers in Biology and Medicine,2017(100):253-258.

[3] Andreas Jahn,Georg Hinselmann.Optimal assignment methods for ligand-based virtual screening[J].Journal of Cheminformatics,2009(1):1-14.

[4] 杨观赐,杨静,李少波,等.基于Dopout与ADAM优化器的改进CNN算法[J].华中科技大学学报(自然科学版),2018,46(07):122-127.

[5] 杨国兵,李泽荣,饶含兵.机器学习方法用于建立乙酰胆碱酯酶抑制剂的分类模型[J].物理化学学报,2010,26(12):3351-3359.

[6] Marcelino Arciniega,Oliver F.Lange.Improvement of Virtual Screening Results by Docking Data Feature Analysis[J].Journal of Chemical Information and Modeling,2014(54):1401-1411.

猜你喜欢

特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
一种基于LBP 特征提取和稀疏表示的肝病识别算法
基于DSP的直线特征提取算法
基于改进WLD的纹理特征提取方法
噪声环境下滚动轴承故障特征提取
浅析零件图像的特征提取和识别方法
基于CATIA的橡皮囊成形零件的特征提取
基于MED和循环域解调的多故障特征提取