药物虚拟筛选常用的人工智能新算法
2023-08-19朱贤兑冯佳宁岳永婷吕旭东张志斐杨兆勇
朱贤兑,冯佳宁,岳永婷,吕旭东,张志斐,杨兆勇
·综述·
药物虚拟筛选常用的人工智能新算法
朱贤兑,冯佳宁,岳永婷,吕旭东,张志斐,杨兆勇
063210 唐山,华北理工大学药学院(朱贤兑、冯佳宁、岳永婷、张志斐);100050 北京,中国医学科学院北京协和医学院医药生物技术研究所代谢工程室(吕旭东、杨兆勇)
药物开发是一个非常耗费时间与金钱的过程。有相关研究指出,典型创新药物的开发后期阶段,即从新药临床试验到最终申请获批平均需要 9.1 年,平均成本为 28.7 亿美元,而这个数字还在不断上升[1-3]。药物虚拟筛选利用计算机强大的计算能力,通过特定的算法从结构多样性丰富的化合物库中发现可能治疗特定疾病的先导化合物,是创新药物的开发前期阶段发现候选新药的一种常用方法,与高通量筛选相比,具有更快、更经济的优点。然而,随着蛋白质-配体复合物晶体结构以及相关实验数据的数据量大幅增加,增大了建模的难度。再加上基于分子对接的虚拟筛选搜索化合物主要根据评分函数计算结果来判断是否命中化合物,评价标准单一,既往的虚拟筛选暴露出准确性低下和低效率的缺点。
近年来,人工智能(artificial intelligence,AI)技术,特别是其子领域机器学习(machine learning,ML)亦或深度学习(deep learning,DL)在图像处理和自然语言处理方面取得了前所未有的突破。人工智能算法已经实现了模仿人类的认知功能,比如学习技能和解决实际问题。对于生物以及化学领域浩瀚的数据海洋,人工智能算法均可将其“学习”分类,然后再筛选过程中充分考虑这些因素,提高其准确性[4-5]。再有绝大多数的 AI 算法是可以通过图像处理单元(GPU)来进行加速的[6],GPU 硬件的大力发展,让数以亿计的化合物筛选变得很容易完成。本文着重介绍虚拟筛选中越来越被广泛使用的人工智能或者机器学习的最新算法。
1 常用的虚拟筛选方法简介
建立庞大的结构多样的化合物库能提高虚拟筛选结果的准确度。虚拟筛选需要使用包含几千到几百万甚至上亿的小分子数据库,用来筛选特定靶点蛋白的有效结合剂或抑制剂。数据库包含的小分子可以是已知的药物分子、可以是优化后合成的先导化合物,也可以是天然产物或者活性分子。目前免费的用于虚拟筛选的化合物库,比如 Pubchem、Zinc、Drugbank,它们各有优劣,都包含了特定信息的小分子结构。当然也有很多商业的小分子数据库对于虚拟筛选是免费的,它们的优势在于可以直接购买筛选到的小分子,而不用实验室化学合成[7-8]。
对化合物结构的预处理是开展虚拟筛选要完成的准备工作。将 1D(SMILES)和 2D(SDF)格式的小分子转化成 3D 格式,并且添加相应 pH 的氢原子。对于化合物结构的准备有诸多过程,比如过滤掉金属有机化合物和含反应性基团的化合物;去除盐中的金属离子,保留酸根和碱基部分;去除重复结构;不同质子化状态结构的枚举;不同立体异构体、环构象、大环分子不同构象的枚举等。在这里,简单介绍关于靶点结构的选择和处理。
根据靶蛋白的立体结构建立化合物筛选模型是虚拟筛选是否成功的关键步骤。靶点蛋白的晶体结构一般从 PDB 数据库中检索和下载。如果没有相关的结构一般通过同源建模的方法构建蛋白结构,如 SWISS-MODEL、MODELLER,还有之后会介绍到的 AlphaFold2 等。对于蛋白结构的准备,涉及到质子化处理以及修补丢失残基。
接下来就是最重要的一步,进行小分子的虚拟筛选。如果是基于蛋白靶点的筛选,主要是指分子对接的过程。对于结合位点明确的靶点,则使用更加精确的对接盒子使筛选更加高效;对于结合位点未知的靶点,则涉及到预测蛋白结合位点的步骤,这会比盲对接的准确度更高。利用各种对接软件(如 Autodock)基于空间匹配和能量匹配进行构象搜索,这个过程一般为半柔性对接,即把小分子设置为柔性可扭转状态。这个过程涉及到构象搜索算法和打分函数,这两者与筛选对接的质量息息相关。如果是仅仅基于配体的筛选,也就是说已知目标靶点抑制剂,根据其结构和化学相似性预测具有相似或更高活性的抑制剂小分子[9]。
最后,进行候选小分子化合物的脱靶性以及吸收、分配、代谢、排泄和毒性(ADMET)预测。候选小分子对靶点蛋白的选择性至关重要,它与副作用相关。目前可以用反向筛选的方法来判断候选小分子存在的其他潜在的结合靶标进而评估其对目标靶蛋白的选择性[10]。对于 ADMET 预测可以使用在线服务器完成,实现快速估计生物利用度、选择性、毒性和一般药代动力学特性,以便在最终实验测试之前更严格地筛选化合物。
2 虚拟筛选应用的人工智能新算法
2.1 蛋白三维结构建模
AlphaFold2(AF2)[11]无论在人工智能领域还是生命科学领域都是过去一年最具创新的方法。AF2 也被评为 2021 年度十大科学突破成果之一,并且居于首位。AF2 模型基于深度学习算法,是一种新颖的机器学习方法。它将蛋白质结构的物理和生物知识,利用多序列比对(multiple sequence alignment,MSA)纳入设计中,在多数结构预测中展示出接近实验结晶结构的准确性,大大优于现存其他蛋白结构预测方法。该算法运行的关键模块称作“Evoformer”。该部分共有 48 个“Evoformer block”,每个“Evoformer block”的输入和输出都是包含横向、纵向注意力机制,三角乘法更新及三角注意力机制。AF2 采用信息不断在整个深度网络来回循环流动的思想,提高最终的推断结构的合理性与准确性。由于 AF2 的高曝光,出现了针对其模型准确性的质疑[12-13],但 AF2 对传统的蛋白质空间结构测定方法的颠覆性影响不容忽视。
ESMFold[14]是由 Facebook 旗下的 MetaAI 团队开发的蛋白结构预测算法,其使用 ESM1b 算法预测超过 6 亿多个宏基因组蛋白的序列(AF2 为 2.2 亿个),预测准确性逊色于 AF2,但是预测速度是 AF2 的 60 倍,这将会使蛋白结构预测扩展到更大的数据规模。RoseTTAFold[15]是著名蛋白计算设计大师 David Baker 教授开发的蛋白预测算法,也于 2021 年发表于期刊上,是仅次于 AF2 的蛋白结构预测算法。
2.2 小分子结合口袋预测
DeepSite[16]是基于卷积神经网络的深度学习方法。该网络包括 4 个卷积层、2 个池化层、3 个 Dropout 层和 2 个全连接层。该方法通过利用蛋白质的几何、化学和进化特征用于寻找可能与小分子药物化合物结合的蛋白结合口袋。该模型对 7622 个已知结合口袋的蛋白结合位点进行预测,并使用距离法和体积重叠法与 scPDB 结合位点数据库进行比对评估,均得到了很好的结果。该模型也有一些不足,比如并未考虑水分子在结合位点的影响,因为对于小片段分子来说,水分子也可看作是结合口袋的一部分。DeepSite 对所有用户都是免费的,根据输入蛋白质分子量的大小,预测时间可能会有所不同,通常耗时 2 min 左右。
DoGSiteScorer[17]也可用于预测药物可药性和确定药物开发过程中某些疾病修饰靶点。该模型是通过支持向量机(SVM)对可药性位点进行评分预测的,将尺寸、形状和疏水性作为自动药物可药性预测的重要全局口袋描述符。蛋白-蛋白结合位点也是小分子药物的重要抑制靶点。PRED_PPI[18]是基于支持向量机(SVM)的一个相对全面的预测系统,可以用于预测五种生物中的蛋白-蛋白结合位点,包括人类、酵母、果蝇、大肠杆菌和秀丽隐杆线虫。该方法对人类蛋白质相互作用检测的平均准确率为 90.67%,对秀丽隐杆线虫预测的平均准确率最高(97.51%)。该方法可以通过访问在线网站随时使用。
2.3 基于配体的筛选
Stokes 等[19]开发设计了一个能够预测具有抗菌活性分子的深度神经网络。他们首先使用抑制大肠杆菌生长的 2335 种不同分子的集合来训练神经网络模型,通过一组分子特征(原子序数、每个原子的键数、形式电荷、手性、键合氢数、杂化、芳烃性、原子质量、键型、共轭、环隶属、立体化学),超参数优化和集成来增强模型。然后将模型用于一个超大小分子化合物库(> 1.07 亿个)去预测抗菌化合物,确定了 8 种在结构上与已知抗生素相差很大的抗菌化合物。最终结合实验发现了广谱抗生素 Halicin。
中国医学科学院药物研究所汪小涧团队在开发 JAK2 抑制剂时基于 3 种不同类型的指纹和极端梯度增强(XGBoost)方法,开发了 3 组模型,每组包含一个分类模型和一个回归模型。首先在 PDB 和 BindingDB 数据库中分别收集对 JAK2 酶蛋白有活性和无活性的小分子进行训练和测试,随后多次针对活性大小进行训练来完成回归模型的构建优化。训练之后的分类模型使用相同的测试集进行虚拟筛选,结果优于 Glide 和 Autodock Vina 的筛选结果。回归模型用于预测分类模型鉴定出的活性分子的比活性值,训练后的回归模型也表现出了优秀的结果(2max= 0.80)[20]。
2.4 基于受体的筛选
牛津大学 Scantlebury 等[21]提出了 PointVS 模型,一个基于机器学习的蛋白质-药物关联打分函数,即用来预测结合亲和度和姿态分数。该模型使用了一种基于 E(n)-等变图神经网络(EGNN)层的架构。首先去除测试和训练集中的重叠蛋白三维结构,然后对 PointVS 在对接能力和评分能力测试上的性能进行基准测试。最后,使用特定属性(gnina 的原子掩蔽和 PointVS 的边缘“注意力”)来深入探索蛋白质口袋中的重要结合区域,将其用于小分子片段细化的评分。与非机器学习方法相比,PointVS 在结合亲和力的预测性能方面有了实质性的改进。PointVS 不是学习记忆配体信息,而是识别重要的相互作用,并且还是第一个基于机器学习的从蛋白质目标提取结构信息的方法,这种方法对片段细化对接评分非常重要。
Adeshina 等[22]开发了 vScreenML 模型,它是一个基于 XGBoost 框架构建的虚拟筛选通用分类器。团队采用自己开发的数据集(D-COID)来训练模型,在评价结合能的能量打分函数中,模型使用了 Rosetta 能量函数、RF-Score(计算特定的成对分子间接触发生的特征)、BINANA(分子间接触的分析)、ChemAxon(配体特异性的分子描述符)和 Szybki(捕获结合时丢失的配体构象熵的项)。与其他8 个机器学习打分函数(nnscore[23]、RF-Score v1[24]、RF-Score v2[25]、RF-Score v3[26]、PLEClinear[27]、PLECnn[27]、PLECrf[27]和 RF-Score-VS[28])相比,vScreenML 在统计学上表现出更好的结果。最后以人类乙酰胆碱酯酶(AChE)作为靶标,使用 vScreenML 模型对含有 7.32 亿个化学分子的分子库进行了筛选,选取前 100 个作为候选抑制剂分子。结合实验发现了最有效的抑制剂 AC6,该化合物的 IC50为 280 nmol/L,i值为 173 nmol/L。
2.5 候选小分子不良反应预测
药物的选择性或者毒性会造成药物在体内的不良反应,对于药物不良反应的预测对实验评估有一定的参考,也会有助于药物候选量的进一步过滤。Liu 等[29]开发了基于 K 近邻(KNN)的模型。该模型具有数据融合和分子相似搜索的高效准确的特征,可以用于药物库与靶标库之间的脱靶效应。该模型搭载在一个在线网站上,可以方便用户使用。Xu 等[30]开发了一种改进的分子图编码卷积神经网络(MGE-CNN)架构的深度学习方法—— deepAOT。构建了 3 种 AOT 模型:回归模型(deepAOT-R)、多分类模型(deepAOT-C)和多任务模型(deepAOT-CR)。该模型可以用于评价药物的复合急性口服毒性(AOT)。经过大鼠体内实验进行评估,证明了计算结果准确无误,但在人体中的评估准确性有待考验。
3 展望
目前全世界整个药物开发产业步伐逐渐放缓,对新的实验技术方案或者开发思路的渴求日益增多。在药物筛选领域,应用以机器学习为代表的人工智能技术可以克服一些既有算法的缺点。尽管通过机器学习等人工智能技术取得的药物筛选结果依然需要实验验证成药性,但具备的高效率将极大推动创新药物的发展。
[1] Brown DG, Wobst HJ. A decade of FDA-approved drugs (2010-2019): trends and future directions. J Med Chem, 2021, 64(5):2312-2338.
[2] Brown DG, Wobst HJ, Kapoor A, et al. Clinical development times for innovative drugs. Nat Rev Drug Discov, 2022, 21(11):793-794.
[3] DiMasi JA, Grabowski HG, Hansen RW. Innovation in the pharmaceutical industry: new estimates of R&D costs. J Health Econ, 2016, 47:20-33.
[4] Hassanzadeh P, Atyabi F, Dinarvand R. The significance of artificial intelligence in drug delivery system design. Adv Drug Deliv Rev, 2019, 151-152:169-190.
[5] Arul Murugan N, Ruba Priya G, Narahari Sastry G, et al. Artificial intelligence in virtual screening: Models versus experiments. Drug Discov Today, 2022, 27(7):1913-1923.
[6] Jorda M, Valero-Lara P, Peqa AJ. Performance evaluation of cuDNN convolution algorithms on NVIDIA volta GPUs. IEEE Access, 2019, 7(99):70461-70473.
[7] Yu MZ, Zhang PL, Lv SF, et al. Construction of a 3D structural platform of small molecule compounds. J Zhengzhou Univ (Med Sci), 2019, 54(1):46-50. (in Chinese)
于明珠, 张鹏莉, 吕思凡, 等. 小分子化合物3D结构数据库的构建. 郑州大学学报(医学版), 2019, 54(1):46-50.
[8] Liu Y, Ahmed S, Fang Y, et al. Discovery of chitin deacetylase inhibitors through structure-based virtual screening and biological assays. J Microbiol Biotechnol, 2022, 32(4):504-513.
[9] Lin X, Li X, Lin X. A review on applications of computational methods in drug screening and design. Molecules, 2020, 25(6):1375.
[10] Glaab E. Building a virtual ligand screening pipeline using free software: A survey. Brief Bioinform, 2016, 17(2):352-366.
[11] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021, 596(7873):583-589.
[12] Hu M, Yuan F, Yang KK, et al. Exploring evolution-based &-free protein language models as protein function predictors. ArXiv, 2022, arXiv:2206.06583.
[13] Chakravarty D, Porter LL. AlphaFold2 fails to predict protein fold switching. Protein Sci, 2022, 31(6):e4353.
[14] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science, 2023, 379(6637):1123-1130.
[15] Baek M, DiMaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science, 2021, 373(6557):871-876.
[16] Jiménez J, Doerr S, Martínez-Rosell G, et al. DeepSite:Protein-binding site predictor using 3D-convolutional neural networks. Bioinformatics, 2017, 33(19):3036-3042.
[17] Volkamer A, Kuhn D, Grombacher T, et al. Combining global and local measures for structure-based druggability predictions. J Chem Inf Model, 2012, 52(2):360-372.
[18] Guo Y, Li M, Pu X, et al. PRED_PPI: A server for predicting protein-protein interactions based on sequence data with probability assignment. BMC Res Notes, 2010, 3:145.
[19] Stokes JM, Yang K, Swanson K, et al. A deep learning approach to antibiotic discovery. Cell, 2020, 180(4):688-702, e13.
[20] Yang M, Tao B, Chen C, et al. Machine learning models based on molecular fingerprints and an extreme gradient boosting method lead to the discovery of JAK2 inhibitors. J Chem Inf Model, 2019, 59(12): 5002-5012.
[21] Scantlebury J, Vost L, Carbery A, et al. A step towards generalisability: training a machine learning scoring function for structure-based virtual screening. BioRxiv, 2023-02-28. Online ahead of print.
[22] Adeshina YO, Deeds EJ, Karanicolas J. Machine learning classification can reduce false positives in structure-based virtual screening. Proc Natl Acad Sci U S A, 2020, 117(31):18477-18488.
[23] Durrant JD, Mccammon JA. NNScore 2.0: a neural-network receptor-ligand scoring function. J Chem Inf Model, 2011, 51(11): 2897-2903.
[24] Ballester PJ, Mitchell JB. A machine learning approach to predicting protein-ligand binding affinity with applications to molecular docking. Bioinformatics, 2010, 26(9):1169-1175.
[25] Ballester PJ, Schreyer A, Blundell TL. Does a more precise chemical description of protein-ligand complexes lead to more accurate prediction of binding affinity? J Chem Inf Model, 2014, 54(3):944- 955.
[26] Li H, Leung KS, Wong MH, et al. Improving autodock vina using random forest: The growing accuracy of binding affinity prediction by the effective exploitation of larger data sets. Mol Inform, 2015, 34(2-3):115-126.
[27] Wójcikowski M, Kukiełka M, Stepniewska-Dziubinska MM, et al. Development of a protein-ligand extended connectivity (PLEC) fingerprint and its application for binding affinity predictions. Bioinformatics, 2019, 35(8):1334-1341.
[28] Shen C, Hu Y, Wang Z, et al. Beware of the generic machine learning-based scoring functions in structure-based virtual screening. Brief Bioinform, 2021, 22(3):bbaa070.
[29] Liu X, Gao Y, Peng J, et al. TarPred: a web application for predicting therapeutic and side effect targets of chemical compounds. Bioinformatics, 2015, 31(12):2049-2051.
[30] Xu Y, Pei J, Lai L. Deep learning based regression and multiclass models for acute oral toxicity prediction with automatic chemical feature extraction. J Chem Inf Model, 2017, 57(11):2672-2685.
10.3969/j.issn.1673-713X.2023.03.011
国家自然科学基金面上项目(81872782);河北省自然科学基金(B2020209001)
张志斐,Email:zhangzhifeifei7208@163.com;杨兆勇,Email:zhaoyongy@imb.pumc.edu.cn
2023-04-24