APP下载

机器学习在创新药物研发中的应用进展

2020-02-22张心苑毛雪石

医学信息学杂志 2020年8期
关键词:配体机器化合物

周 玥 张心苑 毛雪石

(中国医学科学院药物研究所信息中心 北京 100050)

1 引言

传统药物研发面临研发周期长、经费投入大、临床批准成功率低等方面的挑战,同时药物研发人员需要处理和分析海量信息[1]。随着计算机软硬件的进步,人工智能理论的发展和药理学数据的积累,人工智能技术的重要分支机器学习作为一种强大的数据挖掘工具已经应用于药物设计各个领域,如靶点识别、药物设计和结构优化、药物重新利用、性质评估和临床试验等[2]。本文将从机器学习重要算法、药物设计基本理论和机器学习在基于配体和受体虚拟筛选中的应用几个方面进行阐述。

2 人工智能及其在药物设计领域应用发展历程

2.1 人工智能

人工智能概念始于1930年艾伦·图灵的通用图灵机并在1956年达特茅斯会议上由约翰·麦卡锡正式提出。作为一个交叉学科,人工智能整合计算机、数学、心理学和语言学等众多学科知识,已应用于文字语言处理、图像影像分析及自主智能领域[2]。从诞生至今人工智能共经历3个发展高峰期。20世纪50和60 年代,逻辑推理和启发式搜索概念的出现使人机交互成为可能。20世纪80年代,前馈神经网络和反向传播算法的创立成功实现人工智能在化学和分子生物学领域的首次探索,完成基于序列信息的蛋白质二级结构预测。2012年至今,深层网络模型的成熟使人工智能应用拓展到医学图像分析和自动驾驶车辆等领域[1-2]。

2.2 人工智能在药物设计领域应用

聚焦药物设计领域,药物化学家基于定量构效关系Hansh模型,逐渐开始应用人工智能方法以评估和预测化学与生物效应的核心问题[3]。20世纪90年代,神经网络、支持向量机和随机森林等方法已开始应用于抗癌药物筛选、蛋白序列设计和药物设计[4-5]。21世纪以来,人工智能在先导化合物优化、活性和毒性预测等领域取得成功[6]。基于人工智能在药物研发领域的快速发展,制药公司开始与人工智能公司开展合作,促进该领域的进一步发展[7]。

3 机器学习在药物设计中的应用

3.1 药物设计中的主要机器学习方法

3.1.1 概述 人工智能在药物设计中的应用即学习和解释与药物相关的大数据以发现新药物算法,以更加综合和自动的方式结合机器学习的发展[8]。与传统方法相比,基于机器学习的药物设计方法不依赖于基础原理和理论进步,而是更加注重从庞大生物医学大数据中提取新知识。

3.1.2 分类 目前药物研发使用最多的机器学习方法大致可分为5类:监督学习(监督、半监督、非监督)、主动学习、强化学习、迁移学习和多任务学习[2]。(1)监督学习。根据已知的输入和输出数据关系训练模型,以预测新样本数据分类和数值结果,主要用于药物疗效和ADMET预测等[1]。具体而言,可以对给定化合物库中的分子进行活性和非活性标记,通过分析分子特征与生物活性之间的关系预测新分子生物活性。(2)非监督学习。通过识别输入数据中的隐藏模式或固有结构来进行聚类和特征查找,已应用于疾病靶点的发现[1, 9]。(3)主动学习。通过关注结构空间新颖性及最大可能化学空间领域来辅助选择过程,同时识别具有针对特定疾病靶标的潜在活性新型化合物[7, 10]。(4)强化学习。在某种程度上模仿奖励驱动的学习方式,通过奖励和惩罚模式来设计和优化系统,主要用于从头药物设计领域[1-2]。(5)迁移学习和多任务学习。已应用于药物设计领域[2]。

3.1.3 具体实现算法 包括用于预测活性的回归算法,用于分类的随机森林、朴素贝叶斯和聚类算法,以及用于图像识别和结构创建的人工神经网络和深度学习等[1-2, 11]。相对于传统学习方法,深度学习可以自动从输入数据中学习特征,通过多层特征提取将简单特征转换为复杂特征。目前比较流行的深度学习算法主要有深度神经网络、卷积神经网络、循环神经网络、深度自动编码器神经网络和生成对抗网络,已在生物活性预测、全新药物设计与合成及生物图像分析领域展现出巨大优势[1-2, 11]。

3.2 机器学习应用于药物设计基本步骤

3.2.1 遵循药物研发过程 药物研发过程主要包括潜在药物靶标发现与验证、苗头化合物发现、先导化合物结构优化和候选化合物确认以及临床前与临床研究等[6]。机器学习在药物设计中的应用是一个顺序过程,包括研究问题的提出、机器学习方法结构设计、数据准备、模型训练与评估,以及结果理解和解释等[1-2]。

3.2.2 具体步骤 一是提出研究问题。确认特定问题属于回归预测活性任务、分类区分活性和非活性任务或产生新分子的结构性任务。二是根据问题和数据类型及数量选择合适算法并设置合理初始值。对于回归预测任务多使用逻辑回归方法;分类区分任务则较多使用支持向量机、随机森林和人工神经网络等算法;而对于生成性任务,深度学习网络则更为适用,如深度玻尔兹曼机和深度信念网络等。三是数据收集准备,初始数据的代表性、质量和数量对人工智能模型质量至关重要。为最大程度地提高可预测性,用于训练的数据需准确、合理且完整。四是模型训练和评估。通过训练搜寻一组参数以达到减小误差的目的。基于上述机器学习步骤,科研人员可以解决药物设计中绝大多数的问题。但是目前机器学习在药物领域的应用还处于早期阶段,应重视结果的可解释性和可重复性,否则将制约机器学习在该领域的进一步发展。

4 机器学习在虚拟筛选中的应用

4.1 原理与步骤

4.1.1 原理 虚拟筛选已成为药物研发过程中一种重要的技术手段,通过该方法可对大批量化合物进行有效搜索,获得针对潜在靶标的苗头或先导化合物。虚拟筛选技术虽然克服了传统高通量筛选在时间及资源消耗上的不足,但其仅是高通量筛选的补充,减少后期筛选化合物数量,仍必须与实验相结合[12]。

4.1.2 步骤 常规虚拟筛选流程主要包括3大步骤。首先,基于自创、开源或商用数据库构建初始化合物库,依据类药性和假阳性评价标准过滤无法成药的化合物,进而构建筛选化合物库。其次,依据靶点结构是否已知,选择基于结构或配体的虚拟筛选技术,根据筛选条件获得理论上具有活性的化合物。最后,通过体外实验验证获得苗头或先导化合物。在上述过程中涉及大量的参数拟合、模型评价等工作,这正是机器学习优势所在,此外还可以提升整体运算速度,这些优点促使研究人员开始使用机器学习来完成虚拟筛选相关工作。

4.2 基于机器学习的虚拟筛选及其应用

4.2.1 基于机器学习的虚拟筛选 将机器学习算法和策略有机融合到基于结构和配体的虚拟筛选技术之中,可以自主完成相关模型构建及参数拟合工作,提高整体虚拟筛选完成速度、准确度和客观性,近年来越来越受到科研人员青睐。应用机器学习开展虚拟筛选工作,首先要构建化学基因数据库,根据筛选条件获得数据集。其次要根据k倍交叉验证方法和最小化结构风险原则以合理方式将数据集分为训练集和测试集。之后训练模型并依据混淆矩阵评价模型性能。最终将训练好的模型应用于虚拟筛选[12-14]。

4.2.2 应用模型 基于配体的虚拟筛选方法包括相似性搜索、化合物分类和回归活性预测3大技术。应用于配体虚拟筛选的机器学习方法以分类器为主。具有代表性的模型主要有:朴素贝叶斯、k最近邻居、支持向量机、随机森林和人工神经网络等。朴素贝叶斯模型适用于虚拟筛选分类和获取特异性结合于靶点的分子骨架[15]。k最近邻居模型对于预测多靶点结合活性等多任务学习具有明显优势[12]。支持向量机则可用于化合物分类和合成可及性或水溶性等化合物属性值预测[16]。随机森林可以改善定量构效关系数据预测,也可用于对接打分函数以及预测蛋白质-配体结合亲和力研究[14]。人工神经网络常应用于潜在药物靶标识别、化合物分类、定量构效关系以及蛋白质-配体结合亲和力等研究[6]。

4.2.3 基于结构的药物设计 这是一个复杂过程,主要涉及靶点结构预测、活性位点识别、配体和受体相互作用识别、对接打分函数和结合亲和力计算等[2]。靶点结构预测方面,机器学习已用于靶标蛋白质同源性检测,扭转角,二级结构、理化性质及翻译后修饰预测,区分活性和非活性构象以及模型评估等[17-18]。预测蛋白质二级结构的软件包主要有:基于分类器的ASAP和refineD以及基于深度学习网络算法的MUFOLD-SS等。活性位点与相互作用识别方面,机器学习可以基于卷积神经网络预测结合位点或联合决策树与人工神经网络识别别构位点[19-20]。关于靶标蛋白结合位点识别的经典方法和机器学习策略可参考相关综述[21-23]。针对活性位点识别的相关软件包有:基于3D卷积神经网络DeepSite和基于随机森林算法的P2Rank。对接打分函数和结合亲和力计算方面,主要是通过结构分类、回归模型和深度学习算法来预测[24-25]。此外深度学习网络还可应用于化合物的反向找靶[25]。Khamis和Colwell[26-27]详尽阐述有关机器学习在分子对接中的主要应用和该领域研究成果,以及深度神经网络面临的挑战。目前关于亲和力计算的软件包主要有:OnionNet、gnina、KDEEP、DeepAffinity、DeepConv-DTI和 GraphDTA等。

5 结语

创新药物设计虽然克服了传统药物设计中研发周期长和经费投入大等问题,但仍面临着海量数据挖掘与分析的难题。人工智能凭借其技术优势逐步应用于药物设计领域,虚拟筛选技术作为发现先导化合物的重要来源已成为药物设计中的重要组成部分。机器学习应用于虚拟筛选,可有效提升大量模型构建和参数拟合工作效率,从而获得更为理想的先导化合物或潜在药物分子。不同机器学习模型适用于虚拟筛选的不同问题,目前比较成熟的应用主要集中于基于配体虚拟筛选中的活性预测与化合物分类,基于受体虚拟筛选的新位点识别与结合亲和力计算。人工智能在创新药物研发中的应用还涉及先导化合物优化、全新药物设计和化合物性质预测等。目前越来越多的制药公司或人工智能公司开始与科研院所合作,共同促进人工智能在药物研发中的应用与发展。中国医学科学院药物研究所已与元气制药合作创建协和知药人工智能实验室。联合创建实验室将发挥各自优势,有利于医药事业发展,对我国创新药物研发领域起到推动作用,为生物医药领域做出一定贡献。

猜你喜欢

配体机器化合物
机器狗
机器狗
碳及其化合物题型点击
碳及其化合物题型点击
未来机器城
例析高考中的铁及其化合物
基于配体邻菲啰啉和肉桂酸构筑的铜配合物的合成、电化学性质及与DNA的相互作用
新型三卟啉醚类配体的合成及其光学性能
无敌机器蛛
新型三氮烯类化合物的合成与表征