人工智能在药物研发中的应用进展
2019-02-16丁伯祥王继芳
丁伯祥,胡 健,2,王继芳
(1.南京海融医药科技股份有限公司,江苏 南京 211100;2.江苏食品药品职业技术学院 制药工程学院,江苏 淮安 223003)
药物发现是一个漫长而复杂的过程,大致可分为四个主要阶段:(i)目标选择和验证; (ii)化合物筛选和优化; (iii)临床前研究; (iv)临床试验。首先,需要确定与特定疾病相关的研究对象。这需要从细胞和遗传角度对研究目标进行有效评估,主要涉及基因组和蛋白质组学分析以及生物信息学预测。下一步是药物靶点的鉴定,通过组合化学,高通量筛选和虚拟筛选等方法从分子文库中鉴定化合物。靶点结构与药物活性的相关性研究以及计算机模拟结合细胞实验经常被用于新合成候选药物的药效研究中。随后,使用动物模型进行药物体内研究,例如药代动力学研究和毒性试验。最后,已经成功通过所有临床前试验的候选药物在临床试验中按照一定临床使用原则给予受试者。该步骤一般按顺序分为三个阶段。第一阶段,一定数量受试者参与的药物安全性测试;第二阶段,一定数量特定疾病的患者进行的药物疗效测试;第三阶段,大量患者的疗效研究。如果候选药物的安全性和有效性在临床阶段得到确认,则该化合物由FDA等机构审核批准并由研发企业进行商业化。根据目前已有数据估计,通过传统模式发现新药的平均成本为26亿美元,完整的工作流程可能需要12年以上。
如何降低成本并加快新药研发速度是所有制药公司普遍关注的核心问题。 基于AI的方法越来越多地用于药物研发的各个阶段,减少了研发时间和成本。 这些包括在药物研发相关的细胞生物学研究中使用AI[1],使用量子力学方法计算化合物的性质[2],计算机辅助药物设计[3],预测目标蛋白质的三维结构,以及一些其他的开发分析[4-7]。一般而言,这些繁琐的执行过程可以在AI的帮助下实现优化和自动化,从而大大加快药物研发的过程。
1 药物筛选初始阶段的AI
通过图像分析对细胞类型进行鉴别和使用AI方法进行细胞研究
AI技术已经成功应用于识别包含不同对象或特征的图像[8]。通过传统的视觉检查识别图像是一项非常繁琐的任务,并且这种方法对于大数据的分析效率较低,因此,这是应用基于AI技术的理想领域。对于细胞目标分类或诊断,需要训练AI模型以便根据不同细胞的特征快速、自动地识别细胞类型。例如,为了对乳腺癌细胞进行分类,通过改变图像对比度将细胞图像从背景中分割出来[1],接着提取不同类型的纹理特征,使用主成分分析(PCA)来减小提取的特征的指标,然后用基于AI的方法以对不同的细胞类型进行分类。在AI方法进行训练的过程中,最小二乘法-支持向量机(LS-SVM)方法,统计学习理论,回归和分类技术[9]是常用的理论和算法,以确保显示最高的分类准确率(95.34%)[1]。
对于细胞分选,基于AI的图像分析决策需要在较短的时间内完成,以使机器人有时间准确地分离样品中的不同细胞类型。 大多数现代图像激活细胞分选(IACS)设备测量细胞的光学,电学和机械特性,以实现高度灵活和可扩展的细胞分选自动化[1]。 这些仪器允许使用基于AI的卷积深度神经网络算法(DDN),可以在几十毫秒内进行高速数字图像处理和决策。 该方法在人血小板的分选中进行了测试,显示出优异的特异性和灵敏度。
2 AI在药物筛选中的应用
2.1 物理性质的预测
药物设计中的一个重要考虑因素是选择具有一系列所需特性的候选药物,特别是有关生物利用度,生物活性和毒性的特性。药物分子的熔点和分配系数(logP)等物理性质极大地影响其生物利用度,因此在设计新药时也必须考虑这些因素[10]。熔点反映了药物在水性介质中溶解的容易程度,而logP(水和油之间相对溶解度的量度)常被用作细胞药物吸收的估计值,考虑到这些性质,AI药物设计算法中使用的分子表征包括分子指纹,简化分子线性输入规范(SMILES)串,受体与配体潜在的结合能量测算,分子碎片或不同类型的化学键,3D中的原子坐标,分子周围的电子密度,或其组合[11]。这些输入用于DNN训练阶段[12],并且可以由生成阶段和预测阶段的不同DNN处理,该程序能够促进AI的强化学习(RL)[3]。在一项典型的研究中,DNN的生成阶段需要SMILES输入,并且经过训练可以生成化学上可行的SMILES字符串,而预测阶段则针对分子的特性进行训练[3]。虽然这两个阶段最初是用监督学习算法分别训练的,但是当两个阶段通过奖励或惩罚特定属性共同训练时,偏差可以应用于结果[3]。
生物活性的预测
匹配分子对(MMP)分析研究药物候选物的单一局部变化及其对分子的分子性质和生物活性的影响,已被广泛用于定量构效关系(QSAR)研究[13]。在典型的研究中,通过用于从头设计任务的重合成规则产生MMP。候选分子用静态核心和两个片段(描述转化)进行化学定义[14]。然后对核心和这些片段进行编码。最后,三种机器学习(ML)方法,即随机森林(RF)[15],梯度增强机器(GBM)[16]和DNNs[17],以前在没有MMP的情况下应用,用于推断到新的变换静态核心,片段和修改。例如,有模型就五种不同激酶和含溴结构域蛋白的IC50数据进行了训练,DNN在预测化合物活性方面具有比RF和GBM更好的整体性能[18]。随着包含大量结构 - 活性关系(SAR)分析的公共数据库(如ChEMBL和Pubchem)的急剧增加,带有ML的MMP已被用于预测许多生物活性特性,如吸收,分布,代谢和排泄(ADME),以及药物的体内作用方式[19-21]。
最近开发了其他方法来预测候选药物的生物活性。 Tristan等通过将离散的化学物质编码成连续的潜在载体空间(LVS),用图形卷积网络提取药物靶位点的特征,LVS允许在分子空间中进行基于梯度的优化,从而可以基于结合亲和力和其他性质的可区分模型进行预测[22]。
2.2 毒性预测
化合物的毒理学特征是药物开发中的重要参数。毒性的评估及相关结构优化可能是临床前药物发现过程中最昂贵,最耗时的阶段[23],准确预测化合物的毒性对药物开发具有重要价值。 DeepTox算法是一种机器学习(ML)算法,在Tox21数据挑战赛中通过计算方法成功预测了12种环境化学品和药物中12种不同的毒性作用。专门设计的分析。 DeepTox算法首先将化合物的化学描述标准化,从中计算大量化学描述符并将其用作ML方法的输入。描述符被分为静态或动态,静态描述符包括原子计数,表面积以及化合物中预定义子结构的存在与否,除此之外还计算了存在和不存在的2500个预定义毒性基团特征,以及从标准分子指纹描述符中提取的其他化学特征。动态描述符以预先指定的方式进行计算,尽管可能存在无数个不同的动态特征,但该算法可将数据集保持在可管理的范围内。DeepTox算法在预测化合物的毒理学方面表现出良好的准确性[24-26]。
3 药物设计中的AI
3.1 预测目标蛋白质的三维结构
靶蛋白的3D结构对于基于结构的药物发现至关重要,因为新药物分子通常根据靶蛋白的配体结合位点的3D化学环境设计。传统上将同源建模和从头蛋白质设计应用于此目的[27]。随着基于AI的工具的发展,预测目标蛋白质的3D结构变得更加准确和复杂。在最近的蛋白质结构预测评估中,AI工具AlphaFold用于预测药物靶蛋白的3D结构,并且表现非常好。仅使用蛋白质一级序列,AlphaFold准确预测了43个结构中的25个。这些结果明显优于排名第二的算法,它仅仅正确地预测了43个结构中的3个。 AlphaFold依赖于高效训练的DNN来从主序列中预测蛋白质的性质。它预测了氨基酸对之间的距离和相邻肽键之间的φ-ψ角。然后将这两个概率组合成分数,该分数用于评估预测的3D蛋白质结构模型的准确性。使用这些评分函数,AlphaFold探索蛋白质结构的微观结构,以找到与预测相匹配的结构[28]。
3.2 预测药物-蛋白质相互作用
QM或QM /分子力学(MM)联合使用的方法可用于预测药物发现中的蛋白质-配体(药物)相互作用[29]。这些方法在原子水平上考虑模拟系统的量子效应,因此提供比传统MM方法更好的准确度。由于MM方法仅应用基于原子坐标的简单能量函数,因此基于QM的方法的时间成本远大于MM方法[30]。因此,AI方法在QM计算中的应用需要在QM的准确性和MM模型的有利时间成本之间进行权衡。已有AI模型从原子坐标进行数据训练再现QM能量,并且可以达到与MM方法类似的计算速度。 AI主要应用于原子模拟和带电性质的预测,而DL被用于预测小分子的势能,从而通过快速ML方法取代对计算要求严格精密的量子化学计算[31]。对于大型数据集,已经计算了量子化学衍生的DFT(密度泛函理论)势能并用于训练DNN。例如,在对200万颗陨石晶体的研究中,ML模型的准确度随着样本量的增加而提高。在药物设计及筛选领域,对于在10000个结构上训练的DFT可以形成能量达到0.1eV /原子的精度,将该模型用于筛选各种性质的先导化合物的类似物,效率明显提高[32]。
4 讨论
目前,由于新药研发成本的不断增加和传统新药发现效率的降低,许多研发型制药公司在药物开发过程中面临挑战。许多令人印象深刻的AI方法和工具不断涌现并应用到企业一线研发领域,可以使新药研发过程更具成本效益和时间效率。传统的高通量筛选库通常含有约1百万种化合物,其中每种化合物通常价格为50-100美元。 因此,初始筛选过程可能花费数百万美元加上几个月的工作。 随后的先导化合物优化可能需要数年才能确定临床前候选药物。 相比之下,如果在药物筛选中使用AI / ML方法,在AI的帮助下,虚拟化合物几天内可以筛选数十亿个分子的文库。 通过使用基于AI的计算预测识别临床前候选人可能只需要几个月到一年的时间[33]。
鉴于基于AI的计算方法可能对药物开发产生巨大影响,世界上科技发展的热点地区使用AI促进新药开发的初创企业数量正在快速增长。 此外,自2017年以来,许多制药公司已大量投资在基于人工智能的研发计划上,或者加大与人工智能初创企业和学术机构的合作[34]。 人工智能和ML公司Recursion 公司与Takeda公司合作,近期宣布了在筛选针对罕见疾病的新型临床前化合物方面的突破性成果。 在与Recursion公司合作的一年半时间里,Takeda公司确定了60多种独特的潜在候选药物,这些药物已经在进行临床前和临床实验的评估。 使用AI技术的药物研发时间表比大约十年的传统临床前药物发现的路径要快得多。
人工智能工具也被用于药物发现周期的多个方面,从药物筛选试验,预测潜在药物的物理性质,生物活性和毒性,到蛋白质结构预测。 传统的实验结构生物学方法最终获得目标蛋白的结构数据通常需要数年时间。 相比之下,基于人工智能的结构预测只需要几个小时到几天,这使得该过程大大节省了时间成本。 默克已成功使用DL算法在几天时间内成功预测药物相关的天然蛋白质折叠[35]。 此外,AI还被用于细胞图像处理[1],物理生物活性和毒性预测[36-38],QM性质预测[39]等药物研究的关键方面,以进一步提高药物发现的效率。
然而,药物发现过程中的某些方面尚未进行深入研究。 例如,准确预测药物分子与靶蛋白之间的结合亲和力仍然具有挑战性[40]。 目前,由于受制于计算机运算能力及算法设计等若干原因,包括AI在内的计算方法在该领域[41-43]表现不佳。
首先,因为AI是一种数据挖掘方法,可用数据的数量和质量直接影响AI模型的性能[30,34,38,44]。 DNN的成功训练依赖于大量可供训练的数据。从一项任务中学习并将其应用于另一项任务的方法可能是解决这一问题的潜在途径。其次,可用数据的质量有时不足以进行有效的AI学习。 公共数据库中的实验数据通常来自不同的实验对象,且获取方法及条件也各不相同[45]。 通过不同方法测量的化合物可以产生完全不同的数据,这些数据彼此不可比较。 此外,公共数据库可能包含多个相互矛盾的数据集。 因此,在执行特定AI方案之前,过滤原始输入以获得高质量数据是必不可少的步骤。当然,AI本身也可以通过自动化数据输入来解决问题[46]。
第三,当将3D原子空间转移到用于AI计算的2D解释时,重要的3D目标结构信息,例如靶蛋白的配体结合位点的化学环境,药物分子的构象和蛋白质的柔性,都会丢失。 作为替代方案,分子动力学(MD)模拟可以在生理条件下对蛋白质和药物分子的不同构象和状态进行采样。 最近的一项研究成功地将AI和MD模拟结合起来研究G蛋白偶联受体(GPCR)配体特异性,证明了这种方法的潜力[47]。 此外,将信息从MD转移到AI可能会克服结合亲和力预测的局限性以及在不久的将来预测其他分子特性。
最后,重要的是要强调DL方法仍然是中间环节无法实现全程控制的“暗箱”[33]。 在训练阶段,神经网络仅被赋予具有某种标签的特定数值的输入。 这些特征没有明确规定,甚至神经网络的开发者也可能不知道在中间阶段正在检验什么,或者为什么模型得出了特定的结论[38]。 总之,为了加快药物发现周期,已经做了大量的工作来整合AI工具,但是在AI可以实现药物发现的全部潜力之前,还需要进一步成功实施这些工具。