第八讲 计算机辅助合成设计方法
2020-07-06姚建华徐雯丽蒋舒仰李玉玲李靖靖王宇飞
姚建华 李 佳 徐雯丽 蒋舒仰 胡 静 李玉玲李靖靖 王宇飞
1中国科学院能量调控材料重点实验室,中国科学院上海有机化学研究所(上海 200032)2郑州工程技术学院(河南郑州 450044)
合成化学是研究物质创造与转化的科学。纵观人类发展的历史,我们可以发现,合成化学实际上一直伴随着人类社会的发展,并在其中发挥着重要作用。自20世纪40年代第一台计算机出现以来,计算机技术在各个领域逐步得到应用,并体现出它的积极作用。在合成化学领域,化学家一直期望利用计算机辅助技术来辅助开展合成设计工作。20世纪60年代后期,CoreyEJ和WipkeWT博士合作发表了题为“计算机辅助复杂有机合成设计(Computer-assisteddesignofcomplexorganicsyntheses)” 的文章。在这篇文章中,他们提出了“反合成分析”概念,并利用计算机辅助技术完成某些类型的反合成分析工作,最终获得目标化合物的一组可能的合成路线[1]。这种方法在很大程度上可以帮助化学家解决某些类型的合成问题。
所谓“反合成分析”即根据目标化合物的化学结构,判断合成该化合物的反应物;再将反应物作为目标产物,判断合成它的反应物;循环这样的过程,直到得到的反应物是已经存在的化合物,最后可以得到一颗反向树。具体过程如图1所示。
图1 反合成分析过程示意图
本文将介绍用于合成设计的计算机辅助方法。
1 经验型合成设计
经验型合成设计是以设计者的经验、已有的合成条件、反应物及相关理论为依据,设计特定的化合物的合成路线,其工作流程如图2所示。
图2 经验型合成设计工作流程示意图
图2所示的经验型合成设计工作流程表明,工作人员根据产物的化学结构,从文献中查找相关的合成方法报道。如果有相关的文献报道,且符合研究人员具备的合成条件,对应的合成路线将用于合成特定的化合物;如果没有相关的报道,那么研究人员将根据已有的经验,开展反合成分析,并根据经验和已具备的合成条件,选择对应的合成路线以合成特定的化合物。
2 计算机辅助合成设计
计算机辅助合成设计方法主要包括三大类:基于数据(D)、基于逻辑(L)和基于原理(P)(如图 3 所示)。基于数据即利用数据库系统,获得特定化合物的合成路线;基于逻辑即利用化合物的反应规则,推测产物可能的前体;基于原理即利用量化计算方法,判断选择合成路线的合理性和研究反应机理。
图3 三种计算机辅助合成设计方法
图4 计算机辅助合成设计的流程
图3所示的In house数据库系统,一般为自建的数据库系统。通常,In house数据库系统由两部分组成:数据库管理系统和数据库。数据库管理系统用于管理和查询数据库中的数据;数据库中包含的结构化数据,可以是本单位自用的专用实验与计算研究数据,也可以是专门从文献中采集的化合物及其特定性质数据。
图3所示的基于逻辑的合成路线设计系统,具有根据产物的化学结构,推测其前体的化学结构的功能。而基于原理的方法,即利用相关软件计算合成路线中某一步反应的相关特性参数,以判断该步反应的难易度、合理性,研究反应机理。
计算机辅助的合成设计的流程如图4所示。
图4显示的流程表明,计算机辅助合成设计过程中,先利用文献/数据库系统查询作为产物的化合物是否已有相关的合成路线报道 (即基于数据的方法)。如果数据库中已收录了对应的合成方法和路线,并且具备相同的实验条件,那么从数据库系统中获得的合成方法和路线即可用于合成该产物 (受专利保护的除外)。如果该产物的合成方法和路线没被数据库系统收录,那么研究人员可根据经验,并利用相关的软件,开展反合成分析,即推测产物的前体化合物(如图1所示)(即基于逻辑的方法),重复这个过程,直到产物的前体化合物已存在。根据反合成分析结果,获得多条候选合成路线。根据经验,并采用相关软件(基于原理的方法)计算相关参数,对候选合成路线作合理性评估。最后,研究人员根据具有的实验条件,合理性评估结果,选择合成方法和路线。
目前,在化学及相关领域常用的商业合成/化学反应数据库系统有两个,分别为美国化学文摘社的SciFinder[2]和爱思唯尔的Reaxys化学数据库系统[3]。In house或非商业化学数据库系统一般不公开。
已 有 的 研 究 报 道 显 示 ,LHASA,WODCA,CISOC-Retrosyn和ChemicalAI等反合成分析系统已在合成设计中得到实际应用。
Corey E J博士团队在20世纪70年代完成LHAS(Logic and Heuristics Applied to Synthetic Analysis)A系统的开发工作[4],该系统中的相关分析规则,主要基于经验来定义。
20世纪90年代,德国爱尔兰根大学的Gasteiger J教授研究团队,用了9年的时间,开发了交互式合成方案设计系统WODCA(Workbench for the Organization of Data for Chemical Applications)[5],该系统的反合成分析规则来自于经验和物化参数,该系统的使用界面如图5~6所示。
图5 WODCA系统使用界面
图6 WODCA系统反应键识别界面
自1997年至2004年,中国科学院上海有机化学研究所计算机化学研究团队 (郑崇直研究员和袁身刚博士研究团队),历经8年时间研究和开发,完成了反合成分析系统CISOC-RetroSyn的系统研发工作,并获得了中国软件著作权[6],其核心方法获得中国专利[7],系统所用规则源于经验、一百万条反应数据的特征信息。该系统启动界面如图7所示,合成过程中的一步反应信息如图8所示,合成过程中的一组合成路线如图9所示。该系统输出的合成方案主要包含以下信息:合成路线、每一步反应的反应条件、反应物的商业信息。
图7 CISOC-RetroSyn软件启动界面
图8 CISOC-RetroSyn合成过程中的一步反应信息
图9 CISOC-RetroSyn合成过程中的一组合成路线
尽管 LHAS,WODCA,CISOC-Retrosyn 三款软件都是采用人机交互模式进行反合成分析,即根据目标化合物,推导出它的反应物,并根据推导出的结果,输出一组合成路线,但每个系统的推导方法和识别规则不同。其中,LHASA在系统中设定的反应键识别规则来自于化学家的经验;WODCA系统中设定的反应键识别规则来自于化学家的经验和物化参数;而CISOC-Retrosyn系统中的反应键识别规则包含了100多万条反应数据的特征分析结果和化学家的经验。
2018年 3月,Marwin H.S.Segler,Mike Preuss和Mark P.Waller合作在《自然》杂志上发表了题为“Planning chemical syntheses with deep neural networks and symbolic AI”的文章[8],介绍了他们用神经网络算法和符号AI发现目标化合物的反合成路线的工作。不过,目前的研究成果只是阶段性的,还未达到阿尔法围棋(AlphaGo)下围棋的性能。这可能与以下因素有关:(1)合成方案涉及的因素和复杂度远远高于下围棋;(2)很多成熟的算法还不能直接用于化学反应数据分析,但可以用于围棋的棋谱信息分析。
尽管目前的计算机辅助合成设计系统还存在一定的不足,但与经验型的合成设计相比,计算机辅助合成设计已显示出它特有的作用:有效提高了设计的效率和精准性,降低了实验的盲目性和危险度。