第一讲 化学信息学概述
2019-03-29姚建华徐雯丽蒋舒仰
姚建华 徐雯丽 蒋舒仰 胡 静 李 佳
中国科学院能量调控材料重点实验室,中国科学院上海有机化学研究所(上海 200032)
化学信息学是采用计算机科学和信息学方法及技术解决化学问题[1-3]的一门学科,是涉及化学、数学、计算机科学以及化学应用领域等多学科的交叉学科,属人工智能范畴。化学信息学方法和技术可用于解决各个领域中的化学问题。所谓化学问题主要包括:分子设计、合成设计/反应预测、结构确定。
化学信息学方法主要有三大类:基于数据、基于逻辑和基于原理。
具体而言,基于数据即建立对应的数据库系统,并利用数据库系统获取所需的数据和信息。这种方法的特点是只能得到已被数据库系统收录的化学信息,且只适用于获取已知对象的数据。基于逻辑即充分利用已收集的大量正确的化学实验数据,以及相关的逻辑推理、归纳和演绎的方法,对已收集的数据进行分析、归纳,从中获取相关的知识、规则和关系,并利用这些规则、知识和对应关系,对新化合物、合成路线/反应、结构和谱图进行相应的预测。这种方法的特点是可以处理大批量的数据和大的体系,但它不能从原理上解释预测结果。基于原理即利用相关的理论计算方法计算化合物的能量和相关性质,根据计算结果,实现分子设计、合成设计/反应预测、结构解析及谱图模拟。该方法的特点是可以从原理上解释它们的结果,但不适用于处理大批数据和大的体系。可见,三类方法各有特点,适用于解决不同状态下的化学问题。
一 形成与发展
自1946年第一台计算机诞生起,人们就开始关注,如何利用计算机处理各种数据。在化学领域,在1957年之前,便有相关研究工作的报道[4-5]。随着应用研究的不断深入,计算机在化学领域的应用,从化学研究本身的数据存储、查询和分析,逐步深入到分子设计、合成设计/反应预测、结构确定,即应用于解决化学问题的工作中[2,6-7]。
1998年之前,采用计算机技术开展分子设计、合成设计或结构确定工作,通常以“计算机辅助”作为标识,并未形成专门的一个学科。1998年,布朗(Brown)博士认识到应用信息技术和管理已成为药物发现过程中的一个关键部分,并首次提出了化学信息学的定义:化学信息学可将这些信息资源组合起来,将数据转化为信息,再将信息转化为知识,以便于在确定和优化药物先导方面快速作出较合理的决策[8]。尽管布朗博士基于药物研发领域提出了化学信息学的概念,但随着计算机和信息技术在化学领域中应用的不断深入,化学信息学的定义经多次完善后,在2003年,它的定义被描述为:应用信息学方法及技术解决化学问题[3]。之后,它的定义继续得到补充和完善:化学信息学是采用计算机科学和信息学方法及技术解决化学问题[1-3]的一门学科,是涉及化学、数学、计算机科学以及化学应用领域等多学科的交叉学科。它的方法和技术可用于解决所有领域中的化学问题。
二 化学问题及其解决方法
2003年,以色列化学家A.Shani博士发表了一篇题为“化学几乎无处不在”的文章[9]。在该文中,他介绍了化学的作用,以及与化学相关的领域,如生物、医药、生态、材料、地球科学、农业、环境、生物体内的各种变化等,它们都与化学密不可分。为此,我们可以认为这些领域中的部分问题,本质上是属于化学问题的范畴:分子设计、合成设计/反应预测、结构确定。
三 分子设计
分子设计即采用多种技术发现具有特定应用所需特定性质的新化学实体[10]。
应用于分子设计的化学信息学方法主要包括:(1)基于数据,即利用化合物数据库系统,查询化合物的相关信息;(2)基于逻辑,即建立结构与性质关系模型,并基于模型预测化合物的性质;(3)基于原理,即采用理论计算方法,计算化合物的物理化学参数,并根据计算结果,预测化合物的特定性质。
四 合成设计/反应预测
合成设计/反应预测即采用各种方法和技术设计获得某个化合物的合成路线/反应途径。应用于合成设计/反应预测的化学信息学方法主要包括:(1)基于数据,即利用反应数据库系统,查询合成路线/反应途径的相关信息;(2)基于逻辑,即建立反应物生成产物的规则,并基于规则设计预测特定化合物的合成路线/反应途径;(3)基于原理,即采用理论计算方法,计算反应物变成产物所需的能量,相关的电荷及键长等参数,并根据计算结果,推测反应物变成产物的可能性,并解释其反应机理。
五 结构确定
结构确定包含两部分工作:(1)结构解析;(2)谱图模拟。结构解析即根据一组谱图推断一组候选化合物。谱图模拟即根据化合物的化学结构获得预测对应的谱图。
应用于结构解析的化学信息学方法主要包括:(1)基于数据,即利用谱图数据库系统,查询被解析的谱图所对应化合物的结构信息;(2)基于逻辑,即建立谱图与化学结构的对应关系,并根据对应关系,预测可能的化合物结构。
应用于谱图模拟的化学信息学方法主要包括:(1)基于数据,即利用化合物数据库系统,查询与指定化合物相关的谱图信息;(2)基于逻辑,即建立结构与谱图关系模型,并基于模型预测化合物的谱图;(3)基于原理,即采用理论计算方法,计算化合物的谱图数据,并根据计算结果,预测化合物对应的谱图。
最后,比较模拟得到的谱图和被解析谱图,如果两张谱图相同,则用于谱图模拟的化合物即为被解析谱图的化合物。
解决三大类化学问题的化学信息学方法有三种,但在实际应用中,通常没有固定的使用模式,需要根据问题的内容制定使用方案。
六 化学信息学的研究内容
化学信息学的方法研究主要集中在基于数据和基于逻辑两类。
基于数据的研究工作主要为“建立数据库系统”。通常一个数据库系统的建立包含两个部分内容:(1)数据采集和规范化处理;(2)数据管理系统的设计与开发。具体的研究内容主要包括:(1)应用图论[11]/化学图论[12-13]方法,实现化学结构的存储、分析和运算;(2)数据规范化处理规则的建立;(3)数据管理系统的数据结构设计、查询算法设计和系统开发,这部分工作属软件工程[14]范畴。
基于逻辑的研究工作主要为“知识发现,建立知识库系统”。对于分子设计和结构确定而言,研究内容主要包括:(1)应用图论/化学图论方法实现化学结构的存储、分析和运算;(2)应用数据分析方法,如回归分析、方差分析、聚类分析、神经网络等[15],实现化合物性质数据的分析;(3)采用统计学和机器学习方法[16-19]研究化合物结构与性质的关系,并建立对应的关系模型。对于合成设计/反应预测而言,研究内容主要包括:(1)应用图论/化学图论方法实现化学反应数据的存储、分析和运算;(2)将图论/化学图论与数据分析方法组合,实现反应物生成产物的规则提取;(3)建立知识库管理系统:知识管理系统的数据结构设计、查询算法设计和系统开发,这部分工作属软件工程范畴。
七 总结
图1 传统模式
从人类学会使用火,就开始了最早的化学实践活动。人类对“炼丹”和“炼金”活动本质的认识,为化学最终成为一门科学积累了素材。随着人类各种生产活动内容的积累,人们总结感性知识,进行化学变化的理论研究,使化学成为自然科学的一个分支。自从化学成为一门独立的学科后,随着化学研究的不断深入,以及与其他学科的交叉,新的化学分支学科不断产生,现有的分支学科有:有机化学、无机化学、分析化学、高分子化学、物理化学、环境化学、核化学、材料化学、生物化学、元素有机化学、天然有机化学、药物化学和食品化学等。自化学信息学诞生至今,尚未满30年。可见,相较于已有的化学分支学科,化学信息学是一门非常“年轻”的化学分支学科。与其他分支学科不同,它不做实际的化学实验,但它应用计算机科学和信息学技术开展相应的化学研究工作;同时,它将相关的数学方法/算法转化成适用于处理化学信息的方法/算法。
化学信息学方法和技术的应用,将促进化学研究从传统模式(见图1)向现代模式转换(见图2),并可提高解决化学问题的效率,降低盲目性。
图2 现代模式