APP下载

化学计量学/信息学助推化学与分析测试科学研究范式转换

2022-09-21常月月伍娟妮吴海龙俞汝勤

分析测试学报 2022年9期
关键词:分析化学范式分子

常月月,伍娟妮,王 童,吴海龙,俞汝勤

(湖南大学 化学生物传感与计量学国家重点实验室,湖南 长沙 410082)

Thomas S.Kuhn提出的科学研究“范式”(Paradigm)这一概念指的是常规科学研究所赖以运作的理论基础和实践规范[1]。图灵奖得主Jim Gray拓展了Kuhn科学研究“范式”概念并提出科学研究的四种范式,分别是基于实验归纳的实验科学(Experimental science),基于数学理论模型推演的理论科学(Theoretical science),基于计算机仿真模拟的计算科学(Computational science)和以大数据知识发现为特征的数据密集型科学(Data-intensive science)[2],其演进历程如图1所示。

图1 科学研究范式的演进历程Fig.1 The evolution of scientific research paradigms

化学计量学和化学信息学的兴起与上世纪中叶计算机开始普及时出现的“计算机化学”热有关。化学计量学兴起于分析化学家关注多变量数据的计算和分析问题,而化学信息学则开始于为了应对分子模拟、系统合成规划与化合物库的设计和管理问题。故分析化学界较多学者接受“化学计量学”名称,从事药物设计等方面研究的学者则一直沿用“化学信息学”名称。2004年举行的第224届美国化学会(ACS)全国会议上召开了题为“Chemometrics and Chemoinformatics”的研讨会。美国有关大学(如Indiana University of Pennsylvania)的课程表中采用Chemometrics&Chemoinformatics这种混合名称。中国化学会从第26届(2008年)学术年会开始也将两者同时并列使用。国家自然科学基金委化学部也曾在西安专门召开以两者同时并列为主题的学科建设及研究队伍发展的专题研讨会。本文拟讨论化学计量学与化学信息学在助推化学与分析测试科学研究范式转换方面的作用,同时对第四范式的未来研究动向(主要以分子设计为例)进行概述和展望。

1 现代科学的形成:由第一范式向第二范式转变

人类最早的科学研究主要以记录和描述自然现象为特征,是基于经验和实验的科学,称为“实验科学”(第一范式)。后来以伽利略为代表的文艺复兴时期开启了现代科学之门,是基于数学模型或归纳法的科学,称为“理论科学”(第二范式)。第一范式向第二范式的过渡标志着现代科学的形成。实验和数学化是现代科学形成的两个最重要的条件。康德曾在自然科学形而上学序论中提出,只有能用数学表述的领域,才是真正的科学[3]。康德在此书中提到,化学(指他所知的化学)还无法实现数学化,不是“真正科学”,他将其归为系统技艺或经验的、应用的领域,而非数学化的逻辑科学。长久以来,康德关于化学的评价对化学的学科地位有深远影响,直到化学家用量子力学从头计算的方法研究分子的结构与性质,这种影响才逐渐消除。Dirac在1929年写道:“对大部分物理和整个化学的数学理论所需的相关规律今天都已建立,困难是这些理论解决实际问题得出的公式太复杂难以求解”。而能协助求解的工具便是计算机,正是基于计算机仿真模拟的计算科学即第三范式的发展,才协助化学和物理学一样取得了现代科学的地位。但这只是化学中的少数分支的事情,多数分支如分析化学的数学化程度仍然不高。约一个世纪前,诺贝尔奖得主Ostwald指出,如果分析化学家将分析化学教学与实践纯粹当作要求技巧与经验技艺,而不运用物理化学的实验与理论,分析化学将注定只能占据一种从属的学科地位[4]。在2015 Euroanalysis XVIII上,Valcarcel作《分析化学往何处去?》的大会报告时问道:“分析化学是不是一个次等学科?”答案是否定的。但实际上,分析化学的学科地位不高。从科学编史学的视角来考察,分析化学遇到的问题与化学学科整体在历史上遇到康德的批评是同一个问题。Ostwald的论述促进了分析化学家以四大平衡等为基石构建以化学分析法为主体的经典分析化学基本理论框架,这是一个以数学语言表述的基本理论。在20世纪,分析化学逐步实现从经典分析化学向仪器化与信息化的现代分析化学过渡,此进程中经典分析化学的基本理论框架经历重大调整。这又引发对分析化学有无系统严谨的基础理论的质疑,有人进而质疑分析化学是否应认作一门独立的化学二级学科。正是因痛感分析化学地位不高,高鸿先生急切期待分析化学与统计学、数学结合的年代早日到来。化学计量学的兴起在这方面起了一定的积极作用。随着化学和分析化学向着计算和基于数据的方向即第三/第四范式发展,最大的技术挑战是如何更快速地捕获、分析、建模及可视化信息,帮助化学工作者获取有效信息并将信息转化为知识。应运而生的化学计量学和化学信息学大大推动了化学/分析化学的数学化及研究范式转换。上世纪90年代,国家教委曾委托湖南大学举办化学计量学青年教师讲习班,还应新加坡国立大学及新加坡政府机构的邀请举办类似化学计量学讲习班,化学计量学在进入分析化学教学方面取得了一定成效。在相关香山会议上,我们阐述了有关分析化学基础理论的界定。在第12届全国分析化学年会(2015,武汉)上,我们论述了现代分析化学基础理论问题,包括三个层次的基础理论,分析化学作为化学表征与量测的科学,化学计量学作为化学量测的基础理论与方法学,包含分析信息理论、采样理论、多元与高阶校正理论、过程及在线监测理论、分辨与识别理论、分析实验设计与优化等理论框架[5-6]。

2 第三范式推动分析化学数学化和现代化进程

运用第一范式和第二范式去验证理论的难度和成本越来越高,有些复杂现象甚至无法验证,科学研究开始显得力不从心。随着计算机广泛用于各学科,推动科学研究进入第三范式(即计算科学阶段),人们可以通过模拟仿真,推演出越来越多复杂的现象。模拟仿真和实验获得的数据都在增加,如何从中提取最有效的信息是亟需解决的难题。在此信息时代的背景下,化学计量学/化学信息学借助计算机不断推进化学和分析化学完善数学化,较好解决以上难题,也促进化学和分析测试科学由第一范式向第二范式与第三范式同步转换。数学化的另一个重要收获是实现真正较彻底的绿色化目标。在可持续发展大趋势下,化学面临严峻的绿色化挑战。分析化学借助第三范式有条件实现真正较彻底的绿色化目标。化学计量学、自动化与微型化被列为分析化学绿色化的三大策略与手段[7]。化学计量学家和化学信息学家广泛研究的内容都是让机器进行数字计算操作,信息化的关键手段是机器即计算机,是强有力的绿色化途径。化学计量学在中国的发展与不同化学领域的研究工作密切相关,早期的学者包括张懋森教授(分析化学领域)、许志宏教授(化学工程领域)和陈念贻教授(物理化学领域)等都做了有关化学计量学研究[8-10]。2018年,Journal of Chemometrics杂志曾出版《Chemometrics in China》特刊,从某种意义来说,这是对化学计量学在中国发展的肯定。该专刊邀请了许青松教授(数学和统计学领域)、方开泰教授(数学领域,均匀设计表开创者)、陆文聪教授(材料科学领域)、许禄教授、邵学广教授、李华教授和陈增萍教授(分析化学领域)等学者从不同的角度论述了有关化学计量学研究内容及其发展[11-16]。化学领域涉及的模式识别、化学成像分析技术、传感器阵列分析、数学分离、张量分析和定量构效关系等均借助计算机实现[17-18],国内外的相关书籍及综述证明了以上内容仍是第三范式的研究热点[18-24]。现以我们在以上领域所做的部分工作为例进行简要的讨论。

2.1 第三范式中的重要模型及改进

主成分分析(PCA)是一种降维方法,使少数几个新变量尽可能多的表达原变量的数据特征而不丢失信息。偏最小二乘法(PLS)主要通过投影将预测变量和观测变量投影到一个新的空间,寻找线性回归模型。PCA和PLS具有很大优势,但不能很好地处理非线性等问题。本课题组针对以上算法进行研究并提出了神经网络学习的非线性主成分分析[25]、移动窗口偏最小二乘分析等改进算法[26-30]。

多维校正理论在分析测试科学中发挥重要作用,也是目前化学计量学和化学信息学的研究热点[17],其处理实验获得的小样本数据很有优势。针对经典双线性分解旋转不确定性和存在未知干扰的复杂体系难以直接定量的问题,只能借助高阶算法才能获得有化学意义的正确解。本小组用三线性分解代替双线性分解,可直接在未知干扰共存的情况下提供具有化学意义的唯一解,称为“二阶优势”[31]。目前存在的二阶校正算法可归纳为迭代类算法、非迭代类算法以及基于残差双线性求解算法三大类别。非迭代类算法和基于残差的多线性算法的理论及优缺点可参看本小组已发表的综述[32-38]。迭代类算法是基于最小二乘(模)原理对模型解析,可得到具有清晰物理或化学意义的相对唯一解,代表性算法有平行因子分析(PARAFAC)等,但PARAFAC存在收敛速度慢,对化学秩敏感,二因子退化等问题。为解决以上问题,本小组分别提出交替三线性分解算法(ATLD)[39]、交替同时对角化算法(ASD)[40]、伪交替最小二乘算法(PALS)[41]。Malinowski教授曾在专著“Factor Analysis in Chemistry”中对这三种算法给予了高度评价[42]。针对数据类型及解析中遇到的问题,又提出了一系列二阶校正算法集[43-58]。随着分析仪器的多样化及体系的复杂化,我们向更高维探索,并提出相应的更高阶校正算法[57,59-67]。二阶及更高阶校正算法列于表1。这些算法各有优缺点,应用时需根据实际情况选择合适的算法。我们曾从微分特性的角度对某些三线性分解算法深入分析,找到算法所具特点的数学依据,为选择和设计算法提供理论支持[68]。另外,我们也从实际应用及数值模拟的角度对部分算法进行比较[69-71]。理论上维数越高,所含潜在信息越丰富,预测结果更加准确。相关文献也证明了使用三阶及更高阶校正算法分析时,除具有“二阶优势”外,还有一些额外的优势,如更优异的分析品质因子参数、更准确的定性定量结果和更强的抗共线性能力等[32,72-73]。

表1 本课题组多维校正理论研究的代表性算法Table 1 Representative algorithms for multi-way calibration theory research in our research group

支持向量机(SVM)主要思想是基于结构风险最小化原理构建最优分割超平面将两类模式尽可能分开。非线性和高维数据分析在小样本方面具有优势,但对大样本和多分类问题存在困难,因此我们提出了概率密度函数结合局部核变换支持向量机[74]、分割区间纯度的分块核变换支持向量机等[75-79]解决上述问题。人工神经网络是将构成大脑的神经元及其集合抽象为数学模型形成网络,具有自适应和自学习等能力。但存在过拟合、局部最优和收敛慢等问题,从而影响其泛化能力。本小组通过引入混沌概念,利用Logistic映射的特性使遗传算法在训练人工神经网络的进程中尽可能保持搜索空间的群体多样性,避免过拟合等问题出现[80-82],此研究使我们深切体会开创第四范式的由传统人工神经网络演进为深度学习(见下节)来之何等不易。紧接着,我们又提出基于支持向量机学习的多层前向网络等改进算法[83-86]。另外,我们还对树搜索、集成算法进行研究,分别提出单核变换分割区间纯度分类回归树[87-89]等算法。智能优化算法包括受物理学启发的算法如模拟退火算法,也包括受生物学启发的方法,如遗传算法、进化策略及粒子群优化算法等。我们将上述优化算法用于多元回归和偏最小二乘等算法中作为变量选择或前处理手段,分别提出了模拟退火结合K-means聚类[90]、改进的整数遗传算法[76,85,88,91-99]等。

2.2 各研究方向中的应用

多维校正方面的基础研究已在前面论述,在实际应用层面,本小组曾与创建均匀设计的课题组开展合作研究[100]。在数据预处理、非线性因素消除方面,针对不同的数据,我们提出了双向切除PARAFAC扣除散射干扰[101],正交光谱信号投影消除背景漂移[102],抽象子空间差异度策略进行时间漂移校正[103]等策略。对三线性成分模型的研究发现其存在内在循环对称性,这是多线性算法向更高维算法扩展的重要基石[72]。本小组还分别从两个角度进行化学秩估计的研究[38]。高阶分析仪器结合多维校正方法以“数学分离”代替“物理/化学”分离,具有省时、通用性强的优势,越来越受到人们的青睐。此方法已在食品、环境、医药、化妆品、生物和农药等领域获得大量应用,具体可见已发表的综述[32-38]。

模式识别是化学计量学和化学信息学一个非常重要的研究领域[17],根据样本有无先验知识(类别标签),其主要分为监督学习和无监督学习。我们对其进行了较深入的理论和应用研究,所提部分算法列于表2,应用涵盖了中药材产地溯源和质量判别、食品、烟草和生物化学等领域[25-28,74-76,87,90-91,104-108],具有一定的实用价值。以所提算法用于高维微阵列数据集为例作简要叙述。基因表达谱对从基因角度分析微阵列数据至关重要。分类决策树(CART)对微阵列基因表达数据(通常维数高、样本少)建模时易陷入过拟合。简单的解决办法是识别重要基因,剔除无关的基因。针对现有方法难以识别组内样本中多模态表达的显著基因系统性差异的问题,我们通过基于分割区间纯度的变量选择方法识别出不同表达模式的显著基因,然后进行单峰变换,通过特征提取增强组内同质性和组间异质性,为CART建模提供单峰特征变量。这种策略可提高CART对抗过拟合或欠拟合的性能。使用两个高维微阵列数据集(癌症数据)检验所提算法的性能。结果表明,所提算法有更好的性能,该策略在微阵列数据分析中具有广阔的前景。

表2 本课题组模式识别研究的代表性算法及应用Table 2 Representative algorithms and applications of pattern recognition research in our research group

近年来,化学成像(CI)在分析化学领域获得了越来越多的关注。光谱成像技术与化学计量学结合可提高数据分析的结果,实现图像数据化[109]。基于CI的优势,早期我们构建了空间导向凝聚法解析棕榈氯霉素I、II晶型混合物的拉曼成像数据[110]。并运用此方法研究了不同组成比例的可互容和不可互容共混聚合物的拉曼成像数据,分析了两组分空间非均相分布[111]。

化学传感器可利用识别元件和传感器检测和量化分子。为了克服单一传感器选择性不足的缺点并提高传感器的测量精度,化学传感器阵列被提出。化学计量学/化学信息学方法被用于解析传感器阵列产生的数据并对气体进行分类,获取定性定量信息。本课题组构建了压电晶体传感器阵列结合化学计量学算法(如主成分分析、混沌遗传神经网络等)分别对有机物官能团、小分子脂肪醇同系物及其同分异构体等进行识别,该策略被应用于酒类、软饮料类、香水类和香烟类等样品的分类识别[112-113]。此方法还可对乙醇蒸气进行定性定量分析[112]。

2.3 定量构效关系

定量构效关系(QSAR/QSPR)是化学计量学/化学信息学涉及化学的一个基础性问题,主要是运用数理统计方法探究化合物的性质与结构之间的关系且选择合适的数学模型概括这种关系,最终预测感兴趣未知物的活性及指导某种新化合物的合成[17,97]。在QSAR研究中,模型的构建是研究的关键,我们所发展的一系列算法列于表3。其中,混沌优化训练神经网络方法被用于预测四面体及八面体卤化物的振动频率,还用于预测氢氯氟碳和氢氟碳化合物的大气寿命,均获得了预期结果[80-82]。QSAR应用涵盖了环境化学、生物化学、药物化学等领域。以核酸适配体筛选研究为例,常用指数富集的配基系统进化(SELEX)筛选核酸适配体,但存在筛选周期长、费用高,适配体与靶分子结合的分子基础未被认识,分子识别规律未被掌握等问题,制约了核酸适配体在临床诊治的应用。针对以上问题,本小组利用Cell-SELEX技术筛选出以人肝癌细胞株为靶细胞株的候选核酸适配体序列,采用分子力场方法优化分子结构,计算分子结构参数,二元Logical回归分析结合主成分降维得到参数集,然后用粒子群优化算法搜寻最佳SVM参数值(C,γ),最后进行模型检验及亲和性检测。结果表明,新设计的8条“获胜”序列与靶细胞亲和性能优异,解离常数值均在纳摩级,说明所设计的筛选模型是成功的[114]。我们还用上述类似步骤建立人-反应蛋白(CPR)结合的候选适配体富集水平和分类的模式识别方法,不同的是该工作利用改进氧化石墨烯辅助免固定靶标的SELEX技术得到CPR的候选适配体序列,使用SVM对其富集水平进行预测,并采用系统聚类分析方法进行分类,最后成功筛选出10条富集水平高且亲和力强的序列[115]。

表3 本课题组定量构效关系研究的代表性算法及应用Table 3 Representative algorithms and applications of QSAR research in our research group

3 第四范式:数据密集型科学

随着数据的爆炸性增长,计算机不仅能做模拟仿真,更能分析数据,学习潜在知识,得出理论。数据密集范式成为一个独特的科学研究范式,被称为第四范式。与假设驱动的范式相比,其根本区别表现为:传统的科学研究先提出可能的理论,再搜集数据,然后通过模型计算验证假设。而数据密集型范式,则是先有大量的已知数据,再通过计算得出之前未知的理论。数据是这个范式的核心,它与实验、理论、模拟共同成为现代科学方法的统一体。

人工智能(Artificial intelligence,AI)、机器学习(Machine learning,ML)和深度学习(Deep learning,DL)是这个范式的三个重点关键词,深度学习是关键核心。AI最开始的动机是让机器获得像人类一样具有思考和推理机制的智能技术,本文则泛指可以让计算机通过图灵测试的机器智能。机器学习作为AI的核心工具从数据中学习一般性的规律,并利用这些规律对未知数据进行预测,其对AI最重要的贡献是把研究重心从人工赋予机器智能转移到机器自行习得智能。AI从一开始就已作为化学计量学大纲中的组成部分,前文讨论的第三范式中的诸多方法也都是机器学习算法。深度学习则是具有多个(通常大于2)隐藏层的神经网络。根据叠加层的不同有多层感知机(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)、Transformer等[116]。当然,任何强有力的AI工具均是源于人的创造。人的视觉系统每秒可接收108比特信息,远超过大脑将其完整处理所需算力。所幸我们的祖先在进化过程中习得了将注意力集中于少部分急需处理的相关信息上的能力。上述Transformer正是以这种“注意力机制”为基础构建的深度学习工具。

前文所述监督学习与无监督学习在实际应用中曾取得了巨大成功,二者与强化学习(Reinforcement learning,RL)[117]并称为机器学习的关键子集。由于监督学习对手动标签的依赖和易受攻击的缺点,自监督学习(Self-supervised learning,SSL)应运而生,根据LeCun的定义,自监督学习是在获取一个输入后,隐藏该输入的一部分作为标签,以此训练机器从可见部分预测被隐藏部分的算法[118]。

在众多机器学习模型中,深度生成模型(Deep generative model,DGM)[119]学习数据的概率分布,提取特征后产生低维连续表示,并从学习的数据分布中采样生成新数据。生成模型在图像、文本、语音的生成中均表现出非凡效果,也为解决分子设计难题带来了新思路,被认为是最有前途的药物设计方法之一。

使用深度学习算法解决分子计算及其相关领域的设计是一个积极发展的领域。我们预期以深度学习算法为代表的第四范式有可能给化学与分析测试学科的研究面貌带来较大的变化。下面我们以逆向分子设计为例概要讨论深度学习技术在三个主题中的应用:数据驱动的分子表示、基于深度学习的QSAR和基于深度生成模型的分子逆设计。按传统观念可能认为这些问题似乎超出了分析测试的范畴。我们在本文采用化学计量学与化学信息学统一的模式。分析化学家重视的数据分析与合成化学家重视的化合物结构-性能建模其实对分析测试同等重要。例如,研究探寻用作新的分析试剂、新的传感材料、新的荧光及发光材料的化合物的设计与合成,当属分析测试领域具有较高原创性的研究工作。

深度学习是第四范式的核心技术,希望更深入了解的读者可参考Murphy[120]或Ian[121]等著作。

3.1 数据驱动的分子表示学习

分子建模首先面对的就是如何有效表示分子的问题。通常,可以把分子表示为:指纹、一维线性描述符、二维矩阵、三维图形和点云等[122]。在生成与合成模型中,分子常被表示为以原子为节点,键为边的无向图。对分子图进行深度优先遍历(Depth-first search,DFS),即可得到另一个最流行的分子线性描述符—简化的分子线性输入系统(SMILES)。

SMILES类似于人类的自然语言,随着深度学习在自然语言处理(NLP)领域的突破性发展,类比到分子领域,基于SMILES的生成与合成模型均取得了令人印象深刻的成功。特别是,同一个分子的SMILES,根据遍历起点原子的不同而具有不同的序列,这种编码的非唯一性使得基于SMILES的模型在需要数据增强时变得非常容易。另外,SMILES因简洁、易读、存储量少而著名。但是,基于SMILES的生成与合成规划模型,普遍存在自然语法有效,但不符合化学语法的错误字符串。同时,人们对SMILES模型在多大程度上能够学习到有效的化学结构仍在持续研究。

图作为分子更自然的表述,大量的研究如GNN、GCN、GAT等方法探索了图在分子学习任务中的杰出性能。特别是图神经网络在生成分子时,可以明确的附加价键关系约束和其它化学规则,从而避免无效分子的问题。可是,目前比较常用的图神经网络存在过度平滑、各向同性的消息传递以及数据同质性假设等问题,在环结构占很大比重的分子图中,有时不能得到令人满意的结果[123]。

经典的分子描述符和分子指纹大多来源于人类专家,而自动特征提取是一个无需领域知识的过程,也是深度学习最显著的优势之一。采用自监督学习的方式自动学习特征,直接从观察到的数据中提取紧凑且富有表现力的分子表示方法,是开展此方面探索的重要路径。

3.2 深度学习驱动的QSAR

前文讨论了第三范式下的构效关系研究。随着深度学习特别是图神经网络的快速进展,构效关系研究受到了新的关注,一方面可以解决经典的QSAR问题,另一方面,也可以为目标导向的分子生成模型提供可靠的反馈。

基于深度学习的QSAR模型的目的是自动识别输入和输出之间的复杂关系,使其比传统机器学习算法更高效。例如,基于图神经网络的监督学习框架MPNN[124],有可能实现直接从分子图中学习分子特征,代替昂贵的DFT计算来预测分子的量子特性的目的。原子结构的计算预测是物理学、化学、材料和生物学中长期存在的问题,力场或从头算方法通过能量最小化确定结构,这要么是近似的,要么是计算要求高的。相比于基于规则和手工设计的启发式方法,机器学习模型Graph-To-Structure(G2S)从预测的原子间距离重建3D原子坐标,从而绕过传统的能量优化方法,获得了与传统的结构生成器性能相当或更好的结果[125]。另有大量将不同深度学习技术应用于经典QSAR问题的模型出现,如晶体结构、分子动力学、ADMET,以及分子相互作用等的量子性质、物化性质、生物性质的预测任务。

深度学习的发展给结构性质预测这个经典问题带来了新的研究方向,但是目前仍处于探索阶段。最近,大规模量子化学计算、分子动力学模拟以及高通量实验以前所未有的速度生成数据。相信有朝一日,足够成功的模型可帮助解决自动化药物发现或材料科学中具有挑战性的化学搜索问题。

3.3 基于深度生成模型的分子逆设计

生成分子最简单的方法是枚举图形、原子、键或片段的所有可能组合,然后根据QSAR模型进行筛选,得到给定应用条件的分子。与这种传统的分子设计方法不同,常见的基于深度生成模型的分子设计一般从分子库出发构建深度神经网络,以自监督学习的模式得到预训练模型,再以迁移学习或强化学习的形式逼近目标属性。在预训练模型+强化学习的框架中,根据分子预测属性给出反馈则是重要的一步,决定了模型最终是否能够趋向目标属性。

另一种比较常用的架构则是条件生成模型,其核心思想是给预训练模型添加约束条件。常见的条件模型有条件自动编码器(CVAE)[126]和条件生成对抗网络(CGAN)[127]。CVAE在编码器得到的潜变量送入解码器之前,添加约束条件,形成新的潜变量,送入解码器。当生成分子时,则先从正态分布采样得到初值,然后添加约束条件,形成新向量进入解码器,则可得到受目标条件约束的分子。CGAN的模型稍显复杂,但添加约束条件的思想基本相同,不再赘述。

2016年出现了首个使用变分自动编码器(VAE)生成化学结构的模型[128],之后又有众多的基于VAE的生成模型被陆续提出,该类模型可从连续的中间潜向量生成新分子,非常容易地扩大了模型的探索空间。随着GAN在图像生成领域的成功,最近,GAN与强化学习相结合,生成具有特定期望性质新分子的方案获得了更多关注。如ORGAN[129]在GAN框架下增加了强化学习的奖励机制,可以有效地调整生成分子的质量和属性。自编码器和生成对抗网络相结合的LatentGAN[130],生成器和判别器使用来自编码器中间层的连续潜向量,有效避免了SMILES的离散问题。图卷积策略网络(GCPN)可生成100%有效的分子[131]。

基于SMILES的字符级循环神经网络CharRNN[132],仅用每层只有768个神经元的3层LSTM,在150万个分子的Zinc数据集上训练之后,在生成未包含在训练集中的新的有效字符串方面取得了出乎意料的领先优势。基于图神经网络的MolecularRNN[133]可以产生100%结构有效的分子。当Transformer模型在自然语言处理和图像识别领域取得惊人成绩之后,已被应用于分子生成模型中,是AI对化学建模产生较大影响的例证之一。由于Transformer的注意力机制,使得该类模型具有一定的可解释性。

一些深度生成模型设计的分子也经过了实验验证,最有名的当属Insilicon公司开发的分子生成模型GENTRL[134],仅用46 d即成功发现了高活性、高选择性DDR1抑制剂。

深度生成模型毫无疑问会在今后目标导向的分子设计中扮演越来越重要的角色,起到缩短周期降低成本的效果。与此同时,智能优化算法如遗传算法等依然活跃在分子生成领域,如模型Graph GA[135]和SMILES GA[136]仍能取得较好的成绩。虽然最近在科研和企业界掀起了一股深度学习分子设计的热潮,但是仍有许多悬而未决的问题有待于进一步深入研究。

4 总结与展望

科学总是被数据和理论的相互作用所驱动,机器学习从20世纪80年代中期开始引领人工智能的发展,在某些特定领域取得了令人瞩目的成果,但深度学习依然有其前提约束条件。化学与自然科学的确定性曾经在以符号、逻辑和规则为基础的传统人工智能时代推动了科学的发展,在深度学习年代,对技术能力的期望值和技术有限性之间的矛盾以及有关确定性与不确定性之间的矛盾将持续存在。今天人工智能系统的成功可以归结为:大数据+大算力+强算法,其中数据本身可以提供对潜藏信息和知识的洞察力,但是并没有完全掩盖传统人工智能的光芒:树搜索、逻辑推理等仍具有非凡的效率。目前的化学计量学和化学信息学主要由第三范式主导,但人工智能方法近年来取得了重大进展,第四范式正在发挥越来越大的作用。总的来说,四种范式并非孤立存在,也不是对前一范式的取代,而是相辅而行,彼此存在密切的联系。随着科研模式的发展,化学计量学/化学信息学也在不断向前推进。

猜你喜欢

分析化学范式分子
《分子催化》征稿启事
以写促读:构建群文阅读教学范式
《分析化学》公布2019-2020年度优秀编委
从教师视角谈“读思达”课堂范式——以“百分数的认识”为例
中国传统哲学研究中的认知范式转移
管窥西方“诗辩”发展史的四次范式转换
“精日”分子到底是什么?
米和米中的危险分子
臭氧分子如是说
第一届中国青年分析化学家奖