APP下载

开放骨架磷酸铝定向合成反应预测研究

2020-10-09姚明海李劲松

关键词:分子筛定向模板

姚明海,李劲松

(渤海大学 信息科学与技术学院,辽宁 锦州121013)

0 引言

分子筛因其独特的结构特征,大量应用于气体的吸附、分离和净化方面,以及石油炼制中催化和离子交换方面.目前,对于无机微孔材料如何定向合成的问题仍然是国内外材料领域和分子工程学领域研究热点[1-3].在过去几年里,诸多学者试图通过将数据挖掘思想和方法引入到分子筛问题中,建立相关预测模型来对无机微孔材料进行更好地定向合成,一些数学统计方法已经大量使用于化学分子材料分析问题中并取得了部分研究成果,但是关于开放的骨架磷酸铝定向合成的预测实验和相关数据仍然较少.文献[4]将支持向量机运用于各种催化剂来预测催化性能的实验.实验结果说明,与各种决策树相比,在一定催化条件下支持向量机取得更好的分类性能.齐妙等人在合成参数对实验产物类型影响的预测实验中,采取了将Logistic回归与偏最小二乘法相结合的统计方法(PLS-LR)[5].

近年来,国内学者开始寻找开放骨架磷酸铝结构与合成因子之间的对应关系.在文献[6]和[7]中,齐妙等人分别提出了利用加权融合思想的特征选择方法和基于随机子空间的特征选择方法来分析定向合成(12,6)元环分子筛的合成因子的重要程度.这些方法为利用数据挖掘思想和特征选择来进行实验分析和预测合成参数对相应合成产物间对应关系的有效性和可行性提供了证明.吉林大学的“无机合成与制备国家重点实验室”创建了磷酸铝合成反应的数据库,供国内外的诸多学者和科研人员免费使用,为分子筛的设计与定向合成相关研究提供了数据基础.该数据库的建立不仅为分子筛的预测与定向合成提供了相关的实验数据和基础信息,还开辟了如何设计和定向合成无机微孔材料的新通道.但是,在实验中发现大约29%的数据有不同情况的缺失.为了进一步完善数据库信息,减少对实验结果的影响,文献[8]提出了利用BP神经网络建立补值模型对缺失数据进行估计补值,通过大量的实验证明了补值算法具有一定的有效性和可行性,但是该文在对凝胶组成建模过程中仅考虑了摩尔比关系而没有考虑到溶剂和模板剂的影响.文献[9]证明即使同样的摩尔比值,使用不同模板剂或溶剂生成的结构也会不同.所以为了更好的建立凝胶组成补值模型,应当考虑进溶剂和模板剂因素.因此本文在国内外学者的研究基础上,将研究重点放在了建立更精确的预测和补值模型上,在完善数据库的同时,为定向合成提供指导.

本文首先通过大量随机实验,选择出能提供正确分类信息的样本;然后使用这些样本建立更精确的预测模型和补值模型,并利用补值模型对部分错误样本进行矫正;最后利用得到的预测模型和补值模型建立定向合成(12,6)元环分子筛的预测系统.

1 相关工作

1.1 系统流程

为了更好的挖掘定向合成分子筛的规律,建立更精确的判别模型,给定向合成提供指导性意见,本文在充分分析了国内外学者研究工作的基础上,以定向合成(12,6)元环分子筛为目标,建立更精确的判别系统.该系统流程图如图1所示.

从图1可以看出,本文的工作主要包括系统构建和系统测试两部分,核心工作是构建分子筛定向合成预测系统.该过程首先对原始样本数据进行筛选,得到能够对构建判别模型提供有用信息的富信息数据和提供错误信息或无法提供信息的负信息数据.然后利用富信息数据构建SVM判别模型和BP补值模型.基于判别模型和补值模型构建分子筛定向合成预测系统.最后通过分子筛定向合成预测系统实现分子筛定向合成反应的预测.同时,可以利用补值模型实现负信息数据的矫正.

1.2 数据筛选

从文献[6-7]可以发现,不管是经典的预测方法或特征选择方法等对定向预测的准确率都无法超过90%,这与其他领域(如生物认证、生物信息学)动辄95%甚至100%的准确率相差甚远.遗憾的是造成识别率不高的原因至今还无法查明.本文仅给出部分分析与猜测.首先,该数据库除了收录吉林大学“无机合成与制备国家重点实验室”的按照统一标准记录的研究结果外,还整理收录了1936年至今的大量会议、专利、学位论文、文献期刊上的研究成果,这些研究成果可能由于各种原因造成了实验数据的偏差;其次,由于是不同的科研机构的研究成果,使得在记录的过程中有些实验数据没有记录或是没有精确记录;再次,为了更好地利用数据挖掘方法建立预测模型,众多学者普遍对这些数据进行了预处理,从原始数据中选出认为重要的参数用于后续实验,这一过程可能忽略了一些还没有被认识到但是非常重要的合成因子(如温度、时间等);最后,定向合成实验有着非常复杂的反应过程,不是简单输入与输出的关系,可能还需要中间过程,但是现阶段对中间过程的描述并不多.以上这些仅是对造成目前众多学者的研究结果识别率不高进行的初步分析.因为短时间内无法对数据库数据进行重新实验验证,目前仅能在现有数据的基础上进行实验研究,因此为了避免存在偏差的数据对建立预测模型的影响,本文在数据预处理阶段对数据进行了筛选.数据筛选阶段的具体方法是将现有数据样本分别作为训练数据和测试数据,根据正确分类情况将数据分为对预测能够提供有用信息的富信息数据和对预测建模无法提供帮助的负信息数据.具体算法描述如下:

给定正样本集X+和负样本集X-,迭代次数n0和n1.

1.3 判别方法

支持向量机(Support Vector Machine,SVM)[10]是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题的分类模型,能有效解决局部极小点、全局最优解、非线性和高维数等相关问题,在机器学习、模式识别、文本分类等领域广泛应用并成为研究热点问题[11-13].算法描述如下:

输出:权重向量w,二次解a*,

函数f 既是由超平面表示的决策规则

在文献[6-8]中均采用了SVM作为判别分类器,展示了不错的分类性能,因此本文在构建判别模型过程中选用SVM作为分类器.具体判别模型算法如下:

给定正样本集XP和负样本集XN,迭代次数n.

1.4 补值方法

BP神经网络具有较强的非线性映射能力[14],以任意精度逼近任何非线性连续函数,适合于求解内部机制复杂的问题.此外,BP神经网络具有将学习成果应用于新知识的泛化能力、鲁棒性、容错性以及高度自学习和自适应的能力.鉴于BP神经网络存在的诸多优势及磷酸铝合成反应数据的各项参数之间存在相关性的特点,本文采用了BP神经网络的补值方法.本文BP神经网络选取三层结构(输入层、中间层、输出层)来训练样本并形成模型.在实验训练样本中的数据Y筛选出k个不含参数缺失信息的样本y1,y2,…,yk,再从样本数据中筛选出第h个参数缺失信息的样本yj用作实验测试样本. BP神经网络的补值方法在应用于缺失值估计时,一般分为两个阶段进行,即模型的训练阶段与缺失值的估计阶段. 在模型训练阶段,每个实验训练样本y1,y2,…,yk中,将p-h(p全体参数)个数据参数视为BP神经网络的输入量,该模型的输出结果为实验训练样本的第h个数据参数,构建三层BP神经网络模型. 在缺失值估计阶段,通过将实验测试样本yj的p-h个数据参数放入BP神经网络训练模型中,该模型的输出结果即为数据缺失值yjh的相应估计值.

文献[8]将BP神经网络应用到磷酸铝合成反应数据的缺失值处理上,当完备数据较多、缺失率较小时,BP神经网络训练的越充分,对数据参数间相应关系的建模就越精确,实验结果补值的相应误差就越小.但是,该方法在补值过程中仅考虑了合成材料的摩尔比,没有考虑到溶剂和模板剂对合成结果的影响.因此本文对补值方法进行了重新的设计,在补值过程中充分考虑了溶剂和模板剂对合成结果的影响.

2 实验结果与分析

2.1 数据库

本文选用了磷酸铝合成反应数据库(http://zeobank.jlu.edu.cn/)数据,采用同文献[7]相同的数据处理方式,以定向合成(12,6)元环结构作为目标开展实验.实验结果得到生成(12,6)元环结构的合成物398条视为正样本,884条(不包含(12,6)元环结构)的合成物视为负样本.每个样本中有21维含反应物属性的参数,参数说明如表1所示.

2.2 实验数据筛选

经过对实验数据的统计和筛选后发现,共有432条样本存在不同程度的错误判别,其中正样本186条,错误统计分布如图2所示.在全部被错误判别的样本中有9条样本错误率为100%,全部为正样本被错误判别为负样本.为了后续试验的顺利进行,本文将错误率大于0.3的样本定为负信息样本,共132条,其中正样本86条,允许错误率不大于0.3的样本参与后续试验.

2.3 数据判别实验

经过数据筛选后剩余样本数量为1150条,其中正样本312条.为了建立预测模型用于后续实验,必须充分利用现有数据对模型进行训练.因此,本文在样本的选择上正负样本的数量比设置为1:1.但是,训练和测试的样本数量会发生改变,尝试不同的训练样本数量,达到预测性能的最大化.这里尝试将每类训练样本的数量Nr分别取为150,200,250和300四种数量.实验结果如图3所示.

图3显示了预测准确率随训练样本数量增加而变化的曲线图.由图3可以看出经过筛选样本后构建的分类器的准确率非常高,随着训练样本数量的增加准确率升高超过了99%.考虑到运行时间以及避免过拟合的情况发生,本文选用由正负样本各选200个作为训练样本得到的SVM模型作为判别模型.

2.4 数据补值实验

文献[8]通过大量的随机实验证明了BP补值算法的有效性,但是该方法没有考虑到溶剂和模板剂的组成.从文献[7]通过对合成因子重要性的分析可以知道溶剂和模板剂在磷酸铝合成反应过程中发挥着重要作用.因此本文结合文献[7]对合成因子的重要性的分析,提出在建立补值模型时增加F6和F12这两个合成因子来标明溶剂和模板剂的成分.

本文采取均方误差根(normalized root mean squared error,NRMSE)的标准来对补值模型进行评价,公式如下:

其中,ytrue是真实值,yestimated是通过补值方法获得的估计值.NRMSE值越小说明算法性能越好,误差越小.

文献[8]虽然使用了BP、KNN、LS和SVD四种补值方法,但是补值效果较好的是BP补值方法和KNN补值方法.因此本文在提出新的补值模型构建理论后同文献[8]使用的BP补值模型和KNN补值模型进行对比.表2列出了不同的补值模型在不同的缺失率下的实验结果.由实验结果可以看出本文提出的模型构建理论在缺失率较低时,得到补值误差有了明显的降低.针对F2参数,BP补值方法下降更显著.随着缺失率增加训练样本的减少,BP补值方法的性能有所降低.同时从表2可以看出考虑了溶剂和模板剂影响的KNN算法明显好于文献[8]中的KNN算法.KNN补值方法依然展现了不随缺失率增大而发生较大波动的特点,但是,相对于BP补值方法来说,KNN补值方法的缺陷在于补值过程中要完全依赖于数据集,而BP补值方法则不需要.

为了对BP补值模型的性能有更直观的对比,本文将各种方法在不同缺失率获得的平均NRMSE在图4中进行了展示.由图中可以看出本文提出的融入了溶剂和模板剂信息的BP补值方法和KNN补值方法补值误差明显降低.在缺失率较低的情况下,本文得到BP补值模型具有最低的错误率,补值性能最高.因为BP模型构建后不再受到样本库的影响,而KNN模型的补值依赖数据集,考虑到系统的可扩展性,本文提出的系统选用BP补值模型.

表2 不同缺失率下各种补值方法的均方误差根(NRMSE)

在补值模型建立后,本文还进行了对被错误判别的正样本进行矫正工作.经矫正后,原有错误率不同的186条正样本有149条样本被矫正,矫正率达到80.1%,正样本的判定准确率也从84.38%上升到85.74%.

3 系统构建与测试

3.1 构建分子筛定向合成预测系统

在上述模型构建上两个关键模型的建立虽然极大的方便了使用者,但是为了方便更多的科研工作者的使用,本文建立了用于定向合成(12,6)元分子筛的定向合成预测系统.该系统主界面如图5(a)所示.界面由4个可编辑文本框、两个下拉菜单、两个按钮和一个输出显示区域几部分组成.四个可编辑文本框对应的是反应物的凝胶组成,其中Al2O3是必填项,只有这项填入数值后后续菜单和按钮才能被激活使用,而其他三个摩尔值允许使用者不填.当存在摩尔值未填写情况而使用者又要求进行预测判断时系统自动调用补值估计机制.两个下拉菜单分别显示的可选的溶剂和模板剂种类,也是必选项.预测结果在显示区域显示.

该系统为可执行程序,用户可以直接运行,不需要预先打开任何编程软件.此外系统还以excel表格形式自动对每次的判别过程进行保存,包括输入的凝胶组成、溶剂和模板剂的成分、判别结果和未填参数后的系统给出的各参数估计推荐值,方便了后续的实验记录.

3.2 系统测试

在系统构建完成后,对系统进行了简单测试.效果图如图5所示.图5(a)为系统主界面,用户需要首先填入Al2O3的摩尔量来激活溶剂的菜单(图5(b)),其他三个摩尔量该系统允许用户不确定输入.选择溶剂后激活模板剂菜单(图5(c)),再选择模板剂后激活执行按钮(图5(d)),这时就达到了该系统运行的最低条件,用户可以继续输入其余摩尔量也可以选择在此条件下进行估计预测.当用户仅输入了Al2O3、溶剂和模板剂的种类后,系统会根据用户的输入给出推荐的实验参数值(如图5(e)).图5(g)和图5(h)分别是用户输入全部参数后,系统直接给出的判断结果.图5(f)是当用户的输入不符合实际情况时系统的错误提示.该系统简单、直观、快捷、便利,用户在使用时无需进行任何培训就可直接使用,为科研工作者提供了帮助.

4 结论

为了更好地为分子筛的定向合成服务,本文在总结国内外学者大量研究工作的基础上,建立了一个简单、易用的定向合成预测系统.在建立的过程中首先对数据进行筛选,通过筛选后的数据构建更精确的预测模型和补值估计模型.在建立补值估计模型时,提出新的模型设计方案,考虑了溶剂和模板剂对合成结果的影响,使补值模型更精确.

本文系统的构建,将为分子筛如何定向合成以及后续工作者的相关研究提供相应的帮助与基础,在建立系统的过程中也为数据库的完善做出了贡献.同时这一模式也可以向其他行业扩展.但是本文还存在仅针对单一种类定向合成研究这一局限,在今后会将该系统扩展到判断更多分子筛结果的预测工作上.

猜你喜欢

分子筛定向模板
高层建筑中铝模板系统组成与应用
铝模板在高层建筑施工中的应用
调节添加剂用量选择性合成SAPO-15和SAPO-34分子筛
Fenton试剂作为·OH引发剂的超细纳米ZSM-5分子筛的合成及其催化MTG反应性能
特高大模板支撑方案的优选研究
5种沸石分子筛的吸附脱碳对比实验
中班定向式军事游戏的开展
大班定向式军事游戏的开展
Inventors and Inventions
优秀定向运动员中距离定向比赛成绩比较研究