APP下载

饮用水中挥发性有机物色谱保留时间的神经网络研究

2018-10-31堵锡华

食品科学 2018年20期
关键词:分子结构电性挥发性

堵锡华,王 超

(徐州工程学院化学化工学院,江苏 徐州 221018)

水是环境中化学物质迁移、循环的重要介质,随着工业废水、生活污水的排放,大量的化学污染物进入水体,这些水污染对工农业生产造成了重大的影响,特别是对饮用水及饮料生产造成了大的危害。挥发性有机物是水体中重要的污染物,它包括烯烃、芳烃、卤代烃等化合物,这些挥发性化合物性质稳定、不易分解,而且有强致癌、致畸、致突变性及致生殖系统和神经系统毒性[1-3],所以评价水质质量的一项特征指标即是饮用水中的挥发性有机物,因此有效并快速鉴别水中痕量挥发性有机物的分析方法和手段成为一项重要工作,目前快速检测生活饮用水中挥发性有机物的方法主要采用吹扫捕集-气相色谱-质谱联用方法[4-6],还有膜萃取分离技术/微捕集与色谱仪联用技术方法也逐渐成为一种对水中挥发性有机物分析测试的新型手段[7]。另外还有采用偏最小二乘法回归建立定量结构-保留相关性(quantitative structure-retention relationship,QSRR)模型的方法对饮用水中挥发性有机物进行分析研究有少量的报道[8],在该方法基础上,进一步结合人工神经网络方法对饮用水中挥发性有机物进行研究,较少见有报道[9]。

人工神经网络是一个多学科交叉的前沿学科,它主要以模拟人的大脑,对相关信息进行处理,在食品科学[10]、环境化学[11]、建筑学[12]、农业科学[13]、气象学[14]、色谱学[15-16]等诸多领域得到广泛应用。在前期[17-19]工作基础上,根据文献[8]所列的56 个饮用水中挥发性有机物的色谱保留数据,采用MATLAB软件,按照文献[20-21]方法编写计算应用程序,计算得到了分子连接性指数、分子形状指数、电性拓扑状态指数以及电性距离矢量4类分子结构参数,利用MINITAB 14软件的最佳变量子集回归方法,从中筛选了7 种分子结构参数作为神经网络的输入神经元,将这些挥发性有机物的气相色谱保留时间(tR)作为输出神经元,建立了神经网络QSRR模型,所得结果显示,饮用水中挥发性有机物的分子结构参数与其气相色谱保留值之间具有高度相关的非线性关系,利用该模型计算得到的色谱保留时间预测值与文献实验值吻合度较好,本研究可为解决对饮用水中挥发性有机污染物仪器检测中存在的样品需要量大、耗费有机溶剂且带来另外的污染、操作复杂、灵敏度低等问题提供一定的理论帮助,为水中挥发性有机物成分分析提供了参考,而且该法具有准确度高、快速、操作简单、无污染的一些优点,故对提高生态水质质量的社会环境问题具有现实意义。

1 参数计算及最佳变量选择

根据文献[22-24]提出的几种分子的结构参数——分子连接性指数、分子形状指数、电性拓扑状态指数,以及刘树深[25]、张亚辉[26]等提出的电性距离矢量的计算方法,首先采用Chemoffice 2005中的Chem3D 9.0应用画图软件,勾画文献[8]中列出的56 种水中挥发性有机物的分子结构,在MATLAB软件中用自编程序,计算得到了4类分子结构参数作为描述符,采用最佳变量子集回归方法,针对挥发性有机物色谱保留时间回归统计分析,进行结构指数的最优变量筛选,结果见表1。

表1 tR与参数的最佳变量子集回归结果Table 1 Results of nX, Kn, In, Mn and tR with optimal subset regression

表中R、R2Adj、F、S、FIT依次为相关系数、调整的判定系数、Fischer检验值、标准误差、Kubinyi函数,FIT的计算公式[27]为:

式(1)中:n为有机化合物分子的样本个数;b为模型采用的变量数;R2为模型的决定系数。FIT值越大,说明建构的模型越稳定,预测能力也就越高。

从表1可以看出,从4类分子结构参数筛选取7 个参数时,所得模型调整的判定系数值最大、标准误差值最小,将56 个水中挥发性有机物分子及其相关结构参数如表2所示。

表2 挥发性有机物的结构参数Table 2 Structural parameters of volatile organics

续表2

2 模型的建构

2.1 多元回归模型的建构

文献[8]中列出的56 种水中挥发性有机物的色谱保留时间,其数据来源于姚祺等[28]通过同一次实验获取,该实验采用7890/5975气相色谱-质谱联用仪进行检测,利用文献[8]所列的保留时间数据,与优化筛选出的7 种分子结构参数0X、1X、2X、3X、K1、E43和M91进行多元回归分析,得到七元回归方程为:

利用式(2)对水中挥发性有机物的色谱保留时间进行预测,所得预测值(表2中的预测值1)与实验值之间基本吻合。

2.2 模型稳健性与预测能力的检验

为检验模型的稳健性、预测能力大小,这里应用MINITAB应用软件中的留一交叉验证法,对多元回归模型(2)进行分析检验,得到交叉验证相关系数为0.945,远大于0.5,说明建立的模型具有较好的预测能力。一般模型的越接近于1,模型的稳定性就越好,预测能力也越强[29],这里所建模型的达到0.945,说明稳定性和预测能力均较强。

评判模型是否具有离域的“异常数据”,雷达图法是比较典型、直观和形象的图形评价方法,可对各种评价对象进行定性评价,通过勾画56 个分子的Jackknifed调整的判定系数的雷达图(图1),可进一步评价判断模型的稳定性。这里以0.950为圆心,0.002为间距,56 个分子的值全部落在0.950~0.962之间,波动性不大,说明所建模型不存在异常数据。当模型的-值小于0.3时,一般认为模型不存在过拟合现象,这里模型的Jackknifed(0.957)与交互检验相关系数(0.945)差值为0.012,值小于0.3,说明本模型既没有过拟合也没有离域值存在。

图1 Jackknifed判定系数R2Adj的雷达图Fig. 1 Radar map of determination coef fi cient R2Adj

2.3 神经网络模型的建构

为更好地提高预测色谱保留时间的准确度,采用神经网络法进一步进行研究。根据表1筛选出的0X、1X、2X、3X、K1、E43和M91共7 个参数,将这7 个参数作为神经网络的输入神经元,将56 种挥发性化合物色谱保留时间作为神经网络的输出神经元,按照Andrea和许禄[30]等学者的建议规则:

式(3)中:n为样本个数;M为网络总权重。

M的计算公式如下:

式(4)中:I、H、Q分别为神经网络中输入层、隐含层及输出层的神经单元数。这里的输入神经元I为7(即筛选出的7 个分子结构参数);输出神经元Q为1(即挥发性有机物的色谱保留时间);故根据式(3)和式(4)进行计算,当H取3或4时,可符合规则条件;经反复测试,当H取4时,所得结果最优,故本神经网络结构采用7∶4∶1的结构方式。

为防止过拟合,将全部样本数据分为3 组:训练集(每5 个数据为一组,取其中的第1、3、5个数据)、测试集(第2个数据)、验证集(第4个数据),由此得到了BP(back propagation)神经网络预测模型的总相关系数r总为0.999 1,训练集相关系数r1为0.999 3、测试集相关系数r2为0.998 7、验证集相关系数r3为0.999 1,利用新建构的神经网络模型,计算得到水中挥发性有机物的色谱保留时间预测值2见表2,该预测值与实验值吻合度比较理想,两者的相对平均误差仅为2.17%,远小于利用多元回归方法模型的预测误差9.01%,说明神经网络法建立模型的相关性明显优于多元回归分析方法,而且本法结果明显优于文献。预测值1、预测值2与实验值的关系图见图2,神经网络法预测的色谱保留时间,与实验值的吻合度更好。神经网络模型的权重和偏置见表3。

图2 保留时间预测值及其实验值的关系图Fig. 2 Relationship between predicted and calculated values of tR

表3 BP-人工神经网络模型的权重和偏置Table 3 Weights and bias of BP-ANN model

这里所得的预测值为根据模型理论计算所得,模型是否具有更好的普适性,还需要通过实验测定其他分子的色谱保留时间进行检验,这需要下一步开展更多的研究工作进行完善。

3 讨 论

根据表1的最优变量子集回归可以看出,选用分子连接性指数中的0X、1X、2X和3X、分子形状指数中的K1、电性拓扑状态指数中的E43和电性距离矢量的M91共7 个变量,与色谱保留时间相关性最优,这些变量中,分子连接性指数中的0X、1X、2X和3X分别代表0~3阶路径指数、分子形状指数中的K1代表1阶形状特征参数、电性拓扑状态指数中的E43代表氯原子基团的参数值、电性距离矢量中的M91代表的是第13类原子(—F、—Cl、—Br、—I)之间的相互作用,这7 个变量所代表的基团对方程贡献最大,这说明在分子的空间结构中,原子之间的连接形式、连接的基团、相邻原子之间的相互作用对色谱保留时间均能产生影响,其中以空间连接的形式或连接何种基团对分子的贡献最大。从表2可以看出,随着挥发性有机物分子中碳原子数目的增加或吸电子基团的存在,分子的体积逐渐增大,分子原子之间的色散作用会逐渐增强,相应的色谱保留时间会逐渐增大[31]。由于单一类的结构参数不能完全反映分子中原子之间复杂的相关影响关系,故将蕴含了空间拓扑结构和电性结构信息的4类结构参数有机融合,在一定程度上揭示分子基团之间的相互作用,充分反映水中挥发性有机物色谱保留时间的变化规律,指数与色谱保留时间之间呈现了良好的非线性关系,利用优化筛选的7个分子结构参数建立的神经网络模型,对色谱保留时间作出预测的相对平均误差达到2.17%,结果较为理想,而且通过检验稳定性,得到交叉验证相关系数达到0.945,远大于0.5,说明模型具有好的稳定性和预测能力。通过对全部56个水中挥发性有机物分子的色谱保留时间进行预测,只有对二氯乙烷和反式-1,1-二氯乙烯2 个分子的预测结果相对误差偏大,这可能是与连接在相邻2 个碳原子上的氯原子对空间结构的影响较大、或反式结构的色谱保留时间相对偏小有关。

4 结 论

水中挥发性有机物分子的7 种分子结构参数0X、1X、2X、3X、K1、E43、M91与其色谱保留时间之间,能建立良好的神经网络QSRR数学模型,所得模型的总相关系数r总与训练集r1、测试集r2、验证集r3的相关系数较为吻合,不存在异常的离域值,经留一法交叉检验,模型具有良好的稳健性、较强的预测能力(= 0.945);神经网络法比多元回归分析具有更好的预测准确度、更强的纠错能力,能很好地反映蕴含影响色谱保留时间的结构信息,同时也反映出4 类结构参数与其色谱保留时间之间具有良好的非线性关系。

猜你喜欢

分子结构电性挥发性
铈基催化剂在挥发性有机物催化燃烧治理中的研究进展
挥发性有机物污染环保治理新思路的探讨
三步法确定有机物的分子结构
民间引爆网络事件的舆情特点——以“北电性侵事件”为例
用于燃烧正电性金属的合金的方法
色谱相关系数和随钻电性参数实时评价地层流体方法
解读分子结构考点
外电场中BiH分子结构的研究
吹扫捕集-气相色谱质谱联用测定水中18种挥发性有机物
带电粒子在磁场中的多解问题