APP下载

人工神经网络方法对卤代联苯化合物的QSRR研究

2011-10-12张晓彤国晶晶宋丽娟

石油化工高等学校学报 2011年1期
关键词:卤代联苯人工神经网络

张晓彤, 国晶晶, 任 创, 宋丽娟*, 孙 挺

(1.辽宁石油化工大学辽宁省石油化工重点实验室,辽宁抚顺113001;2.东北大学理学院,辽宁沈阳110004)

人工神经网络方法对卤代联苯化合物的QSRR研究

张晓彤1,2, 国晶晶1, 任 创1, 宋丽娟1*, 孙 挺2

(1.辽宁石油化工大学辽宁省石油化工重点实验室,辽宁抚顺113001;2.东北大学理学院,辽宁沈阳110004)

将卤代联苯化合物作为研究体系,利用基于原子类型的电子拓扑结构(E-state)和基于13种原子类型的电性距离矢量描述子(MEDV-13)作为描述符,分别应用多元线性回归、人工神经网络中的误差反向传播神经网络和径向基函数神经网络的方法建立了55种卤代联苯化合物的QSRR模型。使用人工神经网络的方法预测的结果比多元线性回归的方法的结果稍好,相关系数R可以达到0.99以上,说明使用人工神经网络的方法能够准确地预测卤代联苯化合物的气相色谱和液相色谱的保留指数。

QSRR; 卤代联苯化合物; 多元线性回归; 人工神经网络

色谱保留指数,又称科瓦茨指数(Kovats index),是色谱定性指标的一种重要参数。它是一种重现性较其它保留指数都好的定性参数,其主要优点是它只受色谱柱和柱温的影响,而与其它因素无关。定量结构-色谱保留相关(Quantitative Structure-Retention Relationships,QSRR)研究的主要任务是建立分子结构参数和色谱保留值之间的定量关系,对于色谱保留值的预测、色谱分离条件的选择以及色谱保留机制的探索等都具有重要的意义。因此,QSRR研究在色谱科学领域得到了广泛关注[1]。卤代联苯化合物被广泛地应用于工业绝缘材料和阻燃材料,这些物质很难降解,对环境以及人类的健康造成很大的影响[2]。气相色谱和液相色谱是比较有效的分析方法之一。建立有效的卤代联苯化合物QSRR模型可以节省大量的人力财力,同时也可以给许多分析化学工作者提供一定的便利。

1 分子结构参数

卤代联苯化合物的气相色谱的保留值是在25 m×0.25mm DB-210-CB毛细管柱,膜厚度为0.2μm条件下得到的。液相色谱数据是采用C18柱以甲醇作为流动相而得到的[2]。它应用基于原子类型的电子拓扑结构(E-state)和基于13种原子类型的电性距离矢量描述子(MEDV-13)作为描述符[3]。为了确保整个数据集在QSRR模型中具有统计意义,应该把零值的描述符舍去。最后得出MEDV-13描述符的x14,x15,x25,x26,x36和x916个不都是零的值。应用同样的方法,得到E-state的3个描述符包括ST(~CH~),ST(-C≈),ST(-F)。卤代联苯化合物名称及编号见表1。

表1 卤代联苯化合物的名称Table 1 Compounds of Polyhalogenated Biphenyls

2 结果与讨论

2.1 多元线性回归(MLR)

多元线性回归模型是最早被采用来预测色谱保留值的方法,也是目前在实际操作中应用最普遍的方法。多元线性回归是将保留指数RI由特定的自变量参数xi来线性表达。

利用SPSS 11.5对所有的描述符进行统计分析,最后得出描述符和保留值之间的线性关系为:RIGC=1 836.982-4.552x15-124.906x25-178.722x26-240.601x91-55.581ST(~CH~)+141.413ST(-C≈)+1.385ST(-F)RILC=4 274.259-4.552x15-99.562x25-83.087x26-159.951x91-191.019ST(~CH~)+141.413ST(-C≈)+1.385ST(-F)

一个可靠的回归模型应该具有较高的相关系数(R),本回归模型的相关系数R分别为0.985 4和0.981 4。

多元线性回归的结果列于表2中(限于篇幅,表2中只列出前10种和后10种物质的相关数据),与实验值的对比列于图1中。

Fig.1 Plot of the predicted RI against the experimental values based on MLR for the GC and LC图1 基于MLR的GC和LC预测值和实验值之间的关系

在约定显著性水平α=0.05下,对本回归方程进行F检验,查表得临界值F(7,47)=3.35,而该方程的F值分别为224.875,175.348,F>F(7,47),说明模型的精密度检验结果是显著性的。

2.2 人工神经网络(ANN)

人工神经网络(Artificial Neural Network ANN)方法是QSRR研究中处理非线性问题常用的方法。人工神经网络有多种算法,其中最常用的前馈神经网络模型是误差反向传播神经网络(Error Back Propagation,BP)和径向基函数神经网络(Radial Basis Function Neural Network,RBF)。QSRR数据的非线性统计结果比线性有较好的预测能力,神经网络也广泛的应用于QSRR模型的建立[3-4]。

2.2.1 误差反向传播神经网络 BP网络可广泛应用于函数逼近,模式识别,数据的预测等等,也可以用于QSRR模型的建立[5]。BP网络是多层前馈型网络,分为输入层、隐含层和输出层,层与层之间采用全连接的方式,同一层神经元不存在相互连接。BP网络的基本处理单元为非线性输入—输出关系,其学习过程由正向传播和反向传播组成。在正向传播过程中,输入信息从输入层经隐含层(net)逐层处理并传向输出层(out),每一层的神经元状态只影响下一层神经元的状态。如果输出层得不到期望输出,则转入反向传播过程,将误信息原来的连接线路返回,不断修改各层神经元的权值,以达到期望输出[6]。

选用3层的BP网络来实现卤代联苯化合物的QSRR建模。在计算之前要对所有的数据进行归一化。归一化的公式为:

BP网络在MATLAB中编译实现。前44个数据作为训练集,后11个数据作为检测集。建立3层BP神经网络,隐层神经元数目设为7,输出层有1个神经元,传递函数分别为tansig和logsig。BP神经网络的预测结果见图2。

应用BP神经网络建立的模型所得到的相关系数分别为0.992 5和0.999 0。

2.2.2 径向基函数神经网络 RBF网络也是一种常用的神经网络模型,它具有最佳逼近的特性,以及优化过程简单和训练速度快的优点,在许多领域得到广泛的应用[7-8]。RBF网络属于前馈型层状神经网络,以训练样本的输入量与隐含层节点权重向量的欧式距离作为输入,通常采用反映概率密度的高斯型函数作为隐含层的作用函数。它的结构可以用3层网络来描述:第1层为输入层,第2层为隐含层,即径向基函数层,第3层为输出层。本模型径向基函数采用高斯核函数:

Fig.2 Plot of the predicted RI against the experimental values based on BP for the GC and LC图2 基于BP的GC和LC预测值和实验值之间的关系

RBF网络在MATLAB中编译实现。同样将前44个数据作为训练集,后11个数据作为检测集。利用2-2-1结构的RBF。预先设定均方差精度为0.000 1和散布常数1.0来预测卤代联苯化合物的保留指数。预测结果见图3。

应用RBF神经网络建立的模型所得到的相关系数分别为0.996 6和0.996 0。

3 不同建模方法的预测结果

分别采用线性方法(MLR)和非线性方法(ANN)建立了卤代联苯化合物气相色谱和液相色谱保留值与其结构参数间的线性和非线性定量关系模型。表3比较了采用不同方法建立的QSRR模型的预测结果,可以看出采用非线性方法(ANN)建模的结果比线性的方法(MLR)稍好,相关系数可达0.99以上。

Fig.3 Plot of the predicted RI against the experimental values based on RBF for the GC and LC图3 GC和LC基于RBF的预测值和实验值之间的关系

表2 保留指数的数据集和相应的实验值Table 2 Molecular structures the selected descriptors and corresponding experimental values of RI

表3 不同建模方法的R值Table 3 Different method values ofR

通过基于原子类型的电子拓扑结构(E-state)和基于13种原子类型的电性距离矢量描述子(MEDV-13)这两个描述符可以成功地对卤代联苯化合物的气相色谱和液相色谱的保留值进行预测。建立适用广泛的色谱保留行为模型,将为色谱保留机理、选择性、优化分离条件和预测保留值研究奠定良好的理论基础。

[1]杨学瑾,李延东,王善伟,等.二茂铁衍生物疏水参数及其保留指数与结构定量关系的研究[J].色谱,1996,14(2):86-90.

[2]Lu C,Abraham F,Adamowiciz L,et al.QSRR study for gas and liquid chromatographic retention indices of polyhalogenated biphenyls using two 2D decriptors[J].Chromatographia,2007,66(9-10):717-724.

[3]Zupan J,Gasteiger J.Neural network in chemistry and drug design[M].Weinheim:Wiley/VCH Verlag,1999.

[4]Sharma R,Singh K,Singhal D.Neural network applications for detecting process faults in packed towers[J].Chemical engineering and processing,2004,43(7):841-847.

[5]Zhang Xiaotong,Ding Ling,Sun Zhaolin.Study on quantitative structure-retention relationships for hydrocarbons in FCC gasoline[J].Chromatographia,2009,70(3-4):511-518.

[6]张晓彤,李兴明,代敏,等.GBP网络在改性石蜡性质预测中的应用[J].石油化工高等学校学报,2004,21(17):1-5.

[7]Sboner A,Echer C,Blanzieri E.Amultiple classifier system for early melanoma diagnosis[J].Artificial intelligence in medicine,2003,27(1):29-44.

[8]李红利,张晓彤,兰立柱,等.基于遗传算法的RBF神经网络的优化设计方法[J].石油化工高等学校学报,2003,20(11):67-69.

(Ed.:YYL,Z)

QSRR Study for Polyhalogenated Biphenyls Using Artificial Neural Network

ZHANG Xiao-tong1,2,GUO Jing-jing1,REN Chuang1,SONG Li-juan1*,SUN Ting2
(1.Liaoning Key Laboratory of Petrochemical Engineering,Liaoning Shihua University,Fushun Liaoning113001,P,R.China;2.College of Sciences,Northeastern University,Shenyang Liaoning110004,P.R.China)

A series of polyhalogenated biphenyls have been used to develop quantitative structure-retention relationship for their gas and liquid chromatographic retention index by using two 2Ddescriptors of the atom type electrotopogical state index and the molecular electronegativity distance vector based on 13atomic types.QSRR of 55kinds of polyhalogenated biphenyls models were built by multiple liner regression and artificial neural network.The results show that using artificial neural network method is better than using multivariate linear regression,the predictive correlation coefficientRcan reach above 0.99.It is demonstrated that using artificial neural network method can accurately predict polyhalogenated biphenyls gas and liquid chromatographic retention index.

Quantitative structure-retention relationship;Polyhalogenated biphenyls;Multiple liner regression;Artificial neural network

TQ645

A

10.3696/j.issn.1006-396X.2011.01.006

2010-12-02

张晓彤(1970-),男,辽宁抚顺市,副教授,在读博士。

辽宁省教育厅资助项目(2008T110)。

*通讯联系人。

1006-396X(2011)01-0026-04

Received2December2010;revised28December2010;accepted5January2011

*Corresponding author.Tel.:+86-413-6860048;e-mail:lsong@lnpu.edu.cn

猜你喜欢

卤代联苯人工神经网络
电化学氧化还原法降解卤代有机污染物的研究进展
利用人工神经网络快速计算木星系磁坐标
人工神经网络实现简单字母的识别
滑动电接触摩擦力的BP与RBF人工神经网络建模
2,2’,4,4’-四溴联苯醚对视黄醛受体和雌激素受体的影响
新型联苯四氮唑沙坦类化合物的合成
九硝基三联苯炸药的合成及表征
RoHS测试方法又发布IEC 62321–6: 2015
二卤代荧光素衍生物的荧光性能调控
波信号的解调和人工神经网络的损伤识别算法