APP下载

多氯代苯并噻吩分子空间坐标指数与气相色谱保留时间的QSPR研究

2018-08-01张文华赵继颖王琼瑶拦继元杨林

生态毒理学报 2018年3期
关键词:噻吩人工神经网络预测值

张文华,赵继颖,王琼瑶,拦继元,杨林

青海师范大学化学系,西宁 810008

多氯代苯并噻吩(poly-chlorinated benzothiophenes,PCDTs)与多氯联苯(poly-chlorinated biphenyls, PCBs),多氯代苯并呋喃(poly-chlorinated benzofurans,PCDFs)同属于持久性有机污染物(persistent organic pollutants,POPs)。PCDTs具有某种二噁英型生物活性。环境中的二噁英主要来源于人类的生产活动,垃圾焚化、氯气脱色、香烟燃烧、六氯酚和五氯酚的生产过程、燃烧用五氯酚或三氯苯酚处理过的木材都可产生二噁英[1-2]。QSAR研究已经广泛应用到气相色谱、液相色谱保留行为等方向[3]。李美萍等[4]将分子电性距离矢量(Molecular Elector-negativity Distance Vector based on 4 atomic types, MEDV)用于多氯代二苯并呋喃光解半衰期的QSPR研究;莫凌云等[5]以电拓扑状态预测多氯二苯并噻吩气相色谱保留指数;李正华等[6]通过多元线性回归建立了多环芳香硫化合物的气相色谱保留指数与MEDV参数之间的定量结构-保留值关系模型;本文运用多元线性回归[7-12]和BP人工神经网络[13-16]方法构建PCDTs的原子距离指数(Ys)、分子空间特征指数(Yf)、分子电性距离矢量(MEDV,包括M12、M22、M23)、氯原子数(Cln)与色谱保留时间(RI)的数学模型,提供一种预测PCDTs气相色谱保留时间的新方法。

1 方法(Methods)

1.1 PCDTs分子的原子距离指数(Ys)和分子空间特征指数(Yf)

应用Chem Office化学软件,绘制出一系列PCDTs分子的3D结构图,确定各个原子的空间点位Pi(xi,yi,zi),每个分子的原子坐标点位集合成分子矩阵Mi,计算各原子到原点的空间距离的均值得到各个分子原子空间距离指数Ys,计算Mi的Frobenius范数得到各个分子空间特征指数Yf[17]。

1.2 PCDTs的分子电性距离矢量(MEDV)

PCDTs的结构采用刘树深等[18]和孙立力等[19]基于分子中各类非氢原子的电负性以及各个原子之间的相对距离出发提出的MEDV表征。

1.3 BP人工神经网络

BP人工神经网络的传递函数f是处处可微的单调递增函数,使用S型(Sigmoid)的对数式(logsig)的正切传递函数(tansig)和线性函数(purelin)等。对线性性较好的多组分定量是完全可行的。通过将一系列的样品标准值输入网络,给出初始学习率,动量项α、隐含层节点数、迭代次数,设置好误差指标,进行网络训练,显示误差结果。

2 结果与讨论(Results and discussion)

2.1 Ys、Yf、MEDV、Cln与PCDTs气相色谱保留时间的MLR模型

多氯代苯并噻吩37个化合物Ys、Yf、M12、M22、M23、Cln与其气相色谱保留时间[20](RIexp)的相关性,建立如下多元线性回归方程,并计算气相色谱保留时间的预测值RIcal.,见表1。

RI=-39.681Ys+6.05Yf+2.8051M12+19.724M22+9.406M23+47.90Cln-280.41

(1)

(n=37,m=6,R=0.997,SD=2.19,F=847.815)

2.2 BP人工神经网络模型结构

BP网络是一种具有3层或3层以上的多层神经元网络,它的左、右各层之间各个神经元实现连结,即左层的每一神经元与右层的每个神经元都有连接,而上、下层各神经元之间无连接。采用3层BP网络,包括输入层、隐蔽层和输出层。数据由输入层经标准化处理并施以权重传输到隐蔽层,隐蔽层进行输入的权重加和与转换,传输到输出层,输出层给出神经网络的预测值或模式的判别结果。单隐蔽层BP人工神经网络结构图,见图1。

设置最小均方误差为0.0001,学习率为0.01,动量系数为0.95,最大训练次数为207,将表1中1~37号样本数据条件作为学习输入,气相色谱保留时间作为目标输出进行学习。最大训练次数为207次时,均方误差的最佳训练目标是3.9418×10-9,训练过程快速收敛,精度达到10-10,见图2。BP模型预测值与实验值相关,见图3。

2.3 模型验证

图1 BP人工神经网络结构Fig. 1 The structure of BP artificial neural network

表1 37个多氯代苯并噻吩(PCDTs)的MEDV值、Ys、Yf、RIexp及预测值RIcalTable 1 The values of MEDV,Ys, Yf, RIexp and RIcal for 37 poly-chlorinated benzothiophenes (PCDTs)

注:*表示测试集样本。Note:*denotes samples of the test set.

图2 均方误差(MSE)的最佳训练目标Fig. 2 Best training performance for mean-square error (MSE)

图3 预测值与文献值相关性Fig. 3 BP plot of experiment vs calculation

定量构效关系中非常重要的一部分是对所建模型的外部预测能力和真实有效性进行验证,其中留一法(Leave-One-Out,LOO)交叉检验(Cross-Validation,CV)的复相关系数QLOO是目前较为广泛使用的一种模型验证方法[21]。模型预测能力的评价还需通过外部样本集,即测试集来进行。模型外部预测能力可以用Qext(externalQ)来衡量:

(2)

RI= -314.533-0.419Yf+ 2.359M12+20.453M22
+9.847M23+49.092Cln

(3)

m=6,n=32,R=0.9970,SD=2.3141,F=804.6786;

RCV=0.9980,SDCV=0.7620,FCV=2 978.5436,QLOO=0.9731,Qext=0.9862

在37个PCDT样本中32个样本作为训练集,随机选取5个样本作为预测集。建立多元线性回归模型:

RI= -300.099-27.189Ys+3.536Yf+2.989M12
+20.981M22+10.02M23+50.177Cln

(4)

(n=32,m=6,R=0.9970,SD=2.2037,F=804.6784)

PCDTs气相色谱保留时间实验值-预测值呈明显线性相关,具体表现为所有样本都均匀分布于过原点45°直线周围,无明显异常点,见图4。预测值与实验值的误差分布,绝大多数点分布在2SD之间而且分布均匀,见图5。进一步表明所建多元线性回归模型具有良好的稳定性和预测能力。

图4 实验值-预测值模型相关Fig. 4 MLR plot of experiment vs calculation

图5 色谱保留时间预测值的误差分布Fig. 5 Error distribution of predicted gas chromatographic retention time

表2 本研究与文献比较Table 2 This study is compared with the literature

2.4 与文献比较

本研究采用分子电性距离矢量(MEDV)表征多氯代二苯并噻吩的分子结构,运用MLR和BP人工神经网络建立了 PCDTs结构与气相色谱保留时间的QSPR模型,同时采用内部及外部双重验证的办法对所建模型稳定性能进行分析和验证,结果表明所建模型稳定性和预测能力均很好。表2列出了一些文献模型的比较。

综上所述:运用Chem Office软件确定原子坐标,用Matlab编程软件建立以多氯代苯并噻吩分子的Ys、Yf、M12、M22、M23、Cln为分子描述变量与多氯代苯并噻吩气相色谱保留时间的MLR、BP人工神经网络结构模型。结果表明,BP人工神经网络结构模型优于VSMP方法和MLR模型,为PCDTs分子结构与物性的QSPR研究提供了新思路。

猜你喜欢

噻吩人工神经网络预测值
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
利用人工神经网络快速计算木星系磁坐标
法电再次修订2020年核发电量预测值
人工神经网络实现简单字母的识别
滑动电接触摩擦力的BP与RBF人工神经网络建模
探讨医药中间体合成中噻吩的应用
4,7-二噻吩-[2,1,3]苯并硒二唑的合成及其光电性能
直接合成法制备载银稻壳活性炭及其对苯并噻吩的吸附
两个基于二噻吩乙烯结构单元双核钌乙烯配合物的合成,表征和性质