基于QSPR的烃类物质最大实验安全间隙理论预测研究*
2021-12-15李晶晶朱红亚时静洁
李晶晶 朱红亚 时静洁
(1.应急管理部天津消防研究所 天津 300381; 2.常州大学环境与安全工程学院 江苏常州 213164)
0 引言
在石油化工生产及原材料、产品的储存或运输过程中,由于人为或其他因素均会引发工业介质爆炸事故,造成严重的财产损失或人员伤亡,如2008年河北张家口“11·28”氯乙烯爆炸事故、上海赛科“5·12”苯罐较大爆炸火灾事故。随着生产工艺复杂化、集约化的发展,危险品物料发生爆炸的危险性与危害性不断提高。
最大实验安全间隙(Maximum Experimental Safe Gap, MESG)作为衡量爆炸性物质传爆能力的主要参数[1],通常在规定的试验条件下通过专用球形设备测量获得,为火焰通过球形外壳法兰接合面的间隙不能引燃球形外部空间爆炸性混合物爆炸的最大间隙值。因此掌握物质的最大实验安全间隙数据,划分爆炸性物质级别,有助于准确、有效地进行平面布局优化、防火防爆设计及电气设备选型,提高本质安全。
实验测定是目前获取最大实验安全间隙数据的有效方法[2],但实验过程外界干扰因素过多,实验结果存在波动性,且某些物质也无法基于实验测定,因此有必要开发简便可靠的理论预测模型。同时通过开展理论研究,发现和确定起决定作用的结构因素,也可为设计、筛选或预测其他性质的化合物提供理论支持。定量结构性质相关性研究 (Quantitativestructure-proper ty relationship, QSPR)是一种能够根据分子结构实现有机物理化学性质预测的有效方法,在自燃点[3]、辛烷值[4]、苯胺点[5]等参数的预测方面已有成功应用。笔者根据QSPR研究基本原理,尝试开发一种根据分子结构预测自燃点的新方法 。
1 理论预测方法
1.1 研究思路概述
应用定量构效QSPR方法预测最大实验安全间隙的研究过程包括如下几个步骤:
(1)确定样本集并划分为训练集和测试集,为建立模型提供数据基础。
(2)采用模拟生物遗传机制的遗传算法(Genetic algorithm,GA)对原始变量进行筛选,最终获得分子结构特征描述符,作为后续模型建立的输入参数。
(3)基于QSPR研究基本原理和步骤,结合多元线性回归法(Multivariate Linear Regression,MLR)等预测方法建立预测模型。
(4)分析所建模型的预测能力、稳定性及应用域范围。
1.2 样本及特征描述符选择
从统计学角度考虑,实验预测过程中需采用尽可能少的变量表征尽可能多的信息。通过变量压缩和优化,剔除相关性弱的冗余变量以增强数据质量、提高模型稳定性,从而保证预测结果可靠性。分子结构由分子描述符表征,是建立QSPR模型的基础,能直接影响预测结果准确性。
借助化学分子模拟软件Hyperchem8.0画出物质分子结构,采用分子力学方法MM+和PM3法进行结构优化。优化计算限制在Hartree-Fock能级,采用Polar-Ribiere方法直至RMS梯度达到0.418 6 kJ/mol,以获得能量最低的稳定构型。经Dragon软件预筛选后剩余描述符,选用GA遗传算法对分子描述符进行筛选获得特征描述符并作为输入变量。
1.3 预测模型的建立及模型的评价与验证
应用MLR线性方法建立化合物性质与其分子结构参数间的定量函数关系模型。模型的一般形式表达式如式(1)所示。
Y=A0+A1X1+…+AnXn
(1)
式中,Y表示预测属性值,Xi表示特征描述符的值,Ai表示特征描述符的回归系数。
(2)
(3)
式中,n为样本数,RMSE评价的是模型预测值与实验值之间的误差。
(4)
(5)
绘制残差散点图表征模型预测系统误差。如果散点图分布呈现规律性,说明样本集存在自相关性,或者存在非线性、非常数方差的问题[7];若呈现随机分布,则认为模型不存在系统误差,所建模型是合适的。
采用Williams图表征模型的应用域。当化合物的标准残差落在(-3,+3)以外时,认为其实验值为离群点;当化合物的臂比值hi大于警戒值h*时,认为化合物显著影响模型的回归效果。
2 预测结果与分析
2.1 模型拟合
笔者共选取24种烃类物质的最大实验安全间隙数据作为训练集。分子描述符经Dragon软件预筛选后剩余404种,通过 GA遗传算法筛选后确定5个特征描述符并作为输入变量,见表1所示。比较表1中各自变量的标准系数各描述符对最大实验安全间隙的贡献度大小顺序依次为R1u+、Mor06m、n#CR、H1u、Mor20u。
表1 预测模型中特征描述符及统计学参数
采用多元线性回归法MLR进行拟合,构建预测模型如下所示:
eMESG=2.477+0.187*Mor20u-0.538*Mor06m+0.385*H1u-0.559*Rlu=-0.441*n#CR
N=24,R2=0.917,SD=0.04834,F=39.959,p<0.001
式中,eMESG为最大实验安全间隙的Exp值,F实际=39.959>F理论(5,24,0.05)=2.62,模型的显著性概率p远小于0.05,可认为所建模型具有较高的相关性系数、可靠性较高、具有较高的统计学意义。
2.2 模型计算
为了评价模型的拟合能力和外部测试能力,应用拟合模型对样本集中24个数据点进行计算,6种化合物的预测结果如表2所示。MLR模型所得最大实验安全间隙预测值和实验值的比较见图1。
表2 样本集拟合模型预测值
续表2
图1 烃类物质MESG实验值与预测值比较
2.3 模型检验
分别针对训练集中24种化合物和测试集中6种化合物进行分析验证,模型的主要性能参数见表3。
表3 烃类物质GA-MLR预测模型主要性能参数
以实验值为横坐标,实验值与预测值之差(即残差)为纵坐标,绘制测试集与训练集的预测模型残差图如图2所示。由图2可知模型的计算残差均随机分布于基准线的两侧,不存在明显的规律性,可认为预测模型在建立过程中未产生系统误差。
图2 烃类物质MESG预测模型残差关系
2.4 应用域分析
为了确保模型对外部样本预测结果的准确性和可靠性,采用威廉姆斯方法对模型应用域进行分析,避免其产生不合理的预测结果,确保模型的外推能力。分析结果如图3所示。由图3可知,训练集和测试集的物质标准残差都落在(-3,+3)以内,训练集与测试集物质的臂比值均未超过警戒值h*(0.75),警告杠杆值和残差判断界限所构成的矩形区域为预测模型的应用域。当预测模型对位于该区域内的样本进行预测时,可以认为预测结果是有效、可靠的。
图3 烃类物质MESG预测模型Williams图
3 结语
测定30组烃类物质最大实验安全间隙数据,采用遗传算法和多元线性回归法建立一个新的烃类物质最大安全间隙预测模型。所建模型的预测值与实验值符合良好,预测误差在实验允许误差范围内,模型具有较高的稳定性和泛化推广性能力。研究方法和所建模型有助于对烃类物质的其他危险特性进行预测和研究。