APP下载

不饱和烃类化合物溶解度(-lg Sw)的QSPR研究

2020-03-26李建凤廖立敏

湖南师范大学自然科学学报 2020年1期
关键词:氢原子描述符标准偏差

李建凤,廖立敏,2*

(1. 内江师范学院化学化工学院,中国 内江 641100;2. 四川省高等学校“果类废弃物资源化”重点实验室,中国 内江 641100)

不饱和烃类化合物包括烯烃、炔烃等,不饱和烃的双键和三键都不太牢固,容易发生亲电加成反应。有机化合物在水中的溶解度(-lgSw)是研究其在溶液中所表现的化学行为的重要参数,溶解度(-lgSw)与有机化合物在动植物体、人体的吸收、分布以及各种环境介质中的迁移和归趋有关,因而广泛运用于化学、生物、药学及环境科学[1,2]等领域。有机化合物的溶解度(-lgSw)与其分子结构有关,建立化合物结构—溶解度(-lgSw)关系模型,利用计算机对化合物溶解度(-lgSw)进行预测是获得数量巨大的有机化合物溶解度(-lgSw)参数的有效途径。建立化合物—性质关系模型的首要步骤是将有机化合物结构进行参数化表征,在这方面目前应用广泛的有二维(2D)结构描述符[3-6]和三维(3D)结构描述符[7-10]。二维(2D)结构描述符具有计算简便的特点,但不能区分诸如顺反异构体、光学异构体等。三维(3D)结构描述符的优势是基于化合物三维立体结构计算,可以区分各种异构体,但其计算复杂、难懂,计算工作量大,还存在诸如构像重叠、网格划分和探针选取等不确定因素。本文在基于化合物二维结构的基础上,对化合物中的非氢原子进行参数化染色,构建非氢原子之间的关系得到化合物结构描述符。对部分不饱和烃类化合物结构进行表征后构建化合物结构与溶解度(-lgSw)之间的关系模型,模型经检验具有良好的预测能力与稳定性,为有机化合物的结构—性质关系研究提供参考。

1 材料与方法

1.1 实验材料

部分不饱和烃类化合物及在水中溶解度(-lgSw)的实验值取自文献[11],按照-lgSw的大小顺序列于表1。

1.2 实验方法

1.2.1 分子结构参数化表征 化合物结构决定化合物的外在性质,结构参数化表征是建立化合物结构与性质之间关系模型的关键步骤之一。认为化合物中的氢原子对与其直接相连的非氢原子产生影响,而非氢原子以及非氢原子之间的关系对化合物表现出的外在性质产生影响。参阅文献[12-15]方法,将化合物中的非氢原子按照其连接的其它非氢原子数进行分类,与k个其它非氢原子直接相连的非氢原子规定为第k类非氢原子,如与2个非氢原子相连的仲碳原子为第2类非氢原子,以此类推。在有机化合物中k的最大取值为4,因而最多有4类非氢原子。根据非氢原子的电子结构、连接的氢原子数及电负性,在参阅文献[16]的基础上,将非氢原子按式(1)进行参数化染色。

Zi=[0.5×mi(xi+1)×(4-hi)/(xc+1)]1/2。

(1)

式中i为原子在分子中的编码,mi为原子核外电子层数,xi为非氢原子i的电负性值(Pauling 标度),xC为碳原子的电负性值,hi为与非氢原子i直接连接的氢原子数。非氢原子i的mi越大,其半径越大,相应的原子体积越大,相应的Zi值也就越大。

不同类型的非氢原子对化合物的性质可能产生不同的影响,同类型的非氢原子对化合物性质的影响具有加和性,按式(2)将各种不同类型的非氢原子对化合物性质的影响进行分类累加。

(2)

式中,k表示非氢原子i的原子类型,Zi按式(1)计算。化合物中最多包含4种类型的非氢原子,因而可得到4个变量,分别用x1,x2,x3和x4表示。

不同类型非氢原子之间的关系对化合物性质的影响可能也不同,同种类型非氢原子的关系对化合物性质的影响具有加和性。4类非氢原子可以组合出m11,m12,m13,…,m44共10种关系项(用x5,x6,x7,…,x14表示),m13表示第1类非氢原子和第3类非氢原子之间的关系,以此类推。化合物中非氢原子之间的关系随着非氢原子自身性质的增大而加强,随着非氢原子之间的距离的增大而减弱,满足要求的函数关系式都可以构建非氢原子之间的关系,本文按式(3)进行计算。

(3)

Z按式(1)计算;dij为非氢原子i与j之间的相对距离(即键长之和与碳碳单键键长的比值,如果i与j之间有多条路径,则以最短的为准,化学键长取自文献[17]);n和l为原子所属类型,α=0.5。这样,对于一个化合物经参数化表达后最多可得14个变量(结构描述符)。

1.2.2 建模与评价 多元线性回归(MLR)和偏最小二乘回归(PLS)是常用的建模方法,本文采用多元线性回归(MLR)和偏最小二乘回归(PLS)建立模型。采用相关系数(R)、交叉检验相关系数(RCV)、标准偏差(SD)对模型质量进行评价。优良的模型必须符合以下要求:1)建模相关系数(R)≥0.800 0,“留一法”交叉检验相关系数(RCV)≥0.700 0[18];2)标准偏差(SD)与数值范围之比≤10%;3)80%以上的样本预测误差的绝对值≤2倍标准偏差(2SD)。

表1 不饱和烃类化合物及其溶解度(-lg Sw)

2 结果与讨论

本研究选取的不饱和烃类化合物经分子结构表征后得到14个变量,由于35个样本中均不含有第4类非氢原子,因而得到的与第4类非氢原子相关的x4,x8,x11,x13及x14全为“0”,其余9个非全“0”变量用于建模分析,列于表2。

表2 化合物的结构参数化表征结果

首先采用多元线性回归(MLR)寻找化合物结构与溶解度(-lgSw)的关系模型,由于样本数仅为35个,而结构描述符(变量)数达到了9个,不符合样本数(N)/变量数(n)≥5的经验规则。采用逐步回归分析以筛选出最优变量组合进行建模,按照变量显著性大小顺序将变量逐步引入模型,建模相关系数(R)、标准偏差(SD)随着变量的引入而发生变化,变化情况绘图于图1、图2。

从图1可以发现,起初随着变量的引入,相关系数(R)迅速增大;到了逐步回归第4步,相关系数(R)接近最大值,之后相关系数(R)略有增大,增大趋势放缓。同样在图2中可以发现,起初随着变量的引入,标准偏差(SD)迅速减小;到了逐步回归第4步,标准偏差(SD)接近最小值,之后标准偏差(SD)略有减小,减小趋势放缓。此时入选变量数为4个,符合样本数(N)/变量数(n)≥5的经验规则。综合各方面因素,认为4变量模型(M1)为最优预测模型,4变量模型如式(4)。

-lgSw=0.557 2+0.506 4x1+1.037 4x2-0.759 0x6-0.541 6x9

(4)

建模:N=35,R=0.959 6,SD=0.385 6,F=87.267 6;交叉检验:N=35,RCV=0.947 0,SDCV=0.440 3,FCV=65.180 4。

图2 SD在逐步回归中的变化情况

上述模型拟合程度高,相关系数(R)达到了0.959 6,远大于0.800 0的临界值;交叉检验相关系数(RCV)达0.947 0,也远大于0.700 0的临界值;标准偏差(SD)为0.385 6,数值范围为7.33-0.82=6.51,0.385 6/6.51=5.92%,也处于10%的范围内。以上说明该模型预测能力强,稳定性好,可以用于不饱和烃类化合物溶解度(-lgSw)的预测。

为进一步分析各变量对化合物溶解度(-lgSw)的影响,采用偏最小二乘回归(PLS)进行建模分析。将化合物结构描述符作为自变量X,化合物溶解度(-lgSw)作为因变量Y建模PLS模型(M2),模型的主成分数为3个,建模相关系数(R)为0.931 0,大于0.800 0的临界值;交叉检验的相关系数(RCV)为0.919 2,大于0.700 0的临界值;标准偏差(SD)为0.440 1,0.440 1/6.51=6.76%,也处于10%的范围内。以上同样表明模型M2预测能力强,稳定性好,可以用于不饱和烃类化合物溶解度(-lgSw)的预测。35个样本在前 2 个主成分得分散点分布,见图3。图3显示绝大部分样本点都落在95%的椭圆置信圈范围内,仅有2个样本点(不足6%)落在此范围外,说明模型对于大多数样本拟合较好,化合物结构描述符可以恰当表现各化合物的结构特征,并在PLS模型中得到正确的表现。

变量重要性可以反映出各个变量与因变量Y的相关性大小,变量重要性投影(VIP)见图4。通常认为VIP值大于1的变量与Y值关系较为密切。图中显示x2和x9的VIP值大于1,说明这两个变量与化合物的溶解度(-lgSw)相关性较大。x2为第2类非氢原子自身对化合物性质的影响,x9为第2类非氢原子之间的关系对化合物性质的影响,即第2类非氢原子对化合物溶解度(-lgSw)有重要影响,而第二类原子的多少与化合物的链长有关,也就是在相同情况下,化合物的链越长,化合物极性越小,可能具有较大的溶解度(-lgSw)值,分析表1中的数据发现溶解度(-lgSw)值的确具有这一特征。

两模型对化合物的溶解度(-lgSw)进行了预测,预测值分别列于表1的Cal.1和Cal.2值,Err.1和Err.2值为相应的误差。预测值与实验值相关性见图5。从图5看出大部分的样本点都落在正方形的45°对角线附近,说明两模型对化合物溶解度(-lgSw)预测值与实验值相关性好,两者间的误差不大。另外,从图5可看出Cal.1的样本点与Cal.2的样本点相比更加靠近对角线,说明模型(M1)对化合物的溶解度(-lgSw)预测值更为准确,模型(M1)的质量略优于模型(M2)的质量,与上述模型参数分析结果一致。

两模型对化合物溶解度(-lgSw)值的预测误差分布见图6,可发现大部分样本点都处于正负两倍标准偏差(±2SD)以内,说明两模型对化合物溶解度(-lgSw)预测较为准确,产生的误差较小,误差都处于可以接受的范围内。超出正负两倍标准偏差(±2SD)范围的是4号和17号化合物,进一步分析发现这两个化合物与其它化合物相比并没有什么特殊性,大误差可能是由于化合物结构描述符不够完善,某些结构信息没有得到充分表达所致。当然也可能是由于实验结果本身存在较大的误差,从而影响计算结果。模型M1仅有1个样本(不足3%)的误差超出正负两本标准偏差(±2SD),而模型M2也只有2个样本(不足6%)的误差超出此范围,说明总体上两模型预测的误差都处于可以接受的范围内,模型M2预测的结果略劣于模型M1,也再次说明模型M1质量略优于模型M2质量。

图3 样本在前 2 个主成分得分分布

图4 变量重要性投影图

图5 模型预测值与实验值的相关图

图6 模型对样本预测误差

3 结论

对不同非氢原子参数化,构建非氢原子之间的关系得到化合物结构描述符,对部分不饱和烃类化合物结构进行了参数化表征,通过多元线性回归(MLR)和偏最小二乘回归(PLS)两种方法建立了化合物结构与溶解度(-lgSw)之间的关系模型。多元线性回归(MLR)简单、易懂,并且拟合效果更好。偏最小二乘回归(PLS)避免了变量之间的多重共线性,更便于解释各变量对溶解度(-lgSw)影响。两模型结果表明化合物结构描述符能恰当表现不饱和烃类化合物结构特征,在此基础上建立的溶解度(-lgSw)预测模型具有良好的预测能力与稳定性。化合物结构描述符来自化合结构的计算,不需引入其它参数,具有计算简单、方便、快速的特点,但本文构建的结构描述符还存在不能区分顺反异构、光学异构等不足,这些在后续研究中都应予以考虑。各类有机化合物中的非氢原子均可按照原理中所述方法分类,化合物结构均可使用本文构建的结构描述符进行参数化表征,因而本文对于各类有机化合物的结构—性质关系研究具有一定的参考价值。

猜你喜欢

氢原子描述符标准偏差
基于结构信息的异源遥感图像局部特征描述符研究
倾斜改正在连续重力数据预处理中的应用
一维模型氢原子在啁啾激光场中的阈上电离
Linux单线程并发服务器探索
关于氢原子跃迁问题的难点突破
利用CNN的无人机遥感影像特征描述符学习
对氢原子能量吸收的再认识お
互感器检定装置切换方式研究
氢原子n=2能级的二级斯塔克效应
关于垂准仪一测回垂准测量标准偏差检测方法的探讨