芳烃类化合物结构与大型蚤急性毒性关系研究
2020-11-13李建凤廖立敏
李建凤,廖立敏
内江师范学院化学化工学院,内江 641100
芳烃类化合物是重要的化工原料和中间体,用途广泛,如在涂料、油墨和粘合剂中被用作溶剂。芳烃类化合物多数有毒,空气中若含有芳烃类化合物,短时间呼吸便可引起头痛、呕吐和恶心等症状。长时间暴露在芳烃类化合物的环境中,可能会导致癌症。评价该类化合物对生物的毒性效应具有重要意义,通常以化合物对低等生物的毒性效应来间接推断其对高等动物的危害。实验测定芳烃类化合物的毒性固然可靠,但面对种类多、数量大的芳烃类化合物,仅依靠实验是难以完成数据测定的。随着计算机技术的应用,利用计算机对化合物的毒性效应进行模拟是行之有效的手段,研究者们在这方面做过较多的工作[1-2]。化合物分子结构参数化是模拟化合物性质过程中的重要一环,目前已有较多化合物结构描述法,例如基于化合物分子二维平面结构计算的二维结构表征法[3-5]和基于化合物分子三维立体结构计算的三维结构表征法等[6-7]。本文在化合物二维平面结构的基础上,构建简易的化合物二维结构表征法并用于部分芳烃类化合物结构表征,进而通过偏最小二乘回归(PLS)建立化合物结构与其对大型蚤急性毒性(-lgEC50)关系模型,模型质量良好,可以用于该类化合物对大型蚤急性毒性(-lgEC50)的预测,为环境中的有机污染物结构-毒性关系研究提供有益的参考。
1 材料与方法(Materials and methods)
1.1 实验材料
24个芳烃类化合物及其对大型蚤急性毒性(-lgEC50)的实验值取自文献[8],按照急性毒性(-lgEC50)从小到大的顺序列于表1中。
表1 芳烃类化合物及急性毒性(-lgEC50)Table 1 Aromatic compounds and their acute toxicity (-lgEC50)
1.2 实验方法
1.2.1 分子结构参数化表征
将化合物分子结构转变为一组与结构密切相关的数据是构建化合物结构与性质关系的关键步骤之一,认为化合物中处于骨架地位的非氢原子及非氢原子之间的关系对有机化合物的急性毒性(-lgEC50)产生重要影响,而氢原子的影响通常可以忽略。在有机化合物分子之中,非氢原子电子结构、原子在分子中的连接情况的不同都会对有机化合物的急性毒性(-lgEC50)产生不同的影响,因而要对化合物中的非氢原子进行分类处理。把化合物中的非氢原子参照文献[9-12]的方法分为4类,与k个非氢原子直接相连的非氢原子规定为第k类原子,如与2个其他非氢原子相连的仲碳原子为第2类非氢原子,以此类推。不同类非氢原子对化合物的急性毒性(-lgEC50)产生的影响可能不同,而同种类型的非氢原子对化合物的急性毒性(-lgEC50)产生的影响具有加和性。另外,不同类型的非氢原子之间产生的不同类型的关系对化合物的急性毒性(-lgEC50)产生的影响可能不同,而同种类型的非氢原子之间的关系对化合物的急性毒性(-lgEC50)产生的影响具有加和性。首先,在参阅文献[13]的基础上将化合物中的非氢原子根据其电子结构和成键情况按式(1)进行参数化染色。
(1)
式中:Z为非氢原子参数化染色值,i为原子在分子中的编码,v表示非氢原子i的价电子数,n为非氢原子i的主量子数,δσ+π为原子参与成σ键和π键的总电子数,δσ为原子参与成σ键电子数。
不同类型非氢原子对化合物的急性毒性(-lgEC50)产生的影响可按式(2)分类累加。
(2)
式中:x表示结构描述符,k表示非氢原子i的原子类型,Zi按式(1)计算。根据非氢原子的分类,一个有机化合物分子中最多含有4类非氢原子,因此,最终可得到4个非氢原子自身对化合物急性毒性(-lgEC50)的影响项,用x1、x2、x3和x4表示。
非氢原子之间的关系对化合物急性毒性(-lgEC50)产生影响。宇宙中的各种天体,它们之间的引力关系与天体自身质量成正比,与它们之间的距离的二次方成反比。同样化合物中的非氢原子之间的关系不是具体的某种作用,而是要反映出非氢原子之间的关系与非氢原子自身值变化趋势相同,与非氢原子之间的距离变化趋势相反,式(3)可以满足这一要求。
(3)
式中:Z按式(1)计算;rij是非氢原子i、j之间的相对距离(即键长之和与碳碳单键键长的比值,如果i、j之间有多条路径,则以最短的为准);n和l为原子所属类型。化合物分子中4类非氢原子可以组合出以下10种关系项:m11,m12, …,m44,简写为x5,x6,…,x14。m11表示第一类非氢原子之间的关系,m12表示第一类非氢原子与第二类非氢原子之间的关系,以此类推。这样一个含有各种类型非氢原子的有机化合物根据结构可以转化为14个变量(结构描述符),这些变量与其结构密切相关。
1.2.2 建模与评价
2 结果与讨论(Results and discussion)
化合物经分子结构表征后得到14个变量,由于所有的样本中均不含有第4类非氢原子,因而得到的5个与第4类非氢原子相关的变量全为“0”,其余9个非全“0”变量用于建模分析。
图1 相关系数随主成分数的变化情况注:r2为建模的相关系数,为交叉检验的相关系数。Fig. 1 Correlation coefficient change with the number of principal componentsNote: r2 is the correlation coefficient for modeling, and is the correlation coefficient for cross-checking.
24个样本在PLS前2个主成分得分的空间散点分布如图2所示,由图2可知,所研究的全部样本得分点都落在95%置信度的椭圆置信圈内,没有出现一个异常点,反映出构建的结构描述符能较好地反映芳烃类化合物的分子结构特征,并在统计模型中得到正确的表现。各样本点的位置反映出了在第一主成分与第二主成分的得分情况,同时也反映出化合物之间的相似程度。样本点分布距离较近,说明它们之间具有一定的相似性。
图2 样本在前2个主成分得分分布Fig. 2 Distribution of the top 2 principal component scores of the sample
为进一步分析研究样本在x空间的拟合情况,将样本在x空间的规格化模型距离进行绘图,结果如图3所示,由图3可知,绝大多数样本的规格化模型距离都处于95%的置信范围内,小于临界值2.196,仅有一个化合物略微超出此范围,反映出模型的质量良好。
图3 X向量规格化模型距离分析Fig. 3 X vector normalized model distance analysis
图4 Y向量随机排序验证结果Fig. 4 Y vector random sorting verification results
变量重要性可以反映出变量与Y之间的相关程度,通常认为变量重要性投影(VIP)值>1的变量与芳烃类化合物对大型蚤急性毒性(-lgEC50)相关性大。
变量重要性投影如图5所示,由图5可知,变量x12、x3、x10和x6这4个变量的VIP值>1,说明了这4个变量与芳烃类化合物对大型蚤急性毒性(-lgEC50)相关性大。排在前三的x12、x3和x10均与第3类非氢原子相关,而第3类原子的多少却由苯环上的取代基数目决定的,反映出取代基数目越多急性毒性(-lgEC50)可能越强,这与表1中的数据特征是基本吻合的。对于本研究的样本来说,苯环上的取代基越多,该化合物的疏水性就越强,越易通过生物脂质膜而产生毒性效应。
图5 变量重要性投影图Fig. 5 Projection of variable importance
为进一步研究各变量对化合物急性毒性(-lgEC50)的影响,将样本在PLS中的载荷分布绘图,结果如图6所示,由图6可知,x12、x3和x10处于图的右上方,说明它们在第一主成分和第二主成分都与Y正相关,并且它们离原点距离较大,反映出其与Y相关性较大,这与上述分析结论相吻合。x2和x9处于图的左下方,说明它们在第一主成分和第二主成分都与Y负相关。x1、x5、x6和x7处于图的右下方,说明它们在第一主成分与Y正相关,在第二主成分与Y负相关。
图6 样本在偏最小二乘回归(PLS)中的载荷分布Fig. 6 Load distribution of samples in partial least squares regression (PLS)
模型对化合物的急性毒性(-lgEC50)进行了预测,结果如表1所示。为便于观察,将模型对化合物的急性毒性(-lgEC50)预测值与实验值相关图绘于图7中,相应的误差如图8所示。
图7 模型预测值与实验值的相关图Fig. 7 Correlation diagram between model predicted values and experimental values
图8 模型对样本急性毒性预测误差注:SD表示标准偏差。Fig. 8 Model prediction error of samples’ acute toxicityNote: SD is stands for standard deviation.
由图7可知,绝大部分样本点都落在45°对角线附近,说明了模型对化合物的急性毒性(-lgEC50)预测值与实验值高度相关,2个数值大小接近,模型对化合物急性毒性(-lgEC50)能较为准确地预测,再次显示出模型良好的预测能力和优良的预测结果。
优良的预测模型通常要求绝大部分样本的预测误差不得超过正负2倍标准偏差(即±2SD),由图8可知,绝大部分样本的误差都处于模型的±2SD以内。仅有2个样本(1号和14号)的预测误差超出±2SD。
这说明,模型对化合物的急性毒性(-lgEC50)预测较为准确,预测误差处于可以接受的范围,模型可以用于含苯环类化合物的急性毒性(-lgEC50)的预测。同时,大误差样本的1号和14号化合物为样本中唯一的苯胺和溴苯,因而具有一定的特殊性。同时大误差的存在说明某些特殊的化合物结构信息没有得到充分表达,分子结构表征方法还有待改进。
通过将化合物中骨架非氢原子进行分类、参数化转换以及构建非氢原子间的关系而得到新的结构描述符,并且将其用于24个芳烃类化合物的结构参数化表征。通过PLS建模发现,芳烃类化合物对大型蚤急性毒性(-lgEC50)与化合物分子结构密切相关,构建的化合物结构-急性毒性(-lgEC50)关系模型可以用于芳烃类化合物对大型蚤急性毒性(-lgEC50)的预测。由于个别样本预测误差稍大,提示分子结构表征方法还有较大的改进空间。
◆