利用范数描述符预测苯衍生物对费氏弧菌(V. fischeri)的毒性效应
2020-12-22史琦玉贾青竹
史琦玉,贾青竹,王 强
(1. 天津科技大学海洋与环境学院,天津 300457;2. 天津科技大学化工与材料学院,天津 300457)
苯衍生物包括苯胺、苯酚、硫酚、苯甲酸和抗生素(磺胺类与磺胺类增强剂)等,在化工、医药和农业等领域广泛应用,由此导致这些化合物在环境中显著检出;同时,此类化合物对水体环境产生生态毒性,对人体健康存在潜在的风险,因此,有必要对此类化合物的生态风险进行评估[1].
有机物对费氏弧菌(V. fischeri)的生态毒性数据是对其进行生态风险评价的主要依据[2].实验测定生物毒性不仅耗时费力,而且与动物伦理 3R原则(replacement,reduction,refinement)相违背.因此,亟需寻求快速高效获取生态毒性数据的方法.根据欧洲化学品注册、评估、授权和限制条例 REACH的规定,为避免和减少化学品对生态环境可能造成的潜在危害,鼓励使用数学模型预测工具如定量构效关系(QSAR)获取生态毒性数据.QSAR方法已成为预测化学品生态毒理危害不可或缺的工具[3-4].
许多研究者报道了苯衍生物对V. fischeri的水生毒性评估方法[5-9].Wang等[5]采用逐步回归分析法建立了 QSAR模型,预测苯酚衍生物和苯胺衍生物(共15种)对V. fischeri的毒性pEC50(EC50取负对数),该模型统计分析结果 R2为 0.89.Melo等[6]运用连续偏最小二乘法(PLS),预测了苯砜基羧酸酯衍生物(41种)对 V. fischeri的毒性,该 QSAR模型的相关系数R2为 0.884.Shi等[7]测定了苯硫酚衍生物(31种)对V. fischeri的毒性,分别使用比较分子场分析(CoMFA)描述符和比较分子相似性指数分析(CoMSIA)描述符,采用逐步多元线性回归分析法建立模型并成功地预测了苯硫酚衍生物的毒性,R2(0.848~0.928)和 Q2(0.516~0.652)表明这两个模型均表现出良好的稳定性和预测能力.Liu等[8]基于CoMFA和CoMSIA描述符,采用偏最小二乘法分别建立两个 QSAR模型,预测了苯砜基羧酸酯衍生物(56种)对 V. fischeri毒性;其中,使用 CoMFA描述符的模型(R2=0.958)优于 CoMSIA 描述符的模型(R2=0.933).综上,这些模型都取得了令人满意的预测结果,但是,大部分研究工作是针对单一类型的苯衍生物,同时针对多种类苯衍生物对 V. fischeri的生态毒性的研究工作还很少.
近年来,本课题组提出了范数指数的概念,据此建立了一系列 QSAR模型,并成功应用于离子液体对鼠细胞、细菌的生态毒性[9-10]、有机物的物化性质以及对藻类、鱼类的生态毒性[11-16]等领域.
本研究目的是建立一个 QSAR模型预测多种苯衍生物对V. fischeri的生态毒性.
1 方法和理论
1.1 数据集
本工作中,苯衍生物生态毒性实验值(EC50,单位用 mol/L 表示)收集于 Wang等[17]、Shi等[7]、Aruoja等[18]和 Zhao等[19]的研究工作.参与建模的110种苯衍生物包括苯酚衍生物和苯胺衍生物(共58种)、苯硫酚衍生物(30种)、苯甲酸衍生物(10种)和抗生素(12种).这些化合物对V. fischeri的生态毒性实验值pEC50等的信息列于表1中.
表1 苯衍生物对V. fischeri的毒性值Tab. 1 Toxicity of benzene derivatives to V. fischeri
续表
续表
1.2 原子分布矩阵
本工作利用 HyperChem7.0软件(http://www.hyper.com)进行结构优化.优化方法采用量子化学从头计算方法,在 STO-3G基组下优化计算,得到化合物稳定的结构.根据原子性质和空间分布,建立了原子分布矩阵(M),并对 M 进一步数据挖掘.M 范数计算即为范数指数.范数定义表达为式(1)—式(3).
式中:mij表示矩阵中第 i行 j列的元素;n表示化合物的总数;λi表示矩阵的特征值;MH是矩阵 M 的转置共轭矩阵.
采用矩阵(D,式(4))和相邻矩阵(A,式(5))来描述原子的位置分布.原子性质包含范德华半径(vr)、原子电荷(ac)、电子层数(es)、原子质量(aw)和分子质量(mw),原子性质矩阵(P)表达为式(6)—式(10).本文建立的8个原子分布矩阵列在表2中.
表2 8个原子分布矩阵Tab. 2 8 atomic distribution matrices
式(4)中:dij是原子 i和 j之间的欧氏空间距离.HyperChem7.0软件中原子的欧氏空间距离以 Å为单位,无量纲.
P1—P5为列向量.原子的范德华半径以 Å 为单位,无量纲.
1.3 模型验证
根据 OECD指导原则,良好的 QSAR模型应具有适当的拟合度、稳健性和预测能力.QSAR模型验证最常用的方法包括内部验证和外部验证[20].其中,统计参数为相关性系数的平方(R2)、Fisher值(F)和均方根误差(RMSE)等.
在内部验证过程中,留一法交叉验证(LOO CV)和五折交叉验证(5-fold CV)的数据拟合质量统计参数分别是和均方根误差(RMSELOO和RMSE5-fold).为了进行外部验证,整个数据集以 4∶1的比例分为训练集(88个有机物)和测试集(22个有机物).对于训练集(tr)和测试集(te),分别使用外部验证的统计参数和均方根误差(RMSEtr,RMSEte)验证模型的预测能力.另外,本工作通过 Y随机测试检查了模型的偶然相关性.
2 结果和讨论
2.1 模型建立
本文提出了一个预测多种类苯衍生物对 V.fischeri生态毒性(pEC50)的模型,如式(11)所示,其中模型参数见表3.
此模型:n=110,R2=0.895,F=108,RMSE=0.241,Q2=0.874,RMSELOO=0.264.
表3 模型中8个范数描述符及其对应系数值Tab. 3 8 norm descriptors in the model and their corresponding coefficient values
2.2 模型预测结果
苯衍生物对V. fischeri生态毒性的模型计算值列在表1中,实验值和模型计算pEC50值的散点图如图1所示.由图 1可知:实验与计算 pEC50值吻合较好.模型统计结果R2、F、RMSE分别为0.895、108和0.241,说明了该模型能够准确预测苯衍生物对 V.fischeri的生态毒性.
图1 实验值与计算值pEC50散点图Fig. 1 Scatter diagram of experimental and calculated pEC50 values
2.3 内部验证
本工作利用留一法和五折交叉验证法对模型进行内部验证.图 2为模型(式(11))与留一法(LOO CV)、五折交叉验证(5-fold CV)计算结果的误差分布图.图 2结果显示,本工作模型与留一法、五折交叉验证的误差分布具有高度一致性,三者总体误差分布均在[-0.15~0.15]之间,并符合正态分布.统计结果显示,都等于 0.874,进一步表明本工作所建立模型具有很好的稳健性.
2.4 外部验证
训练集和测试集实验值与计算值 pEC50的散点图如3所示.从图3中可以看出,训练集和测试集的实验值和预测值都与对角线相近,外部验证的分别为 0.873 和 0.938,RMSEtr、RMSEte分别为0.247和 0.242,说明基于范数描述符建立的 QSAR模型稳定性好,具有良好的预测能力.此外,其他验证参数[20]:CCC为0.965,均说明该模型具有良好的预测能力.
图2 模型、留一法交叉验证和五折交叉验证的误差分布Fig. 2 Error distribution of the new model,LOO CV and 5-fold CV
图3 训练集和测试集实验值和计算值pEC50散点图Fig. 3 Scatter diagram of experimental and calculated pEC50 values of the training set and testing set
2.5 Y随机验证
Y随机化检验对 QSAR模型的验证具有重要意义[21].本工作将有机物的毒性实验值 pEC50随机打乱顺序 1000次,对模型进行 1000次 Y随机化检验,结果如图4所示.
图4 1000次Y随机检验结果Fig. 4 Results of 1000 times of Y-randomization test
2.6 应用域分析
为了获得可靠的预测效果,有必要验证 QSAR模型的应用领域.本工作利用三维Williams plot描述pEC50模型的应用域.在该图中,杠杆(hi)度量化合物离模型适用性范围的远近,临界值(h*)由 3×(p+1)/n计算,其中 p为模型变量数,n为建模过程中训练集的数量.对于h大于h*的化合物,认为其属于结构异常的范畴;对于交叉验证的标准残差大于3个标准偏差单位的化合物,则认为是响应异常的范畴.
本工作模型应用域的验证结果如图5所示,几乎所有化学物质位于可接受区域内,仅存在一个结构异常和一个响应异常值.由此可见,本工作建立的模型具有广泛的应用域,可以为苯衍生物对 V. fischeri生态毒性的预测提供可靠数据.
图5 模型的应用域Fig. 5 Applicability domain of the new model
2.7 与文献对比
将本工作模型与其他文献模型进行比较,比较结果见表 4.首先文献研究基本上都是针对小样本量的某一类化合物进行 QSAR研究,均取得较好的模型预测精度[6,7,17,22].Guimarães 等[22]和 Shi等[7]的研究工作得到了较高的 R2(0.848~0.928),但是这些模型交叉验证的 Q2均较低,由此说明,这些模型的精度较高但是稳定性不高.本工作针对多种类苯衍生物对 V. fischeri的生态毒性进行建模研究,不仅样本量大,而且模型的稳定性高(Q2=0.874);本工作基于范数描述符建立的 QSAR模型稳定性良好,预测能力较强,表明该模型可以较为成功地预测苯衍生物对V.fischeri的生态毒性.
表4 本工作与文献研究的比较Tab. 4 Comparison of this research with references
3 结 论
本工作提出了范数描述符,据此建立 QSAR模型,对 5类苯衍生物(苯胺、苯酚、硫酚、苯甲酸和抗生素)的费氏弧菌生态毒性进行预测.主要研究结论如下:(1)本工作模型对费氏弧菌生态毒性具有很好的预测精度;(2)统计结果和模型验证结果表明了本工作模型的稳定性和广泛适用性;(3)基于原子分布矩阵构建的范数描述符能够准确描述有机物的分子结构,据此建立的模型对于有机物的生态风险评价具有重要意义.