醇和酚类污染物对欧洲林蛙蝌蚪及梨形四膜虫毒性的定量结构-活性模型
2018-03-16堵锡华王超
堵锡华,王超
徐州工程学院 化学化工学院,徐州 221018
随着工业生产的快速发展,大量污染物被排放进入环境,导致水体中含有大量挥发性卤代烃、多环芳烃等有机污染物,这些污染物毒性大、累积性强、难以降解,有的在环境中能长期滞留,具有致癌、致畸、致突变性及对内分泌有干扰作用等[1-2],对生态系统产生严重影响,危害人体健康,故世界多国将相当数量化合物列入优先控制环境污染物黑名单[3-4]。酚类化合物作为重要的工业原料,广泛应用于石化、农药、医药和印染等行业,但它们具有“三致”作用[5];醇类化合物则被广泛用于食品工业、工业溶剂和燃料添加剂,但它们的排放也对人身健康造成严重威胁[6],故针对这些污染物的生物毒性研究,越来越受到研究人员的关注,有众多的研究成果见有报道[7-10]。为了能快速获得这些污染化合物的生物毒性数据,近年来,利用定量结构-活性相关性(QSAR)研究方法来预测化合物的急性毒性,受到科研工作者的高度重视[11-12],为了能提高预测环境污染物对生物毒性的准确度,本文利用在智能模式识别中广泛应用于化学[13]、材料科学[14]、药学[15]、环境科学[16]等领域的BP神经网络方法,对文献[17-19]所列的110种有机污染物对欧洲林蛙蝌蚪的急性毒性pIGC50、117种醇和酚类化合物对梨形四膜虫的毒性pIGC50,建立了分子连接性指数和分子形状指数与生物毒性之间的神经网络预测模型,所得毒性预测结果优于文献研究方法,本工作对研究有机污染物对生物的毒性效应以及环境的风险评价具有重要的现实意义。
1 研究方法(Research technique)
1.1 有机污染物毒性数据来源
110种包含醛、酮、酯、胺、醇、酚、卤代烃和芳香烃等有机污染物对欧洲林蛙蝌蚪的毒性数据pIGC50(pIGC50为对林蛙蝌蚪或梨形四膜虫的50%生长抑制浓度的负对数,单位为mmol·L-1)来源于文献[17-18],50种酚类化合物对梨形四膜虫的毒性数据(pIGC50)来源于文献[17,19],67种醇类化合物对梨形四膜虫的毒性数据(pIGC50)来源于文献[17,20],化合物及毒性实验值(Exp.)具体数据见表1和表3。
1.2 分子连接性指数和形状指数的计算
用Chemoffice Chem3D 9.0绘图软件绘制110个有机污染物、50个酚类化合物和67个醇类化合物的分子结构图,再在MATLAB软件中,应用文献方法自编的程序[21],计算所有227个化合物分子的连接性指数和形状指数。首先对110个有机污染物的结构指数与其对欧洲林蛙蝌蚪的毒性进行最佳变量子集回归分析,通过优化筛选,发现选取分子连接性指数的0X、1X、2X、4X和5Xc(5种指数分别代表0阶、1阶、2阶、4阶路径指数和簇项指数)、分子形状指数的K1和K2(分别代表1阶、2阶形状特征参数)共7种参数时,相关性最佳,相关数据列表1。
2 模型的建构(The construction of the model)
2.1 回归分析
将110种有机污染物对欧洲林蛙蝌蚪毒性pIGC50,与优化筛选的7种分子结构参数,进行回归分析,得到方程:
pIGC50=-0.6580X+1.1811X+1.5882X-1.5374X-1.4185Xc-0.409K1+0.291K2+1.022
(1)
表1 化合物对欧洲林蛙蝌蚪毒性的预测Table 1 Prediction of the toxicity of compounds to tadpoles of Rana temporaria
注:pIGC50表示毒性值;Exp.表示实验值;Pre.表示预测值。
Note: pIGC50stands for toxicity value; Exp. stands for experiment value; Pre. stands for predicted value.
2.2 稳健性与“离域值”检验
2.3 神经网络模型的建构
为提高准确预测有机污染物对欧洲林蛙蝌蚪的毒性,用BP神经网络法进一步研究,将筛选得到的7种结构参数作BP法的输入层变量,对欧洲林蛙蝌蚪毒性pIGC50作输出层变量,综合Andrea及许禄等[22]学者对隐含层变量选择定义的规则,隐含层按照2.2>N/M≥1.4,其中M=(I+1)H+(H+1)Q,式中N为总样本数,M为神经网络总权重,I、H、Q分别为神经网络中输入层、隐含层和输出层的变量数。经
过计算,隐含层变量H可取6、7或8,经运算比较,当H取8时所得模型的相关性最佳,故网络结构采用7∶8∶1方式。运算时,将110个分子样本分为训练集(每5个分子作为一组,取第1、3、4个分子,依次类推)、测试集(每5个分子的第2个)和验证集(每5个分子中的第5个),所得模型的总相关系数r=0.988,训练集相关系数r1=0.988、测试集相关系数r2=0.989、验证集相关系数r3=0.986;利用该模型得到的有机污染物对欧洲林蛙蝌蚪毒性值pIGC50的预测值(Pre.)列于表1中(表1中序号有*号的分子为测试集分子),该预测值(Pre.)与实验值(Exp.)吻合度较好,两者的平均残差为0.14,它们的关系见图2。
图1 Jackknifed相关系数r的雷达图Fig. 1 Radar map of correlation coefficient r
表2 Jackknifed相关系数r的检验Table 2 Inspection of Jackknifed correlation coefficient r
3 指数普适性检验(Universal test)
为检验筛选出的7个分子连接性指数与形状指数的应用普适性,将文献所列的50个酚和67个醇共117个分子对梨形四膜虫的毒性进行分析,得到回归方程为:
pIGC50=-0.4460X+1.0371X+1.3812X-3.6374X-0.2045Xc-0.218K1-0.090K2-1.792 (2)
集相关系数r3=0.997;这里3个集合的相关系数与总相关系数完全一致,而且均是超过0.99以上的高度相关性,利用该模型得到的醇酚类化合物对梨形四膜虫毒性pIGC50的预测值(Pre.)列于表3中(表中序号有*号的分子为测试集分子),该预测值(Pre.)与实验值(Exp.)吻合度也较为理想,两者平均残差为0.065,它们的关系见图3。
图2 pIGC50的实验值与计算值关系图Fig. 2 Relationship between experimental and calculated value of pIGC50
表3 醇酚类化合物对梨形四膜虫毒性的预测Table 3 Prediction of the toxicity of alcohol and phenolic compounds to Tetrahymena pyriformis
图3 pIGC50的实验值与计算值关系图Fig. 3 Relationship between experimental and calculated value of pIGC50
图4 残差控制图Fig. 4 Control chart of error
这里将预测残差作控制图(见图4),可以看出,所有数据均在可控范围内,没有超出离域范围,只有对第4个分子2,5-二甲基苯酚的预测残差偏大,这可能与苯环上连接的羟基和2个甲基之间的相关作用导致毒性值异常有关。
4 结果与讨论(Results and discussion)
通过计算227个有机污染物的分子连接性指数和形状指数,筛选了其中的7种指数与110种有机物分子对欧洲林蛙蝌蚪、117种醇和酚类化合物对梨形四膜虫毒性的相关性分析,建立了对林蛙蝌蚪毒性预测的神经网络模型,预测毒性值与实验值较为吻合,平均误差为0.14,而且所选用的结构参数的普适性较强,它们与117种醇酚类化合物对梨形四膜虫的毒性之间,也能建立良好相关性的神经网络模型,总相关系数能达到0.99以上的高度相关,预测毒性值与实验值的平均误差仅为0.065,通过逐一剔除法检验,可以看出,所建模型具有良好的稳定性和预测能力,并且具有普适应用性。从表1和表3化合物分子的结构与毒性大小关系可以看出,分子的毒性大小与分子的大小、所连接的基团性质、所处的位置和数量多少有密切的关系,化合物的毒性随着碳原子数的增加、支化度增大而增大,当碳原子数相同时,含有不饱和键越多,毒性会增大;如化合物的氢原子被卤原子取代,毒性也会增大,取代数量越多,毒性越强,毒性大小依次为:碘取代>溴取代>氯取代,这主要是卤素原子具有强烈的吸电子效应,使分子极性增加,易与酶系统结合,使毒性增大;芳烃的毒性效应则与苯环上的吸电子基团有关,如吸电子基团越多,毒性越强。分子连接性指数和分子形状指数正是蕴含了丰富的分子空间结构信息,能很好地反映毒性的变化规律。
综上所述:(1)模型具有较好的预测能力。优化筛选分子连接性指数的0X、1X、2X、4X和5Xc、分子形状指数的K1和K2共7种分子结构参数,能充分反映分子的空间结构和电性结构信息,与化合物对生物的毒性有良好的相关性,用神经网络方法建构的模型预测的结果与毒性实验值吻合度较好。
(2)模型具有较强的普适应用型。筛选的分子结构参数不但与众多种类的有机污染物对林蛙蝌蚪毒性能较好相关,而且与醇类、酚类化合物对梨形四膜虫的毒性有良好的相关性,所建模型还具有良好的稳健性。
(3)神经网络模型的相关系数明显优于多元回归法模型,而且预测误差明显降低,说明分子结构参数与生物毒性之间具有良好的非线性关系。