APP下载

基于QSAR模型预测有机污染物在XAD与空气中的分配系数

2022-06-02朱腾义程浩淼丛海兵

中国环境科学 2022年5期
关键词:描述符分配化合物

朱腾义,陈 颖,程浩淼,孙 凤,丛海兵

基于QSAR模型预测有机污染物在XAD与空气中的分配系数

朱腾义,陈 颖,程浩淼,孙 凤,丛海兵*

(扬州大学环境科学与工程学院,江苏 扬州 225127)

基于定量构效关系(QSAR),运用线性(逐步多元回归MLR)和非线性(支持向量机SVM)两种计算方法开发了两种可靠且高效预测聚苯乙烯二乙烯基苯树脂(XAD)和空气之间分配系数(XAD-A)的模型.构建模型的数据包含醇类(Alcohols),苯类(Benzenes),多氯联苯(PCBs)和多环芳香烃(PAHs)等,共计70种有机污染物.两个模型的决定系数2adj和外部验证系数2ext均在0.930以上,同时所有物质均在定义的应用域内,结果表明两种QSAR模型有较高的拟合度、稳健性和较为优秀的预测能力,且非线性(SVM)模型比线性(MLR)模型的拟合效果更好.

有机污染物;聚苯乙烯二乙烯基苯树脂;分配系数;定量构效关系

大气中有机污染物在食物链和远距离运输中存在生物蓄积问题,这会威胁人类和野生动物的健康[1-2].因此,精准测量有机污染物的浓度对于确定污染物的来源,准确地评估环境暴露程度具有相当重要的意义.被动采样技术(PST)是一种通过被动吸附采集大气中污染物的技术,由于此技术具有连续采样、成本低、不受周围环境因素(时间、突发污染事件等)影响等特点,被广泛用于测量有机污染物浓度的基础工作中.同时,被动采样技术作为一种原位累积采样方法,为之后实现对气体中痕量污染物的采集,从而更好地评估污染物的生物累积效应[3-4],提供了良好的条件.

近年来,聚苯乙烯二乙烯基苯树脂(XAD)膜以其化学惰性、宽孔径分布和大比表面积的优势被广泛运用为被动空气采样装置(PAS)的吸附剂[5-6].空气介质中的有机污染物浓度可以通过XAD和空气之间的分配系数(XAD-A)预测出来[7-8],分配系数是指污染物浓度在采样器和空气之间达到动态分配平衡的系数.在大多数野外观测研究中,由于不同的环境外部因素影响(例如:湿度、温度、风速和蒸汽压),在不同位置测得的XAD-A值会有很大差异[9-10].在实验室测量分配系数通常耗时、费力且昂贵[11-13],同时由于新型化学物质地不断增长,这些物质中有很大一部分无法通过实验进行及时测量[14].准确测量XAD-A的值并非易事,建立一种潜在的、可靠的、有效的预测XAD-A值的方法具有重要意义.

定量构效关系(QSAR)是指化合物分子结构与其自身的理化性质、在环境中迁移转化行为和生态毒理学效应之间的内在联系,以模型的形式表现.通过分析、测量或计算化合物的特征参数,即分子结构描述符,建立起其分子结构特征参数与其反应活性之间的相关性数学模型,是一种在最低计算成本下构建化学分子结构与其物理化学性质、环境行为参数和毒理学效应之间关系的方法.目前,已有许多利用QSAR模型对空气中有机污染物的环境行为和毒理性质等进行研究的报道,例如CHAO等[15]运用QSAR模型对烷烃和芳烃在PDMS膜和空气中的分配系数进行了预测.综上,利用QSAR模型预测有机污染物的XAD与空气中分配系数的研究方法,节省了大量实验时间、人力和财力,可以为环境介质中污染物的浓度提供参考,从而更方便地获取数据.

但是,现有的模型存在拟合度较低、泛化能力较差、物质结构单一、数据总量较少等问题.此外,在QSAR领域中,逐步多元回归(MLR)是一种常规的线性回归方式,但是MLR算法在某些条件下存在无法从数据中提取有用结构信息的问题,这导致其运用范围受到一定限制.另一方面,影响化合物分配过程的因素很复杂,并非所有因素都与对数XAD-A呈线性相关,所以有必要引入非线性计算方法建模.而支持向量机(SVM)又是一种一个十分经典的非线性算法,它具有准确率高、无需依赖整个数据、泛化能力比较强,以及可以为避免过拟合提供很好的理论保证等优点.因此,本文以XAD为被动采样器的吸附剂,收集了醇类(Alcohols),苯类(Benzenes),多氯联苯(PCBs),多环芳香烃(PAHs)等12种不同类型的有机化合物,共计70个物质的XAD-A实验值,基于QSAR,选用了MLR以及SVM这两种具有代表性的算法对实验数据进行拟合,建立了预测分配系数的模型,并达到了比较令人满意的效果.

1 材料与方法

1.1 数据集

通过查阅文献[9,16],搜集了70个不同物质的XAD-A实验值,其中包括5种醇类,2种醛和酮,4种脂肪族和环烃,9种苯类,6种醚类,6种卤代脂肪烃,3种单核芳烃,4种氮和硫化合物,11种PCBs,1种酚类化合物,8种PAHs和11种其他类型化合物.数据集中化合物的种类数量较为广泛,所有数据均落在平均值()的标准偏差()的三倍之内,不包括严重误差的异常值(图1).因此,根据三个Sigma规则无需删除数据[17],logXAD-A的数值在1.02到8.79之间,平均值为3.83.

此外,为了对建立的模型进行内部验证和外部预测,将数据集按照一定比例分为训练集和测试集.采用Y排序法,将logXAD-A值按升序排列,5个数据分为一组.每组的第五个数据放入测试集,其余数据组成训练集[18].建立模型后,用训练集(占全部数据80%,即56个)建立模型并进行内部验证,测试集(占全部数据20%的,即14个)用来评价模型的外部预测能力.

图1 实验log KXAD-A数据集值的分布

1.2 分子描述符

在计算分子结构描述符前,数据集中所有化合物都需要经过ChemBio 3D Ultra 12.0软件生成最初的分子结构;然后,利用软件中Minimize Energy模块将这些物质进行最小能量化;接着,通过MOPAC 2016中Mopac Interface PM7[19]算法将之前最小能量化之后的分子结构进行优化计算;最后用PaDEL- Descriptor[20]软件计算出各个化合物的分子结构描述符.

1.3 QSAR模型的建立

利用SPSS20.0软件对PaDEL-Descriptor软件中计算出来的216个分子描述符进行逐步多元回归线性(MLR)分析,在满足显著性水平<0.001和多重共线性VIF<10的条件下,选择描述符数量最少,且2adj和2ext的最佳组合来建立性能最好的MLR预测模型.同时,利用逐步多元回归得出的描述符通过支持向量机(SVM)的计算方法进行非线性回归(通过R软件)分析,用函数在限定核函数为高斯内积函数(kernel="radial")的条件下进行gamma()和cost()最优参数搜索,得到最优SVM模型.

1.4 模型的表征

本研究通过两种参数对最优QSAR模型的拟合程度进行表征,分别为经自由度调整后的决定系数(2adj)和均方根误差(RMSE),利用去一法交叉验证系数(2LOO)以及自举法交叉验证系数(2BOOT)对模型的稳健性表征[21],模型的预测能力由验证集决定系数(2ext)和外部验证系数(2ext)表征.其中,部分参数的计算公式如下:

模型的应用域由Williams图进行表征,标准残差()和杠杆值()确定了适用化合物的范围,所运用到的计算公式如下:

2 结果与讨论

2.1 预测模型

逐步多元线性(MLR)法建立的logXAD-A的QSAR模型为:

MLR模型的最优表达式为:

logXAD-A= 0.101HDz()+ 1.528WiA_D/Dt-0.098

tra=56,2adj=0.931,2LOO=0.926,2BOOT=0.930,

RMSEtra=0.598,<0.001;ext=14,2ext=0.938,

2ext=0.935, RMSEext=0.618.

支持向量机(SVM)法得到的非线性模型中:= 10,10.249 (图2).相应的统计学参数:tra=56,2adj=0.977,2LOO=0.949,2BOOT= 0.971, RMSEtra= 0.349;ext=14,2ext=0.938,2ext=0.968, RMSEext= 0.435.

图2 支持向量机模型的最优cost和gamma等值线

图3 log KXAD-A实测值和预测值的拟合关系(MLR)

模型评价参数表明,两个模型均具有良好的预测能力和稳健性.通过外部验证表明模型具有良好的预测能力.2和2差值小于0.3,表明相关关系显著,没有过拟合的现象.对于MLR模型,VIF均小于10,说明模型的不存在多重共线性.描述符详细的含义及、VIF值等见表1.MLR和SVM预测模型实验值和预测值拟合效果如表2和图3、图4所示.

图4 log KXAD-A实测值和预测值的拟合关系(SVM)

2.2 应用域表征

在OECD关于QSAR模型构建和验证的准则中[22],明确了需要对建立的模型进行应用域表征,因为对于已证实具有稳健性和有效性的模型,也不能够对所有的有机污染物做出准确的预测,所以需要给出模型所能应用的范围.应用域区间是指标准残差||£3,且杠杆值小于警戒值*的有机物的集合域.

两种建模方法表征应用域的Williams图如图5,图6所示,两种方法中所有有机物均在集合域(||£3且*<0.161)内,说明模型中没有离群点.因此这两种建模的方法能够预测应用域内其他类型的有机污染物的logXAD-A值.

图5 QSAR模型的Williams图(MLR)

图6 QSAR模型的Williams图(SVM)

表1 QSAR模型涉及的t检验(t)、统计显著性(P)、方差膨胀因子(VIF)值和平均效应(MF)值

表2 有机污染物的log KXAD-A值

2.3 机理分析

在MLR模型中,描述符H_Dz()对模型的贡献性最大,其MF值为0.735.H_Dz()是极化率加权Barysz矩阵的类Harary指数,与极化率相关.同时,极化率值与化合物的疏水性和活性有关.与空气相比,大分子往往处于较低的极性阶段,且对于具有大极化率的化学物质,与XAD的相互作用更强.因此,随着H_Dz()值的增加,化合物的logXAD-A值将会跟着增加.

模型中被筛选出来的另一个描述符WiA_D/Dt,其值为0.265,可以看出此描述符对模型的贡献性较小.它表示距离或者绕行矩阵的平均类维纳指数,属于基于二维矩阵的描述符.WiA_D/Dt也是分子环度的一个指标,在同样大小的图中,WiA_D/Dt随环度的增加而有规律地变化[23].因此,环度小(WiA_D/Dt的值小)的物质更容易被膜吸附.同时,该描述符的系数为正,可以看出WiA_D/Dt对有机污染物在XAD与空气中的分配系数成正相关的关系.

2.4 模型比较

在预测XAD与空气中的分配系数方面,目前的研究比较少.Poole等[24]以及Hayward等[16]利用多参数线性自由能关系(pp-LFER)模型间接地分别构建了4种描述符(,,,)以及三种描述符(,,)与XAD-A的等式,虽然2与本文相当,但是在物质数量方面,本研究较多且涵盖的物质更为广泛.在利用QSAR预测吸附膜与空气中分配系数的研究方面,现有的模型在性能和适用性方面存在一些问题, CHAO等[15]对26种烷烃进行PDMS和空气间分配系数的预测,其2adj为0.632,未能达到OECD准则[22]中0.7的要求;Parnis等[25]对PUF和空气间的分配系数进行预测,虽然其2adj达到0.807,但此预测只针对12种PAHs,模型存在物质结构单一、数据总量较少等问题.本文针对12种不同类型的有机污染物,基于定量构效关系,在常规使用的线性模型基础上,探索使用了非线性模型,其中非线性模型(2adj=0.977,2LOO=0.949,2BOOT= 0.971)在拟合度和稳健性方面都优于线性模型(2adj=0.931,2LOO=0.926,2BOOT= 0.930).

3 结论

3.1 采用定量结构活性关系,构建了70种有机污染物在XAD与空气中分配系数的QSAR预测模型,建立了两种稳健性良好,拟合度高且预测能力强的模型.

3.2 H_Dz()与WiA_D/Dt这两种描述符与logXAD-A之间存在着很强的联系,具有大极化率、小分子环度的化学物质更容易被XAD膜吸附.

3.3 两种模型的2和2均超过标准值,且所有化合物都在给出的应用域范围内,即标准残差||£3,有机物的平均值小于警戒值=0.161,但用SVM方法所建立的模型(2adj=0.977)比用MLR方法建立的模型(2adj=0.931)更加优异.

[1] 刘明洋,李会茹,宋爱民,等.环境和人体中氯代/溴代多环芳烃的研究进展——污染来源、分析方法和污染特征 [J]. 中国环境科学, 2021,41(4):1842-1855.

Liu M Y, Li H R, Song A M, et al. A review of chlorinated/brominated polycylic aromatic hydrocarbons in the environment and human: Surces, analysis methods and polution characteristics [J]. China Environmental Science, 2021,41(4):1842-1855.

[2] Hung H, Macleod M, Guardans R, et al. Toward the next generation of air quality monitoring: Persistent organic pollutants [J]. Atmospheric environment, 2013,80(dec.):591-598.

[3] Weert J D, Smedes F, Beeltje H, et al. Time integrative sampling properties of Speedisk and silicone rubber passive samplers determined by chemical analysis and in vitro bioassay testing [J]. Chemosphere, 2020,259:127498.

[4] Taylor V F, Buckman K L, Burgess R M. Preliminary investigation of polymer-based in situ passive samplers for mercury and methylmercury [J]. Chemosphere, 2019,234(Nov.):806-814.

[5] Hearn J, Smelt P L, Wilkinson M C. Porosity in macroreticular resins [J]. Journal of Colloid & Interface Science, 1989,133(1):284-287.

[6] Okeme J O, Saini A, Yang C, et al. Calibration of polydimethylsiloxane and XAD-Pocket passive air samplers (PAS) for measuring gas-and particle-phase SVOCs [J]. Atmospheric Environment, 2016,143:202-208.

[7] Bartkow M, Booij K, Kennedy K, et al. Passive air sampling theory for semivolatile organic compounds [J]. Chemosphere, 2005,60(2): 170-176.

[8] Wania F, Shen L, Lei Y D, et al. Development and calibration of a resin-based passive sampling system for monitoring persistent organic pollutants in the atmosphere [J]. Environ.sci.technol, 2003,37(7): 1352-1359.

[9] Armitage J M, Hayward S J, Wania F. Modeling the uptake of neutral organic chemicals on XAD passive air samplers under variable temperatures, external wind speeds and ambient air concentrations (PAS-SIM) [J]. Environmental Science & Technology, 2013,47(23): 13546-13554.

[10] Kamprad I, Goss K U. Systematic investigation of the sorption properties of polyurethane foams for organic vapors [J]. Analytical Chemistry, 2007,79(11):6891.

[11] Chen D, Wang Q, Li Y, et al. A general linear free energy relationship for predicting partition coefficients of neutral organic compounds [J]. Chemosphere, 2020,247:125869.

[12] Endo S, Hale S E, Goss K U, et al. Equilibrium partition coefficients of diverse polar and nonpolar organic compounds to polyoxymethylene (POM) passive sampling devices [J]. Environmental Science & Technology, 2011,45(23):10124-10132.

[13] None. Response to comment on "assessment of PDMS-water partition coefficients: Implications for passive environmental sampling of hydrophobic Organic Compounds"[J]. Environ.sci. Technol., 2010,44 (22):8789-8789.

[14] Arp H, Endo S, Goss K U. Assessment of PDMS-water partition coefficients: implications for passive environmental sampling of hydrophobic organic compounds. [J]. Environmental Science & Technology, 2010,44(22):8787.

[15] Chao K P, Wang V S, Liu C W, et al. QSAR studies on partition coefficients of organic compounds for polydimethylsiloxane of solid-phase microextraction devices [J]. International Journal of Environmental Science and Technology, 2018,15:2141-2150.

[16] Hayward S J, Lei Y D, Wania F. Sorption of a diverse set of organic chemical vapors onto XAD-2resin: Measurement, prediction and implications for air sampling [J]. Atmospheric Environment, 2011, 45(2):296-302.

[17] Abudour A M, Mohammad S A, Robinson R L,et al. Generalized binary interaction parameters for the Peng–Robinson equation of state [J]. Fluid Phase Equilibria, 2014,383:156-173.

[18] Fatemi M H, Dorostkar F. QSAR prediction of D2receptor antagonistic activity of 6-methoxy benzamides [J]. European Journal of Medicinal Chemistry, 2010,45(11):4856-4862.

[19] Changho J, Keum H. Prediction of radical scavenging activities of anthocyanins applying adaptive neuro-fuzzy inference system (ANFIS) with quantum chemical descriptors [J]. International Journal of Molecular Sciences, 2014,15(8):14715.

[20] Yap C W. PaDEL-descriptor: an open source software to calculate molecular descriptors and fingerprints [J]. Journal of Computational Chemistry, 2011,32(7):1466-1474.

[21] Qin H, Chen J, Wang Y, Wang B, et al. Development and assessment of quantitative structure-activity relationship models for bioconcentration factors of organic pollutants [J]. Chinese Science Bulletin, 2009, 54(4):628-634.

[22] 陈 宪.基于OECD准则对QSAR/QSPR模型几个重要问题的研究[D]. 长沙:中南大学, 2013.

Chen X. Studies on a few key problems of QSAR/QSPR modeling based on the OECD principles [D]. Changsha: Central South University, 2013.

[23] Yu X, Wang Y, Yang H, et al. Prediction of the binding affinity of aptamers against the influenza virus [J]. SAR and QSAR in Environmental Research, 2019,30(1):51.

[24] Poole S K, Poole C F. Sorption properties of styrene–divinylbenzene macroreticular porous polymers [J]. Analytical Communications, 1996,33(10):353-356.

[25] Parnis J M, Eng A, D Mackay, et al. Characterizing PUF disk passive air samplers for alkyl-substituted PAHs: Measured and modelled PUF-AIR partition coefficients with COSMO-RS [J]. Chemosphere, 2016,145(FEB.):360-364.

Prediction of organic pollutions partition coefficients between XAD and air based on QSAR models.

ZHU Teng-yi,CHEN Ying, CHENG Hao-miao, SUN Feng, CONG Hai-bing*

(College of Environmental Science and Engineering, Yangzhou University, Yangzhou 225127, China)., 2022,42(5):2269~2274

Based on quantitative structure-activity relationship (QSAR), two reliable and efficient models for predicting partition coefficients between polystyrene-divinylbenzene resin (XAD) and air (XAD-A) were developed by using linear (stepwise multiple regression, MLR) and nonlinear (support vector machine, SVM) methods. The data included alcohols, benzenes, polychlorinated biphenyls (PCBs), polycyclic aromatic hydrocarbons (PAHs), and a total of 70 organic pollutants. The determination coefficient (2adj) and external validation coefficient (2ext) of the two models are all above 0.930, and substances are all in the defined application domain. The QSAR models both have good robustness and excellent prediction ability. Moreover, the fitting effect of nonlinear (SVM) model is better than linear (MLR) model.

organic pollutants;polystyrene-divinylbenzene resin (XAD);partition coefficients;quantitative structure-activity relationship (QSAR)

X171.5

A 文章标号:1000-6923(2022)05-2269-06

朱腾义(1984-),男,山东东营人,副教授,博士,主要从事环境污染化学方面研究.发表论文20余篇.

2021-10-07

国家自然科学基金资助项目(42077331);江苏省研究生科研与实践创新计划项目(SJCX21_1587)

* 责任作者, 教授, hbcong@yzu.edu.cn

猜你喜欢

描述符分配化合物
基于结构信息的异源遥感图像局部特征描述符研究
碳及其化合物题型点击
碳及其化合物题型点击
应答器THR和TFFR分配及SIL等级探讨
遗产的分配
一种分配十分不均的财富
绩效考核分配的实践与思考
Linux单线程并发服务器探索
例析高考中的铁及其化合物
利用CNN的无人机遥感影像特征描述符学习