有机污染物结构与生物活性关系研究*
2017-10-18廖立敏李建凤雷光东
廖立敏 李建凤 雷光东
(内江师范学院化学化工学院,四川 内江 641100)
有机污染物结构与生物活性关系研究*
廖立敏 李建凤 雷光东#
(内江师范学院化学化工学院,四川 内江 641100)
将有机污染物分子中的非氢原子分为4类,将不同非氢原子及非氢原子之间的关系作为分子结构描述符,对49种有机污染物分子结构进行了参数化表达。采用逐步回归(SMR)与偏最小二乘回归(PLS)方法构建了有机污染物结构与生物活性之间的关系模型,模型的相关系数(R2)为0.869,“留一法”交互检验相关系数(Q2)为0.821,可见模型稳定性好、预测能力强,非偶然因素所致。
有机污染物 生物活性 结构描述符
有机化合物用途广泛,在工农业生产过程中可作为原料、溶剂、添加剂等。有机化合物进入环境中,很大一部分就成了有机污染物,直接或间接危害动植物生长、发育、繁殖,甚至威胁人类健康和生命。因而,研究有机污染物结构与生物活性的关系具有重要意义。QSAR/QSPR是研究有机污染物与生物活性的重要方法,可以用于研究有机污染物的毒性[1]15-17,[2]1139-1144、生物富集因子[3-4]、溶解性[5-6]、辛醇/水分配系数[7-8]等。有机污染物分子结构的参数化表达是QSAR/QSPR的关键步骤之一。比较分子场法(CoMFA)[9-10]和自组织分子场法(SoMFA)[11]是目前应用比较广泛的分子结构参数化表达方法。这两种方法的弊端是处理步骤繁琐、工作量大。因此,简易、方便的分子结构参数化表达方法有待建立。本研究将有机污染物分子中的非氢原子进行染色,构建不同类型非氢原子和非氢原子之间关系的结构描述符,用于有机污染物分子结构参数化表达。构建的分子结构描述符不需要考虑分子构象优化等问题,简单易懂、计算方便、工作量小。采用逐步回归(SMR)和偏最小二乘回归(PLS)相结合的方法建立了有机污染物结构与生物活性的关系模型,模型经检验具有良好的稳定性和预测能力。
1 材料与方法
1.1 实验材料
选择的有机污染物包括烷烃、芳烃、烯烃、醇、酚、醚、酮、酯及相应衍生物等多类化合物,具有不同的分子结构,共49种。有机污染物的生物活性以其对蝌蚪的麻醉活性(lg(1/c))表征,其中c为有机污染物对蝌蚪的麻醉质量浓度[12],μg/L。49种有机污染物及其lg(1/c)列于表1中。
1.2 实验方法
1.2.1 有机污染物分子结构表征
有机污染物中的非氢原子及非氢原子之间的关系对化合物性质产生重要影响,而氢原子仅影响与其直接相连的非氢原子。因此,本研究首先将非氢原子分为4类[13-14],与b个其他非氢原子直接相连的非氢原子规定为第b类非氢原子,b可取1、2、3、4。然后,采用堵锡华[1]15提出的方法对非氢原子进行参数化染色,计算公式见式(1)。
表1 49种有机污染物及其lg(1/c)
(1)
式中:Zb,i为第b类非氢原子i的染色值;mi为i的最外层电子数;ni为i的主量子数;mC为碳原子的最外层电子数;hi为与i直接连接的氢原子数;XC为碳原子的Pauling电负性;Xi为i的Pauling电负性。
4类非氢原子单独对有机污染物生物活性的影响(即结构描述符)为各类非氢原子染色值之和(见式(2))。
(2)
式中:xk为第k类结构描述符;Zb为第b类非氢原子的染色值之和。
非氢原子之间的关系对有机污染物生物活性的影响(即结构描述符)为不同类型非氢原子之间的关系(见式(3))。由于3个及3个以上的非氢原子之间的关系过于复杂,这里暂不考虑。
(3)
式中:Db1,b2为第b1类非氢原子与第b2类非氢原子之间的关系;ri,j是非氢原子i和j之间的相对距离(即i和j之间的键长之和与碳碳单键键长的比值,如果i、j之间有多条路径,以最短路径为准)。
1.2.2 建模与评价
采用SMR筛选结构描述符,PLS建模。PLS特别适合于在变量数较多而样本数较少的情况下进行建模[15]。本研究以SMR筛选得到的结构描述符为X向量,以有机污染物对蝌蚪的麻醉活性为Y向量进行建模。用模型相关系数(R2)、“留一法”交互检验相关系数(Q2)及标准偏差(SD)对模型进行评价。一般认为,R2为0.64~1.00,Q2≥0.50,SD与lg(1/c)极差(最大值与最小值之差)之比在10%以内,表明模型具有良好的预测能力和稳定性[2]1139。
2 结果与讨论
将有机污染物结构进行参数化表征得到的结构描述符采用SMR进行变量筛选,以筛选得到的变量为X向量,以lg(1/c)为Y向量,运用PLS建立有机污染物结构与生物活性的关系模型,通过偏F检验依次筛选变量,共挑选出11个变量进行建模比较,入选变量及相应的PLS 结果见表2。
一个好的预测模型不但要对内部样本具有较好的拟合能力,而且还应该对外部样本具有较强的预测能力。因此,在选择模型时,在保证对内部样本具有良好拟合效果(R2较大)的情况下,尽量选择Q2较大的模型。由表2可以看出,SMR步骤6筛选的变量建模所得模型最佳R2和最佳Q2同时达到最大值,因此回归步骤6筛选的变量所建模型最好,其结构描述符列于表3中。
表2 SMR及PLS结果
表3 模型所选结构描述符及lg(1/c)
表3 模型所选结构描述符及lg(1/c)(续)
图1为SMR步骤6进行PLS建模过程中R2和Q2随主成分数的变化情况。当主成分数为4时,R2为0.869,处于0.64~1.00,Q2达到最大值(0.821),符合Q2≥0.50。模型SD为0.366,而49种有机污染物的lg(1/c)最大值和最小值分别为4.26、0.24,由此可得SD与lg(1/c)极差之比为9.10%,小于10%。因此,SMR步骤6进行PLS建模过程中,当主成分数为4时,模型稳定性好、预测能力强,建模效果达到最好,此时有机污染物与生物活性的关系可表达为式(4)。
lg(1/c)=-0.940+0.091x1+0.184x2+0.064x5+0.002x7-0.027x8+0.096x12
(4)
图1 SMR步骤6进行PLS建模过程中R2和Q2随主成分数的变化情况Fig.1 R2 and Q2 changes with the principal components in PLS regression during Step 6 of SMR
为了分析X向量与Y向量的相关性,分别提取X和Y的第1主成分t1、u1,得到t1-u1图,如图2所示。从图2可以发现,t1与u1具有一定的线性相关性,相关系数达到0.659,说明X向量的第1主成分就可以很好地解释有机污染物对蝌蚪麻醉活性的影响。由图2还可以发现,t1、u1得分越高相应的lg(1/c)大体也越高。
图2 t1-u1图Fig.2 The t1-u1 plot
为考察模型的可信度,对模型的X向量规格化模型距离进行分析,结果见图3。以95%的置信区间进行评价,只有叔丁醇和叔戊醇的规格化模型距离超过了临界值(2.077),说明模型拟合的可信度高。分析49种有机污染物的结构发现,只有叔丁醇和叔戊醇含有叔丁基,可能是结构描述符对叔丁基的表征误差较大所致。
模型建立后又进行了20次Y向量随机排序验证,以进一步考察模型效果的偶然性。以Y原始向量和重新随机排序后的Y向量的相关系数对模型的R2和Q2作图(见图4)。根据ANDERSSON等[16]提出的判断标准,R2和Q2的截距应分别小于0.300、0.050。从图4可以看到,本研究所建模型R2和Q2的截距分别为0.017、-0.485,可以认为模型的拟合结果并非偶然因素所致。
图5为t1和X向量第2主成分(t2)的载荷图。
图3 X向量规格化模型距离分析Fig.3 Analysis of normalized distance to model in X vector
图4 Y向量随机排序验证结果Fig.4 The verification result of Y vector random permutations
图5 X向量t1和t2的载荷图Fig.5 Loadings of t1 and t2 for X vector
若主成分的载荷为正,说明该主成分与Y向量正相关;若主成分的载荷为负,说明该主成分与Y向量负相关;载荷绝对值越大,相关性越高。x1、x2、x8、x12位于载荷图的第一象限,说明这两个主成分均与Y向量呈正相关。x5、x7位于第二象限,说明其第1主成分与Y向量呈负相关,第2主成分与Y向量呈正相关。x1、x7与第2主成分的相关性较大;x2、x8、x12与第1主成分的相关性较大。
图6为PLS模型预测值与实测值的相关性。由图6可见,绝大部分样本点都分布在过原点的平分线附近,说明模型对有机污染物的lg(1/c)预测准确性高、误差小,效果良好。
注:图中实线为平分线。图6 实测值与预测值相关性Fig.6 Relationship between calculated values and experimental values
3 结 论
将有机污染物分子结构用结构描述符表征,建立其与蝌蚪麻醉活性(lg(1/c))的相关关系,可以很好地预测有机污染物对生物活性的影响。采用SMR筛选变量,PLS建模,得到x2、x1、x12、x7、x5、x8作为变量时,模型效果最佳,最佳主成分数为4,稳定性好、预测能力强,非偶然因素所致。
[1] 堵锡华.酯类化合物对四膜虫毒性的拓扑研究[J].环境污染与防治,2005,27(1).
[2] 顾云兰,陈鑫,简美玲.苯胺类化合物结构与毒性的密度泛函理论研究[J].化学研究与应用,2015,27(8).
[3] 孙露,陈英杰,吴曾睿,等.有机化合物生物富集因子的计算机预测研究[J].生态毒理学报,2015,10(2):173-182.
[4] 冯惠,李鸣建.部分多氯联苯生物富集因子的QSAR研究[J].环境科学与技术,2013,36(11):49-53.
[5] 刘天宝,彭艳芬,严永新,等.取代苯甲醛类化合物的分子结构与溶解度的定量关系[J].武汉大学学报(理学版),2012,58(1):40-44.
[6] 廖立敏,朱俊,李建凤,等.芳烃类污染物结构与水溶性(-lgSw)关系研究[J].华中师范大学学报(自然科学版),2010,44(4):610-613.
[7] 王甫洋,张学胜,刘辉.卤代苯化合物水溶解度及正辛醇/水分配系数的三维构效关系研究[J].环境科学学报,2015,35(4):1032-1039.
[8] 廖立敏.卤代苯甲醚结构表征及醇/水分配系数模拟[J].计算机与应用化学,2015,32(7):889-892.
[9] GUARIENTO S,BRUNO O,FOSSA P,et al.New insights into PDE4B inhibitor selectivity:CoMFA analyses and molecular docking studies[J].Molecular Diversity,2016,20(1):77-92.
[10] BALASUBRAMANIAN P K,BALUPURI A,CHO S J.3D-QSAR studies on disubstituted dibenzosuberone derivatives as p38α MAP kinase inhibitors using CoMFA and CoMSIA[J].Medicinal Chemistry Research,2016,25(10):2349-2359.
[11] VERMA S K,THAREJA S.Formylchromone derivatives as novel and selective PTP-1B inhibitors:a drug design aspect using molecular docking-based self-organizing molecular field analysis[J].Medicinal Chemistry Research,2016,25(7):1433-1467.
[12] 王连生,支正良.分子连接性与分子结构—活性[M].北京:中国环境科学出版社,1992.
[13] 廖立敏.醛酮化合物结构与保留指数关系的研究[J].化学研究与应用,2015,27(5):617-623.
[14] 李建凤,谢永红,雷光东.部分聚合物结构与热容变化关系研究[J].计算机与应用化学,2016,33(7):833-837.
[15] 梅虎,周原,孙立力,等.氨基酸结构描述子矢量VHSE及其在肽QSAR中的应用[J].化学通报,2005,68(7):534-540.
[16] ANDERSSON P M,SJÖSTROM M,LUNDSTEDT T.Preprocessing peptide sequences for multivariate sequence - property analysis[J].Chemometrics and Intelligent Laboratory Systems,1998,42(1):41-50.
Studyonrelationshipbetweenstructureoforganicpollutantsandbiologicalactivity
LIAOLimin,LIJianfeng,LEIGuangdong.
(CollegeofChemistryandChemicalEngineering,NeijiangNormalUniversity,NeijiangSichuan641100)
The organic molecule’s non-hydrogen atoms were grouped into 4 categories. Different non-hydrogen atoms and their relationships were used as structural descriptors. 49 organic pollutants were parameterized. The stepwise regression (SMR) and partial least squares regression (PLS) methods were employed to build the relationship model between the structure of organic pollutants and biological activity. Results showed that the model correlation coefficient (R2) was 0.869 and the “leave one out” cross validation correlation coefficient (Q2) was 0.821,indicating that the model was stable,predictive and not by chance.
organic pollutants; biological activity; structural descriptor
廖立敏,男,1981年生,硕士,副教授,主要从事分子结构与生物活性关系的研究。#
。
*四川省教育厅青年基金资助项目(No.13ZB0003);四川省科技厅应用基础项目(No.2015JY0077)。
10.15985/j.cnki.1001-3865.2017.06.015
2016-09-08)