醇类化合物对欧洲林蛙蝌蚪毒性的QSAR研究
2017-03-15郑景泉杨浩娜彭世文王立峰
郑景泉++杨浩娜++彭世文++王立峰
摘要:采用分子描述符计算软件PCLIENT获得123个醇类有机小分子化合物的1 666个理化性质参数,通过相关性分析与逐步线性回归筛选,最终获得14个分子描述符。基于保留的14个关键理化性质,分别以多元线性回归(MLR)、偏最小二乘回归(PLS)与支持向量回归(SVR)构建醇类化合物对欧洲林蛙蝌蚪毒性的QSAR模型。结果表明:3种模型的独立预测决定系数Q2从初始的-163.350、-0.019、0.686分别提升到0.860、0.903与0.936,剔除无关描述符能显著提升模型的预测精度;基于SVR的训练拟合精度和独立预测精度均较好,表明其泛化能力强,鲁棒性好; SVR模型独立测试集预测值和真实值比较结果证明最终筛选出的14个描述符具有较好的显著性,模型具有较好的稳健性。本方法在有毒化合物等QSAR研究领域有较广泛应用前景。
关键词:醇类化合物;欧洲林蛙蝌蚪;描述符篩选;支持向量回归;定量构效关系
中图分类号:Q592.9文献标识号:A文章编号:1001-4942(2017)02-0067-05
目前人类已知的有机物达8 000多万种,大量有机物已经或正在通过各种途径进入生态环境中,其中多数有机物具有一定的生物毒性。对有机物进行毒性评价是评估其是否具有环境可投放性必不可少的重要环节[1,2]。在对水生动物进行急性毒性研究中,由于两栖类动物(如青蛙及其幼体蝌蚪)有可渗透的皮肤,更易从环境中吸收物质,对水质污染具有更大的敏感性,因而被较多地用作进行急性毒性生物评估的生物材料[3,4]。但通过实验方法对有机物进行毒性评价耗时费力,难以覆盖多达数千万种的有机物种类;此外,毒性的实验测定只适用于已合成出来的化合物,无法对还未实际合成的化合物进行预先评估。
定量结构-活性关系(quantitative strcture-activity relationship, QSAR)利用化学计量学方法总结化合物的生物活性与其分子结构参数的关系,是化学与生物学之间的桥梁[5,6]。精度是QSAR在有机物毒性活性预测中的关键,QSAR计算或预测精度与描述符的提取、筛选以及建模方法有关。描述符的提取要兼顾有效性及易获得性,即使对虚拟化合物亦能以量子化学计算获取标准数字化描述符[7]。筛选获得的描述符要确保显著性与可解释性,模型的建立要保证鲁棒性及泛化推广性能。以统计学习理论和结构风险最小为基础建立的支持向量机(support vector machine,SVM)是机器学习领域的集大成者,它较好地解决了小样本、非线性、过拟合、维数灾和局极小等问题,泛化推广能力优异[8,9]。 SVM 包括支持向量分类(support vector classification,SVC)和支持向量回归(support vector regression,SVR),SVR 更适用于QSAR建模[10],已在诸多QSAR研究中得到成功应用[11-14]。
本文采用分子描述符计算软件PCLIENT表征醇类有机小分子化合物[15],获得其理化性质参数;结合相关性分析与逐步线性回归,筛选获得关键描述符;基于训练集与保留描述符建立QSAR模型,预测其对欧洲林蛙蝌蚪的生物毒性,以证实该方法在有毒化合物的QSAR研究领域的应用前景。
1数据与方法
1.1数据来源
本文数据集来自文献[3],含123个醇类有机小分子化合物,其毒性指数为对欧洲林蛙蝌蚪50%生长抑制浓度(IGC50)的负对数。全部样本按毒性活性值由低到高排序,为使测试集中的样本均匀分布,每隔3个样本抽取一个放入测试集,依次选取第4、8、12…116、120号30个样本组成测试集(表1),其余93个样本为训练集,以训练集样本得到的模型对测试集样本的毒性进行预测。
1.2分子描述符的计算与筛选
1.2.1分子描述符获取首先以分子结构编辑器JME Editor画出分子结构,并保存为简化分子线性输入规范(simplified molecular input line entry specification,SMILES)文件格式,再将SMILES文件作为PCLIENT的输入(http://vcclab.org/articles/cite.html),即可获得每个分子结构描述符[15]。
1.2.2描述符筛选相关性分析筛选描述符:首先以毒性实验值与各理化性质逐个计算Pearson相关系数,根据相关系数假设检验的概率P值,选出显著正或负相关(显著水平0.05)的描述符。
通过逐步线性回归(stepwise linear regression,SLR)进行进一步变量筛选:SLR是一种“有进有出”的变量筛选方法,它从一个自变量开始,根据自变量对因变量Y作用的显著程度,从大到小依次逐个引入回归方程。当已引入的自变量由于后面变量的引入而变得不显著时,则停止引入,进入到剔除过程。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步都要对回归方程的显著性进行F值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。“进”与“出”的过程反复进行,直到既无可剔除的不显著变量,又无可引入的显著变量为止。根据以上两步变量筛选过程,获得最终的保留描述符[16]。
1.3建模过程
1.3.1多元线性回归 多元线性回归(multiple linear regression,MLR)是统计学中最经典常用的回归模型,原理简单,构建模型通俗易懂,在QSAR研究中得到广泛应用。其多元线性回归方程为:
y^=b0+b1x1+b2x2+…+bmxm。(1)
式中y^为因变量,x为自变量,b0为常数项,b1~bm为偏回归系数。
本研究的MLR模型由MATLAB统计工具箱中的“regress.m”函数实现。
1.3.2偏最小二乘回归偏最小二乘回归(partial least squares,PLS)是一种基于潜变量之间的相关性进行建模预测的一种多元统计方法[17]。它结合了主成分分析、相关性分析和多元线性回归分析的主要优点,能更有效地抓取到因变量和自变量之间潜在的相关性,达到满意的建模效果。
本文中PLS模型由MATLAB统计工具箱中的“plsregress.m”程序实现,以留一法交叉验证的最小MSE原则来选择PLS的潜变量个数。
1.3.3支持向量回归支持向量机(SVM)是基于统计学习理论提出的一种应用于模式识别与机器学习领域的新方法[18],其核心思想是对所有样本构建一个超平面,通过核函数将各样本变量映射到高维特征空间,使两类样本能够通过此超平面可分,并使各个向量距离此超平面的间隔最大,而此时距离超平面最近的向量则被称为支持向量。该超平面方程可简写为:
WTx+b=0。(2)
支持向量机包括支持向量分类(SVC)和支持向量回归(SVR),分别应用于分类问题和回归问题,本研究采用SVR。
本研究的SVR模型由Chang等编写的软件LIBSVM实现[6]:核函数均设置为径向基核;该软件包中需优化的参数包括惩罚参数c,径向基核函数的参数g和损失函数的参数p,参数优化以网格搜索实现。
1.4模型评价指标
模型的独立预测精度采用均方根误差RMSE与Tropsha等[19]的方法作为评价指标:
RMSE=∑ntei=1(yi-y^i)2nte ; (3)
Q2=1-∑ntei=1(yi-y^i)2∑ntei=1(yi-ytr)2。 (4)
式中:yi为测试集因变量观测值,y^i为测试集因变量预测值,nte为测试集样本数,ytr為训练集因变量的平均值。
2结果与分析
2.1描述符构建与筛选
把所有的化合物结构式输入在线服务软件PCLIENT,经过计算和筛选,删除每一列全为0或全为999的特征,最终得到每个化合物含1 666个描述子作为初始特征矩阵。而后以毒性实验值与各理化性质逐个计算Pearson相关系数,根据相关系数假设检验的概率P值,以0.05为显著水平,选出显著正相关的描述符共792个,然后通过SLR做进一步变量筛选,最终保留描述符14个。
2.2模型比较
分别以1 666、792、14个描述符作为特征,再分别以MLR、PLS和SVR建模,所得结果见表2。由表2可以看出,随着筛选出描述符数量的减少,模型的独立预测精度变得更优,表明该特征筛选方法是有效的,筛选出的特征是显著的。不同模型横向比较,基于MLR的训练拟合精度极好,但独立精度很差,表明模型容易产生过拟合,且泛化推广能力较差;基于PLS的训练拟合精度较好,但独立精度一般;而基于SVR训练拟合精度和独立预测精度均很好,表明其泛化能力好,鲁棒性强。
3讨论与结论
以PCLIENT计量软件对醇类有机小分子化合物进行表征,每一化合物分别得到1 666个理化参数描述符,这些理化参数描述符涵盖疏水性、拓扑性、亲电性、立体性质等多种属性,是对醇类有机小分子化合物较为全面系统的整体表征。但对QSAR模型而言,无关、冗余描述符会影响预测精度,本文首先以相关性分析剔除其中874个未达显著相关性指标的描述符,结合逐步线性回归,最终筛选得到14个关键理化性质描述符。基于14个分子描述符,采用支持向量机学习算法建立QSAR模型,预测独立测试样本的生物毒性,取得了较好效果,预测指标Q2和RMSEP分别达到0.936和0.308。通过独立测试集的预测值和真实值比较,表明筛选出的14个描述符具有较好的显著性,SVR模型具有较好的稳健性。与常用模型MLR、PLS等比较,新方法具有显著优越性,在醇类有机小分子化合物毒性的QSAR研究中具有较好的应用前景。
参考文献:
[1]张爱茜, 刘景富, 景传勇, 等. 我国环境化学研究新进展[J]. 化学通报, 2014 (7): 654-659.
[2]董小蓉, 杨晓明, 鲁翌, 等. 长江、汉江水源水及其自来水中有机物生物毒性的比较[J]. 中国环境科学, 2010, 30(2): 263-268.
[3]Agrawal V K, Chaturvedi S, Abraham M H, et al. QSAR study on tadpole narcosis[J]. Bioorganic. & Medicinal. Chemistry, 2003, 11(20): 4523-4533.
[4]Abraham M H, Rafols C. Factors that influence tadpole narcosis. An LFER analysis[J]. J. Chem. Soc., Perkin Trans.,1995,2(10): 1843-1851.
[5]安丽英, 相玉红, 张卓勇, 等. 定量构效关系研究进展及其应用[J]. 首都师范大学学报 (自然科学版), 2006, 27(3): 52-57.
[6]Chang C C, Lin C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.
[7]梅虎, 周原, 孙立力, 等. 一种新的氨基酸描述子及其在肽QSAR中的应用[J]. 物理化学学报, 2004, 20(8): 821-825.
[8]陈渊, 袁哲明, 周玮, 等. 基于地统计学与支持向量回归的QSAR建模[J]. 物理化学学报, 2009, 25(8): 1587-1592.
[9]顾燕萍, 赵文杰, 吴占松. 最小二乘支持向量机鲁棒回归算法研究[J]. 清华大学学报(自然科学版), 2015,55(4):396-402.
[10]孙德山. 支持向量机分类与回归方法研究[D]. 长沙:中南大学, 2004.
[11]李颗, 李向辉, 徐西林, 等. 芳香羧酸衍生物驱避剂的非线性定量构效关系[J]. 昆虫学报, 2014, 57(9): 1018-1024.
[12]王雪源, 张灿, 蒋莉, 等. 基于支持向量机的乙酰胆碱酯酶抑制剂的构效关系研究[J]. 计算机与应用化学, 2014, 31(2): 185-188.
[13]Wang L, Dai Z, Zhang H, et al. Quantitative sequence-activity model analysis of oligopeptides coupling an improved high-dimension feature selection method with support vector regression[J]. Chemical Biology Drug Design, 2014, 83(4): 379-391.
[14]熊光, 张红燕. 黄烷酮类衍生物的抗菌活性QSAR研究[J]. 中国农学通报, 2015, 31(29): 77-81.
[15]Tetko I V, Gasteiger J, Todeschini R, et al. Virtual computational chemistry laboratory – design and description[J]. Journal of Computer-Aided Molecular Design, 2005, 19(6):453-463.
[16]Tang Q Y, Zhang C X. Data processing system (DPS) software with experimental design, statistical analysis and data mining developed for use in entomological research[J]. Insect Science, 2013, 20(2): 254-260.
[17]Wold S, Ruhe A, Wold H, et al. The collinearity problem in linear regression. The partial least squares (PLS) approach to generalized inverses[J]. Siam Journal on Scientific & Statistical Computing, 1984, 5(3):735-743.
[18]張学工. 关于统计学习理论与支持向量机[J]. 自动化学报, 2000, 26(1): 32-42.
[19]Tropsha A, Gramatica P, Gombar V K. The importance of being earnest: validation is the absolute essential for successful application and interpretation of QSPR models[J]. QSAR & Combinatorial Science, 2003, 22(1): 69-77.(上接第66页)
[5]缪静, 殷曰彩,冯志彬,等. 无花果果醋发酵工艺优化[J].食品与机械,2014,30(3):218-221.
[6]李芳, 孔令明,宋曼,等. 速冻无花果保鲜工艺的研究[J].食品工业,2014,35(9):70-74.
[7]张泽俊,沙坤,马雯. 无花果叶不同溶剂提取物抗氧化活性的比较研究[J]. 安徽农业科学, 2011, 39(12): 6981-6982,7010.
[8]杨润亚,明永飞,王慧. 无花果叶中总黄酮的提取及其抗氧化活性测定[J]. 食品科学, 2010, 31(16): 78-82.
[9]中华人民共和国卫生部.GB 5009.3-2010 食品安全国家标准 食品中水分的测定[S].2010.
[10]邱松山,周天,姜翠翠,等. 无花果粗多糖提取工艺及抗氧化活性研究[J].食品与机械, 2011, 27(1): 40-42.
[11]Kanokwan M, Soottawat B, Munehiko T. Effect of reactant concentrations on the Maillard reaction in a fructose-glycine model system and the inhibition of black tiger shrimp poly phenoloxidase [J]. Food Chemistry, 2006, 98(1): 1-8.
[12]孙月娥,吕丹娜,王卫东,等. 美拉德反应对大蒜抗氧化活性的影响[J].食品工业科技,2013, 34(9):119-123.山 东 农 业 科 学2017,49(2):72~75Shandong Agricultural Sciences山 东 农 业 科 学第49卷第2期郭成,等:苹果砧木组培苗生根诱导技术研究DOI:10.14083/j.issn.1001-4942.2017.02.015