APP下载

基于神经网络的硝基芳烃急性毒性QSAR研究

2013-04-29何琴,王淑敏,易成

湖北农业科学 2013年5期
关键词:BP神经网络

何琴,王淑敏,易成

摘要:采用BP神经网络模型研究了45种硝基芳烃类化合物的结构与其急性毒性之间的关系,以硝基芳烃类化合物的量子化学参数作为输入,用3×4×1网络预测其急性毒性。采用内外双重验证的办法分析和检验所得模型的稳定性,所构建网络模型的相关系数为0.999 5,交叉检验相关系数为0.996 8,标准差为0.023 5,残差绝对值≤0.15,应用于外部预测集,外部预测集相关系数为0.998 4;而多元线性回归法(MLR)模型的相关系数为0.943 5,交叉检验相关系数为0.928 7,标准差为0.240 9,残差绝对值≤0.69,外部预测集相关系数为0.956 6。结果表明,BP神经网络模型获得了比MLR模型更好的拟合效果。

关键词:硝基芳烃类化合物;定量结构-活性相关关系;BP神经网络

中图分类号:TP183;O625.1;X174 文献标识码:A 文章编号:0439-8114(2013)05-1174-03

QSAR Study on Acute Toxicity of Nitroaromatic Compounds Based on

BP Neural Network

HE Qin,WANG Shu-min,YI Cheng

(College of Chemistry and Chemical Engineering, Xuchang University, Xuchang 461000, Henan, China)

Abstract: The relationship between structure of 45 nitroaromatic compounds and its acute toxicity was studied by BP neural network based on the back propagation algorithm. For the BP neural network method, when using the quantum chemical parameters as the inputs of the neural network and the acute toxicity as the outputs of the neural network, the correlation coefficient of established model was 0.999 5, the leave one out cross-validation regression coefficient was 0.996 8, the standard error was 0.023 5, the correlation coefficient of the test set was 0.998 4 and the absolute values of residual were less than 0.15. In order to make a comparison, the QSAR model was set up by multiple linear regressions(MLR) method. For the model built by MLR, the correlation coefficient was 0.943 5, the leave one out cross-validation regression coefficient was 0.928 7, the standard error was 0.240 9 and the absolute values of residual were less than 0.69, the correlation coefficient of the test set was 0.956 6. The results showed that the performance of BP neural network method is better than that of MLR method.

Key words: Nitroaromatic compounds; Quantitative structure-activity relationships; BP neural network

硝基芳烃类化合物是农药、制革、印染、化工等工农业生产的原料或中间体,通过多种途径进入水体,成为环境中主要的污染物之一,也是国际公认的危险品之一,具有较大的生态危害[1,2]。而要筛选和测定每个化合物的生物活性(毒性)或环境参数费时费力,且效率较低。定量结构与活性相关(QSAR)研究为此提供了一个节省时间和资金的方法[2,3],而人工神经网络(ANN)又是QSAR研究中的重要建模方法[3,4]。

近年来,关于硝基芳烃类化合物的定量构效关系研究多采用多元线性回归(MLR)的方法[5,6],极少采用人工神经网络的方法[7]。为此,采用人工神经网络方法探讨有关硝基芳烃类化合物的结构与活性之间的定量关系(QSAR),建立相关的硝基芳烃类化合物的结构与急性毒性的模型,可为硝基芳烃类化合物的研究提供一定的理论依据。

1 材料与方法

1.1 数据来源

文中所有数据均引自文献[8],分别采用45种硝基芳烃类化合物苯环上净电荷增量(ΔQR)、分子体积(V)、最低空轨道能(ELUMO)3种量子化学参数表征其分子结构,作为神经网络的输入;而理论急性毒性作为输出,构建神经网络的训练样本集。运用BP网络进行相关研究,建立45种硝基芳烃类化合物对梨形四膜虫急性毒性的QSAR模型,预测硝基芳烃类化合物的急性毒性,并与多元线性回归进行比较。

1.2 建模方法

多元线性回归在QSAR研究中是经典的建模方法[9,10],该方法能够构建因果模型,且构建的模型直观明了、物理意义明确。但是,该方法的不足之处在于要求模型变量参数相互正交、化合物或样本数大于描述变量等[11,12]。而且,顾名思义,该方法属于一种线性建模方法。而人工神经网络方法因具有自学习、自适应能力以及很强的容错能力,能够高度处理非线性问题[13,14],在QSAR研究中有其独特的优势。该文选用BP网络进行建模,并与MLR模型进行比较。

1.3 模型的检验

模型的检验在QSAR建模中非常重要,其结果直接决定模型外部预测能力和真实有效性。目前较为广泛使用的一种模型检验方法是交互验证。模型的检验分为外部验证(Jackknife法检验)和内部验证(LOO检验)。一个好的QSAR模型不仅应该有良好的校正能力,还必须同时具有对外部样本良好的预测能力。

2 结果与分析

2.1 BP神经网络模型的构建及与MLR方法的比较

利用MATLAB工具箱提供的BP网络,通过有监督的学习调节各个参数,经过优化选择,最终确定BP网络拓扑结构为3×4×1,输入层传递函数为Tansig函数,隐含层和输出层的传递函数为Logsig函数,目标函数为1×10-8,学习速度为0.1,迭代次数为10 000次。

BP神经网络预测结果见表1和图1。从表1可以看出,硝基芳烃类化合物的结构与其急性毒性之间有一定的关系,通过神经网络可以正确预测,BP神经网络预测结果较好,优于MLR方法所得结果。BP神经网络模型预测残差在-0.12~0.15之间,而MLR模型预测残差在-0.62~0.69之间,充分说明其残差离散性更强,更进一步验证了BP神经网络在非线性建模中的优势。

2.2 BP神经模型与MLR模型检验

为了检验所建QSAR模型的稳定性,分别采用了留一交互检验检验其稳定性、外部样本集检验其外部预测能力。所得BP神经模型和MLR模型的相关系数(R)、标准差(Se)、留一交互检验相关系数(Rcv)、外部预测集相关系数(Rext)分别见表2、图2、图3。结果表明神经网络的稳定性更好。

3 小结

选择45种硝基芳烃类化合物的量子化学参数作为输入,其对梨形四膜虫的急性毒性作为输出,构建了45种硝基芳烃类化合物的3层神经网络QSAR模型,所得神经网络QSAR模型具有更好的拟合精度和较强的预测能力,稳定性及泛化能力良好,其预测结果优于文献报道的多元线性回归方法。

BP神经网络作为一种有效的化学计量学工具,在QSAR领域,特别是在生物活性与结构之间隐含某些复杂的内在联系时将发挥重要作用,适合处理复杂的非线性问题,并且不需要事先对模型的形式进行假设,因此它特别适合求解内部机制复杂的问题。并且BP网络能通过学习带正确答案的实例,即自动提取“合理的”求解规则,应用于这种非线性的QSAR研究体系有一定的优越性。这在文中得到了明显的体现。

参考文献:

[1] KUZ'MIN V E, MURATOV E N, ARTEMENKO A G, et al. The effects of characteristics of substituents on toxicity of the nitroaromatics: HiT QSAR study[J]. J Comput Aided Mol Des,2008,22(10):747-759.

[2] 沈洪艳,张国霞,刘宝友,等. 地表水中常见硝基芳烃对鲤鱼的联合毒性[J]. 环境科学与技术,2011,34(2):17-21.

[3] YU Y J, SU R X, WANG L B, et al. Comparative QSAR modeling of antitumor activity of ARC-111 analogues using stepwise MLR, PLS, and ANN techniques[J]. Med Chem Res,2010,19(9):1233-1244.

[4] 李鹏霞,陈 晶,周喜斌,等. 定量结构-性质/活性关系在分析和环境化学中的进展及应用[J].分析科学学报,2011,27(2):241-245.

[5] ISAYEV O, RASULEV B, GORB L, et al. Structure-toxicity relationships of nitroaromatic compounds[J]. Molecular Diversity,2006,10(2):233-245.

[6] 闫秀芬,舒远杰,王连军,等.硝基芳烃对圆腹雅罗鱼毒性的DFT研究[J]. 化学学报,2007,65(17):1789-1796.

[7] 顾云兰,陶建清,费正皓,等.硝基芳烃对斜生栅列藻毒性的定量构效关系研究[J]. 武汉大学学报(理学版),2009,55(3):267-272.

[8] 顾云兰,陶建清,费正皓.硝基芳烃对梨形四膜虫急性毒性的定量构效关系研究[J].化学研究与应用,2009,21(2):234-238.

[9] RAM?魱REZ-GALICIA G, MART?魱NEZ-PACHECO H, GARDU?譙O-JUA?魣REZ R, et al. Exploring QSAR of antiamoebic agents of isolated natural products by MLR, ANN, and RTO[J]. Med Chem Res,2012,21(9):2501-2516.

[10] MORLEY J O, OLIVER A J, CHARLTON M H. Structure-activity relationships in 3-isothiazolones[J]. Org Biomol Chem,2005,3(20):3713-3719.

[11] CAMARGO A B, MARCHEVSKY E, LUCO J M. QSAR study for the soybean 15-Lipoxygenase inhibitory activity of organosulfur compounds derived from the essential oil of garlic[J]. J Agric Food Chem,2007,55(8):3096-3103.

[12] 陈景文,李雪花,于海瀛,等.面向毒害有机物生态风险评价的(Q)SAR技术:进展与展望[J].中国科学(B辑:化学),2008, 38(6):461-474.

[13] FJODOROVA N, NOVIC M. Some findings relevant to the mechanistic interpretationin the case of predictive models for carcinogenicity based on the counter propagation artificial neural network[J]. J Comput Aided Mol Des,2011,25(12):1159-1169.

[14] GARC?魱A I, FALL Y, GARC?魱A-MERA X, et al. Theoretical study of GSK-3α: neural networks QSAR studies for the design of new inhibitors using 2D descriptors[J]. Mol Divers, 2011,15(4):947-955.

猜你喜欢

BP神经网络
基于神经网络的北京市房价预测研究
一种基于OpenCV的车牌识别方法
基于遗传算法—BP神经网络的乳腺肿瘤辅助诊断模型
一种基于改进BP神经网络预测T/R组件温度的方法
基于BP神经网络的光通信系统故障诊断
提高BP神经网络学习速率的算法研究
就bp神经网络银行选址模型的相关研究
基于DEA—GA—BP的建设工程评标方法研究
基于BP神经网络的旅行社发展方向研究
复杂背景下的手势识别方法