碳酸酐酶XIV抑制剂的定量构效关系研究
2010-09-25周燕平周先锋谭诗淼
周燕平,焦 健,周先锋,谭诗淼
(1.农药与化学生物学教育部重点实验室,华中师范大学化学学院,武汉430079;2.衡阳泰豪通信车辆有限公司,湖南衡阳替换为 421001)
碳酸酐酶XIV抑制剂的定量构效关系研究
周燕平1,焦 健1,周先锋2,谭诗淼1
(1.农药与化学生物学教育部重点实验室,华中师范大学化学学院,武汉430079;2.衡阳泰豪通信车辆有限公司,湖南衡阳替换为 421001)
基于神经网络转换的非线性偏最小二乘回归(ANN-NLPLS)连同偏最小二乘(PLS)和人工神经网络(ANN)方法,被用于磺胺类药物作为碳酸酐酶XIV抑制剂的定量构效关系研究.结果表明,ANN-NLPLS能很好地建立碳酸酐酶XIV抑制剂的定量构效关系模型,其中,氢键受体数目(Hydrogen bond acceptor),键能(Bond energy),电子拓扑指数(S_do,S_aaCH),VAMP电子静态描述符(Octupole xyz,Octupole xxy),偶极矩(Dipole moment X,Dipole x),最高占有轨道能(HOMO),总能量(Total energy),脂水分布系数(AlogP),信息含量(Information content)对磺胺类药物对碳酸酐酶XIV的抑制活性起着非常重要的作用.
碳酸酐酶XIV抑制剂;基于神经网络转换的非线性偏最小二乘回归;定量构效关系研究
碳酸酐酶(carbonic anhydrase,CA)是一类活性中心含有锌的酶,二氧化碳是代谢过程中的主要废物,碳酸酐酶能催化CO2的可逆水合反应(H2O+CO2←→H2CO3←→H++HCO-3),产生在人体多种生理活动中发挥重要作用的质子和 HCO-3,而 H+/HCO-3对体内酸碱平衡、体液循环、生物合成反应等起着重要的作用,因此,碳酸酐酶与人体的健康紧密相关.目前,在哺乳动物中至少已经发现16种碳酸酐酶,这16种酶以α-CAs或者是非催化形式相关的碳酸酐酶蛋白质的形式存在.
CAⅠ~Ⅲ,CA Ⅶ及CA XIII为胞浆酶;CAⅣ,CAⅨ,CA Ⅻ和CA XIV为膜连接酶;CA Ⅴ为线粒体酶,存在于线粒体中;CA Ⅵ为分泌型酶,存在于唾液中;其它5种以非催化形式的碳酸酐酶相关蛋白形式存在.研究者们通过研究碳酸酐酶的抑制剂或者激动剂来探索他们在体内的作用机制,取得了一定的成果,许多碳酸酐酶已成为新药设计的靶点.近年来,一些芳环和杂环类磺胺药物被设计合成作为CA抑制剂.由于通过实验来评估抑制活性花费昂贵且费时,定量构效关系(QSAR)常被用来预测碳酸酐酶抑制剂的活性,帮助设计新的碳酸酐酶抑制剂,至今为止,磺胺类药物作为CA抑制剂的定量构效关系的研究主要集中在CAⅠ和CA II中,而对CA XIV的定量构效关系研究很少有文献报道.
偏最小二乘法(PLS)[1]由于其能最大限度地表征自变量和因变量之间的线性关系,并可以避免自变量之间的信息重叠和共线性问题,而且在一定程度上能保证模型的外推预测能力等优点,被广泛地用于定量构效关系研究中.然而,PLS法仅能提取数据中的线性成分,在实际的QSAR研究中,非线性成分是普遍存在的.克服PLS法难以拟合非线性的问题的一种方式为发展非线性版本的PLS,即通过引入非线性特征到线性的 PLS框架中发展非线性PLS.至今为止,已发展了多种非线性版本的PLS法,如二次多项式偏最小二乘[2],样条偏最小二乘[3],神经网络偏最小二乘[4],核偏最小二乘[5],但是这些方法易产生过拟合或欠拟合的情况.另一种对非线性关系建模的思路为选择非线性方法,如人工神经网络(ANN)[6].ANN是一种通用的非参数的拟合器,通过合适的线性组合多个sigmoid函数,可在任意的精度下拟合任意复杂的非线性关系[7].因此ANN常被用来拟合非线性关系.但是ANN易产生过拟合现象.
在本研究中,采用了基于神经网络转换的非线性版本的PLS法(ANN-NLPLS)来进行碳酸酐酶抑制剂的定量构效关系研究[8].ANN-NLPLS首先采用ANN将原始的输入变量从输入层变换到隐含层,然后,采用PLS来关联生物活性和隐含层的输出.粒子群算法(PSO)被用于优化ANN中涉及到的权重以实现自适应调整原始描述符的非线性转换,在权重优化的过程中,F-统计被用来自动地确定PLS建模中所需的隐变量.同时,PLS和用反传算法训练的ANN(BP-ANN)也被用于CA XIV抑制剂的定量构效关系研究.结果表明,ANN-NLPLS要明显优于BP-ANN和 PLS,它不仅能有效地拟合数据中存在的非线性关系,而且能有效地克服过拟合问题.
1 理论
1.1 基于神经网络转换的非线性偏最小二乘回归(ANN-NLPLS)
在ANN-NLPLS中,ANN的功能是将原始描述符映射到隐含层输出中,原始输入变量经过这样一种映射产生了一系列新的特征变量,这些新的特征变量不仅富含了用于生物活性建模的信息,同时也包括了能导致过拟合问题的额外的可变性.为了克服特征变量中存在的过多的可变性,PLS被用来关联这些特征变量和生物活性.ANN-NLPLS综合了ANN能拟合非线性和PLS能克服过拟合这两方面的优点,因此,它能同时对非线性关系建模和避免过拟合问题的发生.
设 X为原始描述符输入矩阵(每行表示一个化合物),隐含层的输出可通过下面的方程式得到:
其中,θ为隐含层的输出矢量,f()代表ANN中的sigmoid函数,W表示输入层与隐含层之间的权重,1为列矢量,其元素均为1.隐含层的输出 O可以看成是通过神经网络非线性转换而得到的特征变量.最后,PLS回归被用来构建化合物的生物活性与特征变量O之间的关系.另外,粒子群优化算法被用来优化ANN-NLPLS中涉及到的权重,以方便ANN-NLPLS能灵活的近似任何的非线性关系,训练集的均方根误差被用来作为优化过程中的目标函数.
1.2 改进的粒子群优化算法
粒子群优化算法(particle swarm optimization,PSO)是一种源于对鸟群捕食行为研究的优化工具,通过粒子间相互作用发现复杂搜索空间中的最优区域.在PSO中,每个粒子代表了问题空间的一个解.算法先随机初始化一代粒子,然后通过更新粒子而搜索最优解.每个粒子具有一个速度决定它们的飞翔的方向和距离.然后粒子们根据自己和同伴的飞翔经验来调整速度.ANN-NLPLS中PSO用于优化涉及到的权重,目标函数为训练集的均方根误差.PSO中所有粒子编码成实数串,每个实数串代表一次神经网络转换中涉及到的输入层与隐含层之间的权重.在权重优化过程中,PLS作为建模方法,其隐变量个数通过 F-统计来自动地确定.
2 碳酸酐酶XIV数据
49个磺胺类衍生物及其对CA XIV的抑制活性作为定量构效关系分析的数据集,这些数据来自Laszlo Tarko等人的研究[9].图1列出了这些化合物的母体结构,该系列化合物的详细结构和活性值见表1.活性用 A=log(c/K1)表示,其中 c设为11000,K1为平衡常数.我们随机地把这些化合物分为训练集(39个样本)和预测集(10个样本).
图1 磺胺类衍生物母体结构Fig.1 Structure details of sulfonamides
笔者用Material Studio 4.0软件计算了一系列代表化合物化学结构的描述符,作为原始变量.这些描述符包含了不同方面的分子结构信息,它们包括拓扑描述符,结构描述符,空间描述符,热力学描述符和电子描述符等.选用逐步回归法选出12个变量以用于ANN-NLPLS、ANN、PLS等多变量建模.
3 结果与讨论
首先用PLS计算碳酸酐酶XIV数据集的生物活性,建模用到的自变量为逐步回归法选出的12个变量,该算法所得到的结果被列于表2中,PLS对训练集和预测集的相关系数分别为0.9162和0.7258,磺胺类衍生物的活性的观察值和计算值的相关图显示于图2a中.从图2a和表2中,可以看到用PLS建模得到的计算值和观察值的相关性较差,而且模型误差相当大,这些现象说明,当数据中存在未知而又严重的非线性关系时,PLS将难以获得满意的结果.
表1 磺胺类衍的详细结构及其对碳酸酐酶XIV的抑制活性Tab.1 Structure details of sulfonamides and their bioactivities
表2 ANN-NLPLS、PLS和BP-ANN对CA XIV抑制剂的QSAR分析结果比较Tab.2 Results of QSAR analysis of carbonic anhydrases XIV.Using ANN-NLPLS compared with those obtained by PLS and BP-ANN
针对数据集存在的非线性关系,采用BPANN来进一步考察分子结构和活性的关系.在BP-ANN法中,使用了与PLS建模相同的12个变量.为减少BP-ANN算法产生过拟合的可能性,从训练集中随机抽取了10个样品作为监控集以辅助训练BP-ANN.表2中列出了BP-ANN计算得到的统计结果,从表2可知,BP-ANN产生了明显的过拟合现象.生物活性的计算值(由BP-ANN计算得到)和实验值的相关图见图2b.正如图2a,2b和表2所显示的,PLS和BP-ANN难以对该数据集建立一个满意的构效关系模型.
为了改善碳酸酐酶XIV抑制剂的QSAR模型的性能,用ANN-NLPLS算法来预测该数据集的活性,该算法在建模过程中用的变量与 PLS和BP-ANN中相同,化合物的活性的计算值与实验值的相关图见图2c,从表2中可以看到 PLS,BPANN和ANN-NLPLS计算得到的统计结果.其中,ANN-NLPLS对训练集的相关系数和均方根差(RMSE)分别为0.9260和0.3932,对预测集的相关系数和均方根差分别为0.9148和0.4366.跟PLS比较而言,ANN-NLPLS对训练集和预测集都能提供更优的结果,表明ANN-NLPLS法能有效地拟合数据中存在的非线性关系.当与BPANN法比较时,从表2中可以看出ANN-NLPLS尽管对训练集产生的相关系数低于BP-ANN法,但对测试集产生了明显高于BP-ANN算法的相关系数,这种情况说明了这种算法能有效地克服BPANN法中常常遇到的过拟合问题.从图2a,b,c中可以发现,相对于 PLS和BP-ANN法,ANN-NLPLS法显示了相对较小的生物活性计算值与实验值之间的偏差,这个现象进一步验证了ANN-NLPLS法明显优于PLS法和BP-ANN法.这主要是由于ANN-NLPLS法吸收了PLS和ANN法的优点而避免了两种方法中的缺点,即:合适地组合多个sigmoid函数能有效拟合复杂而又未知的非线性关系和PLS能最大化提取信息而又能有效地克服共线性.
图2 CA XIV抑制剂的活性实验值与用PLS(a)、ANN(b)和ANN-NLPLS(c)法计算得到的计算值的相关图Fig.2 a)Calculated and observed values of bioactivity of carbonic anhydrases XIV by PLS modeling.b)Calculated and observed values of bioactivity of carbonic anhydrases XIV by BP-ANN modeling.c)Calculated and observed values of bioactivity of carbonic anhydrases XIV by ANN-NLPLS modeling.
在本研究中,用于多变量QSAR建模的自变量为:氢键受体数目(Hydrogen bond acceptor),键能(Bond energy),电子拓扑指数(S_dO,S_aaCH),VAMP电子静态描述符(Octupole xyz,Octupole xxy),偶极矩(Dipole moment X,Dipole x),最高占有轨道能(HOMO),总能量(Total energy),脂水分布系数(AlogP),信息含量(Information content).这些变量或多或少与磺胺类药物对CA XIV的抑制活性相关.这些选中的12个描述符中,有5个为电子描述符(Octupole xyz,Octupole xxy,Dipole x,Dipole moment X,HOMO),从而说明了电子描述符对磺胺类药物的抑制活性起着非常重要的作用.其中,Dipole和 HOMO为常用的描述符用于关联生物活性和化合物结构,Dipole为3维电子描述符,它指示了分子在电子静态场领域中长度和方向,描述符 HOMO在控制分子反应和性质方面起到了非常重要的作用,具有高的HOMO的分子将更能捐赠它们的电子,因此这些分子将比具有低 HOMO的分子具有更强的反应活性,因此,描述符 HOMO本质上是分子亲核性的一个量度.除了电子描述符,电子拓扑指数(S_dO,S_aaCH)也对磺胺类化合物的抑制活性起着一定的作用,原子的电子拓扑指数表示这种类型的原子的电子可接近程度.它表示这类原子是否存在,以及原子存在的个数.例如,S_aaCH,S为原子的电子拓扑状态,a表示芳香环.除了这些变量,AlogP,Information content和Hydrogen bond acceptor等也与磺胺类药物的抑制活性紧密相关.其中,AlogP为定量构效关系模型构建的常用参数之一,是与分子疏水性有关的描述符,Hydrogen bond acceptor反应了取代基对反应中心的效果.最后,Bond energy和 Total energy看起来都和CAXIV抑制剂的抑制活性有关.总体说来,CA XIV抑制剂的作用是复杂的,包括了电子的,拓扑的和结构的等方面的作用.
4 结论
在本研究中,PLS、BP-ANN,ANN-NLPLS被用于CA XIV抑制剂的定量构效关系研究,数据结果表明:ANN-NLPLS能有效改善QSAR模型的性能,有效地拟合数据中存在非线性关系并能在一定程度上克服非线性建模过程中常常发生的过拟合问题.通过分析这三种算法的结果可以推断出,电子的、拓扑的和结构等描述符对于预测CA XIV抑制剂的抑制活性是非常重要的.
[1]Hoskuldsson A.PLS regression methods[J].Journal of Chemom,1988,2:211-228.
[2]Wold S,Kettaneh-Wold N,Skagerberg B.Nonlinear PLS modeling[J].Chemom Intell Lab Syst,1989,7:53-65.
[3]Wold S.Nonlinear partial least squares modeling II.Spline inner relation[J].Chemom Intell Lab Syst,1992,14:71-84.
[4]Qin S J,McAvoy T J.Nonlinear PLS modeling using neural networks[J].Comput Chem Eng,1992,16:379-391.
[5]Rosipal R,Trejo L J.Kernel partial least squares in reproducing kernel Hilbert space[J].J Mach Learn Res,2001,2:97-123.
[6]Zhang Y,Li H,Hou A,et al.Artificial neural networks based on genetic input selection for quantification in overlapped capillary electrophoresis peaks[J].Talanta,2005,65:118-128.
[7]Melssen W J,Buydens L M C.Aspects of multi-layer feedforward neural networks influencing the quality of the fit of univariate non-linear relationships[J].Anal Proc,1995,32:53-56.
[8]Zhou Y P,Jiang J H,Lin W Q,et al.Artificial neural network-based transformation for nonlinear partial least-square regression with application to QSAR studies[J].Talanta,2007,71:848-853.
[9]Laszlo T,Claudiu T S.QSAR studies for the inhibition of the transmembrane isozymes XII and XIV of human carbonic anhydrase with a series of sulfonamides[J].Bioorg Med Chem,2007,15:5666-5671.
Abstract:In the current work,we employed artificial neural network-based transformation for nonlinear partial least-square regression to QSAR studies of sulfonamides as the carbonic anhydrase XIV inhibitors.The results were compared with those obtained by artificial neural network(ANN)and partial least square(PLS).Experimental results clearly demonstrated that ANN-NLPLS is a well-performing technique in QSAR studies of CA XIV inhibitors,which compare favorably with PLS and ANN.
Key words:carbonic anhydrase XIV inhibitors;artificial neural network-based transformation for nonlinear partial least-square regression;quantitative structure-activity relationships study
QSAR studies of sulfonamides as the carbonic anhydrase XIV inhibitors by artificial neural network-based transformation for nonlinear partial least-square regression
ZHOU Yanping,J IAO Jian1,ZHOU Xianfeng2,TAN Shimiao1
(1.Key Laboratory of Pesticide and Chemical Biology of Ministry of Education,College of Chemistry,Central China Normal University,Wuhan 430079;2.Hengyang Taihao Communication Vehicle Limited Corporation,Hengyang,Hunan 421001)
1000-1190(2010)04-0618-06
2010-06-23.
中央高校基本科研业务费专项资金科研项目博士基金(CCNU09A01012),湖南大学化学生物传感与计量学国家重点实验室开放基金(200910).
*E-mail:hgzyp2005@yahoo.com.cn.
R914.4
A