穿心莲内酯衍生物构效关系的理论研究
2015-02-11刘爱玲苏敬雷戴桂馥徐海伟
田 阳, 刘爱玲, 苏敬雷, 徐 顺, 戴桂馥, 徐海伟
(1.郑州大学 化学与分子工程学院 河南 郑州 450001; 2.郑州大学 教务处 河南 郑州450001;3.郑州大学 生命科学学院 河南 郑州 450001; 4.郑州大学 药学院 河南 郑州 450001)
穿心莲内酯衍生物构效关系的理论研究
田 阳1, 刘爱玲2, 苏敬雷1, 徐 顺1, 戴桂馥3, 徐海伟4
(1.郑州大学 化学与分子工程学院 河南 郑州 450001; 2.郑州大学 教务处 河南 郑州450001;3.郑州大学 生命科学学院 河南 郑州 450001; 4.郑州大学 药学院 河南 郑州 450001)
选取已测活性的17个穿心莲内酯衍生物,利用高斯软件计算得到其结构参数,通过主成分分析筛选出主要影响参数,进一步利用BP神经网络对建立的活性评价模型进行验证.建立了穿心莲内酯衍生物的构效关系,为进一步开发具有更高活性的穿心莲内酯类药物提供理论依据.
穿心莲内酯; 构效关系; 主成分分析; BP神经网络
0 引言
穿心莲内酯是爵床科植物穿心莲中提取得到的二萜内酯类化合物.现代药理研究表明,穿心莲内酯及其衍生物具有消炎抗菌、抗病毒感染、抗肿瘤、抗心血管疾病、免疫刺激等功能,被誉为天然抗生素药物[1].因其资源广泛,在动物体内吸收快、药效长、生物利用度高,且无明显的毒副作用,故具有较高的临床药用价值[2].根据现有的一些穿心莲内酯类衍生物具有抑制α-葡萄糖苷酶的活性,合成出一系列新的穿心莲内酯衍生物(见表1),经过对α-葡萄糖苷酶的活性测试,发现这些穿心莲内酯衍生物的一部分对α-葡萄糖苷酶具有明显的抑制作用[3-4].
研究传统中药的活性成分和构效关系是开发拥有自主知识产权创新药物的一条重要途径[5].本文通过尝试建立穿心莲内酯类衍生物的构效关系,对未知活性的其他穿心莲内酯类衍生物的活性进行预测,为开发具有更高活性的穿心莲内酯类药物提供理论依据.
1 主成分分析
主成分分析是利用数学上一种降维的思维方式.在对众多的变量或指标信息进行研究时,找出其中尽量少的几个综合变量来取代它,并且这几个综合变量能在尽量使信息少损失的情况下来代表原来的众多变量,且这几个综合变量之间彼此互不相关,这种将对多个变量的研究转化为对少数几个互不相关的综合变量的多元统计学方法叫主成分分析.这种方法可以使原来研究起来复杂且众多的指标简化为对少数主成分的研究,使研究变的简单,提高了分析效率[6].
对穿心莲内酯类衍生物结构参数的主成分分析是在SPSS 19.0统计软件中进行的.目的是要找出对穿心莲内酯活性起主要影响作用的分子结构参数.参考相关文献依次选取最高占据轨道能量与最低空轨道能量之差;在穿心莲内酯的基本结构上选取了:B环电荷Qb, C环电荷Qc,17位碳原子电荷,五元内酯环内氧电荷和环上双键上氧原子电荷,8-17原子核间距L1,12-13原子核间距L2,11-12原子核间距L3,以及分子极化率和偶极矩共11个结构参数.
表1 17个穿心莲内酯衍生物中具体的取代基结构Tab.1 The specific substituent structures of 17 andrographolide derivatives
利用高斯软件(Gaussian 09),在密度泛函理论(DFT)基础上和B3LYP/6-31G(d, p)水平下分别将17个穿心莲内酯类衍生物分子进行结构优化,在确定得到的构型为其最优构形后,分别对各个化合物的振动频率进行了计算,确定不存在虚频,得到分子的稳定结构,然后计算得到了穿心莲内酯类衍生物的上述11个结构参数.
将得到的参数输入SPSS软件,由于计算得到的分子结构参数的量纲并不一定相同,为了消除这些影响,使所有的数据处于同一标准下, 首先需要对数据进行标准化处理. 将11个变量标准化后分别标记为V1,V2,…,V11.接下来进行主成分分析得到累积方差贡献率,列在表2中.
从表2中可以看出前3项的方差累积贡献率为87.047%,可以较为全面地反映数据信息,故提取前3个主成分.这3个主成分与11个标准化变量的关系为:
F1=-0.201 4V1+0.997 3V2+0.993 2V3-1.604 3V4-1.923 8V5-1.877 9V6+
1.518 3V7+1.820 3V8-1.836 3V9+2.048 4V10+1.960 1V11,
F2=0.537 2V1+1.448 5V2-0.024 9V3-0.161 8V4-0.290 1V5+0.629 2V6+
1.184 9V7-0.742 8V8-0.760 7V9-0.139 8V10-0.174 7V11,
F3=-0.208 9V1-0.084 8V2-0.896 5V3-0.181 5V4-0.074 6V5+0.329 3V6-
0.199 7V7-0.404 5V8-0.355 4V9+0.350 9V10-0.261 7V11.
在Fn的主成分表达式中,变量Vn的系数大小反映了各个参数与Fn之间关系的密切程度.
取前3个主成分对穿心莲内酯类衍生物的活性进行分析评价.函数为
F=0.521 2F1+0.237 1F2+0.112 2F3,
其中F1,F2,F3前边的系数为对应的主成分方差贡献率,根据分子的结构参数可求出各主成分的值,就可计算出分子的综合得分,综合得分的大小可体现该分子活性的高低[7].
通过分析相关系数矩阵,发现其中第1主成分主要受前线轨道能量差、分子极化率和偶极距的影响,第2主成分主要受Qb影响, 第3主成分受Qc影响.综上,通过主成分分析对穿心莲内酯类衍生物分子的11个结构参数进行筛选,选取了影响因素较大的5个结构参数,分别是前线轨道能量差、 分子极化率、 偶极距、B
表2 累积方差贡献率表Tab.2 The cumulative variance contribution rate table
环电荷和C环电荷.利用筛选出的3个主成分里的5个参数代替初始的11个结构参数来进行穿心莲内酯衍生物分子活性的预测,简化了计算的复杂程度,减少了接下来神经网络的数据输入,提供了简便的研究分子活性的方法.
2 BP神经网络模型
BP神经网络是多层前馈网络的反向传播算法的简称,也是众多人工神经网络算法中较成熟的一种.该算法由于其完整而又简明,因此近年来被人们广泛应用.
在使用BP神经网络模型进行模拟计算时,Hecht-Nielsen通过数学定理证明当节点具有不同的阈值时,任意一个闭区间的连续函数都是能够用一个隐含层的网络来不断趋近的[8],因而对于选定的3层的BP神经网络能够完成任意的N维到M维的映射.
神经网络中隐含层的确定对于神经网络影响是比较大的,如果隐含层选定的节点数较少,则会导致神经网络对信息的获取能力不足,而使得网络训练陷入局部极限值,有可能使训练失败.反之,如果节点设置较多,就会出现数据分析过度吻合的情况,而且会使神经网络训练时间变长,且结果也不一定会最佳[9].
BP神经网络首先需要编写神经网络模型的预算命令,通过不断试验计算,确定其神经网络的各个参数,然后对穿心莲内酯衍生物活性进行神经网络模型的预测.
图2 3层BP神经网络结构
在matlab(2012a)中将通过主成分分析简化后的结构参数作为输入数据,采用一个3层神经网络结构(如图2)来编写BP神经网络代码.第1层为输入层,对应于17个穿心莲内酯类衍生物的结构参数;中间层为隐含层,为了获得最佳的网络结构,隐含层神经元个数分别取5~10个,当隐含层神经元为6时,网络的性能最好;第3层为输出层,每一个分子对应的活性数据作为输出,故神经元个数为1.这样通过不断试验尝试,最终确定神经网络每层的参数:输入层、隐含层、输出层的神经元个数分别设置为17,6,1.然后采用“交叉检验方法”(leave-one-out)分别对17个穿心莲内酯类衍生物分子的活性进行验证.即每次从17个穿心莲内酯衍生物中选取出一个作为未知样本,剩下的样本作为神经网络的训练集,这样就能预报出所有化合物的活性数据[10],得到相应的预测结果如表3.
表3 BP神经网络预测结果对比Tab.3 Comparison of BP neural network prediction results
注:PRESS为各项误差的平方和
通过反复测试隐含层节点数和影响网络收敛速度的各技术参数,从而有效改进BP神经网络.在每个数值的均方根误差都低于0.1时,训练集学习性能已经可以满足要求,在此基础上最终得到误差的平方和PRESS为0.063.PRESS的值越小,说明预测值与实验值之间的误差越小,模型的预测能力越强[11].这表明可以利用训练好的BP神经网络构建一个模型,从而实现对活性的验证.
3 结论
选取已测活性数据的17个穿心莲内酯类衍生物分子,利用高斯软件计算得到其结构参数,通过主成分分析筛选出主要影响参数,利用简化后的参数信息创建一个3层的BP神经网络对活性进行验证.通过建立的构效关系,可实现对未知活性的其他穿心莲内酯类化合物的活性预测,为进一步开发具有更高活性的穿心莲内酯类药物提供理论依据.
[1] 吕巧莉,涂国刚,詹建锋,等.新型脱水穿心莲内酯环磷酸酯类衍生物的合成及其抗肿瘤活性[J]. 合成化学,2013,21(3): 281-284.
[2] 戴桂馥,王俊峰,何帅伟,等.穿心莲内酯及其衍生物的药理活性研究进展[J].中成药,2006, 28(7): 1032-1035.
[3] Dai Guifu, Xu Haiwei, Wang Junfeng, et al.Studies on the novel a-glucosidase inhibitory activity and structure-activity relationships for andrographolide analogues[J].Bioorganic & Medicinal Chemistry Letters, 2006, 16(10): 2710-2713.
[4] Xu Haiwei,Dai Guifu,Liu Gaizhi,et al. Synthesis of andrographolide derivatives: A new family of aglucosidase inhibitors[J].Bioorganic & Medicinal Chemistry,2007,15(12):4247-4255.
[5] 戴桂馥,马文艳,刘宏民,等.穿心莲内酯衍生物体外抗肿瘤作用及构效关系研究[J].中国新药杂志,2011,20(4): 362-366.
[6] 石杰,李长滨,吴拥军,等.不同厂家冬凌草片的近红外光谱主成分聚类分析[J].郑州大学学报:理学版,2011,43(4):67-70.
[7] 周长会,侯庆高,田金灵,等.抗肝癌中草药中微量元素的主成分分析[J].广西师范大学学报:自然科学版,2013,30(1): 49-52.
[8] 张钰,王让会,李成.基于BP神经网络的表层土壤重金属分布模拟[J].安全与环境工程, 2014,21(2):51-56.
[9] 张梅,潘大仁,周以飞,等.BP神经网络结合正交试验法优选锦锈杜鹃黄酮的提取工艺[J].信阳师范学院学报:自然科学版, 2011, 24(2): 261-264.
[10]高建华,何琴.人工神经网络方法在苯类衍生物常压沸点预测中的应用[J].郑州大学学报:理学版,2005, 37(1): 61-63.
[11]薛晶晶.基于主成分分析和神经网络的黄酮类化合物抗氧化活性研究[D].郑州:郑州大学,2013.
QSAR Modeling of Andrographolide Derivatives
TIAN Yang1, LIU Ai-ling2,SU Jing-lei1, XU Shun1, DAI Gui-fu3, XU Hai-wei4
(1.CollegeofChemistryandMolecularEngineering,ZhengzhouUniversity,Zhengzhou450001,China; 2.OfficeofAcademicAffairs,ZhengzhouUniversity,Zhengzhou450001,China; 3.SchoolofLifeScience,ZhengzhouUniversity,Zhengzhou450001,China; 4.SchoolofPharmacy,ZhengzhouUniversity,Zhengzhou450001,China)
The confirmed activity data of 17 andrographolide derivatives were selected. Structural parameters were calculated by Gaussian software. According to the principal component analysis, the main parameters were chosen. Then the proposed activity evaluation model was verified through a BP neural network. This QSAR modeling provided the theoretical basis for better andrographolide drugs synthesis.
andrographolide; QSAR; principal component analysis; BP neural network
2014-07-27
国家自然科学基金资助项目,编号J1210060.
田阳(1990-),女,河南新乡人,硕士研究生,主要从事药物分子设计及构效关系研究;通讯作者:徐顺(1962-),男,河南开封人,博士,教授,主要从事天然产物和药物分子设计研究,E-mail:shxuzz@zzu.edu.cn.
O6.04
A
1671-6841(2015)01-0103-04
10.3969/j.issn.1671-6841.2015.01.022