中药化学成分与CYP2C19相互作用预测研究△
——基于定量构效关系(QSAR)模型
2015-09-25雷蕾王新洲张黎朱永亮杨策崔蒙钱向平
雷蕾,王新洲,张黎,朱永亮,杨策,崔蒙*,钱向平
(1.中国中医科学院中医药信息研究所,北京 100700;2.苏州润新生物科技有限公司,江苏 苏州 215123)
·基础研究·
中药化学成分与CYP2C19相互作用预测研究△
——基于定量构效关系(QSAR)模型
雷蕾1,王新洲2,张黎1,朱永亮2,杨策1,崔蒙1*,钱向平2
(1.中国中医科学院中医药信息研究所,北京 100700;2.苏州润新生物科技有限公司,江苏 苏州 215123)
目的:使用随机森林(RF)算法和支持向量机(SVM)算法构建定量构效关系模型(QSAR),并筛选出最优模型,对部分有毒中药包含的化学成分对CYP2C19可能的作用进行了预测,为临床应用和药物开发提供参考。方法:本文使用Mold2软件(version 2.0.0)对收集到的130个化学成分进行分子描述符计算,对其进行初步筛选后,分别采用RF和SVM进行预测模型的构建,最后筛选出最优预测模型,并对中药化学成分进行预测。结果:根据预测模型的准确度和接收器操作特征(ROC)值筛选出最优分子描述符为6个,合并SVM和Leave-10%-out交叉验证方法模型为最优预测模型。对《中华人民共和国药典》2010版10个大毒中药,例如斑蝥、马钱子、天仙子等包含的化学成分进行了预测,得到一些有意义的结果。结论:定量构效关系模型(QSAR)对中药化学成分进行预测研究可以为联合用药和进一步研究提供参考。
定量构效关系模型;CYP2C19;中药化学成分
近年来随着临床上对中药和中药制剂的广泛应用,中药对细胞色素P450的作用研究备受关注[1]。细胞色素P450为一类亚铁血红素-硫醇盐蛋白的超家族,其参与内源性物质和包括药物环境化合物在内的外源性物质的代谢[2]。中药化学成分影响了机体细胞色素P450酶活性或蛋白表达,从而导致药物之间的相互作用。中药化学成分与细胞色素P450酶的相互作用研究逐渐成为热门领域。值得关注的是CYP2C19是CYP450家族中最重要的药物代谢酶之一,主要存在于肝脏微粒体内,许多内源性底物以及临床上大约2%的药物都由其催化代谢[3-4]。笔者搜集了相关中药化学成分与CYP2C19相互作用的数据,使用定量结构-活性关系(Quantitative Structure-Activity Relationship,QSAR)方法对中药化学成分与CYP2C19相互作用进行研究,并对部分有毒中药的化学成分与CYP2C19的作用进行预测,为中药新药开发利用提供参考。
1 方法
1.1 分子描述符的筛选
用Mold2软件(version 2.0.0)对每个化合物的2D结构计算777个分子描述符。Mold2由美国国家毒理研究中心生物信息中心开发,是一款快速且免费的2D分子描述符计算软件,能够基于化合物的2D结构计算其2D描述符[5]。
使用R软件(version 3.0.2)[6]对777个2D描述符进行筛选。首先,剔除了超过总数90%的计算值为恒定值的描述符;其次,在此基础上对两两相关系数高于0.9的两个描述符选用其中一个,以确保描述符之间没有严重的依赖关系;然后对余下的描述符间存在多元相关的进行剔除。
1.2 QSAR模型构建
1.2.1 数据集分割 将集中的数据随机分为训练集(105个)和测试集(25个)。训练集用来建立模型,测试集用以检验模型。
1.2.2 建立模型 本文分别使用随机森林(Random Forest,RF)算法[7]和支持向量机(Support VectorMachine,SVM)算法构建模型。SVM算法用高斯函数作为建模的核函数[8]。在具体的模型构建过程中设定迭代次数为10次,并利用10折交叉验证方法(10-fold cross-validation)对模型构建方法进行评估[9]。以上建模方法主要采用R软件中的caret包[10]实现。
2 结果
2.1 分子描述符的筛选和模型构建
利用Mold2软件对训练集中的每个化合物进行分子结构描述符计算,得到105×777 的描述符矩阵数据。利用R软件对这777种描述符进行初步筛选,最后得到了97个描述符。
在模型构建阶段,笔者采用随机森林算法和支持向量机算法,同时随机选取不同数量的分子描述符构建模型,并使用Leave-10%-out交叉验证方法得到相关模型的准确度和ROC值。结果见图1~2。
图1 随机选出分子描述符的数量和模型准确度的关系图
图2 随机选出分子描述符的数量和模型ROC的关系图
从图1和图2中可以看出,使用随机森林算法合并Leave-10%-out交叉验证,当描述符集合为97个时模型准确度为0.720 5,相关的ROC为0.731 7;使用支持向量机算法合并Leave-10%-out交叉验证方法建立的模型,当描述符集合为6个时,模型准确度为0.772 7,相关的ROC为0.802 5。因此在支持向量机合并Leave-10%-out交叉验证构建的模型中,以选取的6个描述符集合作为变量集合,所构建的模型为最优模型,此时的模型采用的变量数较少,而其模型效果也最优(相关的ROC值和准确度最高)。见表1。
2.2 最优模型的检验
为了更准确地计算出支持向量机合并Leave-10%-out交叉验证预测模型的准确度,本文利用Mold2软件对测试集(25个)中的每个化合物进行分子结构描述符计算,然后利用支持向量机合并Leave-10%-out交叉验证最优预测模型对测试集进行相关预测,准确度为76%。
表1 最优预测模型所采用的描述符集合
2.3 对部分中药化学成分的预测
本文对《中华人民共和国药典》2010版记录的10味大毒中药川乌、马钱子、马钱子粉、天仙子、巴豆、巴豆霜、红粉、闹羊花、草乌、斑蝥包含的324个化学成分进行预测,预测结果见表2。
表2 10味大毒中药包含的化学成分的预测结果
3 讨论
QSAR是使用数学模型来描述分子结构和分子的某种生物活性之间的关系,其基本假设是化合物的分子结构包含了决定其物理、化学及生物等方面的性质信息,而这些理化性质则进一步决定了该化合物的生物活性。由此可见,构建QSAR模型的基础是分子结构。《中华人民共和国药典》2010版记载的10味大毒中药中巴豆霜是巴豆的炮制品,马钱子粉为马钱子的炮制加工品,目前没有巴豆霜和马钱子粉的化学成分报道。此外,红粉是由氧化汞和硝基汞无机物组成,因此本文没有这3种中药的预测结果。
从对其他大毒中药化学成分的预测中可以看出,马钱子包含的绿原酸对CYP2C19没有抑制作用[11],与文献报道一致。斑蝥含有4个化学成分,本文预测出其中3个:(2S)-6-氨基-2-[(3aR*,4S*,7R*,7aS*)-3a,7a-二甲基-1,3-二酮-4,7-环氧八氢异吲哚-2-基]-己酸、(2S)-2-[(3aR*,4S*,7R*,7aS*)-3a,7a-二甲基-1,3-二酮-4,7-环氧-八氢异吲哚-2-基]-5-胍基戊酸、(2S)-5-氨基-2-[(3aR*,4S*,7R*,7aS*)-3a,7a-二甲基-1,3-二酮-4,7-环氧八氢异吲哚-2-基]-戊酸对CYP2C19有抑制作用,预示着中药斑蝥可能对CYP2C19有抑制作用。同时,本文还预测出马钱子和天仙子包含的所有化合物都对CYP2C19没有抑制作用,预示着马钱子和天仙子可能对CYP2C19没有抑制作用。这些预测结果可以为斑蝥、马钱子和天仙子的联合用药提供参考。例如,如果斑蝥与需要通过CYP2C19酶进行代谢的药物同时服用,那么就可能影响该药物的正常代谢,而使其毒副作用增加。
[1] 翁小刚,朱晓新,梁日欣,等.中草药代谢与细胞色素P450的关系研究进展[J].中国实验方剂学杂志,2009,15(12):104-107.
[2] 严非,夏春华,熊玉卿.CYP2C19 基因多态性对药物代谢的影响及其个体化用药[J].中国临床药理学与治疗学,2010(8):949-953.
[3] Pestka E L,Hale A M,Johnson B L,et al.Cytochrome P450 testing for better psychiatric care[J].Journal of Psychosocial Nursing and Mental Health Services,2007,45(10):15-18.
[4] Bertilsson L.Metabolism of antidepressant and neuroleptic drugs by cytochrome p450s:clinical and interethnic aspects[J].Clin Pharmacol Ther,2007,82(5):606-609.
[5] Hong H,Xie Q,Ge W,et al.Mold2,molecular descriptors from 2D structures for chemoinformatics and toxicoinformatics[J].Journal of Chemical Information and Modeling,2008,48(7):1337-1344.
[6] R Core Team(2013).R:A language and environment for statistical computing[CP/OL].Vienna Austria:R Foundation for Statistical Computing.http://www.R-project.org/.
[7] HO T K.RandomDecisionForest[M].Montreal,QC:1995:278-282.
[8] PRESS H,TEUKOLSKY A,VETTERLING T,et al.Numerical Recipes:The Art of Scientific Computing:Third Edition[M].New York:Cambridge University Press,2007:883-892.
[9] GEISSER S.The predictive sample reuse method with applications[J].JAmStatAssoc,1975,70(350):320-328.
[10] Max Kuhn.Building Predictive Models in R Using the caret Package[J/OL].Journal of Statistical Soft,2008,28(5).http://www.jstatsoft.org/v28/i05.
[11] 孔丽敏.人 CYP2C19.1 野生型和 CYP2C19.2 突变体蛋白体外表达模型的构建,活性表征及抑制剂研究[D].杭州:浙江大学,2012.
PredictionofInteractionbetweenChemicalComponentofChineseHerbsandCYP2C19withQSAR
LEIlei1,WANGXinzhou2,ZHANGLi1,ZHUYongliang2,YANGCe1,CUIMeng1*,QIANXiangping2
(1.InstituteofBasicResearchinClinicalMedicine,ChinaAcademyofChineseMedicalScience,Beijing100700,China;2.SuzhouNeupharmaCo.Ltd.Suzhou,215123,China)
Objective:In order to provide reference for clinical application and drug development,a quantitative structure-activity relationship(QSAR)model was build u Pusing Random Forest(RF)and Support Vector Machine(SVM)and predicted chemical components of some toxic Chinese herbs with the best QSAR model.Methods:First,Mold2 software(version 2.0.0)was used to calculate molecular descriptors of 130 chemical components.After preliminary screening of molecular descriptors,QSAR models were built u Pwith RF and SVM.Then interaction of chemical components and CYP2C19 was predicted by the QSAR model with the best accuracy and ROC.Results:The optimal QSAR model of six molecular descriptors,SVM and Leave-10%-out cross-validation was determined based on the accuracy and ROC value.And chemical components of ten toxic Chinese herbs such as cantharis,nux vomica,henbane were studied.Conclusion:QSAR model of Chinese herbs and some predict outcomes would provide references for drug use and experimental studies.
Quantitative structure-activity relationship(QSAR);CYP2C19;chemical components of Chinese herbs
2014-11-24)
国家自然科学基金项目—中药对细胞色素P450酶作用及配伍减毒的计算预测(81374060)
*
崔蒙,研究员,研究方向:中药信息学;E-mail:cm@mail.cintcm.ac.cn
10.13313/j.issn.1673-4890.2015.5.003