中药寒热预测系统的建立
2013-07-06伟周则卫于光允白佳丽刘培勋
龙 伟周则卫 张 浩 于光允 姜 明 白佳丽 沈 秀 刘培勋
(中国医学科学院北京协和医学院放射医学研究所,天津市分子核医学重点实验室,天津,300192)
中药寒热温凉四性是中药药性理论的核心之一,是指导中医临床用药的重要依据,最早见于《神农本草经·序录》。在该书中首次提出“药有酸苦甘辛咸五味,又有寒热温凉四气”的论述,其后经历代医家总结整理形成了一个较完善的中药药性理论体系。这一理论体系贯穿中药学始终,是中药区别于植物药、天然药的重要标志。但是四性的本质尚未被人们所认识,随着中药现代化的不断深入,中药四性的研究日益为大家所重视。近年来的研究方向有以下几个方面:中药四性发展演变规律的研究[1],四性标定规律的研究[2],中药配伍与四性相关性的研究[3],中药药效物质基础与四性的研究[4-10],生物热动力学与中药四性的相关性研究[11-17],药效学与中药四性的研究[18-19],以及与中药四性相关的学说或假说等[20-26]。本文着重介绍了我们构建的中药寒热性质预测系统,并在此基础上对中药寒热药性的化学基础进行了探讨。
1 数据与方法
1.1 数据集建立 中药四气实际上包括了中药的寒热温凉平五种药性,而凉性又可归于微寒性,温性又可归于微热性,抛开平性不论,四气大概可以寒热分之,亦合阴阳之论。中医八纲辨治有,寒者热之,热者寒之,中药以寒热概分,也有医理根据。因此,我们将中药化学数据库中的寒凉性中药归于一个数据集,而温热性中药归入另外一个数据集,平性中药暂不列入本系统数据集中。训练集与测试集中药名称及拉丁名列于表S1 中。
1.2 化学成分获取 通过中药化学数据库的查询,找到以上寒热中药数据集中药味的化学成分。为避免中药异物同名/同物异名现象对化学成分准确性产生的影响,我们使用药典的标准中药名称作为登记词条,并记录他们的拉丁名称,以中药名称作为关键词进行搜索,在得到的搜索结果中对照拉丁名称剔除其他异名选项,以此消除异物同名/同物异名现象产生的干扰。
1.3 描述符产生 使用CODESSA 软件[27]对以上各个中药化学成分分析产生描述符,包括四种描述符:结构描述符,拓扑描述符,几何描述符和静电描述符[28],共计120个。
1.4 重心处理 将以上120个描述符的每一个描述符作为一个维度,这样,所有的中药化学成分便分布于一个多维的化学空间之中。根据中药化学理论[29],一味中药的化学性质籍由它所含有的化学成分决定,但中药所含的化学成分少则十数,多则上百,如何在化学空间中通过如此繁多的化学成分来描述一味中药的化学性质是一个难点。通过多次探索和实践,我们采用了重心处理方法,将每味中药所含的分散在化学空间中的所有化学成分固缩成一个重心点,这个重心点汇集了一味中药中所有化学成分的化学性质,而又使各化学成分之间的性质差异达到一个巧妙的平衡,从而从一个宏观的角度综合描述这味中药在化学空间中的整体性质。重心处理的原理如下:
这里(x0,y0,…,n0)代表重心的坐标,M=∫…∫∫dxdy…dn 代表多维化学空间中由各化学成分分子“颗粒”所包围形成的多面体的质量。本实验中假设各化学成分“颗粒”含有相同的质量。
通过以上重心处理,每味中药都可以作为独立单元呈现于化学空间之中,从而便可用化学空间的描述方法对它重新进行化学定义。重心处理采用自编软件“WeightCenterFinder”计算完成。
1.5 描述符挑选 使用线性判别分析(LDA)的方法挑选与中药寒热性质相关的描述符。线性判别分析的基本原理是用一个超平面将一个多维的空间分割成两个区域,这个超平面定义如下[30-31]:
这里Y 是判别得分,X1-Xn 代表各个描述符,b0-bn 是各个描述符的权重值。根据预测变量(能提供最佳分辨效果)的线性组合,产生一个判别方程。描述符的挑选过程采用步进式Wilks’Lambda 方法:入选在每一步中能最小化Wilks’Lambda 总量的参数,遴选过程以F 参数作为依据。在本论文中,如果F值大于阈值(F=3.84),则入选该参数。其他相应F值小于阈值的参数将再次进入遴选过程。
1.6 分类模型构建分类模型将依据以上选出来的描述符作为输入参数进行构建。本论文提供的寒热预测模型主要是利用支持向量机(SVM)技术进行建模的,为了测试模型的优劣,同时采用LDA的线性方法构建了一个比较模型。SVM的基本思想是通过事先确定的非线性映射将输入向量x 映射到一个高维特征空间中,然后在此高维空间中构建最优超平面,将问题转化为二次规划,在二次规划中,无论是目标函数还是分类函数都只涉及内积运算,如果采用核函数(kernel function)就可以避免在高维空间进行复杂运算,而通过原空间的函数来实现内积运算。因此,选择适当的内积函数K(xi,xj)就可以实现某一非线性变换后的线性计算,而计算复杂度却没有增加。
SVM的原理简单介绍如下。假设有一个两类样本的分类问题,已知有一组样本{xi,yi},i=1,…,n,xi∈Rd,yi∈{-1,+1},分类问题的目的就是找出一个决策函数,使得对于给定的向量能够准确判断其分属于哪一类。如果两类样本属于线性可分,则存在一个最优的超平面,可以将两类样本分布在这一超平面的两侧。SVC的基本思想就是找到这样一个超平面,使两类样本实现最大的分离,即最优超平面。最优超平面就是要求超平面不仅可以将两类无错误地分开,而且要使两类的分类间隔最大。超平面的方程可表示为wx+b=0。而构造最优超平面的问题转换为如下的约束优化问题:
(以上两个公式的含义是在满足第二式的条件下,求解第一式的最小值。其中w,b 两个参数来自超平面方程,xi,yi为样本坐标。余下公式以此类推。)
然后,将原问题转换为如下凸二次规划的对偶问题:
(以上两个公式的含义是在满足第二式的条件下,求解第一式的最大值。其中ai,aj为Lagrangian 乘数。余下公式以此类推。)
根据Kuhn-Tucker 条件,这个最优解还必须满足:
图1 中药寒热预测系统构建流程
2 结果与讨论
2.1 模型结果 CODESSA 一共计算出了386个描述符。由于WeightCenterFinder 软件的输入维度的限制,我们挑选了120个最有代表性的描述符(包括各个描述符种类)作为输入。经过重心处理之后,所有描述符转入SPSS 13.0 进行LDA分析,以此减少描述符的维度,选出与寒热性质最相关的描述符。LDA分析采用步进式的线性判别分析,其参数设定为SPSS 软件的默认设置。每一步分析过程中,入选能最小化Wilks’lambda 总量的变量参数。最大递进步数设为240,移除参数F值设置为2.17,入选参数F值设置为3.84。步进分析持续进行直到F值水平和耐受度超过阈值。最后,5个描述符作为最优参数被挑选出来,见表1、表2。挑选出来的描述符用于接下来的分类模型构建。中药寒热性质与化学描述符之间的关系微妙而复杂,我们采用目前较流行的SVM的非线性处理方法进行建模。SVM的参数设置包括:核函数种类,能力参数C。用于SVM的核函数有线性核函数,多项式核函数,sigmoid 核函数,径向基核函数等。而径向基核函数是最常见的分类型核函数,其优点在于良好的表现性能和参数设置较少。径向基核函数的公式如下:
公式中,γ 为常数,是核参数;x 和xi为两个独立变量;γ 控制高斯函数的幅度,进而决定了SVM的泛化能力。因此,γ 非常重要。又因为C 和γ 这两个参数之间存在相互作用,本论文采用了格点寻踪(grid search)的方法来寻找这两个参数的最优取值。γ 取值范围定为0.001 到0.1,以0.002 作为格点增量,C的取值范围定为100 到1000,以50 作为格点增量。最后用留一法(Leave-one-out)做交叉验证,以模型预测精确度作为判断标准,选定最终参数取值:γ 定值为0.095,C 定值为600。模型预测结果显示,对训练集精确度为83.3%,对测试集预测精确度为81.0%。此结果表明,本论文构建的分类模型预测能力良好,并具有很好的鲁棒性。预测具体结果在表3 中。同时,我们使用相同的描述符作为输入,用LDA的方法建立了一个线性分类模型,作为比较性研究。对两个模型的比较,从表3 中可以看出,SVM的非线性模型明显要优于LDA的线性模型。因此,选择SVM 作为本预测系统的建模方法是一个正确的选择,同时也说明中药寒热性质与化学描述符之间并非简单的线性关系,而是一种复杂的非线性关系。
表1 挑选出的描述符的各项参数
表2 SVM分类模型与LDA分类模型的比较
表3 挑选出的描述符及其化学含义
2.2 描述符的讨论 我们使用LDA的方法选出了与中药寒热性最相关的几个描述符,有关这些描述符的讨论将有利于我们解释中药寒热性质的化学内涵。1)原子数。这是一个最容易理解的简单描述符,指的是分子中的原子数目,这个最简单的描述符与因变量(寒热性质)之间存在最密切的联系:其标准系数最高。这提示我们,中药化学成分的原子数目与中药的寒热性质的形成有着非常重要而关键的联系。另一方面,在LDA的分析结果中,这个描述的系数为正性,这意味着中药化学成分的原子数越高,这味中药为寒性的可能性也越高。这个结论也许可以询证于中药化学的常识。一般来讲,温热性中药多含有挥发油等小分子的成分,如肉桂;而寒性中药多含有生物碱或苷类等分子量相对较大的成分,如黄柏。温热性中药多有发散的作用,寒凉类中药多有收敛沉降的功用。发散者,体轻,其分子量/原子数须小须少方能;沉降者,体重,分子量/原子数须大须多方可。通过这项研究,我们为化学成分的分子量或原子数与中药的寒热性质之间的联系找到了证据。2)氢键受体数。氢键受体[39]指的是分子中的电负性原子,如氟原子、氧原子或氮原子等,而不论该原子是否与氢原子相连。这个描述符的正性系数提示我们,化学成分中的氢键受体数目越多,这味中药的性质可能越偏向寒性。这点也不难从中药化学的常识中找到证据。多存在于寒性中药中的生物碱和苷类,往往含有更多的氧和氮等杂原子,相对而言,这些杂原子在挥发油、萜类中存在较少,而这些化学物质多是温热性中药的主要成分。这个描述符给出了另一个重要的中药寒热性质的化学信息。3)电负性表面面积。两个描述符与电负性表面面积相关:FNSA2和WNSA1。前者代表分子片段的电负性表面面积,而后者代表的是以表面积为权重的局部电负性表面面积。其计算公式如下[40-41]。
公式中,qA是原子的局部电荷,SA是电负性溶剂可及原子表面面积,TMSA 是分子的总表面面积。从LDA的分析结果看,FNSA2的系数为负,而WNSA1的系数为正,在寒热药性的影响上,二者背道而驰,似不能讲通,但是通过对以上两个公式中的TMSA 这个因子的离析(前者为分母,后者为分子),结果便可与LDA的分析结果统一。由此分析,TMSA 很可能是影响中药寒热性的一个重要因素。它的取值越高,中药越偏向寒性。从另一个方面来说,化学成分的电负性似乎对中药的寒性形成颇有贡献。这一点又可求之于中医的阴阳辨证理论,负性为阴,正性为阳,寒凉为阴,温热为阳,二者归根统一,阴阳相符。4)连接指数。最后一个描述符是一个连接指数,这类指数的计算公式如下[42-44]:
第二个公式指出了在分子图像中第K个原子的原子价连接性,其他符号的释义如下:Zk-第K个原子的总电子数;Zkv-第K个原子的价电子数;Hk-直接与第K个非氢原子相连的氢原子数。随着参数m的改变,这些指数也发生相应变化:
因此,3χv是一个第三级的原子价连接性指数。这个描述符提示化学成分的分子连接性也对中药寒热性质的形成具有一定的影响。
2.3 重心处理的讨论 本论文提供了一个原创式的处理策略,重心计算,用于解决化学信息学和化学计量学无法对中药进行化学信息分析的难题。对一个单分子化合物而言,我们很容易运用描述符对这个分子产生各种各样的化学描述。而对一味中药而言,少则十数多则百数的化学成分,使化学信息的描述很难赋予中药这样一个化学综合体。从几何学原理得到启发,我们创制了重心处理策略,在化学空间中对中药中的所有化学成分进行处理得到化学信息的整体概括。这个化学空间是一个多维的空间,每个维度代表一个化学描述符。可以想象在这个空间中,一味中药,其分散的化学成分分子通过重心凝结的方式固缩成一个质点,即重心,这个重心高度浓缩了所有化学成分的化学信息,成为代表这味中药化学信息的标志与符号。这就意味着,每味中药都可以在一个化学空间中用一个质点来表示,也就是说,所有的中药都可以用一系列的化学描述符来进行描述。从本项研究的结果来看,用重心处理的方式来对中药进行化学描述是可行的。在对中药寒热性质的预测实验中,其精确度达到了80%以上,这充分表明重心处理策略是一项颇有前景的方法学创新。我们的重心处理软件开始设定之时是要考虑中药中的化学成分的含量的,用含量权重每个化学成分,最后计算形成重心。但是由于中药化学成分含量测定的不确定性与各种数据的不统一,我们构建的数据库中暂时缺省中药化学成分的含量数据,而在重心处理的时候,只能假定每个化学成分具有等一的权重值,这可能是造成我们的分类模型的预测精度受限(最高预测精度为83.3%)的原因之一。我们相信,随着分析技术的进步,各种中药化学成分的含量将被最终确定,而一个统一的中药化学成分含量标准目录也将公之于世。在那个时候,我们的模型预测精度将有一个大的提升与飞跃。
[1]王春燕.常用中药四性变化规律的文献研究[D].济南:山东中医药大学博士学位论文,2007.
[2]王家葵,沈映君.《神农本草经》药物四气的统计分析[J].中国中药杂志,1999,24(4):246-248.
[3]赵兴连.论中药四性配伍.山东中医药大学学报[J],1999,23(2):106-107.
[4]陈和利,刘晓瑜.中药功效与四种微量元素关系的探讨[J].中国中药杂志,1989,14:48.
[5]陈广源,李启运.复脉系列诸方的复脉强心作用与镁元素[J].中国中医药科技,1996,3:43.
[6]胡育筑,郭环娟,王志群,等.中药四性和微量元素含量关系的初步研究[J].中国药科大学学报,1992,23(6):348-353.
[7]陈阜新.信息论法探讨中药四性与微量元素含量关系[J].数理医药学杂志,2001,14(2):108-110.
[8]盛良.论化学元素具有寒热温凉四性——一论中药四性与现代化学的统一[J].中国中医基础医学杂志,2003,9(1):14-15.
[9]盛良.中药四气五味和化学成分的关系[J].现代中西医结合杂志,2004,13(21):2804-2806.
[10]盛良.论中药矿物药四性与无机化学的结合——二论中药四性与现代化学的统一[J].中国中医基础医学杂志,2004,10(3):24-26.
[11]代春美,肖小河,王迪,等.基于生物热动力学的中药四性研究[J].锦州医学院学报,2004,25(3):48-51.
[12]余惠曼,刘塔斯,肖小河,等.中药四性的生物热动力学研究——人参和西洋参药性的微量量热学比较[J].中国中医基础医学杂志,2001,7(11):60-64.
[13]余惠曼,肖小河,刘塔斯,等.中药四性的生物热动力学研究(Ⅱ)参叶和参花药性的微量量热学比较[J].中草药,2001,32(10):910-913.
[14]周韶华,潘五九,肖小河,等.中药四性的生物热动力学研究——黄连不同炮制品药性的微量热学比较[J].中草药,2004,35(11):1230-1232.
[15]余惠曼,肖小河,刘塔斯,等.中药四性的生物热动力学研究(I)生晒参和红参药性的微量量热学比较[J].中国中药杂志,2002,27(5):393-396.
[16]樊冬丽,廖庆文,鄢丹,等.基于生物热力学表达的麻黄汤和麻杏石甘汤的寒热药性比较[J].中国中药杂志,2007,32(5):421-424.
[17]周韶华,肖小河,赵燕玲,等.中药四性的生物热动力学研究—一左金丸与反左金寒热药性的微量热学比较[J].中国中药杂志,2004,29(12):1183-1186.
[18]许红峰,张瑞.中药剂量与四性的动态相关性分析[J].时珍国医国药,2008,19(5):1247-1248.
[19]俞仲毅,王博,陆敏,等.中药“四性”对器官组织机能影响的初步研究[J].上海中医药杂志,2006,40(4):1-3.
[20]欧阳兵,王振国,李峰,等.中药四性“性一效一物质三元论”假说及其论证[J].山东中医药大学学报,2008,32(3):182-183.
[21]欧阳兵,王振国,王鹏,等.“组群中药四性组合性效谱”假说及其论证[J].山东中医杂志,2006,25(3):154-156.
[22]盛良.论中药四气五味与电子得失吸推偏移能级升降说[J].上海中医药杂志,2008,42(2):4-8.
[23]盛良.论中药四气五味的宏观化学成分说[J].上海中医药杂志,2008,42(7):63-67.
[24]盛良.中药四气五味的量化[J].现代中西医结合杂志,2004,13(22):2943-2945.
[25]宋智秋.创立生物物理药物学学科研究构想——对中医药广泛开展物理研究的意见[J].实用中西医结合杂志,1996,9(9):520-524.
[26]刘培勋,龙伟.中药药性与中药药性物组学[J].中国中药杂志,2008,33(14):1769-1771.
[27]CODESSA.Comprehensive Descriptors for Structural and Statistical Analysis,Version 2.7.10.Semichem,Inc,2007.
[28]Katritzky AR,Lobanov VS,Karelson M.Comprehensive Descriptors for Structural and Statistical Analysis,Reference Manual,Version 2.7.10.
[29]C.M.Dobson,Chemical Space and Biology,Nature.432(2004)824-882.
[30]S.K.Kachigan,Statistical Analysis,Radius Press,New York,1986,pp.264-285.
[31]R.A.Fisher,The statistical utilization of multiple measurements,Annals of Eugenics.7(1936)179-188.
[32]C.Cortes,V.Vapnik,Support vector networks,Mach.Learn.20(1995):273-297.
[33]V.Vapnik,Statistical Learning Theory,Wiley,New York,1998.
[34]W.J.Wang,Z.B.Xu,W.Z.Lu,X.Y.Zhang,Determination of the spread parameter in the Gaussian kernel for classification and regression,Neurocomputing.55(2003):643-663.
[35]B.Scholkopf,C.Burges.A.Smola,(Eds.),Advances in KernelMethods:Surpport Vector Learning,MIT Press,Cambridge,MA,1999,pp.185-208.
[36]N.Cristinanini,J.Shawe-Taylor,An Introduction to Support Vector Machines,Cambridge University Press,Cambridge,UK,2000.
[37]Kernel Machines,2005.http://www.kernel-machines.org.
[38]C.J.C.Burges,A tutorial on support vector machines for pattern recognition,Data Mining Knowledge Disc.2 (2)(1998)121-167.
[39]Wikipedia,the free encypedia,http://en.wikipedia.org/wiki/Hydrogen_bond.
[40]D.T.Stanton,P.C.Jurs,Development and use of charged partial surface area structural descriptors in computer-assisted quantitative structure-property relationship studies,Anal.Chem.62 (1990)2323-2329.
[41]D.T.Stanton,L.M.Egolf,P.C.Jurs,M.G.J.Hicks,Computer assisted prediction of normal boiling points of pyrans and pyrroles,J.Chem.Inf.Comput.Sci.(32)1992 306-316.
[42]L.B.Kier,L.H.Hall,The nature of structureactivity relationships and their relation to molecular connectivity,Eur.J.Med.Chem.12 (1977)307-312.
[43]L.B.Kier,E.J.J.Hall,Derivation and significance of valence molecular connectivity,Pharm.Sci.70 (1981)583-589.
[44]L.B.Kier,L.H.Hall,Molecular Connectivity in Structure-Activity Analysis,J.Wiley & Sons:New York,1986.