小青龙汤治疗咳喘的有效成分预测*
2018-05-10李思洋朱芝娴
李思洋,朱芝娴,董 杰
(南京中医药大学附属医院 南京 210001)
咳喘是呼吸道系统疾病的一种最基本的症状,可见于多种呼吸系统的疾病中,比如常见的呼吸道感染、支气管哮喘、肺心病、职业性肺病以及肺结核、肺癌等。随着气候环境的恶化以及当今社会生活习惯的改变,呼吸系统疾病的发病率逐年升高,而小青龙汤作为经验方剂常被用于治疗呼吸系统疾病[1]。随着祖国医学走上世界舞台,越来越多的国内外学者关注于中医药治疗疾病的分子机制,这就需要我们探明各种中药成分的潜在药理学基础。本文中我们使用了一种基于信号通路模式的方法,将小青龙汤中所涉及的化合物成分以及相关基因的效能进行了评分比较,并对该方在治疗咳喘中发挥主要药理作用的成分进行预测。此研究方法可以作为探索和规范中药现代化应用的一种新思路。
小青龙汤最早见于东汉张仲景所著中医经典著作《伤寒论》,主治外感风寒、内停水饮。《伤寒论》第40条曰:“伤寒表不解,心下有水气,干呕,发热而咳,或渴,或利,或噎,或小便不利,少腹满,或喘者,小青龙汤主之。”第41条曰:“伤寒心下有水气,咳而微喘,发热不渴。服汤已渴者,此寒去欲解也,小青龙汤主之。”从仲景原文看,小青龙汤主症应以咳喘为宜,至于咳和喘孰轻孰重,则临床表现不一。在后续多本著作中均有记载,如《宋·太平惠民和剂局方》、明·方贤著《奇效良方》等,甚至日本的“汉方药”中亦有小青龙汤。该方也是目前临床应用比较多的方剂之一[2]。但小青龙汤及其类方的相关文献报道仍主要集中在中医方证研究、临床治疗和整体动物药效学评价等,少量的药理学研究也仅限于对其中麻黄碱、伪麻黄碱、甲基麻黄碱、芍药苷、肉桂酸等若干含量较高的成分进行定性、定量分析,尚未见对小青龙汤进行系统性的化学成分辨识研究报道[3]。
中药中通常包含了大量的化学物质,所以如果能够系统性的研究某首方剂或者某味中药,寻找到复方当中的有效单体成分,对于阐明中药治疗疾病的机理意义重大。为此,许多研究人员试图建立一种研究策略来探索各种药物成分如何影响药物的效用[4]。目前已有多种方法用于分析药物成分和预测药物效用。这些方法大致可分为两种,第一种是将化合物的生物活性与其化学结构和化学特征联系起来,被称作定量结构活性相关性的研究(Quantitative Structure-Activity Relationship analysis)[5]。但是应用此种方法的缺陷是目前不能获得非常准确的中药药物结构信息。第二种是将复杂化学系统的生物活性与其化学组成相联系,被称为定量组份活性相关性的研究(Quantitative Composition-Activity Relationship analysis)[6,7]。但是这种方法缺乏精确的计算模型来量化化学成分与其生物活性的关系。
本研究中我们使用一种基于通路模式的分析方法(见图1)[4],从药物组成中分析活性成分,并预测其基因靶点,在其中寻找疾病发病机制中起着重要作用的基因靶点。再从选定的基因相关的KEGG通路经过数据挖掘进行检索,从而排定各基因在疾病发病过程中的重要性,提示这些活性成分可能在小青龙汤治疗咳喘中发挥主要作用。
图1 药物活性成分和靶基因预测流程
1 方法
1.1 筛选小青汤中各味草药所包含的化合物成分
中药的成分复杂,要想系统了解某首方剂的药理基础,首先要收集该药方中各味草药包含的所有化合物信息。这里我们所选用的小青龙汤方中包含了8味中草药,通过查询中医药资料库@Taiwan(http://tcm.cmu.edu.tw/zh-tw/index.php)收集了他们各自目前已知的所有化合物成分(共335个,见附表1)。
1.2 化合物成分的相关基因
为了确定上述这些化合物成分中哪些是对于治疗咳喘有作用的活性成分以及预测其相应的靶基因,我们首先通过搜索CTD数据库(http://ctdbase.org)找到可以与这些化合物有相互作用的相关基因。CTD数据库收录了几乎所有FDA批准药物和PubMed收录的小分子化合物及其作用的相关基因和信号通路。由于有些化合物比较罕见,CTD数据库中并没有录入或者没有提供相关信息,我们去掉这些化合物。最终我们在CTD数据库中发现上述335个化合物中有详细分子结构、基因和相关通路的共有50个。这50个化合物能够与被机体细胞识别并产生基因的变化,说明其具有潜在药物活性。进一步分析50个化合物的相关基因有5 133个(详见附表2),这些基因涉及的信号通路有11 740条。
1.3 通路模式挖掘
上一步骤中所发掘出来的50个化合物的所有相关基因可以排出一个候选的靶基因列表。在这个列表中,我们记录下所有的这些基因和他们的出现次数。由于有很多基因是偶然发生,因此可以说其和疾病联系不大,需要设定一个最低阈值来将这些基因排除。因此我们利用DAVID生物分析系统(https://david.ncifcrf.gov/)对哮喘相关基因进行富集[8,9]。将基因出现频次相同的作为一组,每组基因号通过ENTREZ_GENE_ID进行校正后,以“哮喘”为关键词,由系统计算每组基因与疾病的相关性(由P值反映)。将基因与疾病相关性最为密切的一组基因的频次设定为阈值,出现频次小于阈值的基因将被舍弃。通过设定阈值筛选之后剩余的基因便可以进行通路信息的收集和研究了。这里我们通过搜索KEGG数据库(http://www.genome.jp/kegg/)将每一个基因对应所有的通路找出来。每一个基因对应一个通路的数据集。在这些数据集中,如果某些通路单独或成组地多次出现,那么这一对或一组信号通路便应该与我们所感兴趣的疾病有着莫大的关联[4]。同时,我们人为地将与咳喘明显不相关的信号通路提出,保留与肺部疾病,细胞生长和周期以及免疫相关的信号通路。在一定的支持度和置信度设定下,利用clementine 12.0统计软件的Apriori模型对信号通路进行关联分析。这些在强双向关联规则下的通路被认为是高度相关的,并组成了我们所谓疾病通路模式。
1.4 通过通路模式计算基因得分
通过疾病通路模式便可以计算出一种相关基因的得分。而如果一个基因处于更多上述的强双向关联规则中,那么它理应在疾病的发病机制中发挥更重要的效用,此时它的得分便更高。假设强关联规则中存在两个、三个...k个信号通路相关,或单个疾病相关信号通路的高频出现。疾病通路模式中单个、两个、三个...k个信号通路关联规则包含的通路数目分别为N1、N2、N3...Nk。
则某基因得分的计算公式为:
其中hi表示在某一项关联规则中涉及的所有通路中,该基因所对应的通路个数。通过这个计算得分的办法,便可以将之前找到的基因根据在咳喘中的重要程度进行量化,而得分高于0的这些基因便是后面所谓的候选靶基因,并做成候选靶基因列表。
1.5 化合物的效能计算
为了衡量各种化合物的效用,我们定义了一个效能指标。该指标包括功能性与特异性两个方面。功能性方面,我们假设某种化合物涵盖了越多的上述得分较高的候选靶基因,那么其功能就越好。使用函数计算。m为化合物对应的基因集中含有的候选靶基因数,S是所有靶基因得分之和,IJ表示候选靶基因列表中的第 j个基因是否是化合物对应的基因集中含有的基因,是则为1,否则为0,Sgj是第j个基因的基因得分。特异性方面,我们假设化合物对应的基因集中不在上述候选靶基因列表中的基因越少,特异性就越高。因此,可以使用函数计算特异性。N是该化合物相关基因的总数量,而Ngt是相关基因中包含在上述候选靶基因列表中的数量。最终得到的功效指标定义为当一个化合物的相关基因与候选靶基因列表完全重合的话,那么其 func=1、spec=1,EI的得分也是最高分1。 func和spec的下降,都会造成EI的分值下降。依据EI的进行排名,便可整理出方剂中高得分的那些化合物即为所要寻找的有效成分。这些最后得出的有效成分与上面所得到的靶基因一起便可以看作是小青龙汤在治疗咳喘病中潜在的基础药理机制。
2 结果
2.1 通过挖掘通路模式筛选基因
首先通过查找中药数据库@Taiwan,将小青龙汤中单味药所包含的小分子化合物列出(以芍药为例如表1所示)。药物成分所包涵的各种化合物相关基因数量非常庞大,因此需要通过挖掘通路模式来进行筛选。我们将50个化合物所有的相关基因罗列出来,共5 133个。将这些基因根据他们的发生频数进行排列。如同我们在图2中所展示出来的,发生频数高的基因数量是相对很少的,而可能因为偶然因素发生一次两次的这些基因却数量庞大。进一步使用DAVID生物分析系统对这些基因进行富集分析[10]。即选择该系统中“GENETIC_ASSOCIATION_DB_DISEASE_CLASS”的分析,以“哮喘”为关键词,从而找出与我们要研究的哮喘以及肺部相关疾病高度相关的基因。该系统所提供的这种分析方法可以计算出这些基因的一个相关性指标P值(P值越低,说明关系越密切)。随着基因发生频数的降低,基因与哮喘的发生关系越来越密切(-InP值越高),最后发现在频数为4处的这组基因与哮喘关系最为密切,如图3所示。发生频率在4以下的基因与哮喘关系逐渐疏远。所以我们将频数4设为阈值,即将基因频数为3或以下的基因舍弃。通过这种方式对所有的这5 133个基因进行筛选,最终得到了106个候选基因。
表1 芍药中的化合物单体成分
2.2 疾病的相关通路模式
将通过筛选得到的106个候选基因在KEGG数据库搜索,其中有着详细通路信息的基因有98个。这些基因的所有相关通路均记录在附表3中。这98个基因所对应的化合物也减少到47个。利用这些基因在KEGG数据库中所查到的通路信息,并设定了对应的支持度0.09与置信度0.9后,我们得到了包括了25个单项目通路、1个双项关联规则与6个多项关联规则的通路模式(见表2)。
2.3 基因得分
通过上面步骤所挖掘得出的通路模式,我们便可以计算所有这98个候选基因的基因得分(见附表4)。表3以CASP3基因为例,展示了根据公式计算基因得分的过程。其中有75个基因的得分在0分以上。将基因得分在前20的基因列在表4中,得分最高的三种基因分别为MAPK1、MAPK3与RELA。这些高得分的基因便被认为与咳喘高度相关,同时也有可能就是小青龙汤在治疗咳喘时所作用的靶基因。
2.4 化合物的效能指数
经过之前的筛选最后剩下来的候选化合物只剩下47个(见附表5)。根据这些化合物相关基因的基因得分,我们可以计算出这些化合物的功能函数值 func与特异函数值spec,并最终得出他们的效能指数EI。表5以萝卜硫苷(Glucoraphanin)为例,展示了化合物效能的计算过程。将这些化合物的EI值进行排名后我们在表6中列出了其中的前十名,以及包含了这些化合物成分的草药。其中效能最高的3种化合物为Paeonol(丹皮酚)、Glycyrol(甘草醇)、Geraniin(老鹳草素)。
3 讨论
本文中我们使用了一种基于所谓通路模式的方法对小青龙汤治疗咳喘的有效成分及其发挥药效的靶基因进行了预测。通过使用数据挖掘的方式搜集所有的成分、相关基因、通路等等大量的信息。再使用诸如戴维富集分析等方法设定一定的阈值来对所有的信息进行筛选,将很多偶然发生的基因和无关的信号通路剔除。最终得到需要的化合物成分和靶基因,并作为最后的预测结果。
图2 50个化合物对应的相关基因出现的频数
图3 通过DAVID生物分析系统进行基因的富集分析
表2 疾病相关的通路模式
在我们最后得到的结果中,有一些在以前的相关研究中已经报道过。比如我们计算的出EI分值较高,在所有化合物排名第九的山柰酚(Kaempferol),就被发现可以通过调节NF-κB信号通路可以减轻流感造成的呼吸系统损伤,同时有效降低了小鼠肺损伤模型血液中肿瘤坏死因子(TNF)、白细胞介素6(IL-6)的含量,二者也正是我们所预测小青龙汤发挥药效靶基因(即基因得分排名前二十)[11]。同样的结论在一些慢性阻塞性肺疾病和慢性支气管炎的研究中也有报道[12,13]。当然这些呼吸系统的疾病均包含在中医的咳证与喘证中[14]。而没有文献报道的这些化合物与靶基因也可能成为以后对于小青龙汤治疗咳喘的基础药理机制研究的方向。
本研究中也获得了一些既与小青龙汤中的小分子化合物相关联,又与咳喘发生相关的基因,小青龙汤对咳喘的治疗作用可能依赖于这些信号分子和相关信号通路,如丝裂原活化蛋白激酶(MAPK)信号通路。实际上,已经有研究发现,一些中药方剂主要是通过抑制MAPK信号,改善小鼠咳喘症状[15]。
表3 CASP3(ID:836)基因得分
表4 排序前二十的相关基因
表5 萝卜硫苷(Glucoraphanin)效能(EI)计算
当然这种研究方法也有很多缺陷,比如所建立的通路模式缺乏生物学价值。这种通路模式其实是通过数据挖掘的方式,从大量的信息中统计出来的,它更多的是符合统计学意义,而在生物学上还不能找到合适的解释。所以寻找其生物学意义也可作为后面研究的一个重点和方向。并且由于所研究化合物的详细成分组成和基因资料并不完全,研究过程中排除的很多化合物在治疗疾病的过程中可能也起到了很重要的作用,但以现在的资料储备水平我们也不得而知了。另外在本研究的基础上,还需进一步进行动物实验,探索本研究中预测为治疗效能较高的化合物单独或者联合使用,阐明其是否能够治疗或改善哮喘症状。
表6 效能指数EI前十名的化合物
总的来说,这项研究通过数据挖掘这一利用当今网络大数据的方法,成功预测了小青龙汤治疗咳喘病的很多有效成分及其作用的靶基因。未来,如果可以使用这种方法探索更多的传统中药名方,那对于中药治疗基础药理研究的标准化有着重要意义。
1 张立山,戴雁彦.小青龙汤应用之我见.中华中医药杂志,2008,23(09):847-848.
2 朱晓宏.小青龙汤现代药理研究及临床应用概况.国医论坛,2007,22(6):52-53.
3 范骁辉,肖舜,艾妮,等.基于网络方剂学的小青龙汤类方功效物质组研究.中国中药杂志,2015,40(13):2634-2638.
4 Dai W,Chen J,Lu P,et al.Pattern-based prediction of active drug components and gene targets from H1N1 influenza's treatment with maxingshigan-yinqiaosan formula.Mol Biosyst,2013,9(3):375-85.
5 Burbidge R,Trotter M,Buxton B,et al.Drug design by machine learning:support vector machines for pharmaceutical data analysis.Comput Chem,2001,26(1):5-14.
6 Wang Y,Wang X,Cheng Y.A computational approach to botanical drug design by modeling quantitative composition-activity relationship.Chem Biol Drug Des,2006,68(3):166-172.
7 Cheng Y,Wang Y,Wang X.A causal relationship discovery-based approach to identifying active components of herbal medicine.Comput Biol Chem,2006,30,148-154.
8 Huang da W,Sherman B T,Lempicki R A.Bioinformatics enrichment tools:paths toward the comprehensive functional analysis of large gene lists.Nucleic Acids Res,2009,37(1):1-13.
9 Huang da W,Sherman B T,Lempicki R A.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources.Nat Protoc,2009,4(1):44-57.
10 Chen L,Tai J,Zhang L,et al.Global risk transformative prioritization for prostate cancer candidate genes in molecular networks.Mol Biosyst,2011,7(9):2547-2553.
11 李妍,王春富,张瑞华,等.山柰酚通过下调NF-κB信号通路减轻猪源甲型H9N2流感病毒所致小鼠急性肺损伤.中国病理生理杂志,2017,33(2):315-321.
12 刘禹翔,王峰,曲敬来,等.小青龙汤对慢性阻塞性肺疾病急性发作期患者细胞因子及肺功能的影响.新中医,2013,45(7):24-26.
13 孟学峰,范晔,薛连峰.小青龙汤加味改善慢性支气管炎急性发作期患者血清IL-6和TNF-α的研究.中医研究,2009,22(6):27-29.
14 王有奎.呼吸病的中医诊治与调理.北京:人民军医出版社,2007.
15 罗永峰,吴壮,徐军.天龙咳喘灵改善慢性哮喘小鼠气道重塑的机制.辽宁中医杂志,2011,38(2):357-359.