APP下载

中药网络药理学研究流程及代表性数据库工具△

2021-08-05王凤雪高宇刘海波

中国现代中药 2021年6期
关键词:药理学靶点化合物

王凤雪,高宇,刘海波

中国医学科学院 北京协和医学院 药用植物研究所,北京 100193

中药是在传统医药理论的指导下,经过加工炮制后应用于临床的药物,包括植物药、动物药和矿物药。中药在中国及日本、韩国等东亚和东南亚地区应用十分广泛,在预防、治疗疾病,养生等方面发挥着重要的作用。虽然中药的应用广泛,但由于其“多成分、多靶点”的作用特点,在分子水平上通过实验手段阐明其作用机制仍存在很大的技术困难,这一情况严重阻碍了中药的现代化研究进程。网络药理学方法的引入使这一困境得到了很大的改观。网络药理学由英国药理学家Hopkins于2007年提出,该学科以系统生物学思想和数据为基础,通过网络方法解析药物、靶点和疾病之间的相互关系,根据分析结果研发和设计具有多种药理学效应的药物[1]。网络药理学属于系统生物学、生物信息学和高通量组学分析的药理学分支学科[2-4]。近年来,网络药理学被广泛应用于中药方剂及单体对疾病的药理作用及其机制研究[5-7]、复方新适应证发现[8]和网络毒理学研究[9]等。以“network pharmacology/网络药理学”为主题在PubMed和中国知网(CNKI)上进行检索,近10年来关于网络药理学的文章发表情况见图1。由图1可以看出,网络药理学研究呈现逐年上升的趋势。

图1 近10年网络药理学相关文章发表情况

本文以网络药理学研究流程为基础,重点介绍关于中药化合物收集、化合物和疾病靶点预测、基因富集分析等技术环节的代表性数据库,对各数据信息平台的特点进行比较,为后续中药网络药理学的研究提供参考。

1 中药网络药理学研究一般流程

网络药理学通过构建网络来解释中药多成分、多靶点的协同作用,经过多年发展,已经形成了一条基本的研究流程(图2)。以研究中药复方或单味药的药理作用和作用机制为例,其网络药理学研究的一般流程包括以下几个技术环节:1)活性成分收集和筛选;2)活性成分作用靶点的预测;3)收集相关疾病的靶点群;4)将疾病靶点与化合物靶点进行整合,获得复方或单味药成分针对某种疾病的作用靶点信息;5)网络构建和基因富集分析。为了确保数据的全面性和准确性,在每一环节,通常会在多个数据库进行检索,之后进行数据合并去重,在此基础上,进行后续的研究。

2 中药活性成分数据库

除了少数矿物药之外,绝大多数中药含有多种化学成分,其中的活性化合物是治疗疾病的主要因素。活性化合物与人体内靶点产生相互作用,从而产生治疗疾病的效果。因此活性化合物的获取作为中药网络药理学的第一步,对于中药作用机制研究具有重要意义。

2.1 中药系统药理学数据库与分析平台(TCMSP)

TCMSP(http://tcmspw.com/tcmsp.php)[10]是1个融合了药物化学、药动学、药物-靶标-疾病网络的药理学平台。该数据库的资源整合了TTD、PharmGKB[11]及PubChem[12]数据库的相关信息,包括化学成分、靶点和药物靶点网络。截至2014年,TCMSP收集了《中华人民共和国药典》(以下简称《中国药典》)2010年版中的499味植物药及每味中药的化学成分(29 000余个)。该数据库最大的特点是针对每个化合物提供了较全面的人体吸收、分布、代谢、排泄(ADME)评价数据,涉及口服生物利用度[13]、药物相似度[14]、肠上皮细胞通透性、血脑屏障、水溶性等天然化合物的药动学特性,同时提供了潜在活性分子的靶标及其疾病信息。因此,用户可以选择具有良好药物相似性和ADME性质的化合物进行进一步研究。

2.2 中医药整合药理学研究平台(TCMIP)

TCMIP v2.0(http://www.tcmip.cn/TCMIP/index. php/Home/Login/login.html)[15]是以中医药百科全书在线数据库(ETCM)为数据资源,采用人工智能和数据挖掘等方法构建的关于中药材、中药方剂、中药成分、成分靶点和疾病的数据库,包含402种中药、3959种方剂和7284种中药成分。对每一味中药的信息都有详细的记载,包括性味归经、涉及的靶点和疾病、成分及成分对应的靶点等信息。TCMIP数据库对中药成分也进行了详细的记载,包括化合物的结构,相对分子质量,药物的吸收、分布、代谢、排泄和毒性(ADMET)和相关参考文献等信息,同时可以链接到PubChem和ChEMBL数据库。

图2 中药网络药理学研究的一般流程

2.3 BATMAN-TCM

BATMAN-TCM(Bioinformatics Analysis Tool for Molecular Mechanism of Traditional Chinese Medicine,http://bionet.ncpsb.org/batman-tcm/)数据库[16]基于TCMID数据库中的方剂-中药-成分关联数据,已知的药物/成分靶点来自DrugBank、京都基因与基因组百科全书(KEGG)和TTD数据库,用户可以提交中药的拼音名称、英文名称或拉丁文名称,获得每味中药的化学成分及成分的潜在靶点,并可以获得对这些靶点的功能分析结果,包括基因本体(GO)、KEGG通路及OMIM/TTD疾病富集分析结果。除此以外,也允许用户同时输入多个中药方剂/中药/化合物列表进行比较或组合分析,帮助用户通过分子和整体的水平了解中药。

2.4 TCM Database@Taiwan

TCM Database@Taiwan(http://tcm.cmu.edu. tw/)数据库[17]是目前世界上最大的非商业中药小分子数据库,包含来自453种不同草药、动物和矿物中药配方的20 000种成分。数据库中每个纯化合物的cdx(2D)和Tripos mol2(3D)格式可供下载和虚拟筛选。中药成分的二维和三维结构由ChemBioOffice 2008构建,并利用ChemBioOffice计算了其物理化学性质,包括脂水分配系数和极性表面积。

2.5 TCMID

TCMID(Traditional Chinese Medicine Integrated Database,http://www.megabionet.org /tcmid/)数据库[18-19]包括6个数据领域,即复方、草药、组分、靶点、药物和疾病。数据库信息是通过文献挖掘和引用其他数据库信息汇集而来,化学成分信息由TCM Database @Taiwan及《中药百科全书》获得。数据库通过将中药组分和疾病数据库(如DrugBank、OMIM和PubChem等)相链接的方式将药物组分信息与疾病建立联系。

网络药理学研究中常用的中药活性成分数据库及其特点见表1。

表1 网络药理学研究中常用的中药活性成分数据库特点

3 化合物靶点预测数据库

化合物的靶点信息由药理实验和计算预测2方面来源构成。由于高通量筛选技术的发展,天然产物药理活性数据总量大幅度增加,并由PubChem等数据库收集,较容易获取。虽然有假阳性数据存在,但这类数据总体上可靠性较高。但是,实验方法无法提供全面的药理活性检测,通过计算预测方法可以弥补实验的不足,基于化合物的结构信息,通过分子对接、定量构效分析或者药效团等方法,可以预测化合物的活性。不同类型的数据库对上述2种类型的活性数据侧重点有所不同。

3.1 STITCH

STITCH(Search Tool for Interactions of Chemical,http://stitch.embl.de/)数据库[20-21]包含已知的和预测的化学组分与蛋白的相互关系信息,这些关系包括直接的(物理作用的)和间接的(功能的)联系。STITCH数据库信息丰富,由39万种小分子和260万种蛋白的相互关系组成。该数据库的最大优势是海量数据和结构相似性的可比较功能。可以通过输入组分的化学分子结构,确定分子结构相似的化学组分。这些相似结构的化学组分的靶点可以考虑是待确定的化学组分的推定靶点。STITCH数据库的数据来源为计算机预测、物种间的知识转换、其他数据库的整合及文本发掘。

3.2 TTD

TTD(Therapeutic Target Database,http://db.idrblab.net/ttd/)数据库[22]可提供有关药物、靶点、疾病和通路的信息,目前的版本更新于2019年11月,收集了37 316个药物,其中包括2649个准许药物、9465个临床试验药物、5059个专利药物及20 143个实验药物,共对应3419个靶点。用户可以通过靶点、药物、疾病和生物标志物搜索数据库,也可以使用药物相似性搜索工具预测没有靶点信息的化合物的靶点。相似性搜索基于Tanimoto相似性搜索方法。查询化合物可以通过其MOL、SDF或SMILES格式输入,然后该工具列出其类似化合物和相应的Tanimoto相似性分数。具有最高得分的化合物的靶点可以被预测为查询化合物的靶点。

3.3 SEA

SEA(Similarity Ensemble Approach,http://sea.bkslab.org/)数据库[23]根据蛋白质配体的化学相似性,对蛋白质进行定量分组和关联,65 000个配体被注释成一系列的药物靶点。利用配体拓扑结构计算各组间的相似度,根据化学相似性映射药理学的相似性。对于单个化合物,用户可以通过化合物的SMILES码进行检索;对于多个化合物,可以通过ZINC ID或SMILES码进行检索,结果会根据相似度(MaxTC)和P值进行排序,用户可以免费下载检索结果进行后续的研究[24]。

3.4 SwissTargetPrediction

SwissTargetPrediction(http://www.swisstargetpr ediction. ch/)数据库基于结构相似原理,通过反向筛选预测小分子的蛋白质靶标[25-26]。利用该数据库可在已知靶点的大约370 000个活性化合物中找出与查询的化合物最相似的分子。SwissTargetPrediction模型是通过对已知活性物质的各种大小相关子集进行多重逻辑回归拟合来训练的。在逆向筛选中,Combined-Score可以计算出任何查询的分子,假定其具有生物活性,那么就可以计算出这个分子针对特定蛋白质的概率。Combined-Score>0.5,则预测这些分子很可能具有共同的蛋白质靶点。由于分子的二维和三维描述是互补的,这种基于配体的双重评分的反向筛选,在预测各种测试集中的大分子靶点方面表现出了较高的性能。

3.5 ChEMBL

ChEMBL(https://www.ebi.ac.uk/chembl/)数据库[27-28]为在线的免费数据库,靶点及化合物的生物活性数据来源于大量文献,数据可靠并能查到数据来源。目前,该数据库共收集了13 377个靶点、200多万个化合物、超过1500万条生物活性信息。用户可以通过SMILES码、名称、分子结构及序列等快速查询到某个靶点或化合物的信息,也可以查询某个化合物在哪些靶点上进行过生物活性测试并得到相关数据。

靶点预测的准确性在整个研究的过程中起着至关重要的作用,靶点预测的准确性越高,后续研究才越可靠。网络药理学研究中常用的化合物靶点预测数据库及其特点见表2。

表2 网络药理学研究中常用的化合物靶点预测数据库特点

4 疾病靶点相关数据库

疾病的发生受到基因、生活方式和环境等多种因素的影响,寻找到与疾病相关的靶点蛋白,有助于对疾病进行更有效的治疗。因此,为了更好地研究和治疗疾病,出现了许多关于疾病相关蛋白的数据库。

4.1 GeneCards

GeneCards(https://www.genecards.org/)数据库[29]是一个综合数据库,提供了关于所有注释和预测的人类基因的全面、用户友好型信息。该数据库自动整合了约150个网络来源的以基因为中心的数据,包括基因组、转录组、蛋白组、遗传、临床和功能信息。基因名称包含官方名和别名。GeneCards还整合了其他网络数据库对基因的描述。

4.2 OMIM

OMIM(Online Mendelian Inheritance in Man,https://omim.org/)在线数据库[30]于1985年创建,是一个不断更新的人类孟德尔遗传病的数据库。OMIM数据库包含了已知的遗传病和超过15 000个基因的信息,是关于人类基因和遗传表型关系的权威数据库。每个OMIM条目都有一个基因确定的表型和/或基因的全文摘要,并有许多链接到其他基因数据库。OMIM为免费的数据库,而且可以及时将更新的信息通知用户。

4.3 DisGeNET

DisGeNET(https://www.disgenet.org/)数据库[31]包含了疾病与关联基因和突变位点的信息。最初在2010年作为一个Cytoscape插件出现[32],在过去的几年里,DisGeNET已经发展成不同的格式和工具,可以通过一系列生物信息学工具使用数据库,如web接口、Cytoscape应用程序、RDF SPARQL终端、R包和编写的脚本等。目前,DisGeNET(v6.0)包含628 685个基因-疾病关联(GDAs),即17 549个基因与24 166种疾病、失调、性状、临床或异常人类表型之间的关联,以及210 498个变异-疾病关联(VDAs),即117 337个变异与10 358种疾病、性状和表型之间的关联。

4.4 NCBI-gene

NCBI-gene数据库是NCBI数据库中一个用于检索不同物种基因信息的数据库。用户可以通过基因名、文献的PMID或疾病名称进行检索。对于每个基因,NCBI-gene都有详细的记载,包括别名、其他数据库的相关链接、在DNA上的位置、上下游基因、参考文献和相关的疾病信息等多种详细的信息。用户可以对检索结果进行二次筛选得到需要的信息,可以将数据免费下载到本地。

疾病靶点数据库数量很多,网络药理学研究中常用的疾病靶点数据库及其特点见表3。

表3 网络药理学研究中常用的疾病靶点数据库特点

5 基因富集分析数据库

基因富集分析是指对靶蛋白进行功能富集分析和信号通路分析。基因富集分析是网络药理学研究中一个重要的环节,将富集到的生物功能和信号通路与疾病和活性化合物联系起来,按照中药-活性化合物-靶点/通路-疾病的主线阐明中药治疗疾病的机制。

5.1 DAVID

DAVID(https://david.ncifcrf.gov/tools.jsp)数据库[33-34]是一个全面的功能注释工具,上传基因或蛋白列表后,使用DAVID的功能注释工具对基因进行注释。该工具从生物途径、GO、蛋白质-蛋白质相互作用(PPI)、疾病关联和文献等方面为基因提供了丰富的分析。DAVID功能注释聚类工具基于不同注释项中基因的共同关联,可以将相似、冗余、异构的注释项分组成注释组。

5.2 KEGG

KEGG(https://www.genome.jp/kegg/)数据库[35]是一个综合性的网站,每日更新,并向用户免费提供信息。KEGG通过对生物学过程进行计算机化处理,构建模块并绘制图表,从而对基因的功能进行系统化的分析。KEGG由系统信息、基因组信息和化学信息3类数据库组成,可细分为pathway、disease、module等18个主要的数据库。其中,应用最为广泛的KEGG pathway数据库是通过KEGG pathway mapping(一种基因组富集分析),作为用户数据集生物解读的参考知识库[36]。KEGG的显著特点就是具有强大的图形功能,利用图形而不是文字来介绍代谢途径及各通路之间的关系,这样可以使研究者能够对其所要研究的代谢途径有直观全面的了解。

5.3 GO

GO(Gene Ontology,http://geneontology.org/)数据库[37-38]是目前世界上最大的基因功能信息资源。GO的注释针对基因产物,即1个基因编码的RNA或蛋白产物,1个基因可以编码不同性质的产物。GO从3个方面描述基因产物,即生物过程、细胞成分和分子功能[39]。生物过程是指基因或基因产物参与的生物目标;细胞成分是指细胞中基因产物活跃的地方;分子功能是指基因产物的生化活性(包括与配体或结构的特异性结合)。GO具有很广阔的应用前景,可以用来整合不同生物的基因信息、预测与疾病的相关基因和判断蛋白结构域的功能等领域。

5.4 Reactome

Reactome(https://reactome.org/)数据库[40-42]提供信号转导、运输、DNA复制、代谢和其他细胞过程的分子细节,目前覆盖了10 908个蛋白、2362条人类通路和12 986条生物反应等信息,其中通路可分为26种描述正常细胞功能的途径(如免疫系统、代谢和自噬等)。Reactome数据库可以将导入的一系列基因按照生物功能的不同生成烟花状的有向无循环图,同时可以比较物种间的通路差异,有助于帮助研究者更好地理解通路的作用方式。

5.5 STRING

STRING(https://string-db.org/)数据库[43-44]主要用于研究PPI网络。相比于其他PPI数据库,STRING数据库覆盖的信息更多、更全面,目前的版本是11.0,更新于2019年1月19日,涵盖了5090个物种、2400多万种蛋白、超过30亿个PPI关系。STRING数据库可以通过蛋白名称、蛋白序列等多种格式进行检索,目前的版本还增加了根据蛋白质的差异倍数、对数值或丰度值等进行功能富集分析的模块。对于单个蛋白,STRING会给出能与该蛋白具有相互作用的蛋白构成的网络图,用于挖掘单个蛋白与其他蛋白的相互作用;对于多个蛋白,会得到输入蛋白间的相互作用图,用于挖掘多个蛋白的相互作用。同时STRING数据库也提供了PPI网络中蛋白的GO和KEGG富集分析的结果。

5.6 Enrichr

Enrichr(http://amp.pharm.mssm.edu/Enrichr/)数据库[45-46]是一个综合的基因集合资源,目前共包含102个基因集库中180 184个带注释的基因集。Enrichr检索结果将多个数据库进行比较,如ChEA、OMIM、DisGeNET等。Enrichr包括提交模糊集、上传BED文件、改进的应用程序编程界面及将结果可视化为聚类图等功能。除了常用的富集分析,还可展示表观修饰、转录因子结合以及疾病和不同细胞类型中的表达。

由于单个基因的研究已经不能满足研究的需要,研究人员希望通过多个基因发现在生物学过程中起关键作用的生物通路,从而揭示生物学过程的分子机制,因此出现了富集分析方法。网络药理学研究中常用的基因富集分析数据库及其特点见表4。

表4 网络药理学研究中常用的基因富集分析数据库特点

6 讨论

中医药通过辨证论治,从整体水平上对人体机体功能进行调节,从而达到维护机体平衡、治疗疾病的目的。由于中药具有整体性、复杂性的特点,因此对其药效物质基础和作用机制的深入研究与化学药物相比具有较大差异。现有的适用于化学药的研究方法多以分析思想为主导,这套方法学应用于中药研究,虽然能发现一些高活性天然产物,但仍不能满足全面阐释中药对人体的系统调节作用的要求。对于复杂体系的研究一直是现代科学技术发展比较缓慢的领域,这种情况长期制约着中药学的快速发展。系统生物学和网络药理学的产生对突破这一瓶颈带来了希望。

网络药理学为中药研究者提供了系统了解中药作用机制的新视角。网络药理学将传统化学药“一药一靶”的研究思路拓展成为“一药多靶”和“多成分-多靶标”的研究模式,因此非常适合解决中药“多成分、多靶点、多途径”的问题。网络药理学可以在分子水平上解释中药单味药及复方的作用机制,因此在中药药物发现[47]、毒理学研究[9,48]和中药配伍规律[49-50]等研究中取得了诸多研究成果,极大地推动了中药的研究。

网络药理学研究方法的实现,必须要有海量的植物化学、药物化学和系统生物学数据作为支撑。数据量之大,无法通过手工方法处理。因此,必须引入信息学技术和专业软件,并配合开放数据资源才能实现。其中,信息学相关技术早在20年前就已趋于成熟。而开放数据资源是网络药理学发展的最后一块短板,长期以来一直存在数据质量不高、数据量少、数据孤岛等问题,直至最近5年才逐步得到改善。

目前,中药资源、天然产物、靶点预测和基因富集相关的各种数据库和信息平台迅速增加,各信息平台均有自身的特点和优势,将这些数据资源介绍给中药研究人员,帮助研究人员根据自身的需求合理选择最佳的数据资源,是非常必要的工作。本文对中药网络药理学研究可用的网络数据资源进行梳理,为研究者正确有效地利用各类开放数据资源提供参考,以促进中药网络药理学方法的推广。

猜你喜欢

药理学靶点化合物
基于药理学分析的护理创新实践探索
基于网络药理学探讨六味地黄丸治疗糖尿病性视网膜病变作用机制
基于网络药理学探讨消痔灵治疗直肠黏膜内脱垂的作用机制
碳及其化合物题型点击
碳及其化合物题型点击
维生素D受体或是糖尿病治疗的新靶点
基于网络药理学研究冬虫夏草治疗膜性肾病的作用机制
肿瘤免疫治疗发现新潜在靶点
例析高考中的铁及其化合物
例谈氯及其化合物的学习与考查