APP下载

信息学与大数据
——药用植物亲缘学发展的新阶段△

2021-01-03刘海波马培许利嘉肖培根

中国现代中药 2021年9期
关键词:亲缘信息学药用植物

刘海波,马培,许利嘉,肖培根

中国医学科学院 北京协和医学院 药用植物研究所 中草药物质基础与资源利用教育部重点实验室,北京 100193

1 药用植物亲缘学的内涵与发展

药用植物亲缘学(pharmacophylogeny)是研究药用植物的亲缘关系-化学成分-疗效(药理活性及传统疗效)之间相关性的一门边缘学科,是药用植物资源开发利用的基础工具[1];是在对我国药用植物资源深入开发利用的实践中逐步建立起来的,属于多学科交叉的研究领域,兼具学术价值和应用价值。20 世纪50 年代,国外在蛇根木Rauvolfia serpentina(L.)Benth.ex Kurz.中发现了能够治疗高血压的药物利血平。肖培根等老一辈科研人员受命在国内寻找替代性药用植物资源。在此过程中发现,亲缘关系较近的植物所含的天然产物成分及药用功效也接近。在这一发现的指导下,经过不懈探索,最终在我国南方的蛇根木同属植物萝芙木R.verticillata(Lour.)Baill.中找到了药效相似的生物碱。以此为契机,在很短的时间里,开发并生产出以“降压灵”为代表的一批国产降压制剂。此后,药用植物亲缘学又在胡黄连、安息香、阿拉伯胶、马钱子、大风子、阿魏、矮莨菪等药用植物资源研究开发中得到进一步的验证和发展。

药用植物亲缘学的核心理念是临近系统发育群中的植物物种具有较为接近的遗传基因特征,这种基因序列上的相似性导致近缘植物体内各类次生代谢物的合成途径比较接近,最终表现为化学成分具有较高相似度,即:1)特定次生代谢物更可能分布于亲缘学接近的多个植物物种中;2)近缘植物中天然产物在分子骨架构成方面具有较高的相似度和衍生关系。上述2 种化学成分相似性在临床应用中表现为整体层面接近的生物活性或治疗效果。在实践中,药用植物亲缘学的理念有效指导了药用植物资源的深度开发利用,特别是在新药用植物物种的发现方面,可以避免传统研究方法中的盲目性,开展有的放矢的研究。

药用植物亲缘学是从科学实践中来,经过提炼升华后应用于实践的理论,其产生过程符合科学发展发现的总体规律。目前,我国在传统药物、植物化学、天然药物等领域已经走在了世界前列。在新时期,药用植物亲缘学正在不断扩展应用范围,在药用植物资源开发、中药质量控制、种质鉴定、药食同源品种研究等方面继续发挥着积极作用。

药用植物亲缘学在发展过程中,不断吸纳各学科领域新思想和新兴技术方法,保持自身鲜活的生命力,学科理论得到了持续丰富、创新和发展。2014 年,以郝大程为代表的一批青年科研人员,提出了“药用基因组亲缘学”的新理论,这是药用植物亲缘学的一个新的发展里程碑。近年来,包括系统生物学、分子生物学、基因组和其他组学为主体的生物大数据,以及以生物和化学信息学技术为代表的信息学技术,成功应用于药用植物亲缘学研究,产生了一批研究成果。药用植物亲缘学进入了又一个新的发展阶段。本文汇总了近年来各类信息学方法及其应用,为科研人员学习和了解该学科的最新发展动态提供参考。

2 化学类信息学方法及其应用

2.1 化学信息学方法概要

化学信息学(cheminformatics)是一门使用信息学方法解决化学问题、提高研究效率的学科。信息学方法已经与化学等传统学科深度融合,因此,化学信息学的研究领域不断扩展,渗透进入化学科学的各个分支。化学信息学包括以下几个主要研究领域:化学文献管理、化合物数据存储与挖掘[2]、有机小分子结构与性质关系、有机分子的合成设计[3]、不同尺度上的分子模拟计算、分子可视化、各类图谱的分析和预测等。

化学信息学在生命科学领域主要用于新药研发,由此产生了计算机辅助药物设计(computer aided drug design,CADD)这一子学科。目前,CADD 技术在化学药、生物制品和中药的上游研发过程中扮演着越来越重要的角色,促使药物发现由以往“寻找发现”模式逐渐向“靶向设计”模式转变[4],将个别药物的研发周期由原来的20 年左右,缩短到3~5年。

2.2 天然产物活性预测

随着植物化学各类分离鉴定方法的发展,药物学家从植物、真菌和其他药用资源中得到越来越多的天然产物单体,但获得的量一般较少,难以通过传统实验方法进行药理检测。基于结构的天然产物活性预测方法由此得到广泛应用。天然产物的活性预测分为由靶点寻找活性化合物的虚拟筛选及由化合物结构预测其作用靶点的反向寻靶。这2 种方法本质都是评价“化合物-靶点”直接的作用强度及可靠性,因此具体算法基本一致。算法主要分为3 类,包括分子对接、药效团匹配及小分子结构相似性。这3 种方法的理论基础应用范围均不相同,各具优缺点。

分子对接是通过受体自身的特征及与配体分子之间的相互作用模式来进行药物设计,其理论依据的基础是配体与受体之间结合的锁匙模型,通过计算两者之间的静电作用、氢键作用、疏水作用、分子间作用力等预测两者间的结合模式和亲和力,从而进行药物的虚拟筛选。这一方法是目前虚拟筛选的主流方法[5]。药效团泛指药物小分子中对活性起重要作用的药效特征元素的空间排列形式,主要包括氢键供体、氢键受体、正负电荷中心、芳环中心、疏水基团、亲水基团及几何构象体积限制。根据对这些药效特征元素的归纳总结,能够预测待测小分子的生物活性。小分子结构相似性是通过对具有相同机制的化合物先进行定量构象关系研究,再进行化合物数据库搜索,本质上是一种数据库搜索技术。大量网上化合物活性预测平台使用的都是这一算法。

2.3 分子作用机制与结构优化研究

分子对接方法和分子动力学模拟方法通常用于分析活性分子与特定靶点之间的作用方式,用于提高虚拟筛选正确率、减少假阳性。在此基础上,可以对中、低活性分子提出结构优化策略,设计出具有更高活性或选择性的天然产物衍生物。其可能成为更适合的先导化合物候选分子。分子动力学模拟受体-配体复合分子体系的相互作用,研究结合模式,通过计算亲和力预测配体的生物活性,与分子对接方法相比具有更高的可靠性,相关的软件工具有Amber、GRMOACS、NAMD 等。近年来,超算技术的发展可以使各类分子动力学软件工具的计算效率提高5~20倍。

3 多种组学方法及其应用

组学是基于高通量分析的生物学方法集合,根据分析目标的不同可分为基因组、转录组、蛋白质组和代谢组等,以整体角度去研究生物体内DNA 转录、RNA 翻译和修饰、蛋白质修饰和代谢产物的功能及变化情况。多组学方法的产生是生物大数据研究的开端,开始阶段一般水平单一或组学有效信息有限,后期逐步实现了不同水平上各类数据的互补集成。近年来,该方法成功应用于冠心病痰瘀互结证[6]、肿瘤耐药性等的研究[7],为阐明其遗传调控机制和微观物质基础提供了有效途径[8]。

组学及相关系统学是生命科学各分支和交叉学科的根基所在,具有“整体性”和“动态性”的特点,与中医药“整体观”的指导思想十分契合,从而在中医药领域得到了广泛应用。药用植物亲缘学引入组学方法后,拓展了药用植物亲缘学的方法和内容,在生药学和药用生物学等药学相关领域更能起到提纲挈领的作用[1]。强化各种组学方法在药用植物亲缘学中的应用,可有力推动药用植物资源的开发和可持续利用。

各种组学方法在药用植物亲缘学的相关研究可以解决2 类问题,一是比较物种基原、道地产区、药用部位在基因组、转录组、蛋白质组水平上的差异,明确活性物质调控功能蛋白表达及活性成分形成的分子机制[9];二是探索含有同类化合物、相似化合物类群的不同种中药对疾病模型在基因和蛋白水平上的扰动调控模式,进而阐明其作用机制和差异。组学方法的引入可有效拓展植物药用部位、发展中药替代品,也能对发掘民间草药资源和拓展外来药材品种起到指导作用。

3.1 基因组学

基因组学是由美国科学家Thomas Roderick 于1986 年提出的,是对物种全部或特定基因进行基因作图、基因定位和功能分析的一门科学[10]。药用植物相关基因组研究主要包括全基因组和叶绿体基因组2 类方法。前者用于揭示物种起源、进化、生长发育及活性成分合成代谢的遗传信息,后者更多用于系统发育研究和物种进化。基因组方法在药用植物领域有多方面的应用[11]:1)明确药用植物类群间的系统发育和亲缘关系;2)推测现存药用植物/道地药材的起源和空间分布格局及其形成机制;3)探讨药用植物的多样化进程和成因;4)基于生物多样性探讨药用化合物多样性,促进生合途径解析和创新药物发现;5)预测药用植物多样性动态变化,提出相应的保护性开发策略,促进人工栽培和分子育种。近年来,这一领域研究成果较多,如采用matK和rps16基因做DNA 条形码序列,成功区分了黄精属的主要药用植物等[12]。

3.2 转录组学

转录组是连接基因组与蛋白质组的纽带,研究特定发育阶段或功能状态下细胞中转录RNA 的总体情况,包括编码蛋白的mRNA 和非编码RNAs(rRNA、tRNA、lncRNA、microRNA)。通过转录组分析可获取基因表达、可变剪接类型等信息,为功能基因挖掘、药用植物活性成分的生物合成与调控、药用植物种质资源评估与扩大、探索药材道地性分子机制提供了新的思路和方法。陈进芳等[13]针对漆酶基因挖掘唇形科8 种药用植物的转录组数据,为唇形科药用植物药效物质的代谢调控及关键酶基因的定点突变提供参考。

3.3 蛋白质组学

蛋白质组学研究特定生理或病理状态下物种体内蛋白质的构成、表达及相互作用[14]。目前,主要采用多维液相色谱进行分离并采用质谱技术进行鉴定。中药药效活性成分的合成和分布局限于植物特定的器官、组织或细胞内,并且在药用植物生长发育过程中处于动态变化。这种变化由植物体内差异表达蛋白质组直接调控,展现出时间效应(不同发育阶段)和空间效应(不同种属或同一种属、同一植物的不同药用部位差异)。差异蛋白质组还可以反映出遗传物质和环境因子(温度、盐分、紫外线照射等)的分子调控机制[15]。Yuan 等[16]基于蛋白质组学研究了缺水胁迫对黄芩中黄酮类成分含量及组成变化的内在影响机制,发现缺水可产生15 个上调蛋白和3个下调蛋白。

3.4 代谢组学

代谢组学研究生物体在病理生理刺激或遗传因素改变的条件下,内源性小分子代谢物种类、数量的动态变化规律及相互关系[17]。经典分析方法有核磁共振、液相色谱-质谱联用、气相色谱-质谱联用等技术。植物代谢组学方法可以揭示基因或环境对植物代谢物的影响,揭示中药活性成分在机体内的代谢机制,在药材鉴别及质量评价、中药炮制机制、药用植物次级代谢途径机制、辅助育种、天然药物开发方面有广泛的应用[18]。庞溢媛等[19]通过超高效液相色谱串联质谱技术(UHPLC-MS/MS)明确了不同采收时期黄芩的差异代谢物及含量变化,有助于药材采收及质量评价。

4 系统学方法及其应用

4.1 系统生物学方法

系统生物学是一门研究生物系统组成成分的构成与相互关系的结构、动态与发生,以系统论和实验、计算方法整合研究为特征的生物学。该学科是生物科学由“分析”思想主导,转向“分析”与“综合”并重的产物。系统生物学的思路与现代生物科学诞生以来不断分解的思路不同,在继续探究生物体每个结构单元的构成及功能的同时,开始研究基因、蛋白质、核酸及其他生物体内活性分子之间的相互作用,进而研究细胞内代谢通路、信号传导通路、基因调控网路、生物系统组成之间相互关系和功能。在这一思想指导下,人们对药物研究的方法也发生了改变。

系统生物学的发展与组学方法有紧密联系。单一组学发展到一定阶段,对组学间的交叉融合研究提出了更高的要求。在某种程度上,系统生物学可以看作综合研究组学的理论体系,对生物学、计算机科学、工程学、生物信息学、物理学等多学科进行交叉融合,通过研究生物系统中不同部分(基因、蛋白质、代谢物等)之间的相互关系和相互作用,从整体性、动态性、多维度、多角度解析生命活动过程及机制,更有助于系统深入地揭示生物体遗传和功能的关系。

4.2 网络药理学方法

2007 年,英国药理学家Hopkins 提出网络药理学概念,突破了“一个基因,一种药物,一种疾病”的范式,为创新药物发现提供了新的框架。网络药理学属于系统生物学、生物信息学和高通量组学分析的药理学分支学科,通过网络方法解析药物、靶点和疾病之间的相互关系,根据分析结果研发和设计具有多种效应的药物[20]。网络药理学具有整体性、系统性的特点,与中医药整体观的原则不谋而合。因此,网络药理学方法的引入与中药多成分、多靶点作用特点相结合,推动了中药的现代化研究的进程[21-22]。

4.3 整合药理学方法

整合药理学(integrative pharmacology)是研究多成分药物与机体相互作用及其整合规律和作用原理的一门学科,可以视为网络药理学与中药学深度融合的产物,强调“整体与局部”“体内与体外”“体内过程与活性评价”等多层次、多环节的整合研究[23-24]。中国中医科学院还开发了中药整合药理学计算平台[25],在此平台基础上开展了大量相关研究。

5 未来展望

全球科学发展已进入大科学时代。科学创新活动由过去科研人员小团体合作进入到广域协作模式,大数据和信息技术的高速发展正在带动各个科学领域研究范式发生革命性变化。在生物医药领域,在高通量筛选、高通量测序、高效色谱等技术的支持下,化学、药理、生物、基因等各领域的数据总量突飞猛进。最新的L1000 技术可同时快速测定近千个基因表达差异,覆盖评估3 万多个基因变化情况。科研数据的存储、传输和分析处理能力也在飞速提升,新药研发由过去的实验室“湿模式”正在向计算与实验紧密结合的“干湿并重模式”转变。药用植物亲缘学在这一大背景下,必须吸纳各类新技术,充分利用各学科产生的数据资源,才能与时俱进,焕发新的生命力。

全球现存种子植物超过300 000 种,中国有超过10 000 种药用植物,约87%的中药材属于植物药。未来,对这一巨大资源宝库的开发利用仍有很大空间。具有类药结构的天然产物集中分布于特定的物种群。目前,已发现的活性分子有较大比例分布于144 个植物科中,说明具有活性的天然产物在植物和微生物中的分布是有规律可循的。药用植物亲缘学研究发现,活性天然产物在木兰亚纲(Magnoliidae)[26]、金缕梅亚纲(Hamamelidae)和石竹亚纲(Caryophyllidae)[27]的药用植物中数量较多。这些规律对药用植物学术研究和开发利用具有重要的指导作用。

在化学药和天然药物领域,天然产物及其衍生物具有较高的成药性。因此,其在新药研发中一直占据比较重要的地位,超过1/3临床用药来自天然产物和/或其衍生物。植物和微生物是活性天然产物的主要资源。近年来,来源于海洋生物的天然产物以其新颖的结构引起了药物学家的关注[28-30]。目前,已解析的天然产物结构数量超过42 万,筛选新活性天然产物的难度持续增加。CADD 技术及人工智能技术的广泛应用有助于提高新药研发效率。疾病研究和药物治疗进入多组学整合阶段。多数疾病涉及多条生物途径及功能蛋白的协同变化,这往往是单靶点药物脱靶、无效或产生不良反应的原因。多组学整体评估药物对多个疾病核心基因的调控,有望解决这些问题,是当前药物研发的热点。

30 年前,以肖培根院士为代表的老一代科研人员通过多年中药资源开发的实践,提出药用植物亲缘学理论并成功应用于药用植物资源的研究和开发,这是药用植物亲缘学的第一阶段。基因组学的融入,深化了对药用植物亲缘关系的认识层次,这是药用植物亲缘学发展的第二阶段。未来,以各类组学、高通量药理活性筛选、天然产物化学等学科产生的大数据为基础,结合化学信息学、生物信息学、分子模拟等信息技术,药用植物亲缘学的发展将进入一个新阶段。

以往药用植物亲缘学的应用多根据“近缘物种具有相似的化学成分”这一基本设定。下一阶段,近缘植物的内涵将拓展为“近缘物种具有相似的基因、相似的功能蛋白、相似的生物合成途径、相似的生物代谢/信号传导网络”。由此,能够在转录水平上评估近源物种的化学成分对疾病模型的调控,发现活性化合物的协同调控作用,探究中药基原植物在转录组和蛋白组上的变化与化学成分异质性之间的相关性,进而拓展药用植物亲缘学理论在合成生物学等研究中的新应用。例如,中国科学院上海植物生理生态研究所与上海药物研究所合作,已经从亲缘关系较近的人参和三七中克隆和鉴定了合成人参皂苷CK、人参皂苷Rh2、人参皂苷Rg3、人参皂苷Rh1和人参皂苷F1所需的关键糖基转移酶和细胞色素P450 还原酶,很好地解析了人参和三七中皂苷的生物合成途径。

大数据与信息学方法结合,拓宽了药用植物亲缘学的研究空间,并为这一理论探索出新的应用领域。药用植物亲缘学这一传统交叉学科必将在新时期焕发新的生命力,继续为我国传统药学发展作出贡献。

猜你喜欢

亲缘信息学药用植物
谷子近缘野生种的亲缘关系及其利用研究
CRISPR/Cas9技术在药用植物功能基因组研究中的应用和展望
药用植物保育研究团队
鸡NRF1基因启动子区生物信息学分析
药用植物资源与育种团队
初论博物馆信息学的形成
菊科药用植物遗传多样性及亲缘关系的ISSR分析
小白菜种质遗传多样性与亲缘关系的SRAP 和SSR分析
寻找家里的药用植物
miRNA-148a在膀胱癌组织中的表达及生物信息学分析