药用植物基因组学研究进展

2022-01-24张闻婷王继华

广东农业科学 2021年12期

张闻婷，焦萌，王继华

（1.广东省农业科学院作物研究所/广东省农作物遗传改良重点实验室/广东省道地南药资源保护与利用工程中心，广东广州 510640；2.华南农业大学生命科学学院，广东广州 510642）

药用植物被视为发现和开发新药物和疗法的重要自然资源。据估计，世界上约有 75% 的人口，特别是居住在发展中国家的人口，使用植物作为民间药物的来源，以满足他们的初级保健需求［1］。世界卫生组织（WHO）已记录了全球300 000 种植物中的 21 000 种具有药用价值的植物［2］。药用植物是各种生物活性物质的主要来源，包括生物碱、萜类、多酚、香豆素、皂苷等。植物生物活性物质的药用保健功能和治疗效果主要归因于其多种生物学和药学作用，例如抗氧化、抗菌、抗炎、抗癌、抗糖尿病活性。利用草药治疗各种人类疾病是世界性和普遍性的，因其有害反应较少且比现代药物便宜而在制药业中受到越来越多的关注。

基因组学研究阐明了基因组序列中嵌入的遗传组成、结构、组织、功能、多样性和相互作用，从基因组的分子、染色体、生化和表型水平研究变化情况，涵盖基于基因组组装展开的注释功能和非功能元件、识别重复序列、研究基因组区域的表观遗传状态和质体基因组的序列信息等结构基因组方面工作，以及基于基因转录、翻译和调控展开的转录组学、蛋白质组学和代谢组学等功能基因组方面工作。三七作为药用成分人参皂苷的重要原料，种植历史悠久，应用范围广，经济价值显著，目前已先后公布四版三七的基因组序列信息，对三七基因组信息的探索和挖掘可以为异源生产皂苷生物合成途径提供宝贵资源［3-4］。中国罂粟地方品种的基因组测序扩展了这一宝贵药用物种的可用遗传信息，从而能够系统地研究BIA 的生物合成、调控和运输，用于农艺和制药目的；基因组组装和分析将成为评估罂粟药理学、化学成分、栽培、性状遗传改良和种群的未来研究的有用资源［5］。基因组序列为传统药材作物遗传改良的进化、变异和性状研究提供宝贵的资源，对药用植物基础生物学研究和应用育种计划都非常有价值。

本文综述了药用植物基因组学的最新研究进展，涵盖药用植物基因组测序、结构基因组学和功能基因组学三方面研究方向，讨论了药用植物遗传作图、全基组组装、质体序列价值以及比较基因组学的应用，并从转录组、蛋白组、代谢组三方面综合分析了药用植物功能基因组的研究策略和关注重点，在此基础上，对药用植物在表观基因组学和泛基因组学方面进行展望，以期推动药用植物基因组学长足发展。

1 基因组测序研究

基因组的 DNA 序列整合了物种起源、发育和表观基因组调控的重要信息。基因组学领域的最新进展很大程度上归因于增加的通量和降低的成本对DNA 进行测序的能力［6］。人类基因组计划和其他主要的基因组测序项目推动了测序技术的发展。

1.1 测序技术概述

由Frederick Sanger 提出的链终止法［7］以及Walter Gibert 发明的链降解法［8］被称为第一代测序技术（FGST），是1977 年首次成功采用的测序方法，因其操作简单、准确率高、读长较长的优势而被广泛应用，基于该技术启动［9］并完成了人类基因组计划［10］。虽然多种新一代测序技术（the next generation sequencing,NGS）应运而生，但第一代测序技术因其高度的准确性仍然被作为验证新一代测序技术结果的“黄金标准”。

第一代测序技术的读长可以达到700～1 000 bp，但每个反应只能得到一条序列，测序通量低，无法满足大规模的基因测序。鉴于此，第二代测序技术应运而生，可以实现一次对几十万到几百万条核酸分子进行序列测定，也称为高通量测序技术（High-throughput sequencing,HTS），其读长和准确率虽然不及第一代测序技术，但HTS 的应用使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，帮助基因组学和分子生物学的研究取得突破性进展。二代测序平台主要有Roche 公司的454、Illumina 公司的Solexa和Hiseq、ABI 公司的Solid、Themo fisher 公司的IonTorrent 和华大基因的BGISEQ 等，它们都基于相似的原理，实现边合成边测序［11-12］。

与二代测序相比，第三代测序技术真正实现了单分子测序，无PCR 扩增偏好性和GC 偏好性，具有超长的测序读长，平均测序读长达到10～15 kb，最长读长40 kb，同时三代测序技术还可直接检测碱基修饰，如DNA 甲基化等，为表观遗传学研究提供了有力手段。PacBio 平台的 HiFi 模式生成 DNA 模板的长高保真循环连续一致（CCS）读数，实现了高精度（99.8%）的长序列测序［13］。三代测序技术正被应用于高质量的基因组测序及组装相关工作。

基于纳米孔的测序仪作为第四代DNA 测序技术，有可能以不到 1 000 美元，甚至可能不到100 美元的价格快速可靠地对整个人类基因组进行测序，该技术使用的单分子技术使我们能够进一步研究DNA 与蛋白质之间，以及蛋白质与蛋白质之间的相互作用［14］。

1.2 药用植物数据库

随着下一代测序技术的高速发展，基因组数据库的主要功能已经从数据存储发展成为整合各种基因组信息的基因组门户/中心，以及提供在线基因组学分析的网络服务器，引领基因组测序和重测序项目的拼图。迄今为止，专门针对药用植物的基因组数据库很少，金银花（Lonicera japonica,http://www.gzybioinformatics.cn/LjaFGD/index.php）、杜鹃（Rhododendron，http://bioinfor.kib.ac.cn/RPGD/）和百脉根（Lotus japonicus,http://www.kazusa.or.jp/lotus/）等药用植物已陆续建立各自独立的基因组数据库，迫切需要建立一个以药用植物为重点的综合基因组序列信息和药理属性相关的数据库。

2021 年8 月，陈士林团队在Chinese Medicine和Science China Life Sciences 杂志上分别发表了BPGD（Brazilian Pharmacopoeia Genomic Database,http://www.bpgenome.com）［15］和GPGD（Global Pharmacopoeia Genome Database，http://www.gpgenome.com）［16］数据库相关文章，可以说是首个药用植物基因组数据库。这两个数据库是获取和分析药用植物DNA 条形码数据、加速药用植物研究并促进其市场监管合理发展的有效平台。

MepmiRDB 是第一个药用植物MicroRNA（miRNA）数据库，其中包含了29 种药用植物miRNA 的信息（http://mepmirdb.cn/mepmirdb/index.html）［17］。由于生物活性成分的主要部分是通过次级代谢途径产生的，miRNA 在调节次生代谢物的生物合成和积累对药用植物尤为重要。

此外，已经建立了大量的药用植物及其衍生植物化学物质的公共数据库，包括UMPDB［18］、MPD3［1］、IMPPAT［19］、Phytochemica［20］、SerpentinaDB［21］、FERN Ethnomedicinal Plant Database［22］、NPACT［23］、HIT［24］、CHCD［25］、NuBBEDB［26］、NANPDB［27］等。这些数据库对于药用植物的传统信息（包括分类学、通用名称、位置、药用部位和用途）、化学信息和基因组信息（依赖NCBI）给予了较为详细的注释，为研究药用植物的药效属性提供便利。

2 结构基因组学研究

2.1 遗传作图

遗传连锁图谱的构建是基因组研究中的重要环节，是基因定位与克隆乃至基因组结构与功能研究的基础。传统的利用正向遗传学方法的基因定位一般是通过构建遗传连锁图谱进行，但由于多态性标记鉴定步骤繁琐，而且多数情况下定位精确度低、区间大，导致全过程耗时耗力。大多数药用植物生长周期长，栽培历史短，遗传背景复杂，基因高度杂合，为建立药用植物的遗传图谱带来了较大的困难，所以目前建立的较为完善的药用植物遗传图谱很少。

利用传统的SSR、AFLP、RFLP、RAPD 与EST-SSR 等分子标记构建的药用植物遗传图谱有红菽草（Trifolium pratense）［28］、洋蓟（Cynara scolymus）［29］、白玉草（Silene vulgaris）［30］和百香果（Passiflora edulis）［31］。随着高通量测序技术的快速发展以及测序成本的不断降低，植物基因组参考序列得以释放促进全基因组范围分子标记的开发，有力推动药用植物分子遗传图谱的研究向着高饱和化、实用化和通用化的方向发展。例如，通过构建雌雄异株植物戟叶酸模（Rumex hastatus）的连锁图谱和染色体规模的基因组组装，发现低重组率可能促进植物性染色体进化［32］。此外，五节芒（Miscanthus floridulus）［33］高密度遗传图谱证实Hi-C 组装的物理图谱，两者在染色体分配和顺序方面一致；长叶薄荷（Mentha longifolia（L.）Huds.）全基因组测序和组装，并构建抗黄萎病和感黄萎病亚种间的遗传图谱，最终锚定在12 条假染色体上［34］。

2.2 基因组de novo 测序

药用植物基因组大小变化范围广，目前已知最大的是宽瓣重楼［35］，其基因组达到82.55 Gb，而我们所熟知的银杏［36］也有9.87 Gb，此外如罂粟［5］、三七［3］、姜和地黄等物种的基因组也都大于2 Gb；基因组较小的药用植物有掌叶覆盆子（240 Mb）、穿心莲（270 Mb）和菟丝子（270 Mb）等。药用植物多数都是二倍体植物，比较少数的多倍体，如地黄［37］作为同源四倍体其染色体的数目也达到4n=56，广藿香［38］约在631 万年前经历了全基因组八倍化（WGO，whole-genome octuplication）复制事件。而染色体数较少药用植物有菘蓝（2n=14）和香椿（2n=16）等。

随着基因组测序技术的飞速发展，已有上百种药用植物获得了全基因组序列（图1）。近两年三代测序技术广泛普及，利用二代Illumina、三代Pacbio 或Nanopore 以及Hi-C 挂载，完成了大量药用植物染色体水平的基因组测序和组装。本团队通过陆续采集上百种南方道地药材，对其中20 多种完成全基因组调查（Genome survey），并完成了巴戟天［39］的全基因组测序和组装。巴戟天作为中国南方岭南四大草药之一，主根入药广泛用于治疗各种疾病，如阳痿、不孕症、月经不调、风湿病、关节痛等。巴戟天高质量基因组组装为了解该物种的进化、活性成分生物合成和遗传改良提供了宝贵的基因组资源。此外，四大南药之一的槟榔［40］基因组也已公布，益智和砂仁的基因组暂时还未破解。

图1 完成全基因组测序和组装的药用植物举例Fig.1 Examples of medicinal plants that have completed whole-genome sequencing and assembly

有意思的是药用植物中文名相似的植物亲缘关系可能离得非常远，例如贯叶连翘和连翘其实是两个完全不同目的物种。贯叶连翘［41］是蔷薇类植物，基因组大小在373 Mb 左右，2n=2x=16，对治疗抑郁症具有一定的效用。而连翘［42］是菊类植物，基因组达到737.5 Mb，2n=2x=28，清热解毒常用治外感风热。

除了被子植物外，石松门的卷柏、苔藓植物门的地钱、松柏门的红豆杉以及买麻藤门的买麻藤，鉴于经济价值和药用价值突出，基因组序列的公布也受到广泛关注。此外，在我们熟知的一些物种中，例如灵芝、冬虫夏草、猴菇菌，虽然不属于植物但具有悠久的药材使用历史。以上这些特殊的药用物种均已公布基因组序列。基因组测序技术的发展推动了药用植物鉴定、起源、进化、药用化合物的分子表征、非生物胁迫抗性等研究，促进了后续功能基因组的研究，对研究药用植物的育种栽培、代谢产物、功能调控和药理属性提供了大量生物信息和遗传信息数据。

2.3 叶绿体和线粒体基因组

叶绿体是在植物、藻类和蓝细菌中发现的具有代谢活性的半自主细胞器，其主要功能是进行光合作用，还参与脂肪酸、氨基酸、激素、维生素、核苷酸和次生代谢产物的生物合成［43］。叶绿体基因组可以母系遗传，基因含量和顺序高度保守，分子进化缓慢，重组率低，使其成为物种鉴定和系统发育研究的理想材料［44-45］。叶绿体非编码区已成功应用于 DNA 条形码研究［46］。药用植物叶绿体基因组组装对探索叶绿体功能与其适应性和植物化学特征之间的关系具有重要意义。

叶绿体基因组具有保守的四分体结构：一个大的单拷贝（LSC）区域、一个小的单拷贝（SSC）区域和两个反向重复（IR）区域。叶绿体基因组分析通常从测序确定分子结构、注释获得编码基因、系统发育、进化和比较等方面展开。本团队已陆续发表多种药用植物叶绿体基因组文章，包括台湾榕（Ficus formosana）［47］、梅片树（Dryobalanops aromatica）［48］、凉粉草（Mesona chinensis）［49］、扁桃斑鸠菊（Vernonia amygdalina）［50］、白簕（Acanthopanax trifoliatus）［49］、华山姜（Alpinia chinensis）［51］和龙脷叶（Sauropus spatulifolius）［52］。药用植物丹参的叶绿体基因组序列受到广泛关注，从Salvia miltiorrhiza［53］、S.yangii［54］到S.przewalskii、S.bulleyana和S.japonica［55］，陆续有丹参属的物种叶绿体基因组被公布。2021 年6 月，有研究提供了跨属的（Cadaba和Maerua）4 种山柑科（Capparaceae）药用植物（即C.farinosa、C.glutenulosa、M.crassifolia和M.oblongifolia）完整叶绿体基因组［56］。此外，山槐［57］、青蒿［58］、芍药［59］、马兜铃属［60］等药用植物的完整叶绿体基因组也陆续公布。药用植物叶绿体基因组的研究为品种鉴定和高药效植物选育提供了有价值的信息。

与叶绿体基因组不同的是，植物线粒体基因具有许多独特的特征，表现出物种之间的广泛差异，目前为止仅有200 多个陆地植物的线粒体基因组被公布［61］。丹参的线粒体基因组上发现长片段的叶绿体基因组序列，暗示两者间的基因转移［54］。通过对人参（Panax ginsengCA Mey）线粒体基因组进行测序和表征，开发了用于阐明人参种质多样性的 KASP 标记［62］。此外，药用植物毛茛科宽裂北乌头（Aconitum kusnezoffii）［63］和豆科乌拉尔甘草（Glycyrrhiza uralensis）的完整线粒体基因组［64］均于2021 年发表公布。

2.4 比较基因组

比较基因组学通过比较不同生物的基因组序列，在分子水平上了解不同生命形式的区别，为研究生物体之间的进化与变异提供了强大工具，有助于识别物种间保守或共有的基因，以及赋予每个生物体独特特征的序列变化。随着测序技术的简单化和测序成本的降低，比较基因组学作为一种梳理物种之间微妙差异的工具，在生物学研究中得到广泛应用。

通过对决明子（Senna tora）和其他14 个豆科植物的比较基因组分析，发现决明子具有丰富的物种特异基因，其中扩张的基因家族多富集在苯丙烷、异黄酮和萜烯生物合成相关基因，为研究植物中蒽醌生物合成途径提供更多的理论依据［65］。有籽和无籽君迁子（Diospyros lotus）基因组之间的比较为阐明无籽发育提供分子基础［66］。黄芩（Scutellaria baicalensis）和半枝莲（Scutellaria barbata）的染色体水平基因组组装实现两者比较基因组分析，基于基因共线性发现两物种间的染色体数目变异和结构重排，DNA 序列水平的比对显示两者基因组之间大规模结构变异，单拷贝同源蛋白重建的系统发育分析表明两者与丹参（Salvia miltiorrhiza）亲缘关系最密切［67］。佛手瓜（Sechium edule）、蛇瓜和南瓜的染色体共线性分析显示佛手瓜和南瓜间存在大量同义基因块，而佛手瓜和蛇瓜间则发生了更多的染色体间重排事件［68］。

基于罂粟地方品种CHM 和先前发表品种HN1 基因组比较，结合罂粟科其他物种的LTR 逆转录转座子的进化分析，发现Gypsy 和Copia 家族的大量增殖是最有可能推动罂粟基因组扩张的主要因素；CHM 和HN1 基因组中特异基因家族分析显示，CHM 中的独特基因主要富集在涉及碳固定和代谢的功能类别，表明CHM 作为野生种质可以为驯化罂粟的种质改良提供宝贵的遗传资源［5］。基于三代测序技术已经先后完成多套染色体规模的大麻全基因组组装，包括产生高THC的雌性株系PK、雄性株系Finola、产生高CBD的CBDRx（cs10）株系、野生大麻雌性株系JL以及产生平衡CBD:THC 大麻素比例的雌性株系Cannbio-2，其基因组大小在600～800 Mb 范围，BUSCO 评估证实Cannbio-2 基因组序列组装的完整性最好［69］。基于对40 株大麻后代栽培种的二代重测序数据，与父本基因组比较分析实现了大麻Y 染色体的识别；拷贝数变异（CNV）和RNA表达评估确定了多个控制大麻素表达的 CNV 和抗性相关的基因［70］。除了罂粟和大麻之外，已有多个针对同种药用植物的基因组版本公布，如黄连、姜、穿心莲和鸡蛋果等。

3 功能基因组学研究

功能基因组学建立在结构基因组学的基础上，利用转录组和蛋白组等项目产生的大量数据，试图描述基因的功能和相互作用，侧重于基因转录、翻译、表达调控和蛋白质相互作用等动态信息。

3.1 转录组学

转录组学技术是用于研究生物体其所有RNA转录本总和的技术，其中mRNA 在信息网络中充当瞬时中介分子，而非编码RNA 则执行其他各种功能。转录组学研究领域主要有两种技术：微阵列，可以量化一组预定序列；RNA 测序（RNASeq），使用高通量测序来捕获所有序列。测量生物体基因在不同组织、环境或时间点的表达，可以提供有关基因调控方式的信息，并揭示生物体生物学的细节，还可以帮助推断以前未注释的基因的功能［71］。虽然越来越多药用植物的基因组序列得到解析公布，但还是有大量的药用植物缺乏基因组信息，在功能基因和遗传机制方面的研究远远不足，因此将转录组测序应用于药用植物至关重要。

药用植物转录组学研究主要从4 个方面展开：功能基因挖掘、分子标记开发、次级代谢物生物合成途径的鉴定和药用植物发育机制的鉴定［72］。研究者使用NGS 技术对天麻（Gastrodia elata）进行转录组测序和分析，鉴定出34 322 个转录本，其中2 007 个（5.85%）转录本包含至少1 个SSR，在这些SSR 中AG/CT 重复基序是最常见的，共检测到498 个，该结果为天麻代谢、生长和发育的分子机制研究提供了更深入的了解［73］。三萜皂苷是鸭腱藤（Entada phaseoloides）中的主要生物活性化合物，通过对鸭腱藤的根、茎和叶组织进行比较转录组分析，鉴定了26 个细胞色素P450 和17 个与三萜皂苷生物合成相关的尿苷二磷酸糖基转移酶候选基因，为研究三萜皂苷生物合成的功能基因组学提供便利［74］。李等人使用转录组测序来分析丹参不同组织对中度干旱胁迫响应的分子机制，GO 富集分析显示根和叶的差异转录本在代谢过程和催化活性中显着富集，在中等干旱胁迫下，编码参与苯丙烷和萜类化合物生物合成的关键酶的基因表达上调，该研究结果为进一步研究丹参药用成分的生物合成机制和栽培中的有效灌溉方法提供了科学依据［75］。

此外，本团队在解析巴戟天基因组的同时，采集了茎、叶、1 年生根（AR）、3 年生根（TR）和6 年生根（SR）组织材料，并提取RNA 进行转录组测序；通过分析组织特异性表达的基因簇，发现与活性成分的合成、运输和储存以及防御反应相关的基因随着根发育而表现出不断增强的表达模式，这结果为进一步揭示基因表达调控网络和调控巴戟天生物活性代谢物及其衍生物的产生提供了基础［39］。基于大麻Purple Kush 和Finola株系的转录组比较分析表明，许多编码参与大麻素和前体途径的蛋白质的基因在Purple Kush 中的表达比在Finola 中更高，检测到Δ9-四氢大麻酚酸合酶在Purple Kush 中有表达而在Finola中被大麻二酚酸合酶取代，从基因表达水平解释了Purple Kush 株系可以而Finola 不能产生大麻素Δ9-四氢大麻酚（THC）的原因［76］。

3.2 蛋白质组学

植物蛋白质组巨大的功能、空间和时间多样性受到多种因素的调控，这些因素不断改变蛋白质的丰度、修饰、相互作用、定位和活性，以满足植物的动态需求。剖析蛋白质组的复杂性及其潜在的遗传变异正引起越来越多的研究关注［77］。由于质谱、样品制备程序、分析软件的显著改进以及众多植物物种基因组可用性的增强，现在可以进行大规模基于质谱的植物蛋白质组学研究，并提供更全面的概述［78］。

基因组测序、计算机预测和基于质谱的肽组学的进步促进了越来越高通量的生物活性肽的发现，通过基于 MS 的蛋白质组学/肽组学对三色苋（Amaranthus tricolor）气生组织进行了分析，识别了计算机预测的抗菌肽（AMP），蛋白质组学以高通量的方式鉴定了新型抗菌肽［79］。通过无标记定量蛋白质组学方法对高丽参（Korean Ginseng）的叶、根、芽和果实进行比较蛋白质组分析，最终在4 种组织中鉴定出2 604 种显著调节的蛋白质，并确定与人参皂苷生物合成相关的差异途径和蛋白质，包括甲基赤藓糖醇 4-磷酸（MEP）途径、甲羟戊酸（MVA）途径、UDP-糖基转移酶（UGT）和氧化还原酶（CYP450s）［80］。通过对胡黄连（Picrorhiza kurroa）叶和根茎进行特异性蛋白质组学分析，观察到在CO2增强情况下与光合作用和碳代谢相关的蛋白质丰度以组织特异性方式发生变化，该研究为药用植物将如何应对不断变化的环境以及适应性反应提供更好的理解［81］。基于对青蒿的全局蛋白质组学分析以及高（HAP）和低（LAP）青蒿素含量两种化学型的定量靶向亚蛋白质组学分析，分别在质谱的结果和基因组序列注释的基础上鉴定了182和13 403 种蛋白质［82］。双向电泳鉴定了群心菜（Lepidium draba）缺水胁迫（6% PEG）下20 个与光合作用、能量代谢等功能相关的差异表达蛋白［83］。通过对铁线莲（Clematis florida）耐热株系（PS）和热敏感株系（SG）进行蛋白质组学分析，在蛋白质水平上表征两者对热应激的不同耐热反应［84］。

总之，药用植物的蛋白质组学提供了关于蛋白质的结构、功能和翻译后修饰、蛋白质-蛋白质相互作用、植物性生物活性药物的蛋白质靶标、分子水平的蛋白质-药物相互作用以及细胞中各信号通路的信息，这些提供了对药用植物在人类疾病细胞中的治疗机制的深入了解，以及对药用植物可遗传性状和生理状态的复杂理解。在生物学或医学背景下蛋白质组学信息的积累有助于制定药用植物的有效使用方法。

3.3 代谢组学

代谢组学是一种用于综合分析植物化学物质的现代组学技术。药用植物生物合成的代谢产物作为活性成分不仅具有药用价值，而且在植物对环境的适应和植物抵抗外界胁迫方面发挥着不可或缺的作用。在不同的生长环境、生长阶段和器官中，代谢产物的积累存在特定差异。尽管在异源宿主中生产药用化合物的合成生物学取得了进展，但天然植物物种通常是其生产的最可靠和最经济的来源。因此，研究药用植物的代谢成分以表征其天然代谢物多样性并确定重要化合物的植物体内生物合成途径，从而制定进一步提高其含量的策略，就变得至关重要。

基于佛手瓜基因组解析，对其3、6、9 d 的果实进行代谢组的比较分析，鉴定了一系列差异表达的代谢物，帮助理解果实发育相关的代谢调控途径［68］。研究者使用高效液相色谱技术在板蓝（Strobilanthes cusia）4 个发育阶段测量了不同组织（包括根、茎和叶）中3 种主要次生代谢物（indicant、indigo、indirubin）的含量，结果表明这3 种代谢物主要在叶组织中合成和积累，其次是茎，最后是根［85］。通过对生姜根茎进行发育阶段的划分并利用UHPLC-MS/MS 测定各个阶段的活性化合物，发现在从成熟根茎到新发芽根茎的过程中，大部分氨基酸和多半脂类物质的含量升高，而大多数有机酸、核苷酸、维生素和次级代谢物的水平趋于降低［86］。主成分分析（PCA）显示贯叶连翘（Hypericum perforatum）和粉色西番莲（Passiflora incarnate）之间的代谢组学特征相似，而缬草（Valeriana officinalis）和蜜蜂花（Melissa officinalis）具有不同的代谢组学特征，该结果对于分类属性来讲是一致的［87］。利用同位素和质谱相结合的方法开展了短小蛇根草（Ophiorrhiza pumila）的代谢组分析，鉴定出独特且多样的含氮代谢物，其中MIA（monoterpene indole alkaloids）、IA（indole alkaloids）和蒽醌（anthraquinones）以组织特异性方式积累，在根和毛根中含量最高，在叶组织中含量低［88］。通过对黄芩和半枝莲的根、茎、叶和花组织进行活性化合物检测，发现黄芩素（Baicalein）、去甲汉黄芩素（norwogonin）、汉黄芩素（wogonin）、黄芩苷（baicalin）、去甲汉黄芩苷（norwogonoside）和汉黄芩苷（wogonoside）主要在根部积累，而野黄芩苷（scutellarin）主要分布在地上部分的器官（茎、叶和花）中，证实了生物活性化合物的器官特异定位［67］。

代谢组获得的数据可以为药用植物活性成分的积累和有效利用信息提供科学依据。GC-MS 和LC-MS 等基于质谱的平台技术进步有助于分离和鉴定多种代谢物。随着草药基因组计划的实施和中医药合成生物学的发展，药用植物的代谢组学研究将迎来一个蓬勃发展的新时期。

4 展望

药用植物在泛基因组学方面的研究面临巨大挑战，很大原因在于药用植物种质资源匮乏，受全球消费需求和环境因素的影响育种工作难以开展，世界范围内物种加速丧失和栖息地破坏增加了药用植物灭绝的风险。药用植物的育种比农作物要复杂得多，需要考虑植物的有效成分含量、产量、药用部位和生长周期，多数药用植物的品质与其栖息地关系紧密［89］。在多方组织和研究机构的共同努力下，希望全球药用植物资源保护和可持续利用战略和方法可以得到广泛普及。药用植物表观基因组学研究也还处于萌芽阶段，从DNA 或者RNA 修饰水平关注药用植物亚种间表型、活性化合物以及环境适应性等方面的差异，为功能基因组研究提供宝贵的资源。

药用植物具有显著的经济和社会效益。基于结构基因组学和功能基因组学展开的多组学分析，可以更全面、深入和精确地解析药用植物复杂药理属性形成的分子机制和调控机理。未来几年，基因组学的研究将以前所未有的速度揭开药用植物化学多样性和特殊代谢物分子功能的神秘面纱。一旦阐明了涉及药用植物中特定化合物生物合成途径的基因，就可以应用合成生物学或基因组编辑在工程生物中生产。药用植物基因组工程可以极大地促进药用植物生物活性成分生物合成机制的研究，并将中药研究推向生命科学领域的前沿。