标本组学
——树木学研究的新方法
2022-11-29段一凡方炎明
杨 永,杨 智,段一凡,方炎明
(南京林业大学生物与环境学院,江苏 南京 210037)
1 树木学的产生与发展
树木学(dendrology)是研究树木的分类、地理分布、生物学和生态学特性的学科[1]。树木学源于植物分类学,传承久远,历经人为分类、自然分类和系统发生分类3个时期[2]。达尔文于1859年在其划时代的巨著《物种起源》一书中创造性地提出物种来自物种,物种之间曾经有共同祖先,所有生物都有一个共同祖先[3]。系统发生是由共同祖先开始,物种不断分化形成一棵繁茂的生命之树(Tree of Life),以此为基础形成了地球上复杂的生物多样性。自达尔文以来,人们追求按演化关系或亲缘关系来进行分类[2]。因此,重建系统发生或生命之树一直是进化生物学研究最重要、最核心的问题,生命之树也是树木学研究和树木资源利用的重要基础。
树木学是一门不断发展、高度综合的学科。形态学、解剖学、细胞学、孢粉学、植物化学、化石等都是揭示系统发生关系的重要证据和数据来源[2]。但是,由于平行演化或趋同,使得利用这些特征得出的系统发生关系之间存在一些争论,甚至,由于不同的研究人员所强调的特征的重要性不同,而得出不同的结论。裸子植物松柏类各个科的划分和彼此之间的系统发生关系存在长期争论,如郑万钧等[4]、Arnold[5]、Chamberlain[6]、Fu等[7]、Keng[8]、Pilger[9]、Pilger & Melchior[10]多项研究的讨论,焦点在于对银杏(Ginkgobiloba)、非典型球果的罗汉松科(Podocarpaceae)和红豆杉科(Taxaceae)以及买麻藤类的处理上[11]。银杏是种子植物一条独特的传代线,其船形花粉和具鞭毛的精子与苏铁类相似,而枝性生胚珠长梗被认为与松柏类的枝性种鳞有共同来源,单轴分枝方式和密木型木材支持银杏与松柏类更为近缘[12-15]。基于形态特征建立的被子植物分类系统就有恩格勒系统、哈钦松系统、塔赫他间系统、索恩系统和达格瑞系统等,这些系统对被子植物的祖先群、现代类群的原始群以及科的亲缘关系都存在不同意见[16-18]。新技术的发展为解决这些争论提供了新的解决方案。
以DNA测序为基础的分子系统学作为独立的证据,可以检验基于其他学科证据所得出的结论。自20世纪90年代以来,聚合酶链式反应(polymerase chain reaction, PCR)和一代桑格测序技术使得人们可以利用DNA序列进行系统发生重建,促进了植物分类学的发展,提出了APG系统[19]。一代测序通过设计引物和PCR扩增目标序列,并进行测序。但是,一代测序在两个方面受到限制:一是需要耗费大量人力、物力和时间去野外或植物园采集新鲜材料或者是硅胶快速干燥的样品[20],使得系统发生重建中物种代表性较低;二是过去常用于建树的序列非常有限,如nrITS、matK、rbcL、trnL-trnF、psbA-trnH等,导致很多类群的系统发生树问题尚未解决。
解决物种取样问题和提高分辨率是系统发生重建的关键。二代测序(或新一代测序,next-generation sequencing,简称NGS)是一个技术革命,解决了利用标本进行基因组测序的技术瓶颈。它将基因组DNA序列打成短片段建库,在片段两端加标签后测序,再利用生物信息学技术拼接序列[21]。二代测序技术极大地拓展了DNA序列的使用深度,使得很多功能已知或未知的DNA序列均可用于系统发生重建。不仅如此,二代测序还很好地拓展了材料的使用。标本是保存在全球标本馆中分类学知识的重要凭证,全球物种及其分布几乎都有对应的馆藏标本。全球3 400个标本馆,馆藏超过3.9亿份标本(Index Herbariorum, http://sweetgum.nybg.org/science/ih/),这是分类学研究的重要资源库。由于标本制作过程中的高温处理和保存过程中DNA的氧化等原因,使得标本中的DNA降解严重,通常长度为50~200 bp。一代测序无法对破碎DNA片段进行扩增和测序,因此,难以利用标本材料[22-23]。利用二代测序技术,标本材料所含破碎DNA无需被打断即可建库和测序,可以充分利用标本材料来增加物种取样。因此,二代测序技术的发展使得以前不能使用的研究材料也变得可以利用,且能够获取的序列数据量更大,从而在足够的物种取样和改进系统发生树的分辨率两个方面对提升树木分类研究有着巨大的促进作用。
2 标本组学:提升树木学研究的途径
标本组学(herbariomics/museomics)是近年发展起来的新方法,它基于二代测序技术,可充分利用标本材料,对标本材料中的基因组DNA进行建库和测序,以获得系统发生重建所需的大量序列[24-25]。生物信息学方法是基因组时代序列拼接和分析的重要方法。对标本进行基因组测序后,原始测序数据用Trimmomatic和FastQC等软件进行质控和清理,生成有效数据(clean data);使用GetOrganelle[26]、NOVOPlasty[27]和HybPiper[28]程序包对序列进行拼接;拼接好的序列就可以用于系统发生分析和研究。理论上,采用标本组学可以获得全基因组的序列数据,因此,完全可以获得满足系统发生研究的DNA序列[21,25]。大量的研究也已经表明,从标本中获取基因组DNA序列可行,能满足系统发生重建的需要[29-31]。
相比于利用新鲜材料或硅胶干燥材料的一代测序和转录组等方案,标本组学因可以使用标本材料获取基因组DNA而有着明显的优势(表1)。第一,可获得序列数据量大。一代测序获得的nrITS、matK、psbA-trnH、rbcL等常规片段数据较少,这些序列对解决一些类群的系统发生分辨率不够。标本组学可以获得基因组数据,即使测序深度很低的情况下,都可以获取高拷贝序列如nrITS、叶绿体基因组和线粒体基因组等序列[25,32]。适当增加测序深度,甚至可以获得单拷贝核基因序列[33]。第二,充分利用标本材料可以增加物种取样量。过去400多年来,全球植物学家采集了大量的标本,成为目前植物物种多样性知识的重要凭证材料,这些材料的利用几乎可以实现已知物种的全面取样,甚至包括那些野外已经绝灭或者是极度濒危且已经被严格保护而无法取样的物种都可以从标本材料中获得[24]。第三,利用标本材料可以节约大量的研究时间,缩短研究周期。一代测序时期,依赖于新鲜材料和野外硅胶干燥叶片,研究人员通常需要花费大量的时间去收集样品。标本组学使得标本材料能用于获取DNA序列,从标本上收集材料可以短时间获取大量样品,同时,从标本材料上取样也可以节约野外采集成本,因此,标本组学的应用将大大降低野外采集样品所需要的人力、财力资源,还可以节省大量时间。第四,利用标本材料可以获得较为准确的物种鉴定。野外采集的材料只有经过鉴定之后才能被用于研究,而鉴定物种常常需要依赖分类学专家。馆藏标本在过去400多年经过很多分类学专家的研究和鉴定,甚至被专著和修订的论文所引证,物种准确率更为可信。因此,标本组学完全称得上是低成本、省时间、高效率、准确度高的好方法。
表1 标本组学与一代测序、扩增子测序、浅层测序、转录组测序、简化基因组和靶序列捕获技术的比较(修改自Yu等[36])
实际工作中,研究人员可以按照实际需求,将标本组学结合浅层测序(genome skimming)和靶序列捕获(targeted sequence capture)等技术来获取目标DNA序列。浅层测序技术是对基因组进行低深度测序获得基因组DNA的技术,通常用来获得叶绿体基因组、线粒体基因组和核糖体DNA等细胞中的高拷贝DNA序列[23,34]。标本组学结合浅层测序技术可以从标本材料中获得叶绿体基因组和nrITS等序列,这些序列已经可以解决大部分研究问题,满足进化树构建和超级DNA条形码研究的需要。靶序列捕获是通过设计进化上比较保守的外显子序列的探针,利用探针从基因组DNA建库样品中捕获基因及其两端的非保守序列(图1),这些序列不仅包含了进化速率较慢的保守区,还包含了进化速率较快的保守区两端的非编码序列,因此,完全可以满足系统发生重建的需要[35-36]。结合浅层测序和靶序列捕获获得叶绿体基因组和单拷贝核基因序列,如Hyb-Seq[37],甚至可以深度研究那些具复杂进化历史类群的系统发生和生物地理。
图1 图解靶序列捕获技术原理
标本组学在系统发生研究中的作用已经逐渐显现。Staats等[38]使用保存了43 a的拟南芥(Arabidopsisthaliana)标本进行测序,并且获取了完整的核基因组数据,这代表了首次基于标本的被子植物核基因组序列。Bakker[22]对被子植物10科93种的标本取样,运用浅层测序的方法成功获取了74个样品的叶绿体基因组,成功率达到了80%,标本年龄最高可达到146 a,展现了运用标本组学进行植物系统发生研究的可能性。基于标本组学获得的序列数据可以研究复杂进化历史,如对五加科鹅掌柴属(Schefflera)[39]、金莲木科(Orchnaceae)[40]研究。标本组学也可以用于获取线粒体基因组数据,如Van de Paer等[41]利用一个已灭绝的木犀科单种属爪瓣榄属(Hesperelaea)唯一一份140 a的标本,成功组装了一个完整的线粒体基因组,以研究该属的系统发生位置。这为难以获取材料的珍稀濒危物种的系统发生研究提供了案例。此外,靶序列捕获的方法使得从标本材料中提取大量的单拷贝核基因成为了可能[42-43],它已为金莲木科(Orchnaceae)[44]、桑科菠萝蜜属(Artocarpus)[45]、大戟科大戟属(Euphorbia)[46]和豆科印加属(Inga)[47]等的系统发生重建提供了新的证据。靶序列捕获技术还被运用到了松属(Pinus)中研究其不完全谱系分选和网状进化[46,48]。
3 标本馆、标本组学与树木学的未来
标本馆是植物分类学和树木学研究的重要基地[49]。标本不仅记录了植物的习性、形态、地理分布、物候等特征,而且作为实物凭证,可提供孢粉、微形态和结构,以及基因组研究的材料,对于系统学、生物地理学、生物多样性、DNA条形码、基因组学研究以及公众科普教育均有不可替代的作用[50-51]。标本及其衍生数据和产品应用很多,标本馆甚至被称为学术整合节点(academic nexes of integration),起着学科交汇和创新孵化器的作用[52]。16世纪意大利人哥亥尼发明了干标本制作方法,他的学生茨博于1532年建立了植物学史上第一个植物标本室[49]。标本制作和标本馆的出现及发展使得植物分类学的发展变得可能。18—19世纪,欧美等发达国家在全球收集了大量植物标本,成为认识全球植物物种多样性的基础,同时也奠定了这些国家和机构在全球植物分类学中的地位。我国自然科学研究起步较晚,20世纪初才开始,100余年当中,收集植物标本超过1 000余万份[53],仅中国科学院植物研究所标本馆就馆藏标本280余万份。基于这些标本,我国植物学家完成了全球最大的国家植物志——《中国植物志》,还完成了英文版FloraofChina。但是,我国的馆藏标本基本上是采自我国地域范围的标本,对世界各地标本收藏非常有限,对于分类学和树木学研究来说还远远不够,这也限制了新时期我国树木学及相关学科的发展。
近年来,我国科学家前往南美洲、非洲和东南亚等地进行植物标本采集1 100余次,共采集标本260余万份[54]。这些标本为我国研究人员编研境外植物志和相关类群的分类学研究提供了重要条件,如《肯尼亚植物志》《柬埔寨、老挝和越南植物志》[55]《An Inventory of Legume Species Diversity of Myanmar》[56]等。建立馆藏全球物种的大标本馆,不仅为树木学、生物多样性、生物地理和资源利用等创造便利的研究条件,同时也在服务国家战略、生物安全等方面发挥重要的支撑作用[57]。
标本组学的研究打开了通向过去的窗户,揭示了隐藏的历史[58],现在正处于标本组学时代的“黎明”时期[32]。在未来的几年里,很有可能会因此获得大量的植物标本基因组数据[21]。这些新技术应用和新数据的发掘,将极大地促进树木学和相关学科的研究,为全球植物资源的开发利用和物种保护研究提供更加强大的工具。不仅如此,DNA序列数据和系统发生研究方法已经广泛应用于生态学、生物地理学、DNA条形码等相关领域,标本组学作为一种获取数据的方法也为提升和改进树木学及相关学科的研究提供强有力的解决方案。