DNA宏条形码技术在海洋浮游动物多样性和生态学研究中的应用
2022-11-26冯芸芝邵倩文王春生
冯芸芝,孙 栋,邵倩文,3,王春生,4,*
1 上海交通大学海洋学院,上海 200030
2 自然资源部第二海洋研究所,自然资源部海洋生态系统动力学重点实验室,杭州 310012
3 宁波海洋研究院,宁波 315832
4 南方海洋科学与工程广东省实验室(珠海),珠海 519082
海洋浮游动物是一类个体微小,运动能力较弱或无,在水层中营浮游生活的异养生物类群。它们种类丰富,数量极大,广泛分布于世界各大水域,作为海洋初级生产力的主要消费者,是连接海洋初级生产者和高营养级动物(鱼、虾、鲸、海鸟等)的关键营养纽带[1]。许多浮游动物具备典型的昼夜垂直迁移行为,能够直接促进不同水层间的物质交换;而它们摄食体型较小的浮游生物,并排出较大颗粒的粪便,也促进了有机碳向海洋深层的转移[2]。此外,浮游动物作为很多海产经济动物特别是经济鱼类幼体的重要饵料生物,其群落结构和多样性动态直接影响这些经济动物的资源量与补充能力,因此它们是渔业资源管理的重要依据[3]。水母类、桡足类、被囊类和毛颚类等许多浮游动物类群对气候、环境变化的响应非常敏感[4—5],是反映海洋环境变化的极佳研究对象;且它们的空间分布模式与水团、海流密切相关,也是研究水团、海流运动的良好指示生物[6]。综上,浮游动物不仅是海洋生物学的研究重点,也是生物海洋学和渔业科学等研究的重要对象。
浮游动物包括了庞杂的分类阶元,主要有原生动物(鞭毛虫、肉足虫、纤毛虫等)、刺胞动物、栉板动物、轮虫动物、浮游甲壳动物(桡足类、枝角类、端足类、介形类、磷虾类、糠虾类、萤虾类等)、腹足类软体动物、毛颚动物、低等脊索动物(浮游有尾类和海樽类)等。除了上述的永久性浮游动物外,还有暂时性浮游动物,包括底栖生物的浮游幼体及游泳动物的鱼卵、仔稚鱼等。基于形态学的物种鉴定方法对鉴定人员的专业水平要求较高,尤其是浮游幼体缺乏明显的形态学特征,难以鉴别,且形态鉴定工作量大成本高,不同专业人员的鉴定结果难以标准化,这仍然是海洋浮游动物生态学研究的一个主要障碍。此外,尽管相较于陆地、潮间带和海底,海洋水体之间往往被认为不存在明显的地理隔离,然而越来越多的分子生物学实验结果表明,浮游动物广布种在不同海域之间遗传差异较大,隐存种可能广泛存在[7—9],基于形态学鉴定得到的浮游动物物种多样性往往被低估。随着分子生物学技术的发展,基于不同物种特定基因序列的差异性,构建以短的DNA序列为分类单元的数据库,以实现快速、准确的物种鉴定的DNA条形码技术[10]已得到越来越普遍的认可和发展。然而,大多数浮游动物个体微小,分离并提取DNA的操作困难,耗时耗力,难以满足大规模生态监测的需求。
近年来,DNA宏条形码技术为克服上述困难提供了一套新的解决方案。该技术无需分离生物个体,而是通过提取复杂环境样本(包括过滤的空气和水、沉积物、生物混合样本等)的总DNA,基于特定的一对或多对DNA条形码进行聚合酶链式反应(PCR)扩增,然后通过高通量测序和比对,实现复杂样本物种多样性的快速评估[11]。随着测序成本的逐渐降低,宏条形码技术能够避免不同鉴定人员主观因素带来的误差,具有准确、高效、经济的特点,使其在浮游动物物种鉴定上具有显著优势[12—13]。此外,高通量测序技术产生的大量信息有利于揭示海洋浮游动物群落的隐匿多样性[14—15]。除了传统浮游生物拖网采集得到的样品可以用于宏条形码分析外,水体环境中也存在着大量浮游动物的游离DNA,即环境DNA(eDNA)。eDNA联合宏条形码技术探测浮游动物多样性的方法无需采集生物样本,对环境和浮游动物群落的破坏性更小,正逐渐成为研究热点,在生态监测和评估方面具有较大应用潜力[16—18],相关报道数量增长迅速(图1)。
图1 浮游动物宏条形码研究的文献计量学分析
1 DNA宏条形码技术的主要分子标记
核糖体小亚基18S rRNA基因是浮游动物宏条形码研究中的最常用的条形码(图2、表1)。其中18SV9高可变区长度约为130bp,非常适合高通量测序平台,其通用性良好且数据库中的参考序列十分丰富,因而是研究环境中真核生物多样性的常用分子标记[27—28],在浮游动物宏条形码研究中也有许多应用[15, 23—24, 29]。此外,18S rRNA的V1—V2区和V4区长度约为350—450bp,其中18SV1—V2区主要用于底栖生物的研究[30],而V4区更多用于浮游生物[31—32]。然而,V1—V2区比18S rRNA的其他可变区在桡足类中具有更高比例的简约信息位点,且在公共数据库中拥有丰富的参考序列[14],也适合浮游动物的多样性研究[25, 33]。另外,不同浮游动物类群与引物的适配度不同,例如18SV7区变异最大,适合研究种内高度分化的纺锤水蚤属(Acartia)[33],核糖体小亚基12S rRNA被认为更适合在种水平上鉴定隆水蚤科的桡足类[34]。此外,核糖体大亚基28S rRNA可变性更高,也已被应用于桡足类的宏条形码分析[26, 35]。
图2 浮游动物宏条形码研究中分子标记的统计
线粒体细胞色素c氧化酶I基因(COI)是后生动物最常用的条形码之一[10,36],也是海洋浮游动物常用的分子遗传标记(图2)。COI基因进化速率快于核基因组,因此在物种水平上具有更高的分辨率,但是在更高的分类层级上分辨率较低[37—38]。此外,由于COI编码蛋白质,在不同的生物类群中,密码子第三位碱基的摆动性增加了引物的错配率,而且COI基因在不同类群中进化速率差异较大,因此难以设计覆盖广泛浮游动物类群[39]或后生动物类群的通用引物[40—42],且对水母类、被囊类等胶质浮游动物重现性较低[36,43—44]。Leray等[45]设计了一对扩增长度为313bp的COI通用引物,适用于高通量测序平台,在珊瑚鱼肠道后生动物多样性研究中表现良好,目前已被广泛应用于浮游动物宏条形码研究(表1)[46—47]。此外,线粒体12S和16S基因也可以作为浮游动物宏条形码研究的分子标记[41, 48—49],在保证物种识别分辨率的同时降低引物-模板的错配率,且16S基因特别适合刺胞动物的检测[44,50]。
表1 浮游动物宏条形码研究中主要分子标记的应用示例
许多学者比较了18S和COI等分子标记对浮游动物多样性的评估效果,发现桡足类的优势物种均能被各分子标记检出,且都能有效地区分不同的浮游动物群落[51]。18S 能够覆盖更多的浮游动物类群,但由于其较高的保守性导致其对物种识别的分辨率较低,很难在种水平上区分物种,可能会造成对群落物种多样性的低估以及对非本土物种的错误注释[37,52—53],而且18S被发现在桡足类的不同科中的分辨率也不是一致的,这也会影响优势类群不同的区域之间多样性的比较[24]。所以18S更适合对复杂群落多样性的整体检测。COI检出的操作分类单元(OTU)中不能被注释的比例远高于18S和16S,可能的原因是COI数据库中参考序列较少[51, 54],但在构建并使用本土COI数据库的情况下,COI检出的浮游动物类群覆盖度与18S相当,且注释到种的比例高于18S[53—56]。
每种分子标记都有不同的类群偏好性,检出的生物种类和组成存在差异,因此,在实际研究中,要根据研究目的和目标类群选择最合适的引物。当进行生态监测和评估研究时,需要尽可能标准化和固定化1—2对引物的使用,在保证较高类群覆盖度的同时,降低多对引物带来的误差和成本,以实现不同时空的研究之间的比较。而当探索和挖掘环境中浮游动物多样性时,采用多种标记基因的组合能够起到相互补充的作用[16, 39, 57—58],甚至可以针对浮游动物的各个类群分别设计引物测序[59—60],以获得更全面的结果。
2 基于DNA宏条形码技术的浮游动物多样性研究
DNA宏条形码技术通过高通量测序产生几万至几十万条序列,为了提高分析效率和降低错误率,往往使用UPARSE和UCLUST等算法根据一定的相似度阈值将高通量测序得到的原始数据聚类为OTU,再基于OTU进行物种注释数据[30]。大多数浮游动物研究者采用97%的相似度阈值进行OTU的划分[23,35, 59,61]。但是,常用的分子标记如18SrRNA序列高度保守,Wu等[33]对数据库中所有桡足类的序列进行分析,得出相似性在97%上的序列有超过90%的可能性不属于同一个种。有些学者使用99%的相似度阈值以避免对物种多样性的低估[51,62]。此外,不同类群的种间相似度水平不同,不应该使用相同的阈值进行聚类[63]。而且目前大量物种分子数据的缺失会低估或高估种间相似度,从而影响相似度阈值的选择。也有学者认为不进行聚类,直接对所有序列进行比对注释会使多样性结果更可靠,尤其有利于识别低丰度和种间差异小的物种[31]。然而,Kunin等[64]建议采用不高于97%的阈值聚类以降低测序产生的大量错误对生物多样性的高估。目前,新型算法不断涌现,通过降噪的方式代替聚类以保留更多的有效数据。例如DADA2算法基于模型的序列校正,相当于以100%相似度聚类[65],而UNOISE系列算法通过在UPARSE算法基础上升级过滤流程,以减少测序错误[66],两者均已被应用于海洋动物宏条形码的研究[24,53, 67—68]。此外,物种注释算法和数据库的选择也会影响物种识别和物种多样性估计的准确性[69—71],经典的形态分类技术仍然是验证DNA宏条形码技术结果准确性的有效手段。
许多基于拖网样品的浮游动物宏条形码研究表明,使用97%的相似性阈值的情况下,宏条形码技术得到的结果能够重现形态鉴定得到大部分类群,反映相似的多样性特征[15,25, 29, 57]。此外,宏条形码技术能够揭示环境中的隐匿多样性,尤其是个体非常微小的原生动物[72—73],形态特征不明显的幼体和暂时性浮游动物,如多毛类,双壳类等等,以及群落中丰度较低的稀有种[14,24,31,46]。目前基于海水过滤样品中的eDNA进行浮游动物宏条形码研究相对较少,因为水样包含水体中所有生物的信息,所以使用通用引物扩增测序得到的结果中往往包含大量藻类和微生物等,且eDNA破碎、降解比例较高。尽管如此,基于eDNA的宏条形码技术依然能够很好地揭示浮游动物群落的多样性,特别是能够补充不易被拖网捕捉的浮游动物信息[16]。但是对于某些类群,宏条形码技术得到的多样性水平比形态鉴定得到的结果更低,原因主要有:(1)测序过程中的偏差;(2)数据库中参考序列的缺失;(3)引物适配性弱;(4)扩增片段长度的多态性;(5)水体中DNA过快的降解[33,51, 74]。另外,宏条形码技术也可能会高估某些低丰度的类群,如水母类和软体类[29],特别是水体中的浮游动物DNA片段可能通过海流和游泳能力强的捕食者被传播到几千米外的水域[75—76],沉积物的扰动也会将季节性缺失的物种带入水柱[77],从而引起检测结果的偏差和β多样性的降低[78]。总之,宏条形码技术能够快速而准确地反映浮游动物优势类群的多样性及分布特征[79],但若要尽可能全面地研究环境中浮游动物的多样性,则有必要综合使用基于网样和水样的宏条形码技术以及形态鉴定技术。
3 基于DNA宏条形码技术的浮游动物数量研究
经典形态学鉴定可以通过直接计数获得浮游动物各个物种的丰度信息。数量变化对于了解浮游动物群落动态特征和评价海洋环境质量至关重要。多个基于浮游动物拖网样品的宏条形码研究表明,各分类单元在高通量测序过程中产生的序列读数与其生物量之间具有较好的相关性[14, 16,51]。然而,实验表明序列读数仅能定性地反映物种数量和群落的动态特征,而不能可靠地量化单个物种的生物量。一方面,即使在同一浮游动物群落的平行重复之间,序列读数的分布在统计上也是不同的[80],DNA的提取、标记基因的选择、PCR扩增和高通量测序等过程中产生的实验偏差是产生差异的主要原因[81—82]。另一方面,浮游动物群落中的不同类群,乃至同一类群中不同分类水平的分类单元的序列读数与生物量之间的相关性也有所差异[68]。由于真核生物的核糖体基因和线粒体基因都是多拷贝基因,其在不同动物类群中拷贝数的差异,以及数据库中不同类群参考序列的完整性差异是使用宏条形码技术进行浮游动物量化研究所面临的重大挑战,特别是稀有类群[68,83]。此外,不同浮游动物类群个体大小差异较大,会对物种丰度的估计产生偏差,多个小型生物体可能产生与少数大型生物体相同数量的序列读数[29]。
基于eDNA的宏条形码研究面临更复杂的情况。首先,需要验证释放到水体中eDNA的浓度与浮游动物的生物量或丰度存在相关性[18]。其次,不同环境中eDNA衰减率差异很大[74, 84—85],且对环境因素如何影响eDNA浓度、稀释和扩散速率的理解尚不充分[18],这限制了不同采样季节、地点水体中浮游动物群落结构的比较。已有研究提出构建人工群落或者结合实时荧光定量(qPCR)技术来校正序列读数与物种生物量之间的偏差[82, 86],但这些方法都需要针对每个类群分别计算校正因子,浮游动物涵盖的类群十分广泛,宏条形码技术实现对浮游动物的量化评估仍然需要更多研究支持。
4 DNA宏条形码技术在浮游动物生态学研究中的优势
与传统的形态鉴定方法相比,DNA宏条形码技术在海洋浮游动物群落监测中的主要优势在于:(1)宏条形码技术的便捷性,使之成为长时间尺度的多样性连续监测的好工具[61],有利于跟踪浮游动物群落的长期变化,特别是观测其对异常气候事件的响应[59]。目前,冰芯或深海沉积物中保存的DNA可用于揭示成千上万年前浮游生物多样性[87]和群落的历史变迁[88];(2) 全球范围内不同海域的浮游动物优势属种和群落组成有明显差异,宏条形码技术无需鉴定人员具备完备的分类学知识,且能够揭示广布种在不同地理环境下的种内变异,因而也非常适合大尺度浮游动物群落的监测。例如Hirai等[26]调查了整个太平洋中上层桡足类的群落结构分布模式,而Chain等[31]比较了太平洋、大西洋和北极海域浮游动物多样性的差异。(3)宏条形码技术可以与声学技术联合研究浮游动物的昼夜垂直迁移[89]。(4) 基于eDNA的宏条形码技术,使用通用的分子标记,能够一次性获得从真菌、原生生物到后生生物的分类信息,有利于各类群的比较以及类群间相互作用的揭示,实现对生态系统整体的认识[67,90]。(5) 高通量测序产生的大量测序数据,包括不能在数据库中被注释的序列信息,都能够通过机器学习建立模型[91],在水域生态健康的评估和预测上具有更高的敏感性和准确度,目前在淡水生态系统中已有应用[92—93]。总之,下一代的全球海洋生物监测将以大规模、自动化为特点,能够获取更丰富和多样化的生态信息,促进对生态系统变化的理解[94]。
DNA宏条形码技术还可以用于浮游生态系统的营养关系研究。生态系统营养关系研究的经典方法是基于物种的食性分析,即通过收集和分析捕食者的消化道内容物和粪便,在显微镜下观察形态以鉴定物种。该研究面临的最大技术障碍就是饵料生物个体在捕食者的消化道内会产生物理性碎裂和化学性降解,以至于形态逐渐不可辨别。在粪便中,可鉴别形态的比例会更低。宏条形码技术的应用,能够快速、大规模地揭示捕食者的食谱特征和生物之间的营养关系[95—98],特别适合难以观测的深海捕食关系和营养关系研究[99]。此外,在生物入侵的早期阶段,入侵种的丰度较低,难以被传统的采样方式捕捉和鉴定,而宏条形码技术对低丰度物种检测的敏感性显著地提高了识别入侵种的能力[100—101],有利于生态预警监测和管理。宏条形码技术在种群遗传学上也有应用潜力,高通量测序产生的大量代表性序列,包含了足够的物种特异性信息,可以直接用于系统发育和生物地理格局的分析[18,26]。
5 总结与展望
目前DNA宏条形码技术在海洋浮游动物生态学的研究中展现出了巨大的优势,但是依然存在显著的问题。一方面,完善的数据库信息是利用宏条形码技术进行物种比对注释的基础,但是浮游动物DNA条形码的数据大量缺乏[36],尤其是COI条形码亟需得到本土物种数据补充[69]。而且浮游动物的形态鉴定水平受鉴定人员的专业水平影响较大,由于审核机制的缺失,一些数据库中DNA序列信息错误率较高[102]。另一方面,数量评估在海洋浮游动物生态学的研究中不可或缺,DNA宏条形码技术如何做到对浮游动物生物量和丰度的准确量化是未来发展的重要目标。随着高通量测序技术,定量PCR技术和生物信息学分析技术的进一步发展,覆盖类群更广泛的多基因片段组合条形码的开发和测序质量的提升,DNA宏条形码技术结合跨学科的知识,将为海洋生态系统中浮游动物的多样性和数量提供更准确的评估,在保护生态学、种群遗传学及生物地理学等领域得到越来越广泛的应用。