病毒宏基因组学在新发病毒快速确认中的优势

2021-11-29张文代紫苑鲍思雯茅庆庆

江苏大学学报（医学版） 2021年1期

张文，代紫苑，鲍思雯，茅庆庆

(江苏大学医学院，江苏镇江 212013)

自然界中存在着数量庞大的未知新型病毒种类，而人类认知的病毒只占所有潜在病毒类型的0.1%[1]，这些潜在的未知新型病毒极易造成新发病毒感染性疾病。研究人员经过实地调查研究结合统计学方法，认为哺乳动物体内尚未发现的未知病毒有近百万种[1-2]。传染病专家预计在未来相当长一段时间内，人类新发传染病的病原体将主要来自动物体携带的未知新型病毒[3]。随着科学技术、工农业和交通工具的快速发展，人类和资源的流通及人类接触自然领域的速度和频率迅速提高，这导致新发传染病的发生案例逐年增多。近30年来全球出现的新发传染病达100多种，并以每年新发2～3种的态势发展，对人类健康危害巨大，已经成为全球公共卫生领域关注的焦点[4]。从近年来新发或再发的传染病案例来看，其病原体多为病毒，如2020年全球爆发感染的SARS-CoV-2[5-6]，频繁爆发的新型禽流感病毒(avain influenza virus)[7]、中东呼吸综合征冠状病毒(MERS-CoV)[8]、寨卡病毒(Zika virus)[9]等。此外，临床上尚有一些不明病因急性或慢性感染性疾病，给特异性诊疗带来巨大困难。如临床急性或慢性胃肠道疾病中有近40%的病例无法查出病因[10-11]，有10%～20%的急性肝炎及30%的隐发性慢性肝病的病原体尚不明确[12-14]；其中有些临床不明病因的感染性疾病已经被证实与新发病毒的感染有关[15-17]。新发病毒的感染具有不可预知性且不易被传统方法检出，对此人类还没有有效的早期防治措施。因此，新发病毒性病原体的快速确认技术对于临床治疗及疫情防控至关重要[8]。

目前，临床上传统的病毒检测方法主要包括基于病毒基因的各类(RT-)PCR和基于病毒抗原抗体的血清学检测。但这些方法的局限性是要提前预知病毒的基因序列或蛋白质序列信息，因此只能用于检测已知病毒或变异幅度较小的毒株，而对于变异度较大或未知新型病毒则不能有效检出。对于未知新型病毒，科研工作者可以用传统的组织细胞培养法或电镜观察法确认其病原学特征，但这些方法也有其不可克服的局限性，其中细胞培养法只能针对部分病毒，且新型病毒的容纳细胞在短时间内难以确定。而电镜法则耗时耗力、灵敏度较低且不易定性鉴定病毒。近年来，随着病毒分子生物学和下一代测序(next generation sequencing，NGS)等技术的不断发展，一些新的病毒高通量检测方法被应用到未知新型病毒的挖掘中，其中病毒宏基因组学技术越来越成为人类猎取未知病毒的高效工具[18-20]。

1 病毒宏基因组学原理

宏基因组也称微生物环境基因组，由Handelsman等于1998年提出，其定义为环境中全部微小生物遗传物质的总和[21]，包括可培养的和不可培养的微生物的基因，目前主要指环境样品中的细菌和真菌的基因组总和。与细菌和真菌相比，病毒的颗粒及基因组均远小于它们。在传统的宏基因组学研究中，病毒基因序列由于占比太小或被淹没在海量的真菌及细菌基因序列中，难以被发现并进行分析。因此传统的宏基因组学分析方法无法用来进行病毒群落分析[22]。病毒宏基因组学在宏基因组学的基础上发展而来，主要用来解析特定环境或生物样品中的病毒组，其概念由Edwards等[23]在2005年首次提出。随后，美国加州大学的Delwart教授及美国哥伦比亚大学Lipkin教授对该方法进行了改进和发展，使该技术更加适用于大多数已知病毒和未知新型病毒的快速鉴定[2,22]。利用该技术，科研人员已经能够检测出可以感染人类及其他脊椎动物的病毒类型如图1所示。除了人类及其他脊椎动物的病毒群落，该技术在大气、土壤、植物病毒群落及噬菌体群落解析方面也有了大量的应用[20,22,24-25]。

该研究技术利用了病毒颗粒的两个典型特征，即病毒颗粒小且核酸有致密的蛋白质衣壳保护。基于此特点，可以利用微孔滤膜过滤的方法将样品中真核及原核细胞与病毒颗粒分离开来，进而利用核酸消化酶(包括RNA酶和DNA酶)去除滤液中游离的非病毒衣壳保护的核酸，使样品内病毒核酸占比显著提高，从而可以利用下一代测序技术充分获得样品内的病毒核酸信息。因此，病毒宏基因组学摒弃了传统宏基因组学对病毒组学研究的缺陷，可直接鉴定病毒群落的遗传物质，不需要预先进行病毒基因序列特异性扩增。其测序技术早期通过一代测序技术(Sanger法)获得病毒基因序列，随后迅速发展到通过下一代测序来分析包括人类和动物粪便、血液、组织和呼吸道分泌物等样本内的所有病毒序列组成。病毒宏基因组学中所谓“深度测序”主要集中在发现病毒及识别未知新型病毒或对已知病毒的变异类型进行研究，以更好地了解它们的遗传及进化规律，从而达到对病毒群落进行无偏好性识别，且消除了在细胞培养中预先扩增后病毒多样性降低的影响。例如，本次新冠病毒肺炎暴发感染之初，世界首个SARS-CoV-2全基因组序列便是通过病毒宏基因组学方法获得[5]。

2 病毒宏基因组学技术流程

病毒宏基因组学分析流程主要包括样品内病毒核酸富集、文库构建、下一代测序、生物信息学分析几个主要步骤，加上后期新发病毒与特定疾病关联性验证，其详细分析技术路线如图2所示。

2.1 病毒核酸富集

由于绝大多数病毒的基因组远小于真核及原核生物基因组，如果事先不进行病毒核酸富集而直接对临床样本进行核酸测序，将导致真核及原核遗传物质(包括游离基因组序列和核糖体RNA序列)的背景较高[26]。为了减少这类背景噪音，可以使用微孔滤膜(包括0.45 μm)过滤方法来纯化病毒，以排除较大的其他大型颗粒。过滤后的滤液通过核酸酶(包括RNA酶和DNA酶)消化大量存在于临床样本中的裸露细胞核酸，病毒核酸因被病毒衣壳保护而不被核酸酶消化。当样本体积较大时，例如在环境研究中，也可以使用超速离心方法从预期密度带中浓缩和提纯病毒颗粒[27]。

2.2 文库构建及下一代测序

经过上述处理步骤之后，尽管样品内病毒核酸的相对占比大幅度提高，整个样品内核酸的绝对浓度却会显著降低。因此，在病毒宏基因组学研究中，不管使用基于哪种测序方法进行基因文库的构建，病毒核酸都需要进行扩增，才能产生下一代测序平台所需的大量DNA。对于RNA病毒，则首先需要将其RNA基因组逆转录成cDNA。各种不依赖已知序列的DNA扩增方法已经被成功地使用，其中随机引物法目前占据主导地位。该方法将随机引物(通常为6碱基随机引物)放置在特定标签序列的3′端，随机引物的简并性允许引物在病毒RNA或DNA基因组的整个长度内退火[24]。将这样的引物放置在病毒序列的两端进行两轮延伸之后，再用其携带标签序列作为引物进行多轮PCR扩增，即可获得大量病毒DNA，然后再通过特定方式加上适用于下一代测序的接头序列进行深度测序。近年来，单引物等温扩增(single primer isothermal amplification,SPIA)和多重置换扩增(multiple displacement amplification,MDA)两种等温扩增技术也在病毒宏基因组学研究中大量使用，特别是针对特定目的病毒(如呼吸道样品内的SARS-CoV-2)的核酸检测方面取得了良好的效果[28]。

罗氏公司454测序系统是最早用于未知新型病毒挖掘的高通量测序工具。该测序方法可产生较长的读长，其单个读长可达到500 bp，这便于识别高度变异的病毒序列[29]。随后，Illumina公司下一代测序分析平台由于兼具读长(单个读长可达300 bp)和测序深度两大特点而成为病毒宏基因组学研究的主要测序方法。近来Pacific Biosciences及Oxford Nanopore推出的三代测序技术，可以在数小时而不是几天内提供大量更长读长的测序数据，使得病毒宏基因组学研究更加快速、结果更加可靠[30]。然而，测序高错误率是这些高通量技术固有的缺点。在病毒宏基因组学分析中，通常使用BLASTx搜索分析样品内的病毒序列，下一代测序中的移码突变会改变病毒基因组内的开放阅读框(open reading frame,ORF)，从而干扰蛋白质相似性搜索，继而影响高变异型病毒的鉴别。使用基于核苷酸序列相似性搜索(如BLASTn)时，移码突变对鉴别已知病毒病原体的影响则较小。当然，如果样品内病毒滴度比较高或下一代测序的深度较深，那么测序过程中产生的突变则可以被序列拼接过程中的高覆盖率所纠正。尽管下一代测序也可以用来检测罕见的病毒变异(如HIV抗药性突变体)，但在野生型病毒准种鉴定方面却需谨慎使用[31]。

2.3 病毒宏基因组学研究中的生物信息学分析

为了便于识别未知新型或高度变异型的病毒，下一代测序所产生的原始数据需要经过从头拼接，以将文库内所有DNA短序列组装成更长的重叠群。完成这一分析的软件众多，包括适用于Windows系统的CLC genomic workbench和Linux系统的ENSEMBLE assembler等[32]。序列拼接完成后，使用NCBI开发的BLAST工具，在核酸或蛋白质公共数据库中搜索重叠群和未组装的单体序列。核苷酸相似性搜索(BLASTn)可以快速识别与已知病毒物种序列密切相关的序列。而与公共数据库中的已知病毒核酸具有高度分歧度的病毒序列则无法使用核苷酸相似性搜索来识别，需要将它们的潜在翻译产物与所有已知病毒蛋白序列数据库进行更严格的计算比较(BLASTx)，以检测较弱的匹配。基于重叠群或者单体序列的BLASTx搜索结果可以直接导入其他软件，获得某个样品内病毒群落的组成。实现此类分析的一个常用软件为MEGAN 6.0，它不但可以显示某个文库内的病毒群落组成，还可以根据序列数的多少给出样品内各类病毒的相对含量信息，有利于判断样品病毒群落内的优势病毒[33-35]。此外，该软件还可以根据不同样品的BLASTx搜索结果进行横向比较，从而分析一组样品不同样品间病毒群落及特定病毒的异同，确定一个研究群落内的优势病毒类型，有利于确定特定疾病与某种病毒感染的相关性。一般来说，一旦潜在的新的病毒科、属及种的全基因组序列被获得，它的遗传分类地位及其与已知病毒科属种之间的遗传关系可以很快通过系统发育分析来确定[36]。在此过程中，需要检索与待分析病毒相关的已知科属种病毒的代表毒株的基因组或保守蛋白序列，经过序列多重比对(multiple sequence alignment，MSA)，使用系统发育分析软件(如Mega 7.0及MrBayes等)构建系统发育树，从而直观表示新型病毒的遗传分类地位[37]。对来自任何特定宿主群体(如脊椎动物、节肢动物、原生动物、植物和原核生物)的新病毒科的鉴定将有助于在其他宿主中检测它们的同源病毒。

3 新发病毒与特定疾病的关联分析

目前，部分常见病仍然没有确切病原，包括部分急性胃肠炎、急性呼吸道感染、肝炎和脑炎等。此外，一些自身免疫性疾病和癌症也可能是由仍未确定的病毒感染触发。因此，病毒宏基因组学为识别此类疾病的候选病原体提供了一种简单的工具。近年来，病毒宏基因组学技术测定了大量人类和动物体内的病毒群落[20]。虽然众多未知新型病毒是在不明病因的患者临床样本中发现的，但它们在临床样本中的存在和发现可能是一种巧合，与这种特定疾病的发生没有必然联系，而只是反映了机体内的无害感染[18,25]。一种鉴定出的新病毒可能真的是感染人类的病毒，也可能只是简单地摄入或吸入，然后一过性地通过肠道或支气管腔而并不感染人体。研究发现，在人类和动物粪便中普遍检测到摄入的植物、动物和昆虫病毒核酸[37-38]。检测到这类核酸只是证明了它们在消化道中具有存活的能力。而人类血清中特异性抗体的检测可以用来证明病毒在人体内的复制。不同于人类肠道、呼吸道分泌物或皮肤样品检测到的病毒，血液、组织或脑脊液中检测到的病毒更可能是病毒复制的证据。但病毒在人类体内的复制不能被认为是病毒致病的确凿证据，因为病毒可以在易感细胞培养过程中绕过宿主限制，而且许多病毒可以在体外非宿主物种的细胞系中生长。因此，研究新发病毒的感染与特定疾病的关联分析就尤为重要，可以防止不必要的干预，如抗生素治疗，并改进治疗措施和传播预防。

对于新发病毒与特定疾病的关联性研究，可以在病毒宏基因组学研究获得病毒基因组序列的基础上，使用(RT-)PCR法比较患者和健康对照样本中的病毒携带率，也可以辅以定量PCR检测方法比较疾病群体与健康对照群体体内病毒载量。在病毒流行感染期间，病毒特异性抗体的检测也是判断特定疾病与该病毒感染相关性的重要依据。当然，由于不同人群的病毒暴露和易感性可能有很大差异，因此疾病群体和对照样本需要在流行病学上高度匹配，特别是年龄及地理来源。如不能将疾病群体与对照样本正确匹配可能会导致错误结果。疾病关联研究最好也涉及来自不同地区或国家的不同年龄组。这种关联研究的结果可以高度提示新发病毒的致病作用。最终，要确切证明疾病与新发病毒感染之间的关联，需要不同的研究小组使用不同的患者和对照样本进行确认。使用特定的抗病毒药物或接种病毒后，感染者恢复期血清特异性抗体的降低、症状的减轻、疾病患病率的降低是证明新发病毒致病性的直接方法。但这些措施只针对高致病性和流行的病毒感染。新发病毒致病性的最终确认首先取决于如上所述的疾病关联性试验。

4 病毒宏基因组学技术用于临床快速诊断的展望

诚然，病毒宏基因组学技术目前还存在成本高、分析步骤烦琐、分析周期长等不足之处。一旦这些重要的障碍被突破(当然这些缺陷相信会很快解决)，病毒宏基因组学技术将是一个很具潜力的快速诊断临床病毒感染的方法。同时，在生物制品的开发和制造过程中，该技术也可以用来检测病毒污染[39-40]。该方法要实现从科研到临床快速诊断，缩短整体技术流程所需的时间是首先要解决的问题，从临床样本采集到序列数据生成和生物信息学分析的时间缩短到具有临床意义的1天乃至数小时，有利于临床的早诊断、早治疗，这将提高人们利用测序方法进行临床诊断的吸引力。成本问题是另外一个急需解决的问题，当单一病毒检测的成本相当低时，则可以把病毒检测作为医疗单位常规检查之一。当然，持续存在的DNA污染问题和极低水平的病毒核酸检测的医学意义也需要解决。如果上述问题能够成功解决，病毒宏基因组学技术有望成为单一全覆盖式的病毒快速检测方法，从而取代临床许多病毒特异性测试。此外，在科研领域，新病毒的发现、病毒基因组的重新测序及病毒基因突变等方面，病毒宏基因组学技术仍然会广受欢迎。