SARS-CoV-2基因组流行病学研究进展

2020-01-14陈爱平张拥军

中国人兽共患病学报 2020年10期

陈爱平,凌华,叶盛,张拥军

2019年12月湖北武汉市出现聚集性不明原因肺炎疫情，经过中国疾病预防控制中心调查，鉴定出一种新的冠状病毒，后来被命名为严重急性呼吸综合征冠状病毒2(SARS-CoV-2)，相关疾病被命名为2019年冠状病毒病(COVID-19)[1-2]。COVID-19全球大流行迄今已经累计确诊>900万人，死亡超过47万(2020年6月24日)[3]。在全球大流行疫情持续蔓延的同时，国内外众多研究机构和实验室不断获得并分享SARS-CoV-2病毒基因组数据，不断刷新对该病毒生物学特征的全面认识。本文旨在介绍目前SARS-CoV-2基因组流行病学研究进展，以便更加深入地解析病毒基因组信息，全面了解病毒流行和传播特征，促进大流行疫情的防控。

1 多方位推动病毒基因组测序及数据共享

作为第7种能够感染人类的冠状病毒，SARS-CoV-2病毒在分类上属于冠状病毒科β冠状病毒属，基因组为单股正链RNA，全长约30 000核苷酸，编码10个蛋白[1]。疫情暴发之初，由于各种公共数据库中均无相关毒株完整的基因组信息，中国疾病预防控制中心在鉴定获得完整的SARS-CoV-2基因组过程中，结合了Illumina测序、nanopore测序以及5′-或3′-cDNA末端快速扩增(RACE)片段的毛细管测序等多种手段[1]。自第一株SARS-CoV-2基因组序列公开发布之后，根据参比毒株基因组序列，国内外不同机构先后推出了基于扩增子的毛细管测序和高通量测序方案，以及直接从临床样品中进行宏基因组测序分析的方案，例如美国疾病预防控制中心(CDC)在4月初将不同测序平台的方案汇总后发布到github网站(https://github.com/CDCgov/SARS-CoV-2_Sequencing)[4], 美国加州大学圣克鲁兹分校于5月初上线了SARS-CoV-2基因组浏览器 (https://genome.ucsc.edu/covid19.html)[5]，以便全球研究人员对基因组进行可视化注释，推动SARS-CoV-2基因组测序。

随着SARS-CoV-2感染病例被发现，来自世界各地的相关基因组数据迅速汇集到全球共享流感数据倡议组织(GISAID)数据库EpiCoV，迄今已经>55 000条(截至2020年6月24日)[6]。中国国家生物信息中心(CNCB)/国家基因组科学数据中心(NGDC)首先建立了病毒基因组序列信息库(https://bigd.big.ac.cn/ncov)[7]，中国国家微生物科学数据中心发布“全球冠状病毒组学数据共享与分析系统”(http://nmdc.cn/coronavirus)[8]，旨在促进国内外冠状病毒数据的汇集、综合分析及共享。在世界卫生组织(WHO)宣布COVID-19全球大流行之后，英国一些公共卫生实验室和学术机构成立了英国COVID-19基因组联合组织(COG-UK)，为当地国家健康体系(NHS)中心和政府提供大规模快速基因组测序[9]。美国在2020年5月宣布成立由CDC牵头的全国基因组联合组织(SPHERES), 以便在全国监测病毒变异，并在全国、全球范围及时分享基因组数据，参加的机构包括联邦、州公共卫生实验室、学术机构、国家实验室、非赢利研究所等100多个实验室[10]，以上平台获得的基因组序列同时跟GISAID数据库共享。其它国家也紧急启动了类似计划，从全球不同地域感染者检测到的病毒基因组序列源源不断地传送到GISAID数据库，促进了当前SARS-CoV-2实时基因组流行病学的实现。

2 SARS-CoV-2基因组分型现状

相对于其它常见RNA病毒如流感病毒、人免疫缺陷病毒(HIV)等，SARS-CoV-2病毒基因组较大，编码蛋白更复杂，生物信息学分析存在一定难度，尚未建立起约定俗成的分型体系。自疫情暴发以来，不同研究团队为了显示不同来源(如地域、时间、群体等)病毒株之间的遗传联系，使用过单倍型(haplotype)、型(type)、分支(clade)、谱系(lineage)等术语[11-14]。

Forster等[11]将疫情初期来自全球的感染者共160株基因组序列进行种系发生网络分析，按照氨基酸改变区分出3种主要变异株，命名为A、B、C三种型(type)。A型最古老，与云南蝙蝠分离株BatCoV RaTG13遗传关系最接近。B型主要在东亚，A和C型则主要在欧洲和美洲。A型和B型的差异体现在T8782C和C28144T 两处突变，前者为无义突变，后者引起一个亮氨酸突变为丝氨酸，而C型病毒与B型差异是G26144T，甘氨酸突变为缬氨酸。

GISAID网站在收集、维护全球毒株基因组数据库的同时，也有团队专门从事基因组流行病学研究。疫情初期每日更新数据，及时提供了基于全长基因组序列的种系发生分析结果，以便公众了解不同来源冠状病毒之间遗传联系。随着疫情持续积累了更多序列数据，GISAID网站每周提供两次更新，将毒株划分为不同的分支(clade)[6]。其中，根据一些标志性突变位点，GISAID网站最初分为S和L 2个分支，分别在基因组8782和28144位点存在2个紧密联系的单核苷酸多样性(SNPs), 前者导致orf1ab基因无义突变T8517C，后者导致ORF8基因C251T变异，对应氨基酸突变为S84L[6,12]。随后又分为S、G、V分支，分别表示在ORF8蛋白L84S、S蛋白D614G和NS3蛋白G251V的标志性突变，以G分支毒株出现频率最高，不具备上述特征的其余毒株则划分为O分支(other clade)。将G分支再进一步细分，其中GH分支是在S蛋白D614G突变基础上同时具有NS3蛋白Q57H突变，GR分支是在S蛋白D614G突变基础上同时存在N蛋白G204R突变。因此，目前GISAID网站存在S、L、V、G、GH、GR和O共7个分支。

Nextstrain团队(https://nextstrain.org/)一直致力于实时追踪病原体进化[13]。疫情暴发之后，利用GISAID数据库，Nextstrain网站提供基于全球毒株数据的实时进化树(https://nextstrain.org/ncov/global)。该团队命名病毒分支的原则是，当具有共同特征的病毒在全球出现频率达到20%，即可命名一个新的分支，以“首次出现年份+字母表中最近的第2个字母”形式表示，且1个新的分支应当与先前分支存在2个以上突变。目前分为19A、19B、20A、20B、20C共5个分支。

来自英国和澳大利亚的学者提议另外一种动态命名方案，英文全称为Phylogenetic Assignment of Named Global Outbreak LINeages，简称PANGOLIN方案，与“穿山甲”的英文单词“pangolin”相同。他们提议以字母开始标记主要病毒谱系(lineage),谱系A病毒以Wuhan/WH04/2020 (EPI_ISL_406801)为代表，其ORF1ab基因8782位碱基及ORF8基因28144位碱基与蝙蝠分离株RaTG13一致；谱系B病毒以Wuhan-Hu-1 (Genbank accession MN908947)为代表。进一步的划分则在谱系字母后面加数字，如谱系A.1、谱系B.2等。根据这个方案，他们将2685株病毒划分为5种谱系A(lineage A.1-A.5)，8种谱系B(lineage B.1-B.8)[14]。

以上几种分型体系虽然都是以病毒全长基因组序列为基础，Nextstrain体系侧重于核苷酸序列差异，GISAID命名主要考虑关键位点标志性氨基酸残基变异。多数方案都关注了基因组8782和28144位点的变异，相对说来，PANGOLIN方案分型更加精细。根据近期GISAID网站更新数据，GISAID体系中的S、L、V、G、GR、GH分支分别与PANGOLIN方案中A、B、B.2、B.1、B.1.1、B.1* 谱系对应[6]。

3 SARS-CoV-2病毒基因组流行病学应用

3.1调查病毒起源 SARS-CoV-2基因组序列公布之后，学术界和社会公众都关注这种新出现病毒的起源。武汉病毒所石正丽团队报道，最初发病的5例COVID-19患者所获得病毒全长基因组序列相似，但与2002年出现的严重急性呼吸综合征冠状病毒(SARS-CoV)相似性仅为79.6%，而与中国云南蝙蝠中分离的1株冠状病毒毒株RaTG13全长基因组相似达96%，但二者在刺突蛋白的受体结合区域(RBD)存在差异[15]。随后，对中国南方截获的从马来西亚走私入境的穿山甲样品进行宏基因组分析，得到的冠状病毒基因组片段与SARSCoV-2病毒相似，特别是其RBD残基与疫情相关SARS-CoV-2非常相似[16]。因此，目前证据推测蝙蝠可能充当贮存宿主，穿山甲可能为中间宿主。而最近调查发现，世界各地报道从部分家猫、狗、动物园里的虎、狮以及饲养的水貂等动物中发现感染SARS-CoV-2, 多数怀疑是通过人-动物传播模式[17]。以上事实说明其它哺乳动物宿主也可能存在SARS-CoV-2相关病毒，进一步调查哺乳动物有助于最终明确该病毒的真正起源[18]。

3.2追踪病毒传播路径每日不断更新的SARS-CoV-2基因组数据让实时基因组流行病学分析成为可能，便于及时追踪病毒传播路径。Deng等[19]通过调查2020年1月底至2020年3月中加州北部来自9个郡和游轮的患者共计36名SARS-CoV-2感染病例的基因组流行病学，根据与GISAID数据库中789株进行种系发生分析，显示这个期间当地至少存在7个不同谱系病毒的隐蔽输入，包括与华盛顿州疫情相关的毒株WA1谱系、加州其它郡聚集性病例谱系、欧洲和纽约流行谱系、中国武汉谱系等。与此相似，研究人员对纽约市在西奈山健康体系就诊(2020年2月29日至2020年3月18日)的COVID-19患者病毒基因组进行分析，根据基因组的遗传相似性和种系发生分析结果(包括截至2020年4月1日GISAID数据库中2363株毒株序列)，发现自纽约州出现第一例COVID-19病例以来的18天内，84株病例相关毒株多数与未追踪到的传播和可能的旅行暴露有关，而且显示主要来自欧洲和美国其它地方的多个、独立输入途径，同时也有证据表明存在社区传播的聚集性病例[20]。

3.3评估核酸检测试剂随着COVID-19疫情的暴发和全球大流行，对患者、疑似感染者或密切接触者样品进行核酸检测成为评估感染状态、患者管理、解除隔离等的关键指标。对于不同机构应急研发的核酸扩增体系，根据早期有限的基因组序列设计的引物是否具有足够的特异性、能否涵盖不同的病毒分支，一直备受关注。目前常见的核酸扩增体系有德国Charité体系(靶基因RdRP、 E、N)、中国CDC体系(靶基因ORF1ab、N)、美国CDC体系(靶基因为N基因3个区域)和香港大学体系(靶基因ORF1b-nsp14、N)。欧盟CDC推出了免费资源ECDC PrimerScan，便于显示基因组中实时荧光PCR检测体系靶基因区域的突变(https://primerscan.ecdc.europa.eu/)[21]。GISAID则从疫情暴发之初，持续更新相关靶基因引物区域突变信息，据2020年6月23日更新的分析报告，通过对33 350个毒株高质量基因组序列数据分析，实时荧光PCR引物区突变率在0.02%～1.66%之间，引物3′端5个碱基的突变率在0.01%～0.44%之间[6]。这些数据表明，目前的核酸检测体系准确可靠。

3.4疫苗研发和治疗药物研制 COVID-19疫情迅速引起全球大流行，也催生了对疫苗研发和治疗药物研制的巨大需求。截至2020年6月4日，共有10种候选疫苗处于临床评估阶段，属于不同的疫苗平台如mRNA疫苗、DNA疫苗、腺病毒/慢病毒/细菌载体疫苗和灭活疫苗。另外世界卫生组织(WHO)报告有100多种候选疫苗处于临床前评估阶段[22]。研究发现，病毒刺突蛋白S和核衣壳蛋白N适合作为研制SARS-CoV-2疫苗的靶标[23]。通过计算机分析病毒基因组序列，得到S基因共有序列，然后利用免疫信息学工具鉴定病毒潜在的免疫原性区域，研制多个表位的亚单位疫苗[24]。在药物治疗方面，由于药物研发需要漫长的安全性评价和临床试验过程，全新设计的药物不能立即使用于突发的大流行疫情。但现有的部分抗病毒药物、抗寄生虫药物、治疗高血压和高胆固醇药物等，经过临床前评估和临床试验，如果能够达到逆转低氧血症、提供足够器官支持、降低病毒载量、减轻疾病严重程度的效果，就可能改变用途再利用于COVID-19治疗[25]。先后有瑞德西韦(Remdesivir)、氯喹(Chloroquine)等药物进入临床试验观察。理论上，通过计算机模拟将不同候选药物与病毒蛋白立体构象进行分子对接，能够快速筛选出合适的抗病毒药物[25]。在GISAID定期更新的基因组流行病学报告中，也同时提供基于新报告基因组序列的S糖蛋白受体结合区突变监测结果。例如在6月23日报告中，就观察到3 597个毒株基因组中，其受体结合界面附近存在29种罕见变异。这些信息对疫苗设计和药物研发具有一定参考价值[6]。

4 展望

面对这场前所未有的COVID-19全球大流行疫情，世界各国政府、医疗机构和科学家通力合作，信息共享，促进了SARS-CoV-2病毒基因组流行病学研究的实时进行。根据过去近6个月时间里的相关进展，目前开展基因组流行病学研究需要考虑以下因素：1)亟待达成共识，确定基因组流行病学相关通用的分析算法和命名规则。目前独立存在的几种分型体系，由于侧重点和算法不一致，彼此之间没有完全对应。随着疫情逐渐从暴发流行向季节性流行转变，分型体系标准不一致的现状不便于持续的学术交流以及不同领域之间沟通。2)充分利用在线分析平台和资源。由于SARS-CoV-2病毒基因组相对较大、编码较复杂，给序列数据处理分析带来巨大挑战。特别是大量基因组分析过程中，对计算机配置要求高，按照传统方法构建种系发生树耗费时间长达数天。然而，通过云计算平台分析，充分利用网络资源特别是开源在线分析平台，能够避免计算机配置不足的缺陷，促进更多实验室开展基因组流行病学研究。3)谨慎解读分析结果。基因组流行病学分析的是序列文件，在解读这类结果时，需要充分了解不同算法的特点和优缺点，特别是要注重结合病例相关流行病学资料，在合理的流行病学时间和空间框架下，进行客观地解读。涉及病原本身的致病性和传播能力的推论，需要足够的实验证据。4)正确理解已经测序毒株数目和实际病例数之间的差异。由于不同国家和地区开展基因组测序的能力存在差异，已经测序毒株的多少主要反映实验室测序能力，而不是疾病在人群的实际罹患率。在计算突变频率时，尽可能使序列样品时间和空间分布基本均匀，采样数目与不同地理区域报告感染病例数成比例，以提高分析结果的可靠性。

综上所述，在这场COVID-19全球大流行疫情中，广泛开展病毒基因组测序和基因组流行病学研究不仅仅是调查不同地区早期病例的输入来源，持续开展实时基因组流行病学研究，有助于深入了解病毒传播方向、机制和进化，为COVID-19提供更好的诊断、疫苗和治疗手段，及时评价和调整区域性和阶段性防控措施，促进COVID-19全球大流行疫情的防控。

利益冲突：无