基因组测序在新型冠状病毒研究中的应用
2020-10-28李京京董昌金陈新鹏
夏 险,李京京,董昌金,陈新鹏
(湖北师范大学 生命科学学院,国家级生物学教学示范中心,食用野生植物保育与利用湖北省重点实验室,特色野菜良种繁育与综合利用技术湖北省工程研究中心,湖北 黄石 435002)
0 引言
DNA测序技术自诞生以来,经历了三代技术的发展。第一代DNA测序技术是科学家Sanger发明的双脱氧链终止法(也称Sanger法),该技术准确度高,测序读长可达800bp,但其操作流程复杂,耗时长,成本高,测序不连续。荧光染料标记法和毛细管电泳技术出现后,DNA测序摆脱了对聚丙烯酰胺电泳技术和放射自显影技术的依赖,大大提高了测序的自动化程度,使DNA测序进入全自动化时代。第二代DNA测序技术利用DNA聚合反应和荧光素酶发光反应相偶联,实现了边合成边测序,提高了测序效率和测序通量,相当于一代测序的2000倍,使DNA测序进入高通量时代。但是这种测序方法的读长短,测序费用依然昂贵,精度不如一代测序。第三DNA测序技术实现单分子DNA(RNA)通过生物纳米孔的电流变化推测碱基组成而进行测序。这种测序法不受DNA聚合酶活性影响,读长接近1Mb。目前,纳米孔测序是DNA测序技术的重要发展方向,主要应用于高质量基因组的组装,尤其是对于高杂合、高重复、大基因组等复杂基因组。
基因组是指生物体所有遗传物质的总和,这些遗传物质包括DNA或RNA(病毒RNA)。基因组序列是生物的重要特征之一,基因组测序是弄清未知物种的手段之一。基因组测序的核心技术是DNA测序,在作图法和鸟枪法的多种策略的指导下,结合DNA测序技术,经过重叠群和支架拼接、缝隙填补、覆盖面评估等过程获取基因组序列。基因组测序不仅可以揭示物种遗传信息,还可以预测生物的许多重要功能。目前,基因组测序从传统的基础研究和技术开发,已经走向医学和临床、农业以及生态环境等多方面的应用[1, 2]。截至欧洲中部时间2020年3月20日,全球已有266 073人确诊感染新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19),死亡11 184人[3]。本次COVID-19疫情中,基因组测序在病毒的发现、检测、分类、溯源、致病机理、药物研发等方面都发挥了十分重要的作用。
1 新型冠状病毒的基因组
自2020年1月10日我国复旦大学学者公开新型冠状病毒的基因组序列以来,截至到2020年3月22日,中国、美国、日本、泰国、英国、法国等国家已经陆续公布了1077条新型冠状病毒的序列[4]。目前,公布的COVID-19基因组大约为29.9Kb,共含Orf1ab(复制酶复合体)、S(刺突蛋白)、3、E(小包膜蛋白)、M(包膜糖蛋白)、7、8、9、10b、N(核衣壳)、13和14在内的12个编码区[5]。
2 基因组测序在COVID-19的病原鉴定和检测中的应用
COVID-19的病原最先由我国学者高福院士团队发现,通过宏基因组的方法在3例不明肺炎的患者支气管肺泡灌洗液样本中检测到,是一种与此前报道的重症急性呼吸道病毒(SARS)相似性较高的病毒[6]。随后,该团队从样本中分离到病毒株,并通过纳米孔测序和Sanger法测序相结合的方法获得了该病毒的基因组。经序列分析,该病毒与已报道来源于蝙蝠的SARS类似病毒的相似性为86.9%,是一种新型冠状病毒[6]。
图1 新型冠状病毒的进化分析[12]
宏基因组测序和全基因组测序都可以用于病毒检测,但需要花费大量的时间和较高的经济成本。实时定量RT-PCR由于灵敏度高,成本低和检测速度快,在病毒检测方面具有很大的优势,是目前病毒检测最常用的手段。在此方法检测过程中,设计靶向新型冠状病毒基因组的引物是前提。中国疾病预防控制中心病毒病预防控制所最先针对该病毒的Orf1ab和N两个靶基因设计了实时荧光RT-PCR的引物和探针[7],具有较高的灵敏度和特异性。德国科学家Victor Corman根据该基因组特点,选取该病毒的Orf1ab和E两个基因为靶点,分别设计了两对引物和两个荧光探针,利用RT-PCR实验方法,理想状态下检测极限分别为3.8份RNA 拷贝和5.2份RNA拷贝,显示了该引物和探针的高特异性,同时也排除了冠状病毒科α病毒、β病毒的成员和以及常见的呼吸道病毒干扰,进一步说明该方法的有效性[8]。Cao bin等人抽取41名疑似患者的血液,选取了该病毒的靶向Orf1ab和N基因引物,利用实时荧光定量RT-PCR和基因组测序结合的方法,对这些患者进行了确诊,分析了这些患者的临床特征。同时该研究还暗示,武汉海鲜市场可能不是新型冠状病毒的唯一源头[9]。美国、日本、泰国、法国也根据新型冠状病毒的特异基因序列设计了引物和探针用于RT-PCR检测[10]。最近,有学者根据新型冠状病毒的刺突蛋白抗原基因序列,与SARS病毒对应的抗原序列比对,发现两者的刺突蛋白抗原具有高度同源性,预测这两种抗原空间表位具有相似性,制备了与新冠状病毒结合的抗体,运用开发病毒检测的 ELISA试剂盒[11]。
3 基因组测序在新型冠状病毒分类和溯源中的应用
明确病毒分类地位能让人们更好地认识病毒,根据对亲缘关系较近病毒的积累研究,可以为新型病毒的防治提供经验。基因组测序和序列比对是确定病毒分类地位的快速有效方式。通过对新病毒基因组测序,明确新型冠状病毒属于套式病毒目、冠状病毒科、冠状病毒属。冠状病毒属由α、β、γ和δ四个亚群组成,哺乳动物是α和β两个亚群的主要宿主。如图1,基于病毒的全基因组序列构建的进化树显示,新型冠状病毒与β-冠状病毒的SARS-CoV、MERS-CoV、HcoV-HKU等病毒属于同一类群,但独成一支[12]。分析表明新型冠状病毒属于β-冠状病毒属,不同于β-冠状病毒属的已知病毒。由于新型冠状病毒的高致病性,国际病毒分类委员会命名其为严重性呼吸综合征冠状病毒2 (severe acute respiratory syndrome coronavirus 2, SARS-CoV-2)。该病毒与SARS-CoV的全基因组相似性只有79.5%,但是一些保守结构域的氨基酸序列相似性很高[13]。显示SARS-CoV-2与SARS-CoV同属,但并不是同一个物种。
找到传染源是病毒防治的最重要工作之一,病毒基因组的溯源分析是找到传染源和传染路径的重要方法。根据全基因组序列比对和进化分析,发现SARS-CoV-2与一种蝙蝠携带的冠状病毒的全基因组序列相似度高达96%,表明SARS-CoV-2很可能来自蝙蝠[13,14]。尽管基因组相似度很高,但是编码病毒受体结合域的基因序列相似性低。随后研究者从穿山甲中分离到了与SARS-CoV-2全基因组相似度高达99%的病毒株,而且病毒受体结合域的相似度也很高,这表明中间宿主可能是穿山甲[15,16]。但是,也有报道指出SARS-CoV-2可能并非直接来源于穿山甲[17]。基于基因序列分析,研究者还发现SARS-CoV-2病毒在不断的传播中进化成L型和S型(图2),在武汉早期流行的L型可能起源于S型[18]。也有学者将SARS-CoV-2分为I型(包括IA型和IB型)和II型,在武汉流行的II型可能起源于I型[19]。这些基于基因组序列比对的研究,都暗示着在全世界流行的SARS-CoV-2起源可能比较复杂。
图2 COVID-19的单倍型分析(蓝色代表L型,红色代表S型)[18]
4 基因组测序结果在新型冠状病毒致病机理研究中的应用
刺突蛋白(S蛋白)是病毒进入细胞的关键受体结合蛋白。研究者通过公布SARS-CoV-2的基因组数据,注释后获得S蛋白的氨基酸序列,再根据氨基酸序列预测了该蛋白的结构(图3)[12]。结果表明刺突蛋白很可能与人体细胞的受体血管紧张素转换酶(ACE2)结合[12]。预测结果还发现,SARS-CoV-2的S蛋白具有一个可区别于SARS-CoV和SARS-CoV类似病毒的酶解敏感的活化环,可能在致病过程中发挥作用[20]。随后,科学家通过冷冻电镜技术解析了S蛋白和ACE2蛋白结合的晶体结构,证明了这两个蛋白不仅可以结合,而且比SARS-CoV结合能力强[21,22]。这可能是SARS-CoV-2致病性更强的原因之一。另外,也有研究者发现SARS-CoV-2与SARS-CoV的S蛋白受体结合域的序列存在一定差异,提示SARS-CoV-2与SARS-CoV致病机理有差异,也解释了与SARS-CoV特异性单克隆抗体结合能力弱的原因[23]。
图3 基于基因组预测的S蛋白结构及ACE2结合域[12]
5 基因组序列对新型冠状病毒药物研发的指导作用
通过对新冠状病毒的基因组序列分析,发现该病毒的刺突蛋白和4种非结构蛋白(3-胰凝乳蛋白酶样蛋白酶、木瓜蛋白酶样蛋白酶、解旋酶和RNA依赖性RNA聚合酶)在病毒增殖过程中起到关键性作用。这5种蛋白被认为是药物研发的重要靶标,其中4种新冠病毒酶的催化位点具有高度保守性,与已发现的SARS-Cov和MERS-CoV序列具有高度的相似性。研究分析表明抗SARS-Cov和MERS-CoV的药物口袋具有保守性,很多针对这类病毒的药物对COVID-19同样具有治疗效果[24]。这些药物包括两类,一类是针对参与RNA病毒侵染或者增殖过程中的酶抑制剂(如法匹拉韦、利巴韦林,瑞德西韦等)、蛋白酶抑制剂和刺突糖蛋白抑制剂[25~28];还有一类药物是核酸类药物,通过与这些酶的mRNA结合,抑制蛋白翻译过程。研究者利用生物信息学方法比对基因组序列,发现SARS-CoV-2的S蛋白、E蛋白或其他蛋白均存在良好的抗原表位,为开发有效疫苗及中和抗体提供了理论支持[29~31]。基于基因组序列信息,最近科学家还设计了新冠病毒的mRNA疫苗,并已进入临床试验,其机制是将编码新冠病毒刺突蛋白的mRNA导入人体细胞,使细胞表达抗原蛋白,再通过该抗原刺激免疫系统,期望尽快获得病毒的抗体[32]。
6 结语与展望
自COVID-19在全球爆发以来,基因组测序技术以特异性高、检测速度快和低成本的优势,在疫情防控、防治等方面起到重要作用。当前新型冠状病毒的溯源、传播机制、药物和疫苗研发等方面还有待深入研究,基因组测序技术仍然可以发挥不可替代的作用。