APP下载

高通量测序与遗传代谢疾病的研究进展

2020-03-03孙松阳综述汪希珂审校

贵州医药 2020年8期
关键词:高通量外显子变异

孙松阳 综述 汪希珂 审校

(1.贵州大学,贵州 贵阳 550000;2.贵州省人民医院儿内科,贵州 贵阳 550002)

高通量测序技术的应用已有近50年的历史,在遗传代谢性疾病的诊断分析,确定相关的致病基因,发现新的治疗策略等方面起到了巨大的作用。尤其是21世纪以来,高通量测序技术在速度,读取长度,数据吞吐量方面取得了长足的发展,每碱基的测序成本也急剧下降,为在基础科学以及转化研究领域中大量新型测序技术的应用和开发铺平了道路。在此,本文概述了高通量测序技术的发展,介绍了高通量测序技术的优点与不足,探讨了高通量测序技术当前的应用状况,并展望未来的发展。

1 高通量测序技术

1.1简介 高通量测序技术又名第二代测序(NGS)技术,特点是能一次对并行的几十万到几百万条DNA分子进行测序和高精度短读等。使用NGS,可以在一天内对整个人类基因组进行测序,NGS彻底改变了基因组研究。相比之下,以前用于破译人类基因组的桑格测序技术需要十多年才能完成最终人类基因组草图[1]。NGS包括整个外显子组测序(WES)和全基因组测序(WGS)。NGS的应用包括RNA测序、ChIP-seq、ChIP芯片、全基因组测序、全基因组结构变异、突变检测和载体筛选、遗传性疾病的确定、DNA文库的制备、线粒体基因组测序和个体基因组学等。NGS在获取有关遗传、表观遗传调控网络,染色质结构,核结构和基因组变异的信息方面也有很大的贡献。人类基因组外显子(编码序列)测序被称为全外显子组测序(WES),测序期间,每个碱基都被多次测序,以提供高度准确的数据。随后,利用生物信息学分析,精确定位人类参考基因组的个体读数来得到统一的片段[1]。WES可以帮助确定与特定病症相关的致病基因,发现新的治疗策略。通过WES解决的第一个单基因疾病是2009年的多发畸形障碍米勒综合征[2]。因为超过80%的致病变异位于包含人类基因组编码区的外显子中或附近[3],这些编码区的碱基对突变最有可能会引起严重的直接病变表型,所以涵盖所有已知外显子及其侧翼区域的WES已经成为对遗传代谢病进行诊断分析的首选方法。随着新的软件和方法的迅速发展,WES成本更低且更有效,WES技术可以更好地检测复杂的遗传变化。WES与医疗保健的整合已经在进行中,在临床的诊断、疾病预后、治疗决策等方面,WES都扮演着不可或缺的角色。WGS是确定生物体基因组完整核苷酸序列的过程,通过对从头组装或映射到高质量参考基因组的片段进行“鸟枪”测序来实现[4]。普遍认为WGS是比WES更为强大的工具,可捕获几乎所有已知的遗传变异。

1.2测序技术的发展 在20世纪70年代,F.Sanger等[5]和A.M.Maxam等[6]分别开发了DNA测序的方法。F.Sanger及其同事开发的技术,通常称为Sanger测序,与A.M.Maxam的方法相比,有毒化学品和放射性同位素处理更少。最后,Sanger测序成为未来30年流行的DNA测序方法,Sanger测序也被称为第一代技术。在1977年至2005年期间,对高通量、低成本的测序需求推动了大规模并行技术的发展,第二代测序技术NGS应运而生。相对于NGS,Sanger测序昂贵且耗时,NGS可以同时对数百万乃至数十亿个DNA同时进行测序[7],极大地降低了成本,提高了测序的产量。454生命科学公司推出的基于焦磷酸测序法的超高通量基因组测序系统:罗氏454测序系统,开创了第二代测序技术的先河。该技术是通过合成反应而测序(SBS)的原理进行测序的。2005年以来,大规模平行测序(MPS)平台已经广泛应用。相对于Sanger测序,MPS将DNA测序的成本降低了几个数量级[8]。2001年,人类基因组计划使用第一代Sanger测序技术对人类基因组进行测序,需要13年和27亿美元[9]。2014年,Illumina发布了HiSeq X系统,该系统运行3天产生的的数据相当于16个人类基因组。每个人类基因组按照30倍覆盖率的金标准进行测序,成本略高于1000美元[10]。Illumina,Solex,SOLID的第三代测序技术能确定单个DNA分子的碱基组成,还能够实时排序,包括单分子荧光测序技术和纳米孔测序技术。以纳米孔测序为例,它基于DNA分子通过纳米孔,可以对单个分子进行实时测序。主要特点是直接测序DNA或DNA,不需要文库制备或测序试剂的RNA分子;可以进行长阅读,但是精度偏低[11]。

1.3高通量测序的步骤 WES的步骤包括人类基因组中所有外显子的捕获,测序和分析人类基因组中所有蛋白质编码基因的所有外显子。首先将整个基因组分成小片段,然后将这些小片段的脱氧核糖核酸连接到特殊的衔接子上,或者让片段通过微小的通道,在通道中确定每个片段的序列。在二代测序中,来自整个基因组的数百万个这样的基因片段被同时测序。二代测序设备采用这种MPS技术来产生序列数据。所研究区域的每个核苷酸将被包含在多次读数中,反复分析。然后,数百万次分析的读数序列被重新组装,或者与人类基因组进行比较[12]。在NGS中,测序是通过重复循环由聚合酶介导的核苷酸延伸来完成的。NGS是一个大规模的并行过程,根据平台的不同,产生数百兆到千兆位的核苷酸序列,可以有针对性的增加感兴趣区域序列覆盖率,成本更低,吞吐量更高。大多数大规模靶向测序方法都使用混合选择方法选择出变体,与WGS相比,WES平台具有更少的原始序列和更低的成本。例如,需要90 Gb的序列才能获得30倍的基因组平均覆盖率,而使用当前最先进的靶向平台,只需要3 Gb序列的外显子组就可以获得75倍的平均覆盖率[13]。

1.4下一代测序的不足 外显子组富集是WES的基础,富集方法包括杂交捕获或基于溶液的方法富集[14]。与Sanger测序不同的是,样本的每次运行都生成一个测序读数,每次读取的特定位置必须通过计算确定,称为映射或对齐。其次,需要多重覆盖来分析样品的完整等位基因含量[15],这一过程中存在效率低下的问题。例如,不同外显子间不平衡的捕获效率可能导致外显子序列覆盖率低;目标外杂交意味着至少20%的读数序列来自外显子组外的基因组DNA,而且外显子组捕获也没有完成。序列捕获方法中的探针是基于基因注释数据库(如CCDS数据库和RefSeq数据库)中的信息设计的,未知或尚未注释的外显子、进化保守的非编码区域和调控序列(如增强子或启动子)通常不会被捕获。WES的片段测序的测序错误率比Sanger测序更高,但在一定程度上可以通过增加测序覆盖的深度来纠正。因此,使用Sanger测序进一步验证已鉴定的变异非常重要[16],但这也增加了成本。随着测序和捕获技术的不断改进,这些效率问题都有可能得到解决。外显子组的高覆盖率可以使大量样本测序变得经济实惠,更有利于发现突变。由于序列结构的性质,WES在某些基因组区域分析中也存在局限性。WES无法检测某些类型的基因组变异,包括插入/缺失,拷贝数变异,重复扩增,深度内含子变异和线粒体基因组变异[17]。WES还可能遗漏某些导致疾病的遗传变异,这可能是由于含有变体的基因组区域捕获不良引起的,WES只覆盖外显子及其侧翼区域,不能检测内含子和非编码调控区域以外的致病变异。结构基因组变异,大型插入、缺失、重复,拷贝数变异,变异线粒体基因组均不能探测到。由于技术的性质,使用错误的过滤器或不适当的过滤器用于分析数据将导致错误的诊断[18]。总之,为了使WES适合临床诊断,面临的技术挑战包括改进外显子捕获,测序覆盖率,读取长度,准确检测插入缺失以及减少假阳性和假阴性率等[19]。在临床应用WES的另一个挑战是在众多临床意义不确定的变异中识别临床相关的变异。此外,现有数据库中超过25%的致病变异是不正确的,这使得解释测序结果变得非常困难[20]。在许多情况下,准确的临床病史和生化检测信息是必不可少的,以避免对WES所得结果的误读。由于对候选基因的功能缺乏足够的认识,无法做出明确的诊断,在这种情况下,可能需要广泛的功能研究来证明候选基因和变异与患者临床表型之间的因果关系。WGS覆盖了整个人类基因组的98%,WES与WGS相比,覆盖了95%的编码区域,但仅占基因组的1%~2%。WES的单样本成本更低,目标区域的覆盖深度更大,存储需求更少,并且数据分析更易于执行。2018年A.Alfares等[21]比较WES和WGS在临床上的检出率,对WES的数据重新分析后发现WGS的检出率仅高7%。同时,每个WES成本约为1 200美元,WES重分析成本约为250美元,每个WGS的费用约为4200美元。所以,尽管WGS比WES更强大,覆盖的更均匀,但是临床效用有限,且成本更高。

2 遗传代谢疾病

2.1遗传代谢疾病定义 遗传代谢病(IMD)是因维持机体正常生化代谢途径中的酶、辅酶或载体蛋白缺陷或异常及膜泵生物合成发生遗传缺陷,即编码这类多肽(蛋白)的基因发生突变,导致产物缺乏或底物堆积,从而引起相应临床症状的一组疾病。

2.2遗传疾病分类 遗传疾病分为染色体疾病和单基因疾病,有学者[22]认为染色体疾病是由人类发育早期植入的异常染色体重排引起的,已经发现了大约7000种不同的单基因疾病。染色体疾病包括染色体结构变异,数目变异等,如18-三体、21-三体等;遗传代谢病多为单基因遗传病,包括代谢大分子类疾病:溶酶体贮积症、线粒体病等,代谢小分子类疾病:氨基酸、有机酸、脂肪酸等。遗传代谢病部分病因是基因遗传,还有一部分是后天基因突变造成,发病时间覆盖全年龄阶段,受累人数约占全球总人口的1%[23]。综合所有染色体和单基因疾病的发病率,与诸如癌症等更复杂的遗传疾病相比,遗传疾病被认为是相对罕见的,但是作为世界上人口最多的国家,中国的罕见遗传病患者数量众多,大约有1000万患有遗传代谢疾病的患者生活在14亿人口中[24]。

2.3高通量测序的应用

2.3.1高通量测序技术在产前诊断中的应用 通过产前诊断,父母可以选择终止受影响的妊娠,在医院,母亲血清筛查和胎儿超声检测可用于帮助检测胎儿是否患有染色体疾病。基于高分辨率阵列的染色体分析方法已经可用于检测染色体疾病,通过羊膜穿刺术和胎儿核型分析来确认阳性结果[25]。但是,性染色体疾病不能通过母体血清筛查检测到,并且通常在超声检查中没有任何明显的临床症状。由于大多数夫妇在怀孕前都不知道自己的携带者身份,所以预防单基因疾病在很大程度上是无效的。此外,由于识别致病突变所需的成本和时间,绝大多数具有遗传疾病家族史且因此具有高风险的夫妇没有进行过基因检测,中国50%的人口生活在农村地区,没有接受过良好的遗传咨询服务,即使有更多的患者参加检测,目前的实验室基础设施,人员专业知识和公共医院诊断实验室的设备也不能充分满足患者的需要。NGS技术的出现,为中国的遗传代谢疾病预防提供了新的希望。如无创产前检测(NIPT)表现出非常高的灵敏度和特异性,可用于检测常见的非整倍体,如21-三体、18-三体、13-三体以及性染色体[26]。对于高遗传风险的夫妇,可以对胎儿进行传统的侵入性分子检测,这在大多数诊断实验室中广泛可用;这些夫妇也可以选择辅助生殖和植入前遗传学诊断(PGD)来选择正常胚胎进行移植。在政府的支持下,NIPT在中国得到推广,极大的有利于预防和减少患有染色体疾病婴儿的出生[27]。中国目前的临床研究活动主要集中在开发用于检测全谱染色体疾病综合征的新型NIPT策略,基于NGS的NIPT方法可以同时检测常见的非整倍体以及亚显微的缺失和重复。在临床层面,一些省份正在进行试点研究,以评估这些新方法的可靠性和准确性。此外,基于单倍型的母体血浆靶向测序已被证明对于HHL和SMA的诊断是准确的,另一种称为循环单分子扩增和重新测序技术(cSMART)的NIPT方法可以准确地对患有Wilson病风险的胎儿进行胎儿基因分型。随着时间的推移,通过临床实施第二代NIPT检测,可以大幅减轻中国遗传代谢疾病的负担。

2.3.2高通量测序技术在重大疫情中的应用 2013年的甲型流感H7N9病毒导致数十人死亡。我国科学家对第1例H7N9患者工作的活禽市场临近摊位的鸡笼和二级活禽批发市场进行了取样,进行全基因组测序,结果表明新型H7N9病毒最有可能从二级批发市场传播到零售活禽市场,然后传播到患者身上,明确了传播扩散途径,有利于帮助控制人类感染[28]。在病毒的耐药性突变、溯源和特异性单抗筛选等方面都取得了国际领先的成果。

2.3.3高通量测序技术在地中海贫血中的应用 地中海贫血普遍存在于中国南方,在1993年1月至2003年12月期间,广州市某中心实施了一项以医院为基础的预防计划,筛查α和β地中海贫血的携带者,减少受影响胎儿的出生率。政府制定特殊教育计划,使公众意识到受地中海贫血影响胎儿出生率存在,这使得地中海贫血筛查计划的接受率非常高。地中海贫血患者的出生率大幅下降[29]。

2.3.4高通量测序技术在在遗传性耳聋研究中的应用 耳聋是一种常见的严重出生缺陷,2017年,王翠翠等[30]总结了近5年高通量测序技术和目标区域测序在遗传性耳聋致病基因研究及临床分子诊断中的应用以及研究进展,自2010年开始,应用WES已成功鉴定了30个非综合征性耳聋(NSHL)基因新致病基因,约占已知NSHL致病基因的1/3;同时应用WES至少发现了43个综合征性耳聋(SHL)或伴有耳聋的复杂性疾病的致病基因,充分说明了高通量测序技术为人类对遗传性耳聋深入了解发挥了巨大的作用。

3 结语与展望

高通量测序技术可用于鉴定新基因和新疾病,以及定义新表型或扩大已知有害基因变异导致的表型谱,是一种有效的研究工具。随着测序成本不可避免地下降,越来越多的患者将会选择高通量测序技术来了解遗传代谢疾病,减少患儿的出生,为社会和家庭减少负担。而遗传咨询也将成为常规护理中一个必要和重要的组成部分,医生将结合病史、家族史和基因组数据来识别高风险的变异,向患者解释患病的原因及风险。随着高通量测序技术成为医学实践的标准组成部分,向公众宣传这项技术并让公众参与使用这项技术将是非常重要的。高通量测序技术的发展也为临床诊断和个性化疾病风险分析奠定了基础。

猜你喜欢

高通量外显子变异
外显子跳跃模式中组蛋白修饰的组合模式分析
外显子组测序助力产前诊断胎儿骨骼发育不良
高通量血液透析临床研究进展
变异危机
变异
Ka频段高通量卫星在铁路通信中的应用探讨
外显子组测序助力产前诊断胎儿骨骼发育不良
中国通信卫星开启高通量时代
变异的蚊子
护理干预在高通量血液透析患者中的应用效果