全外显子组测序在遗传性疾病分子诊断中的应用
2020-04-20郑昭璟傅启华
郑昭璟,傅启华
(上海交通大学医学院附属上海儿童医学中心,上海 200127)
遗传性疾病是影响人民群众、尤其是儿童健康的重要因素。遗传性疾病病种多、临床表现复杂多样、分子机制复杂,是临床诊疗工作中的一大挑战。截止2018年9月,人类孟德尔遗传在线数据库(OMIM)收录的已明确分子遗传机制的疾病/表型已达6 259种,涉及3 961个基因[1]。分子诊断是遗传性疾病实验诊断的主要手段。目前传统分子诊断技术,如Sanger测序、qPCR等仍在遗传性疾病实验诊断工作中广泛应用。但随着下一代测序(NGS)技术的长足进步、测序成本大幅降低、生物信息学分析能力大幅提升及大规模人群遗传变异数据库的建立,多种高通量基因组学诊断技术,如全外显子组测序(WES)等在遗传性疾病的实验诊断中的应用日益广泛。
WES在临床诊断中的推广,一方面显著加快了疾病致病基因的发现[2]、促进了对遗传性疾病分子遗传机制的认识;另一方面也显著提升了遗传性疾病的诊断能力。但在临床实际应用过程中,WES对不同疾病/表型的诊断效能、在不同类型遗传变异的检测性能上仍存在较大的差异。与此同时,随着技术的进一步完善、特别是生物信息学算法的进展,WES在遗传性疾病实验诊断中出现了许多新情况,值得进一步关注。
1 WES对各种类型基因变异的检测
1.1单核苷酸变异(SNV)和小插入/缺失变异(Indel) 据估计,95%致病性基因变异存在于人类基因组中包含的约20 000个蛋白编码基因序列中[3],因此WES可以高效地检测与遗传性疾病致病相关的罕见SNV/Indel。迄今,已有大量研究分析评估了WES的诊断效能,发现WES对遗传性疾病的临床分子诊断率为25%~50%,在成年患者(大于18岁)中诊断率稍低[4-9]。由于技术的快速发展和新致病基因的快速发现,对WES数据进行重分析能够进一步提升其诊断率[10-11]。
WES检测SNV/Indel性能的高低除了受到实验因素的影响外,还与生物信息学分析过程中所用的算法直接相关。Bowtie、BWA、Novoalign、SOAP及MOSAIK等是临床WES数据分析中常用的比对软件,而GATK、SAMTools、FreeBayes及DeepVariant等都是常用的变异识别软件。变异识别软件也与测序平台和数据类型有关,GATK适合于Illumina平台测序数据[12],分析WES的数据表现最好[13];而SAMTools更适合Ion Torrent的测序数据[14],且更适合分析全基因组测序(WGS)数据[13]。在WES数据的实际分析过程中,比对软件和变异识别软件组成一个完整的变异识别流程(pipeline),结合下游分析,最后可得到针对每个患者的分子诊断结论。但迄今尚无任何一个比对软件和变异识别软件的组合能够对所有变异进行可靠的识别,而盲目使用多种工具可能导致更多错误的结果[15]。因此,正确评估各个工具的性能,并将其组合成一个完整的变异识别流程对WES的总体检测性能来说就显得非常重要。KUMARAN等[16]研究发现,针对WES检测SNV/Indel而言,BWA及Novoalign与DeepVariant的工具组合表现出最佳的性能。
1.2拷贝数变异(CNV) CNV是发育迟缓、智力障碍、多发畸形及自闭症谱系障碍等疾病的重要致病原因,已有多个国内外指南/专家共识建议染色体芯片分析(CMA)作为上述疾病的一线分子诊断方法[17-19]。随着WES在遗传性疾病分子诊断中的广泛应用,基于WES测序数据进行CNV的检测已日益引起重视。迄今,临床常用的软件/算法已超过20多种,如XHMM、CNVkit、Condors、ExomeDepth等。其中大多数算法工具均根据测序片段的测序深度实现CNV的检测,主要包括以下几个主要步骤:目标区域测序深度计算、归一化(normalization)、片段化(segmentation)及CNV检测。研究表明,任何一种算法尽管存在各自的优势和特点,但总体而言其检测CNV的性能尚有较大的局限性[20-21]。
PFUNDT等[22]对2 603例遗传性疾病临床病例WES数据进行分析,检出123个致病性CNV,大小从727 bp至15.3 Mb不等,总体诊断率提高约2%。MARCHUK等[23]研究表明,利用ExomeDepth软件对WES数据分析CNV,对于高覆盖度区域的缺失型CNV检测灵敏度可达89%,重复型CNV则为65%。672例临床样本中,ExomeDepth分析CNV可增加1.6%的诊断率。TSUCHIDA等[24]则发现在WES检测SNV/Indel结果阴性的癫痫患者中,致病性CNV检出率高达10.7%(18/168),且最小的CNV大小在10 kb以下,据此作者认为CNV分析应作为所有临床WES检测的有机组成部分。
各种工具对CNV分析受到多种因素的影响,如参考样本的选择方法、参考样本的数量、测序深度的均一性、目标区域的GC含量等。KUSMIREK等[25]发现参考样本数据集正确选择与否将极大地影响CNV的检出率(k均数法优于基于kNN的算法)。他们的研究还表明,通过适当减少参考样本的数量,在不降低检测敏感性的同时将增加特异性。RETTERER等[26]发现有10.3%的样本噪音大,检出的CNV数量异常增高,具体原因不详。与手工法相比,自动化测序文库制备可以保证实验条件更加均一和稳定,提高杂交效率、减少信号偏倚,能够更好保证CNV 的检测。
值得注意的是,较之CMA,基于WES数据分析可以检出大量临床意义未明(VOUS)的CNV,如基因启动子区、未翻译区、内含子区等的CNV。此类CNV致病性的判断及明确其与临床疾病/表型的关系取决于大量数据的积累及针对此类CNV建立科学的分类判读标准和规则[27-28]。
1.3嵌合变异 由于Sanger测序技术本身的局限性,遗传性疾病中嵌合变异的检测一直是个难题,而WES技术因其具有检测低丰度基因变异的能力显著提高了此类变异在遗传性疾病,如神经发育性疾病[29]、先天性心脏病[30]、自闭症[31-32]等中的检出率。ACUNA-HIDALGO等[33]通过对50个核心家系中检出的107个新生(de novo)变异进行分析后发现,有7个(6.5%)的所谓“新生”胚系变异实为嵌合变异。同时通过进一步分析发现,在50例先证者中存在的总计4 081个新生变异中4个变异同样能够在父母一方中检出。据此作者认为,迄今有相当一部分新生变异可能是从其携带低水平嵌合变异的无症状父母遗传而来。CAO等[34]通过对12 000个WES样本的系统研究发现,约有1.5% 的阳性病例是由于嵌合变异而导致的,而在所有分析的家系中有0.3%的父母携带了嵌合变异。
2 遗传性疾病分子诊断中WES的性能验证和质量管理
WES属于高度复杂的实验诊断项目,主要可分为湿实验(wet bench)和干实验(dry bench)。湿实验是从样本基因组DNA提取纯化直至获得原始测序数据的过程,而干实验涵盖了原始测序数据分析处理直至过滤筛选出能够解释受检者临床表现/表型的候选致病性或可能致病性变异的环节。WES应用于遗传性疾病实验诊断须进行充分的性能验证,同时执行严格的质量管理才能保证检测结果准确、可靠,才能为遗传性疾病临床诊疗提供保障。
2.1性能验证 作为临床实验诊断项目,任何一个开展WES检测的实验室必须对其进行充分的性能验证以明确其特异度、敏感度、最低检测限、可报告范围等指标,提高WES检测的临床可信度[35-37]。WES是高度复杂的实验诊断项目,涉及很多步骤,在项目开发阶段可根据试剂盒、仪器及软件说明书或文献进行经验性优化以实现其预设目标,但在性能验证阶段则需对WES的整个过程(湿实验和干实验)进行系统评估。湿实验方面,标准品NA12878可作为实验样本,该标准品的全基因组数据集已被充分研究并用于多个基于NGS的方法性能验证;干实验方面,除了NA12878的数据集,HapMap、1000 Genome数据集及另一个全基因组数据集(NA19240)也可作为虚拟样本用于WES的性能验证。
2.2湿实验的质量管理 随着近十年来NGS技术在临床的广泛应用,已初步探索建立了NGS技术应用的质量标准和规范[35-37],这些标准和规范同样适用于WES技术。临床WES检测的质量管理主要分为日常质量控制和周期性实施的质量保证两部分。WES日常质量控制中,在污染风险较高的实验步骤,如上机测序前的测序文库准备过程中可以设立无模板的空白对照防止环境DNA 的污染。在实际工作中,通常在目标片段末端加上一段特异识别序列(barcode或index)以保证多个样本同时进行测序,但所用的特异识别序列应有一个以上的碱基差异,以避免在测序过程中发生错误导致样本混淆。在湿实验中,根本原则是要在整个WES过程中保证样本的完整和正确。为实现这个目的,常用的手段包括利用单核苷酸多态性(SNP)芯片[26]或利用其他技术通过对一组高频SNP组合[38]进行基因分型从而完成样本“身份”验证。
通过参加实验室外部的能力验证(PT)活动或其他替代评估活动可以对WES检测进行周期性、持续性的质量保证。近两年来,国家卫生健康委员会临床检验中心(NCCL)已开展遗传病胚系变异检测的室间质评活动(EQA),这必将对促进临床实验室WES的质量管理发挥积极的促进作用。
2.3干实验的质量管理 有效实施WES干实验的质量管理的基础是合理选择质量参数(quality metrics)并合理设置相应的阈值,如平均测序深度、最低测序深度、Q20、Q30等[35-36]。对任何一个WES样本,日常质量控制的首要目标是评估其是否符合设定的质量参数阈值,由此可及时发现质量参数低于阈值的WES样本并及时增加测序数据量或重新实验以保证后续下游分析结果的准确可靠。目前已有多种软件工具可以帮助完成此类常规质控工作任务,如ChronQC[39]。
WES干实验的持续质量保证措施包括建立相应的工作程序进行软件版本管理并及时监控软件更新,对参考序列和数据库进行周期性审核以确保正确的分析结果,以及参与实验室外部的PT或EQA活动。目前,可以通过计算机模拟生成涵盖各种变异类型、数量不等的数据集用于干实验的PT(即in silico PT),这种形式的PT与传统PT相比,测试的变异数量和类型更多、更方便,成本也更低[40]。
3 不同WES捕获试剂的差异
已有大量的研究评估了WES在遗传性疾病分子诊断中的效能和个体实验室的检测性能表现,但对各实验室产生的数据质量很少进行过系统比较,这对全面了解临床实验室WES应用现状无疑是十分不利的。GOTWAY等[41]的研究表明,来自于不同实验室的WES数据在基因覆盖质量上呈现出很大的不一致性。这种多个实验室间WES基因覆盖度一致性低的原因可能部分与不同的WES捕获试剂盒有关。该研究中WES数据来自3家不同的临床实验室,分别使用了罗氏Nimblegen VCRome v2.0/IDT xGen Exome Research Panel v1.0、罗氏Nimblegen VCRome v2.1及安捷伦SureSelect XT2 All Exon v4/安捷伦Clinical Research Exome捕获试剂盒。不同厂家的WES捕获试剂盒由于基因覆盖范围(侧翼序列长度、UTR)、探针类型及长度等的不同因此具有不同的侧重点,自然会导致检出的基因变异、数量、质量等方面存在差异[42]。GOTWAY等[41]在研究中发现,在来自3家不同临床实验室的36个WES样本中,测序完整覆盖的CCDS基因数量最高可达15 196个,而最低的基因数量仅为3 139,覆盖最差的样本CCDS基因数量仅为覆盖较好样本基因数量的四分之一。因此,在WES临床实际应用中,特别是在WES检测结果阴性的时候,需要重点关注临床疾病/表型密切相关致病基因的覆盖水平,以免假阴性的发生。
4 结论与展望
WES对遗传性疾病的实验诊断发挥了巨大的提升作用,随着WES 的临床应用日趋广泛和规范,需要更加深入的研究其诊断效能和临床效能。与此同时,CNV分析、AOH/UPD分析及短串联重复序列分析等基于WES测序数据的新型分析手段积极促进了WES总体诊断率的提升,但上述这些新型分析手段尚需进一步改善检测性能及深入的性能评估。
WES作为遗传性疾病实验诊断方法,除了本身技术性能的进一步提升和系统评估外,还涉及系列基础设施的建设,如外显子水平的CNV数据库和知识库的建立、人工智能在基因变异过滤和筛选中的应用、人类疾病表型的精确特征化等。随着WES临床推广应用日益普及和精准诊断需求的持续攀升,WES必将极大促进遗传性疾病实验诊断。