基因测序技术的选用与检测报告解读*
2020-12-19段钟平郑素军
梁 晨,段钟平,郑素军
近年来,基因测序技术已广泛应用于遗传性和病因不明疾病的诊断、无创产检、临床微生物的检测、个体化用药、肿瘤诊治等方面[1, 2]。基因测序多由第三方检测公司完成,这使得临床医师如何选择恰当的基因检测方法,并正确解读检测报告,显得越发重要[3, 4]。既往该类工作多由具备遗传学资质的医师完成,然而其数量在世界范围内均明显缺乏[5, 6]。在临床实践中,多数临床医生常会面临诸如目前有哪些常见基因测序技术、它们有哪些优缺点、如何恰当选用、如何准确理解检测报告等问题[7]。基于此,本文将结合我们在遗传代谢性肝病诊疗中的一些体会,对如上问题做一介绍。
1 三代测序技术的优缺点及应用选择
1.1 第一代测序技术 1975年,Sanger发明了利用DNA聚合酶的双脱氧核苷酸末端终止测序法(Sanger法),第1代测序技术正式诞生[7, 8]。该方法对目标基因扩增后通过毛细管电泳读取序列[9]。可用于未知或已知的基因变异的检测,基本适用于所有的基因变异类型,如点变异、插入或缺失变异等,准确率几乎100%,是测序技术的金标准。但其依赖于PCR扩增,只能逐段分析单个DNA片段,通量小。自动化程度低,测序成本高[3,8,10]。
1.2 第二代测序技术(next generation sequencing, NGS) 又被称为高通量测序技术,可同时对几百万条DNA分子进行序列测定。根据测序覆盖范围,将其分为全基因组测序(whole gene sequencing, WGS)、全外显子测序(whole exome sequencing, WES)和靶向区域测序(targeted /panel sequencing)[3, 11]。与第一代测序技术相比,NGS以高通量、高灵敏性、高准确性、自动化程度高、成本低廉为显著特征,合成与测序同时进行,可一次性检测未知物种、未知基因全基因组区域的所有位点。但该技术需要将基因组片段化,读长(测序反应所能测得序列的长度,须将基因组分割为读长以内的短序列才能测序)较短,不利于后续分析数据时信息的拼接整合,也不能捕获所有的基因变异类型[3, 12]。WGS主要针对全基因组水平的变异进行检测,可最大限度地覆盖靶标,但费用昂贵,某些着丝粒区、端粒区和某些高GC含量区等特定区域,属于测序盲区,数据可信度相对较差。目前,除应用于基因组拷贝数变异(染色体微小片段缺失或重复)等少数情况外,“原则上全基因组测序一般不用于临床检测[13]”,其临床应用尚需进行前瞻性试验以评估选择WGS是否利大于弊[14-16]。
外显子序列大概占到人类基因组序列的1%~2%左右[17]。由于遗传性疾病基因变异主要发生在外显子区域,且WES与WGS相比,数据分析量相对较小,成本相对较低,基因型-表型关系更直接,可一次性捕获约20000个与人类疾病相关的基因,在遗传性疾病诊断方面得到了更为广泛应用。例如对孕妇和胎儿进行WES检测,可为孕妇及其家庭提供优生优育咨询等服务[18, 19]。通常,靶向区域测序是对可引发某种临床表现(即表型)的多种可能性致病基因进行测序。与WES相比,在同等数据量的情况下,靶向测序对目标序列的覆盖率可达99%以上,甚至100%,平均测序更深,靶向区域测序在数据质量方面优于全基因组或全外显子测序[12, 16],提高了表型相关致病基因变异的检出率,且检测及数据分析成本减小,诊断时间缩短。
1.3 第三代测序技术 第三代测序技术是在单分子和单细胞水平对基因组进行测序的技术[20],测序速度快,每秒读取碱基数可达10个,其理论读长可达10 kb,甚至可以无限长。不需要PCR扩增,检测精度明显提高[21],适用于测序要求高的全基因组测序、甲基化研究、RNA测序、基因的重复序列(例如polyA尾)和癌症的诊治等[22, 23]。但该方法成本高,通量及准确性相对低,目前多应用于科研领域,对遗传性疾病的检测并非首选[24, 25]。
1.4 基因测序方案的选择 临床上,应结合患者临床特征和不同测序技术的优缺点,来恰当选择检测方法[7]。针对临床表现高度疑似某种单基因病、有常见致病变异位点时,可应用一代测序(例如以非溶血性间接胆红素升高为主要表现,怀疑Gilbert综合征时,常见变异包括A(TA)7TAA、c.211G>A,-3156G>A和-3279T>G等)。对于临床表型相对复杂、鉴别诊断的范围较广而有一定困难时(例如主要表现为黄疸、脾肿大、贫血,不能排除Gilbert综合征与遗传性球形红细胞增多症等血液系统疾病共存时),可以采用全外显子测序;对于有相同或相似临床表现的一组遗传代谢性疾病,例如胆汁淤积症,可采用靶向区域测序,对进行性家族性肝内胆汁淤积症(PFIC1-5型)、良性复发性肝内胆汁淤积症(BRIC1-2型)、先天性胆汁酸合成障碍、Alagille综合征、Niemann-Pick病(C1/C2型),Zellweger 综合征等过氧化物酶病等多种疾病的致病基因实现靶向测序,以增加诊断的敏感度和准确性[16, 17]。目前,全基因组测序和第三代测序,除少数用于怀疑基因组结构改变引起的疾病或待检样本不易获取、量少等特殊情况外,目前更多用于科学研究[7]。
2 基因检测报告解读
2.1 检测报告的生成 以二代测序为例,测序数据经与人类基因组序列比对分析,对检出的变异位点可借助比对疾病数据库/群体数据库,例如人类基因数据库(HGMD)、美国国家生物信息学中心ClinVar、千人组计划(1000genomics)等,以及参考已发表的文献,来判定基因变异的临床意义。同时,运用基因分析软件,如PolyPhen-2、SIFT、MutationTaster、Provean、GeneSpilcer等,预测相应变异对蛋白质功能和结构的影响[26]。最后,用Sanger测序验证与表型可能相关的变异,并结合患者表型特征和临床检查结果、家族史、遗传方式等信息,按照美国医学遗传学与基因组学学会(the American College of Medical Genetics and Genomics,ACMG)制定的测序变异的解读指南,得出基因变异的致病性判断[16, 27]。
2.2 检测报告的常见内容 一份正规的检测报告,常由报告正文和附录两部分组成。正文的重要内容包括检测结果以及对结果的解读。附录常列出此次检测的补充信息,如检测基因的范围、基因对应疾病的背景知识、检测方法的细节、检测的局限性、质控数据和附图等。
2.2.1 检测结果 以ACMG指南为标准[27],常包括变异基因名称、染色体编号和坐标、核苷酸变异、氨基酸变异、等位基因杂合性、变异的致病性、参考文献等。现对报告中涉及的相关内容分别说明如下(以ATP7B基因为例)。
基因名称:原则上列出的是美国国家生物技术信息中心(NCBI)上的官方命名[16],在染色体上的位置是绝对固定的,如ATP7B基因位于13号染色体长臂1区4带3亚带(13q14.3)[28]。对于DNA及氨基酸水平的变异,采用不同命名方式,例如g.代表基因组序列,c.是指编码DNA序列,p.代表氨基酸序列,m.是指线粒体相关序列[27]。
基因变异类型:主要包括:①点变异:单个碱基改变,如ATP7B基因c.2333G>T,表示在编码区2333位的碱基由G变异为T;IVS18+6C>T,表示该基因内含子18的第6位碱基C变异为T;②移码变异:在DNA的碱基组成中缺失或插入一个或几个碱基对,如插入变异-129_-128insGCCGC,表示从非编码区128位置到129位置插入GCCGC。
基因变异导致氨基酸改变类型:主要有,①错义变异:单个碱基变异造成该位置氨基酸变化,如c.2333G>T对应的氨基酸变化p.R778L,表示ATP7B编码的氨基酸第778位置上精氨酸(单字母缩写为R)变异为亮氨酸(L);②同义变异:碱基发生变异,但编码的氨基酸未发生改变,如p.L770L,表示770位置上的亮氨酸未发生改变;③无义变异:碱基变异使编码氨基酸的密码子变异为终止密码子,使肽链的合成提前终止(用X表示),如p.Q111X,表示编码111位置上谷氨酰胺(Q)的密码子变异为终止密码子;④移码变异:是指在某位点插入或缺失3N+1个碱基后,该位点及之后的的氨基酸序列发生明显改变。如p.V1146A fs*6,表示1146位置上氨基酸由缬氨酸(V)变异为丙氨酸(A),自该位点后移码(fs)并翻译5个氨基酸就终止了;⑤剪接位点变异:因影响DNA的转录过程,导致转录产物 mRNA 序列的异常,从而导致蛋白序列的异常。需要注意的是,同义变异常不致病,而无义变异、移码变异,特别是起始密码子变异、单个或多个外显子缺失、经典±1或2的剪切变异,常导致蛋白无功能,在致病性证据级别上归为非常强。
遗传方式:根据变异基因所在染色体类型(常染色体或性染色体)及遗传方式(显性或隐性)的不同,分为常染色体显性遗传(autosomal dominant inheritance,AD)、常染色体隐性遗传(autosomal recessive inheritance,AR)、性连锁遗传:X连锁显性遗传(X-linked dominant inheritance,XLD)、X连锁隐形遗传(X-linked recessive inheritance,XLR)和Y连锁遗传和线粒体基因母系遗传等。如ATP7B基因变异引起的Wilson病属于AR[28]。需要指出的是,一种疾病有可能有多种遗传方式。
等位基因(allele) 指位于一对同源染色体(分别来源于父母)相同基因位置上控制同一性状的基因。对于常染色体上的变异,当一对等位基因相同位置上都发生变异时称为纯合变异(Hom);一对等位基因中只有一个基因发生变异时,称为杂合变异(Het)。对于仅有1条X染色体的男性来说,Y染色体上缺少与之对应的等位基因,故男性仅有等位基因中的1个成员,称为半合子(Hemi)。复合杂合变异是指在由父母双方遗传来的一对等位基因中,其中一个等位基因上发现了变异,另一个等位基因的不同基因位点也发生了变异。需指出的是,对于AD,理论上只要有一个杂合的高危害性变异就能致病。但如果是AR,只有两个等位基因都存在有害变异,也就是纯合或者复合杂合时才能致病。对于XLR,男性半合子即可发病。
变异位点的致病性:2015年,ACMG和美国分子病理学会(the Association for Molecular Pathology,AMP)联合提出了详细的等级评定标准,可分为致病、疑似致病、临床意义未明、疑似良性、良性5个等级[27]。一般来讲,当变异认定为致病、疑似致病时,其临床意义较大,但仍需结合临床、遗传方式和家族史来综合判断。而报告中列出的参考文献常有助于进一步了解该位点的致病性。应注意的是,部分文献变异位点的研究方法、检测范围可能存在缺陷,并没经过功能验证,不能简单地认为文献报道在患者中检出的变异就是致病变异[29]。同时,对于临床意义未明的变异,需要综合参考软件预测及人群频率注释信息,随着基因不断被报道及遗传学证据的累积,将来也可能转为致病等级[27]。
2.2.2 报告解读及附录 报告解读是针对实验结果的解释。它常常包括变异位点致病性的证据,例如检测所发现的变异是否全部或部分地解释患者的临床表型、是否有文献报道、用软件对编码蛋白的功能影响预测等。同时,一些优秀报告还包括对临床医生的建议,这些建议包括一些需补充的临床检测,如对患者进行细胞酶学/功能的检测,以及对患者家系其他成员进行变异检测,以便为进一步解读变异检测结果提供支持[27]。
报告的附录部分会提供很多检测的细节,例如检测基因的范围、对应疾病的背景知识、检测方法细节、检测的局限性、质控数据及附图等,了解这些有助于对检测结果做出更好的解释。例如应了解检测覆盖的范围,采用的是全基因组、全外显子组检测,还是基因靶向测序。靶向区域测序要注意公司提供的基因检测范围是否包含临床疑似疾病的致病基因,以免造成漏检[12, 16, 17]。
3 基因检测在遗传代谢性肝病诊断中一些应用体会
3.1 送检信息要全面,表型要准确 细致可靠的患者基本信息、临床表型、常规检查结果及家族史是诊断遗传病的基础,也是解读基因检测结果的依据[30]。在二代测序数据分析中,检测机构常会重点分析与患者表型可能相关的基因是否存在致病性变异。若送检单中临床表型提供不准确,有可能导致基因检测结果与临床表型或诊断不符,使临床医师难以采信检测的结果。为避免非专业表型表述,建议使用中文人类表型标准术语(Chinese Human Phenotype Ontology,CHP)(可登陆http://www.Chinahpo.org/在线搜索)。同时,患者的年龄和性别对于疾病的表型、性连锁疾病等会有提示作用:家族史常提示遗传方式,准确的家族史有助于给数据分析提供方向[27]。
3.2 送检标本最好包括一代亲属,尤其是父母亲 通过家系的共分离分析,有利于提高发现致病基因变异的阳性率,也有助于过滤掉非致病变异,使检测结果更精准。所谓遗传学共分离原则,是指由于表型和基因型的连锁绑定,在一个家系里,患者和非患者在致病变异位置上的基因型一般是不同的[27]。例如对于AR遗传病,患者是纯合或复合杂合基因型,父母各自携带一个致病等位基因。如果仅检测患者本人,是无法判定复合杂合变异的。相反,AR遗传病患者基因上发现一个纯合变异,如果父母任何一方也是纯合基因型但无临床表型,则该变异的致病性可能很小。对于AD遗传病,患者是杂合基因型,理论上其父母之一也应当是患者。根据这一原则,AD遗传病患者基因上发现的杂合变异,在外显率为100%的情况下,如果父母都未患病且不携带此变异,则可确认其为新发变异。
3.3 不能将基因检测作为诊断的唯一标准 假阳性可由检测方法本身缺陷所致,也可以由报告阅读者“误判”所致。前者例如WES测序在外显子捕获、PCR扩增、重新拼接过程中可能出现错误而检出“基因变异”,该情况尽管少见,但若报告中未提示该结果是否经过一代测序验证,且不能解释患者临床表现时,则应警惕假阳性问题。误判主要由解读不当引起。例如仅检测到UGT1A1基因c.211G>A单位点杂合变异,在检测报告中常标识为致病性,此时若解读不当,则可能误诊为Gilbert综合征,导致疾病诊断的“假阳性”。其实,在我国正常人群中,该基因变异携带率高达10%,我们前期小样本研究显示,在总胆红素<17.1μmol/L的健康体检人群中,c.211G>A基因频率高达29.1%。既往也曾有病例报道,对Wilson先证者的亲属进行基因筛查发现,其兄弟姐妹即使存在相同的纯合或复合杂合变异位点,也有可能终生不发病[29]。单纯依靠基因检测结果,也可能造成疾病诊断的“假阳性”。基因变异与临床表型的相关性还受到宿主本身(例如体内激素水平、年龄、性别)、修饰基因、外界环境、甚至药物的影响。故检测结果也需要与患者具体临床表现结合起来,最终做出准确诊断并制定相应的处理措施。
由于检测方法及数据质量存在的固有缺陷,使得本来存在的致病性变异未检出,可产生假阴性问题。例如采用全外显子测序,则针对增强子、启动子、内含子以及由于外显子和内含子的拼接区的变异覆盖不到而无法检出,出现假阴性。例如UGT1A1基因的增强子区-3279位点、启动子区的TA变异,常常是Gilbert的致病位点,采用全外显子测序就不能检出,而应用一代测序则可有效检测出该位点。当WGS需进行捕获杂交时,对于检出的大片段的基因缺失,很难判断是因为杂交没有捕获到,还是真的缺失。再例如靶向区域测序,由于所测基因由检测机构自行确定,其中若没有包含疑似疾病的真正致病基因,也可以导致检测阴性[17]。所以,再次强调所有测序方案都不是万能的,都有其优缺点及适用范围,不是二代测序就一定比一代测序好,检测不出变异也不能完全排除疾病。只有掌握测序机理和优缺点,才能面对检测结果,做到正确解读[7]。若发现基因检测结果与临床不符时,建议加强临床和实验室之间的沟通和互动,也是一种增加诊断成功率的好方法。必要时,可向第三方检测公司索要检测的原始数据进行再分析,尤其在检测结果为阴性或意义未明时[27]。