二代测序在遗传代谢性肝病诊断应用中的挑战及思考
2024-06-09王征侯维郑素军
王征 侯维 郑素军
目前,我国对罕见病诊疗的重视已上升到国家健康战略层面,分别于2018年、2023年颁布了我国第一批、第二批罕见病目录,其中罕见肝病占15.46%(32/207),而遗传代谢性肝病又占了罕见肝病的81.25%(26/32),这凸显了遗传代谢性肝病的重要性。然而,罕见病的诊断仍然困难重重,诊断过程往往很漫长,准确诊断的平均时间为4.8年,常需要7名以上分布在不同领域的医师或专科医师参与,给患者及其家人带来了巨大的负担和心理痛苦,也对当前的医疗系统构成了巨大挑战[1]。近二十年来,由于全外显子组测序(WES)等二代测序(NGS)技术的成熟和发展,检测成本呈指数级下降,WES已成为遗传代谢性肝病主要的检测方法,使得越来越多的不明原因肝病的成人和儿童得到了成功诊断[2]。尽管如此,由于基因检测、遗传学相关培训的不足,多数临床肝病医师对WES检测原理及方法、生物信息学分析和结果解读等方面仍存在相关知识缺乏或了解不够。如《2022年中国罕见病临床诊疗现状调研报告》显示,对使用过基因检测的15 626名医务工作者进行调查发现,虽然WES是最常用的基因检测方法(超过50%),但多数医务工作者却存在“基因检测报告解读困难”,也对“基因公司太多、检测过程不透明、检测报告不规范”等存在担心与困扰。以上现状均阻碍了临床医师对WES的恰当选用,降低了WES的诊断效能,影响了遗传代谢性肝病诊疗能力的提升。本文梳理并总结了WES在遗传代谢性肝病应用过程中的一些常见问题,希望对相关医师的临床诊疗有所帮助。
一、NGS基因检测方法
NGS根据检测基因覆盖范围不同可分为靶向(panel)测序、WES、全基因组测序(WGS)。NGS的基因panel是针对某种临床表型(如胆汁淤积、黄疸、门静脉高压等)而预先设计或由专家选择的一组基因,所选基因已知与该临床表型相关。靶向(panel)测序具有测序深度高(靶基因被测到的次数多)、覆盖范围均匀、变异检出的灵敏度高等特点,还可针对特定变异检测出罕见的遗传变异[2-3]。但panel包如果覆盖基因不全或更新不及时,可能会导致某种疾病或表型的新发现致病基因,由于尚未纳入panel包,从而导致假阴性结果而漏诊。
WES以低成本捕获基因组的外显子区域(即蛋白质编码区,占基因组的1%~2%,却包含了约85%的致病变异),在某些情况下还可捕获非翻译区(UTRs)和内含子-外显子交界区域。WES优势是能够较全面的覆盖蛋白质编码区。WES无法检测到包括拷贝数变异(CNV)等结构变异和非编码变异(NCV)在内的相关变异,对于上述基因变异所致疾病,WES可能得到阴性结果而导致漏诊。如Niguidula等[4]发现接受WES的患者中有63%的结果为阴性或不确定。
WGS不仅可捕获编码区,还可捕获非编码区域,能够识别典型和复杂的结构变异、串联重复序列、内含子变异及可能无法被WES准确捕获的编码区域变异。但由于WGS费用高、报告周期长、结果解读困难等原因,目前主要用于科研,并未大面积在临床应用。
有些学者建议将WES作为一线检测方法[5],但也有许多临床医生认为WES/WGS应该应用于常规单基因检测或基于panel的NGS检测阴性结果的患者。与panel基因检测方法相比,WES/WGS可获得较为完整的遗传信息,提高罕见疾病诊断率[1]。如对于临床表型复杂、难于选择或没有合适的外显子panel测序可供选择,应用WES是很好的解决办法。近年来,应用WES/WGS发现的罕见疾病相关致病基因的速度稳步加快,占新发现致病基因的85%以上[6]。越来越多的证据表明,从诊断率和临床效用的角度来看,WES应被推荐为一线的基因组检测工具[7]。
二、WES解读中常见问题及注意事项
NGS的检测流程分为“湿实验”(实验室操作)和“干实验”(生物信息学分析和数据解读报告)两个部分。“干实验”是NGS非常重要的环节。实验人员对患者DNA样品进行处理和上机测序,产生大量的序列数据,之后利用生物信息学软件,将这些序列信息转化为可靠的变异信息,再对变异的致病性进行判读,才能完成一份样品的检测。
1.临床信息收集
由医师对患者进行问诊和有针对性的体格检查,全面、详细、准确地采集病史,并对采集的信息进行筛选,归纳总结为病史摘要。
由我国基因检测联盟发起并完成的《遗传病二代测序临床检测全流程规范化共识探讨》中,建议对临床信息的收集可参照在线人类孟德尔遗传数据库(OMIM)疾病条目中临床体征摘要,按照中文人类表型标准术语(CHPO)词条进行描述[8]。但大多数肝病医师对词条的了解和应用不足,而多以患者的临床症状或实验室异常结果填报检测申请单并提供给实验室。实验室人员往往不具备相关临床知识,将这些信息再转化成CHPO词条进行基因筛选时,可能出现不准确的现象,影响候选基因的筛选。因此,建议使用人类表型标准术语,这将为实验室、临床医生和研究人员之间的表型共享提供标准[9],也希望将来在临床医生、遗传学专家和实验室人员的共同努力下,能够形成系统表型分析的总体指南,进一步规范遗传代谢性肝病的表型标准术语,搭建起临床医生和实验室的桥梁。
2.数据解读流程
全基因组的测序平均检出300~400万个变异,手工筛选这些变异是不可能的。WES产生的变异数约2.0~2.2万个,较WGS少得多[10];即使WES已忽略了非编码变异,但所产生的个体变异数量仍是庞大的。通过生物信息学可将这些数据进行初步筛选,但仍有数千到数万个变异需进行进一步更详细的分析。
将NGS测出的基因序列与参考基因组序列进行比对是数据分析的第一步,而参考基因组序列的质量是影响分析结果的主要因素。GRCh37(或hg19)和GRCh38(或hg38)是两种最常用的人类参考基因组版本,分别于2009年和2013年发布,尽管GRCh38发布已过去了10余年,但仍有很多实验室还在使用GRCh37版本[11]。2022年Nurk等[12]在人类基因组组装方面取得了突破,他们提出了第一个完全完整的、无间隙的人类参考基因组序列,命名为端粒到端粒(T2T)。与GRCh38相比,T2T中添加的大部分序列对应于片段重复和着丝粒,可对这些区域进行全面分析。此外,至少有几百个蛋白质编码基因的拷贝数已更新。鉴于这些改进,T2T有望成为人类基因组学新的参考标准;然而,切换到一个新的版本可能比之前的GRCh37-GRCh38过渡需要等待更长的时间。
NGS变异检测主要针对单碱基变异(SNV)和小插入缺失变异(INDEL),常用于检测SNV和INDEL的软件是GATK和SAMtools等。由于检测策略的差异,不同软件的检测结果往往存在一定的差别;相同软件不同的参数设置同样会导致检测结果的差异[13]。
遗传分析环节涉及变异初筛、表型匹配和变异致病性判读3个步骤。因NGS产生的变异多,生物信息学分析环节涉及较多的人工判断[13]。目前对序列变异的解读主要根据美国医学遗传学和基因组学学院(ACMG)在2015年提出的指南,将变异分为5类:“致病(Pathogenic)”、“可能致病(Likely Pathogenic”)、“意义不确定的变异(VUS)”、“可能良性(Likely Benign)”、“良性(Benign)”,检测结果通常只对前3类变异进行报告[14]。最终,临床医生需结合患者的临床表现,确定是否作出诊断[15]。
3.对阳性结果的解读
各实验室在基因检测报告中,检测出与患者表型相关且为“致病”或“可能致病”的基因变异被认为是阳性结果。临床医师在阅读检测报告时,首先需注意其匹配的表型是否充分,即发现的基因变异是否能解释患者的临床表现。基因变异仅能解释其部分表型,或其典型表型不能被此基因变异所解释均提示匹配不充分。其次要考虑其遗传方式,如对于常染色体隐性遗传疾病的基因诊断,变异应为纯合变异或两条等位基因均有变异、但位点不同的复合杂合变异(反式复合杂合变异)。当检测到1个杂合变异时往往认为是不致病的;当检测到2个杂合变异时,需要进行遗传家系分析,即对患者父母进行检测,来确定2个致病变异是否为反式复合杂合变异。如ATP7B基因检测到2个致病的杂合变异,若为反式复合杂合变异,则根据Leipzig评分为4分,支持诊断肝豆状核变性;若通过遗传家谱分析,2个变异均分布在同一条染色体上,根据Leipzig评分为1分,仅为ATP7B基因致病变异的携带者,并不能通过基因诊断肝豆状核变性[16]。
4.对不确定结果的解读
与患者表型相符、但基因变异致病性为“VUS”,是NGS报告中的最常见的变异类型,占临床报告的40%~70%[17]。大多数VUS是错义变异及同义变异和非编码变异。VUS出现的主要原因是现有的研究不足以明确基因变异是否影响相应蛋白表达或功能,难以确定基因与疾病关联[18]。变异位点致病性解读的规则随着行业和技术的进步不断更新和完善,ACMG也根据最新的临床实践和科学研究成果不断进行更新和修订,因此实验室同样需追踪最新的指南和行业共识,遵循ClinGen针对不同证据的细化建议及特定类型基因和疾病的建议。尽管ACMG指南为变异解释提供了一个循证的框架,但各实验室之间实际应用存在相当大的差异,导致对VUS的判读存在11%~26%的不一致[19-20],各实验室之间位点筛选的逻辑也未形成统一的行业标准。
需注意的是,尽管判断位点致病性的证据多数可进行自动化分析(如人群频率、软件预测等),而有些只能通过人工阅读文献或验证实验获取。辅助解读软件可自动在ACMG指南框架下对变异进行致病性判断,但均需人工进行校正,才可获取足够的证据项从而得到准确的结论。若出现不确定结果时需与实验室及时沟通,鼓励具备生物信息学分析能力的医师,必要时向实验室申请提供测序数据并自行进行变异分析[21-22]。病例匹配、功能分析(包括RNA测序等)、构建变异基因的动物模型是进一步分析、验证VUS是否具有致病性的选择,但这需大量的时间和资源,在临床工作中很难实现。因此,大多数VUS仍未得到解决,这也是目前临床和科研所面临的一大挑战。
5.对于阴性结果解读
报告中“良性”或“可能良性”的变异及检测出与表型不相关的基因变异为阴性结果。尽管阴性结果提示患者罹患非遗传性疾病的可能性大,但也有可能存在假阴性的结果[23]。阴性结果原因有以下几个方面:
(1)报告质量控制:当临床医生拿到一份NGS报告时,应关注其样本主要质控参数、可报告范围(检测内容)、检测方法及其局限性等相关内容。这些内容可能部分位于报告首页后(如检测内容概述),更多详细信息多以附录形式出现在报告主体内容后,往往易被忽略。质量控制的结果决定了报告结果是否真实可信[24],检测质量较差时则可能得到假阴性结果。
(2)探针没有覆盖:尽管WES技术取得了许多进展,但其覆盖范围并不均匀(特别是在第一外显子、高GC/AT区域和低复杂性区域),且受到捕获探针特异性的限制,有可能造成假阴性结果。采用增强的外显子组捕获技术,可进一步提高医学相关基因的覆盖率。此外,NGS技术发展迅速,不同实验室或捕获测序商业平台不断更新,在实际平均深度和中靶率上,不同的捕获平台也存在差异[25]。
(3)WES测不出或测不准的变异:WES由于其检测原理,对于长的动态变异、小的拷贝数变异、高度同源序列上的变异均存在测不准的情况,而对于结构变异、非编码区变异、表观遗传、高度重复区域的变异则可能测不出。
如UGT1A1基因在其调控区域具有启动子TATAA元件和苯巴比妥反应增强元件(PBREM),以上均是Gilbert综合征的主要突变区域。我国Gilbert综合征患者最常见的UGT1A1突变位点是-3279 T>G(36.3%),其位于UGT1A1基因的PBREM中[26],位于非编码区,而WES不能覆盖此区域,可导致漏诊,形成假阴性结果。
WES对于结构变异(SVs)很难发现,SVs是一类大于50个碱基对的变异体,长度可达3 Mb,包括缺失、复制、插入、倒置、移动元素插入(转座子)、易位和复杂的重排[27]。如遗传性视网膜疾病,约有4.29%的患者是由致病性结构变异导致[28]。
(4)新的致病基因和疾病尚未发现:在过去的几年里,每年有超过250个新的致病基因被发现,WES/WGS在阐明、诊断相应孟德尔遗传病方面发挥了重要作用[29]。如进行性家族性肝内胆汁淤积症也是因近年新致病基因的发现而得以拓宽对其的认识,从过去我们认知的PFIC1型(ATP8B1)、PFIC2型(ABCB11)、PFIC3型(ABCB4)增加到PFIC4型(TJP2)、PFIC5型(NR1H4)和PFIC6型(MYO5B)[30]。据统计,OMIM数据库平均每个月更新40~50个基因条目,随着研究和文献的更新及家系资料的补充,变异的致病性判断可能会发生改变。因此,对于一些发病年龄早、有家族类似病史、存在多个系统或多个脏器病变、高度怀疑遗传代谢性疾病的患者,如检测结果为阴性,仍需谨慎判断、考虑多种因素导致结果阴性的可能。
(5)非经典孟德尔遗传:遵循孟德尔遗传模式的疾病被称为孟德尔遗传疾病。约80%的罕见疾病是遗传性的,这些疾病大多数是遵循孟德尔遗传方式的单基因疾病,但超过一半已确定的孟德尔病的遗传机制仍难以明确。临床中常见的非经典孟德尔遗传方式包括单亲二体、遗传印记、遗传早现、线粒体遗传和嵌合体、双基因遗传、修饰基因等。在遗传性肝病中,Rotor综合征就是典型的双基因隐性遗传疾病,由SLCO1B1和SLCO1B3同时发生纯合或复合杂合突变引起。此外,外显不完全和表达量不同的遗传性变异体可能进一步使得对其临床意义的正确解读复杂化[31]。
6.缺乏多学科会诊
与常见疾病的诊断一样,罕见病的诊断也依赖于就诊时的体格检查、诊断性检查及医师的临床知识。但罕见疾病的症状往往被更常见的疾病所掩盖。此外,罕见病可能是高度个体化的,遗传背景和环境因素之间存在复杂的相互作用,基因的多效性(即一个基因不等于一个表型或疾病)也增加了诊断的难度。通过遗传学家和临床医生、病理和影像专家参与的多学科会诊模式,可有效提高诊断的效率[32]。
总之,上述仔细分析有助于我们甄别假阴性和真阴性结果。而对WES数据重新分析,有助于解决假阴性问题。由于不断有孟德尔病新基因的发现及VUS致病性分析和生物信息学的发展进步,对现有WES数据的重新分析可能会在数据生成数年后发现致病变异。研究表明,对初次分析结果为阴性的病例进行WES数据重分析,可获得额外平均10%的诊断率[33]。临床中遇到以下几种情况即建议进行数据重新分析:(1)未明确诊断的阴性报告,怀疑为单基因疾病;(2)针对常染色体隐性遗传疾病,只发现与表型相关的一个变异;(3)检测报告的结果提示与表型相关的变异类型为VUS;(4)受检者出现新的表型,或较之前报告的表型有新补充和关注的疾病方向;(5)家族内出现相同表征的患者。一项对27项研究进行的系统评价发现,数据重分析将诊断率提高了约15%,建议在原始分析后18个月重新分析以优化检出率[34]。这一领域仍需要进一步研究,以确定最佳做法。
三、总结与展望
随着基因测序技术的不断发展,WES在遗传代谢性肝病的诊断和治疗中起着越来越重要的作用。然而,我们也看到仍有超过60%的遗传性疾病无法诊断而难以治疗[40-41]。如何增加对WES的认识、使用好WES,成为提升临床医师诊疗能力的挑战。发挥临床团队多学科优势与提升个人能力相结合,有助于解决这一问题。一方面,从医疗单位、学科建设角度出发,应积极推进WES的开展,加强对临床医师的相关知识培训,组建由遗传学、生物信息学分析专家参与的肝病基因组学团队,积极开展由肝病专家主导的多学科会诊;另一方面,这也对临床医师提出了更高的要求:提倡具备对测序数据的自主分析能力;在强调以临床思维为主导的同时,应鼓励临床医生熟练掌握并综合应用生化指标、病理学、影像学、基因分子诊断等多学科知识;对一时未能诊断的患者应进行长期随访、必要时对WES数据再分析。