多组学技术在单基因遗传病临床诊断中的应用展望
2022-11-25宋正阳蒋春明
宋正阳 蒋春明
遗传病是指遗传物质改变所致基因功能异常而导致的一类疾病,按遗传方式可分为单基因遗传病、多基因遗传病、线粒体遗传病和染色体病。单基因遗传病,即孟德尔遗传病,是指由一对等位基因控制的疾病。遗传学分子诊断是指应用分子遗传学技术对染色体、基因组、DNA序列等进行检测,判断患者是否存在遗传物质突变。其中,DNA测序技术是最重要的分子诊断手段之一。迄今为止,仍有很大一部分遗传病仍不能被明确遗传病因,因此,越来越多的新技术被应用于遗传病诊断领域。
组学是指对生物系统中的基因、蛋白质或代谢物进行高通量整体分析的技术,其中基因组学、转录组学、蛋白质组学、代谢组学等已在临床和基础领域发挥了重要的作用,并被逐渐引入遗传病领域,多组学技术也日渐被重视。本文就多组学技术在单基因遗传病领域的应用现状和进展作一综述。
1 多组学技术在单基因遗传疾病中的应用进展
随着现代医学不断发展、组学技术不断进步,如何突破单一组学研究的局限性成为了目前的研究热点。将不同组学联合应用于遗传病的诊断,即将基因组学、转录组学、蛋白质组学、代谢组学等多种组学数据相结合的多组学综合分析方法,在理解复杂疾病的病理生理方面引起了人们的重视。
1.1 基因组学
1.1.1 靶向捕获基因测序 靶向捕获基因测序也称基因panel,临床上将多个基因或多个位点按照一定标准进行选择和组合,从而检测出对遗传病有诊治意义的基因。其原理是将若干靶基因对应的探针设计到同一张芯片上以捕获目标DNA并用于后续检测。对于遗传特征明确的可疑疾病,基因panel检测通常比全外显子测序(whole exome sequencing,WES)、全基因组测序(whole genome sequencing,WGS)有更高的诊断率,因为其测序深度更高,灵敏度和特异度更好[1]。不同基因panel的诊断率各不相同,容易受到panel设计方案和遗传表型及遗传特征识别的影响。因此,在诊断不确定的情况下,选择其他测序方法可能更合适。
基因panel是目前临床上诊断各种明确表型或疾病的常规选择,广泛应用于先天性肌无力综合征等神经肌肉疾病,遗传性眼病、遗传性运动障碍等遗传性疾病的病因诊断。
1.1.2 WES 目前认为,仅占人类全基因组1%左右的外显子区域,包含了85%的致病性变异,可以通过外显子组测序直接识别孟德尔遗传病的致病基因,其中WES对遗传病诊断和新致病基因的发现具有重要价值。WES是一种靶向候选基因外显子区域序列的测序方法,需要通过分子杂交和PCR扩增技术来富集目标序列。WES主要靶向蛋白质编码区序列,也可能包含一些重要的基因调控区,如启动子、5'-UTR等侧翼区域,使得遗传信息更全面,从而更有效地鉴定致病性变异。Platt等[2]在原发性免疫缺陷疾病的临床诊治中发现,与基因panel相比,WES可简化工作流程,降低成本,并提高发现新的遗传性疾病的能力。
Salfati等[3]研究报道,在12个月后对未确诊的患者进行重分析可使诊断率提高11%,这使得WES与传统基因panel相比性价比更高。随着变异分类工具改进、基因数据库和临床表型识别的完善,WES数据重分析可能是提高孟德尔遗传病的诊断效能的重要手段。
尽管WES对孟德尔遗传病的分子遗传学诊断具有划时代意义,但是临床上仍有50%~75%的孟德尔遗传病无法通过WES得到基因诊断[4]。推测可能是因为WES仅覆盖了基因组约2%的区域,无法检测非编码区所含有的对细胞发育和生物学至关重要的调控区域。非编码区中存在影响RNA转录丰度的序列,其调控蛋白质表达在很多复杂的性状和疾病中发挥了关键性作用。
当前,WES已是孟德尔遗传病诊断中最常用的二代测序技术,诊断率可达到25%~52%,采用家系检测可再提高16%的诊断率[5]。WES在神经系统疾病的诊断阳性率可高达30.6%,远高于非神经系统遗传病的阳性率(如皮肤系统17.2%、血液系统疾病17.1%);对于癫痫或共济失调的表型,WES检测的总体诊断率达36.1%[6]。在明确家系遗传倾向的情况下,WES的诊断率明显超过了其他遗传诊断方法,如染色体微阵列分析或基因panel检测。随着技术的成熟,WES已广泛应用于癫痫、阿尔茨海默病、脑性瘫痪等神经系统疾病的临床诊断。
1.1.3 WGS WGS是一种不受捕获步骤和扩增反应限制的技术,对包括非编码区在内的整个基因组进行测序和数据分析,能够更好地覆盖单核苷酸变异、插入和缺失和结构变异(structure variantions,SVs),包括较短和较大的拷贝数变异[7]。虽然目前提供的覆盖深度低于WES,但WGS不需要外显子捕获或其他富集策略,在检测内含子区域的致病变异方面有较高的效能。但当前对全基因组尤其是非编码序列的致病性认识尚不充分,缺乏足够的分析数据库,且WGS对海量测序数据的处理(包括生物信息过滤、数据存储、数据分析和解释)需要耗费生信学家、遗传学家和临床医生大量的时间,WGS测序成本也较WES高,使得WGS的临床应用受到显著限制[8]。
目前研究认为WGS具有广泛的适用性,可显著提高临床诊断率。大量荟萃分析发现WGS诊断率几乎是WES的两倍,早期找到病因可有效改善患者的诊治和预后,降低家庭复发风险,因此认为WGS比WES具有更高的性价比[7]。有研究发现WGS可用于识别阿尔茨海默病相关的罕见基因变异,特别是外显子组之外的变异[9],在脊髓小脑共济失调等神经系统疾病中应用WGS的可行性和效能也得到了肯定[10]。尽管现在WGS尚未在遗传性疾病的临床诊治上得到广泛应用,但这该方法为更全面揭示遗传性疾病的病因和发病机制提供了技术保障。
1.1.4 第三代测序技术(third-generation sequencing,TGS) TGS即长读长测序/单分子测序技术,其特点是实时单分子测序,包括单分子实时测序和纳米孔测序两类技术。TGS是遗传学领域的里程碑式的技术革新,实现了对每一条DNA分子单独测序,测序过程无需进行PCR扩增,保留了二代测序的速度和通量优势,且弥补了二代测序读数相对较短、难以检测到较大的SVS等不足。相比于第二代测序(next-generation sequencing,NGS),长读长是 TGS的关键优势,而通量低、错误率高和成本高是TGS的显著缺陷[11]。临床上,可以通过短读长的NGS来修正TGS的长读长片段测序的局限性[12]。目前TGS主要用于全基因组denovo测序、甲基化研究、点突变检测、特殊基因区域等检测[13],例如癫痫、X连锁性肌张力障碍-帕金森病等神经系统遗传疾病。
TGS可能在不久的将来成为一种标准的罕见病诊断工具。最近研究显示,TGS有助于明确其他基因检测方法均无法检测到的SVs,可协助验证生殖细胞基因组的结构变异和分类,这对遗传病筛查和干预具有重要意义[14]。
1.2 蛋白质组学 单基因遗传疾病通常是由于特定基因中的位点变异所导致的蛋白质质量异常所致。蛋白质组学是鉴定和定量细胞、组织或有机体中全部蛋白质的一种技术,包括对蛋白质的结构和功能、表达和翻译后修饰、蛋白质之间的相互作用等的研究[15]。蛋白质组学对疾病的早期诊断、动态监测和预后评估至关重要。随着人类蛋白质组计划的开展和临床蛋白质组学技术的推进,当前只需要微量的体液(血浆或尿液等)或组织样本就能够可靠地检测到>90%的人类蛋白质,促进了临床应用。然而,要提高蛋白质组学技术的可重复性和性能,还需要进一步的努力。多年来,蛋白质组学技术的应用一直面临严峻挑战和技术难题,结果受到蛋白质谱动态浓度范围较大、剪接变体和翻译后修饰等复杂因素的影响。近年来,蛋白质组学技术的灵敏度得到了极大的提高,也具有更大的覆盖范围。将蛋白质组学和遗传学、细胞生物学方法相结合来研究疾病相关变异的细胞生物学功能,有助于识别与疾病相关的蛋白分子,并可为遗传性疾病的发病机制研究、临床诊断和治疗提供新思路。在亨廷顿病[16]、遗传性中性粒细胞减少症[17]、线粒体疾病[18]等疾病领域的研究结果显示,蛋白质组学在遗传病诊断中具有较高的应用价值。
因此,不断发展的蛋白质组学技术将加深人们对遗传疾病的理解、诊断和管理,有利于对疾病诊疗实施精准的指导。
1.3 代谢组学 基因组学或蛋白质组学分析仅反映了部分生命活动,尚不足以解释人类遗传代谢性疾病的复杂性。代谢组学是20世纪90年代中期发展起来的一门新兴学科,多用于研究相对分子质量1 000内的小分子代谢物,是遗传代谢性疾病临床诊断的重要依据。代谢组学分析能描述某种组织细胞的特定病理生理状态,并对其进行定性和定量分析,其基本的研究方法分为靶向和非靶向两种。这两种方法可联合用于对代谢产物的鉴定和定量,以及代谢相关分子标志物的分析研究。由于样本收集和储存的条件会影响代谢物的丰度[19],因此,标本稳定性是代谢组学技术发展必须要克服的问题之一。
随着WES的应用逐渐广泛,发现了很多与临床表型相关但致病性不确定的变异,结合代谢组学技术可为其得到更准确的基因诊断提供实验室证据。临床上,代谢组学技术多用于检测和监测先天性代谢异常[20],已有多个研究报道了代谢组学技术成功应用于先天性铜代谢障碍等疾病[21-22],代谢组学技术是下一代遗传代谢病的重要筛查技术。
1.4 转录组学 转录组是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的总和,主要包括mRNA和非编码RNA。由于受到当前测序技术和基因功能认识的限制,学者推测很多遗传性疾病可能是由于转录水平发生各种异常而导致的,因此不可能仅依靠基因组测序来解决。转录组测序(RNA-sequence,RNA-Seq)是一种可以对特定时空状态下的器官组织进行转录组分析的高通量测序技术,可以直接检测RNA丰度和RNA序列的变异,弥补了DNA遗传信息的局限性[4],具有高精度、高灵敏度和高稳定性的特点,可提高遗传性疾病的临床诊断率[23]。这为RNASeq作为一种DNA测序的补充手段的临床应用提供了重要依据。但由于转录组存在高度的时间、空间特异性,如何选择最佳的组织进行检测是临床面临的重要挑战[24]。此外,RNA-Seq对数据存储要求较高,其数据的生物信息学解读难度大,都限制了临床应用。虽然现已有表达变异分析技术等辅助工具来帮助分析转录组测序数据[25],但临床解读仍是巨大挑战。
近年来,已有较多研究将其成功应用于线粒体疾病和神经肌肉疾病等先天性代谢性疾病的临床。研究证实,RNA-Seq有助于甲基丙二酸尿症[26]、线状体肌病[27]、罕见遗传性皮肤病[28]等疾病的临床诊断;尤其适用于WES阴性的累及皮肤肌肉相关遗传性疾病的患者,因为肌肉、成纤维细胞等组织容易获取且适于RNA-Seq 检测[29]。
综上所述,虽然目前RNA-Seq不是诊断孟德尔遗传病的常规诊断技术,但确是提高罕见遗传病分子诊断的重要补充诊断技术。
2 多组学联合在遗传性疾病中的应用进展
随着现代医学和组学技术的不断进步,如何突破单一组学研究的局限性已成为当前该领域的研究热点。将不同组学技术联合应用于遗传性疾病的诊断,即将基因组学、转录组学、蛋白质组学、代谢组学等多种组学数据相结合的多组学综合分析方法,在理解复杂疾病的病因机制方面日益受到人们的重视。
联合应用NGS和代谢组学筛查可以发现新的致病基因和生物标志物[30],可提高遗传性代谢缺陷病的诊断效能,进一步提高诊断率和缩短诊断时间[31]。研究发现,基因组学与其他多组学数据的整合分析,可有效提高单基因遗传病的诊断效能和明确潜在的治疗靶点,从而实现早诊早治和改善预后,例如将基因组和转录组联合应用可提高阿尔茨海默病[32]、特异性皮炎[33]等疾病的精准诊治。迄今为止,临床上已经开发了大量针对单基因遗传病诊断的多组学联合检测技术和多组学数据整合分析工具,来提高遗传罕见病的分子诊断效能,但该领域仍进展缓慢。
3 展望
随着多组学技术的突破,基因组、转录组、蛋白质组和代谢组等生命信息将对单基因遗传病的诊断和治疗发挥越来越重要的作用。今后的研究应该使用系统生物学方法整合多组学数据,并积极运用于遗传性疾病的诊断和治疗领域。在将多组学技术引入临床实践的过程中,存在一些问题尚待解决[34]。首先,要克服不同组学技术的临床局限性,深入理解多组学数据的潜在生命疾病信息;其次,要开发多组学数据之间的整合分析技术和平台,揭示数据的互补性和整体性,以推动高特异度和灵敏度的生物标志物的发现;再次,要解决由于样本收集、处理、储存和运输等产生的影响,以及不同制造商生产的组学图谱平台的技术差异;最后,多组学数据安全和患者隐私等伦理问题尚待深入研究解决。此外,要建设规范的多组学医学遗传诊断模式,组建临床医生、实验室专业人员、生物学家、甚至律师和伦理专家等多个领域专家的多学科遗传病诊断团队,以开启基于多组学数据整体解读的未来单基因遗传病诊断时代。