下一代测序技术在罕见肾脏病中的应用

2022-07-07蔡泽宇赵建荣

中国医学科学院学报 2022年3期

蔡泽宇，赵建荣

内蒙古医科大学附属医院肾脏内科，呼和浩特 010000

罕见病(rare disease，RD)是对具有极低患病率疾病的统称。目前不同国家或机构对“低患病率(或人数)”的界定标准存在差异，如世界卫生组织将RD定义为患病人数占人口总数 0.65‰～1.00‰的单种疾病或病变；美国则将患病人数少于200 000的疾病定义为RD，而在欧盟这一标准为250 000人[1]。尽管单病种RD患病率极低，但目前国际公认的RD已达6000～8000种，全球有超过4亿人受累[2]；此外，RD通常具有较高的致死、致残率，严重影响患者生存质量，但其中多数疾病尚缺乏支持临床实践的科学证据，因而已成为全球性的公共卫生问题。

RD中至少有150种疾病可累及肾脏[3]。这些罕见肾脏病在欧美国家的患病率为(60～80)例/100 000人口[4]，是继糖尿病、高血压、肾小球肾炎和肾盂肾炎之后的第五大终末期肾脏病(end-stage renal disease，ESRD)病因[5]。罕见肾脏病大多具有复杂的遗传背景，尽管迄今已有逾100种疾病的致病基因得以确定，但受遗传异质性及基因多效性等因素的影响，罕见肾脏病的临床表型多不典型，导致其从发病到最终确诊往往需要历经较长时间。因此，了解罕见肾脏病的分子遗传学基础对于早期确定诊断、选择或研发具有针对性的治疗方式具有重要意义。近年来下一代测序(next generation sequencing，NGS)技术的应用显著提升了罕见肾脏疾病的诊断效率和质量，也为我们更好地理解其分子遗传学机制提供了新的方法[6]。

NGS原理概述

NGS也称高通量测序或大规模平行测序，是利用序列捕获技术将全基因组或部分基因组DNA序列捕捉并富集后在高通量测序平台进行基因组分析的方法。相较传统的一代测序技术(Sanger测序)，NGS可同时读取分析几十万至几亿条DNA序列，测定数据量呈指数级增长，是一种基因组学研究的高效策略。根据测序时所覆盖目标基因组区域的大小，NGS可分为靶向目的基因测序(target panel sequencing，TPS)、全外显子组测序(whole exome sequencing，WES)和全基因组测序(whole genome sequencing，WGS)等，测序流程大致相同，包括样品采集、文库制备、上机测序和数据分析等。

靶向目的基因测序TPS通过对已明确遗传学机制的某一类疾病或表型开发特异性探针组合(Panel)，以捕获和富集目的基因，从而实现高通量平行测序。由于TPS仅对已知序列基因进行检测，因而具有较高的测序覆盖度、灵敏度(100%)和特异度(接近100%)；此外，TPS根据研究者兴趣制定候选基因列表，因而产生的数据量相对较小，通常使用小型的台式测序仪即可满足检测需求，故还具有操作便捷、节约成本的优点。

全外显子组测序人类外显子组序列仅占整个基因组序列的1%，但却涵盖了约85%既往发现并且经功能研究证实具有致病性的突变。WES通过对基因外显子区域进行捕获测序，检测范围可覆盖人类基因组中的多数常见变异以及频率<5%的低频突变，因此WES不仅可作为孟德尔遗传病诊断的有力工具，对于发现罕见疾病中的新型突变也具有较大的应用潜力。

全基因组测序WGS通过对整个基因组进行测序，最终数据可反映个体全部遗传信息。与WES相比，WGS的优势不仅体现在其测序范围进一步扩大至了涵盖内含子和调控序列的整个基因组，也因此WGS无需进行目标区域的靶向富集，操作流程相对简化，进而减少了测序覆盖偏倚。此外，WGS对拷贝数变异、结构变异及线粒体DNA突变等也有着更出色的检出能力。但由于存在成本较高，分析周期长，数据量庞大等原因，目前WGS仅作为遗传病基因诊断的二线方案应用。

转录组测序转录组测序又称RNA测序(RNA-Seq)，是利用高通量测序技术对生物体全部RNA的逆转录产物即cDNA进行读取和生物信息分析的一种方法。RNA-Seq的问世进一步拓展了基因注释的功能。它能精确识别转录本结构及所发生的变异，实现对基因5’/3’末端、可变剪接及融合基因等序列的绘制；此外，RNA-Seq可使基因表达水平以可视化数据的形式呈现，并且能进一步表征差异表达基因的生物学功能。

NGS在罕见肾脏病中的应用

奥尔波特综合征1927年Alport[7]首次将奥尔波特综合征(Alport syndrome，AS)描述为伴有感音神经性耳聋及眼部异常的遗传性肾脏疾病。该疾病是由编码肾小球基底膜Ⅳ型胶原蛋白α3α4α5网络的基因，即Col4A3、Col4A4和Col4A5发生突变引起，其存在3种遗传方式，其中Col4A5突变导致的X连锁AS占85%，Col4A3、Col4A 4突变导致的常染色体隐性或显性AS占15%。上述基因均为含有约50个外显子的大片段基因，且无突变热点，因此AS具有显著的遗传异质性。

AS是最先应用遗传学手段确定致病基因的孟德尔遗传肾脏病[8]，但其有关NGS的相关研究起步则相对较晚[9]。NGS的应用使AS新变异体的识别速度和规模达到了空前的程度，也为认识AS复杂的基因型-表型相关性提供了更多依据。研究证实，NGS能够识别Ⅳ型胶原基因中近95%的错义突变、无义突变、插入和缺失，以及多数外显子-内含子交界附近的剪接突变[10-11]。2016年Savige等[12]收集了全球12个AS基因诊断实验室的WES结果，不仅将新发现的754例变异体提交给了Leiden开放变体数据库，同时对数据库中Col4A3、4、5的全部基因型及其表型之间的相关性进行了分析。他们发现在3种基因各自突变所产生的致病性变异中，突变类型对于预测各型AS患者ESRD发病年龄具有相同的参考意义，其中以错义突变最为常见，但其发生ESRD的年龄相对较晚。

双基因突变是造成AS表型多样性的另一重要因素。该突变类型可表现为任意两个Ⅳ型胶原基因的组合突变[13-14]，且通常会导致较单个Ⅳ型胶原基因突变更为严重的临床表型。Ⅳ型胶原α6链的编码基因Col4A6的大片段缺失延伸至Col4A5也符合AS双基因遗传突变，现已证实其与AS患者弥漫性平滑肌瘤的发生相关。此外，足细胞-基底膜相关蛋白基因的突变(如LAMA5、NPHS2、MYO1E等)，也可通过修饰基因效应或与Ⅳ型胶原基因突变共同遗传的方式影响AS患者的表型[15-17]。NGS可进行多种基因平行测序的特点，对于识别遗传疾病中的双基因突变具有独特的检测优势[18]，其中以TPS应用最为广泛，目前AS相关的基因Panel能够对包括COL4A3-5和足细胞-基底膜相关蛋白基因在内的30余种基因进行检测，实现对AS的快速诊断及鉴别诊断。

法布里病法布里病(Fabry disease，FD)属溶酶体贮积类疾病(lysosomal storage disease，LSD)，是由位于X染色体上α-半乳糖苷酶A(alpha-galactosidase A，α-Gal A)的编码基因GLA发生突变，导致α-Gal A的代谢底物三己糖酰基鞘脂醇(GL3)及其脱酰衍生物(lysoGL-3)降解障碍而引起的一系列脏器病变[19]。肾脏是GL3或lysoGL-3沉积的主要靶器官之一[20]，典型FD肾脏受累患者早期表现以蛋白尿为主，之后多在50岁之前进展为ESRD[21]。

GLA全长约10 233bp，由7个外显子和6个内含子组成，该基因具有高度多态性，迄今已有逾1000种GLA变体收录在公共数据库中。拷贝数变异(copy number variation，CNV)是一种长度>1 kb 的基因组结构变异，约占GLA致病性突变的3%，由重复序列介导的染色体间基因重组是其发生的主要机制。NGS可通过序列从头组装、读深度法等生物信息学方法检测CNV，但受其自身测序读长普遍较短(通常低于300 bp)的技术壁垒限制，NGS在进行序列组装或比对时往往不能很好覆盖基因组中的重复区域，这极大地限制了其在CNV检测中的应用。

2019年Farr等[22]对1例血α-Gal A活性几乎完全缺乏、但Sanger测序并未显示任何GLA致病性突变的FD疑似患者，使用NGS技术进行了CNV检测。研究人员首先使用长片段PCR(LR-PCR)技术扩增出约18 kb大小的完整GLA基因序列，随后将扩增产物直接用于NGS文库的制备，并使用具有较长读长的罗氏FLX测序平台进行检测。结果显示，该患者GLA基因外显子序列呈1-2-3-4-2-3-4-5-6-7的重组片段，重组位点分别位于两个GLA等位基因内含子中的Alu元件-3和Alu元件-9。Alu元件属短散在重复序列家族，主要参与基因表达调控，是人类基因组中丰度最高的转座元件。经典的Alu元件长约300 bp，是导致CNV等大片段重组事件的常见致病因子[23]。LR-PCR技术可有效富集基因组内的重复序列，在进行序列组装时可提供各个测序片段间更丰富的重叠信息，以获得具有高保真度的待测基因(组)序列，有效弥补了NGS读长较短的技术瓶颈。

NGS亦可应用于FD与其他LSD的鉴别，现已报道了多项应用TPS识别LSD中致病基因的研究。Zanetti等[24]使用了一种含有50个LSD相关基因及230个高度保守内含子序列的Panel，对56名阳性对照、13名生化诊断患者和9名未诊断患者进行了变异分析，各自对应的诊断率分别为66%、62%和30%。Di Fruscio等[25]设计的“Lysoplex”基因Panel，主要用于检测自噬-溶酶体途径中的DNA序列变异，可同时对197个溶酶体基因、627个内吞途径基因及106个自噬途径基因分析，平均测序深度X×覆盖率达40×95%，已成功应用于包括FD在内的14种LSD的诊断。

酶替代疗法(enzyme replacement therapy，ERT)是目前针对FD病因学唯一有效的治疗方法，而基于表达水平的组学技术是研究药物作用机制的可靠手段。2016年Ko等[26]应用RNA-Seq通过对比FD患者ERT前后的基因表达谱，发现经ERT的FD患者体内与临床症状缓解相关的TINAGL1、DAAM2、CDK5R1和MYO5B等基因均出现表达上调，且在男性患者中这种变化更为显著；基因集富集分析则显示ERT后的氧化磷酸化途径相关基因表达呈下调趋势，这可能与ERT具有通过抑制氧化磷酸化通路活性，保护蛋白质免受氧化损伤的作用有关。在另一项ERT的RNA-Seq研究则发现，FD患者ERT后血液中与转化生长因子-β信号通路相关的miRNA表达活性改变。这些miRNA可作为潜在的生物标志物，用于评价FD患者ERT治疗的时机或疗效[27]。

非典型溶血性尿毒症综合征非典型溶血性尿毒症综合征(atypical hemolytic uremic syndrome，AHUS)是指致病因素除外了产志贺毒素大肠埃希菌感染因素，以微血管病性溶血性贫血、血小板减少症和急性肾损伤为特征的一组临床综合征。60%的AHUS患者起病与遗传因素相关，而补体基因突变在其发病机制中起重要作用[28]。现已知的致病基因包括补体旁路调节基因(如补体因子H、补体因子I或CD46)的功能丧失性突变、补体效应基因(如补体因子B或C3)的功能获得性突变以及部分非补体基因。此外，8%～10%的患者体内存在补体因子自身抗体，而这多与补体因子H相关蛋白基因的突变相关。

上述基因的突变通常不会直接导致疾病，而是使患者呈现出遗传易感性，此后经感染、妊娠或自身免疫疾病等事件触发补体替代途径的异常持续激活，进而引发肾脏内皮损伤、凝血级联活化和肾小动脉微血栓形成等一系列反应。这种遗传易感性既可以由单个补体基因的致病性变异引起，也可能是多个突变基因共同作用的结果。因此，利用NGS大规模平行测序的优点，可尽早明确AHUS遗传易感性的具体机制。目前业已应用于AHUS临床诊断的基因Panel不仅可对上述的补体相关基因进行常规筛查，还囊括了补体因子H相关蛋白(CFHR)、二酰甘油激酶ɛ(DGKE)和成蛋白INF2等编码基因。此外，为同其他微血管性溶血性疾病进行鉴别，一些Panel还将ADAMTS13(血栓性血小板减少性紫癜)、CD59(CD59介导的溶血性贫血伴或不伴免疫介导性多发性神经病)、MMACHC(甲基丙二酸尿症和同型半胱氨酸尿症)等基因纳入了候选基因列表。

AHUS相关Panel候选列表中的基因种类得以越加丰富，有赖于WES、WGS等具有更广泛基因组覆盖范围的测序技术对该疾病遗传学机制研究的逐步深入，其中包括对非补体基因致病作用的发掘。DGKE基因是首个被确定为独立于补体旁路途径的AHUS致病基因，最早由Lemaire等[29]利用WES发现，其突变与婴儿期AHUS的发生相关。该基因编码的DGKE属甘油二酯酰激酶(diacylglycerol kinases，DGK)家族，主要表达于血小板、内皮细胞和足细胞，其功能为催化甘油二酯磷酸化为磷脂酸，进而阻断甘油二酯-蛋白激酶C信号通路介导的血小板活化及血栓形成。

INF2基因是另一利用WES技术发现的AHUS相关非补体基因[30]，但与DGKE基因不同的是，该基因突变仅在与补体基因风险单倍型共存时才表现为AHUS，突变功能分析显示在足细胞中表达的INF2亚细胞定位改变，以及其参与组成的足细胞骨架结构受损。此外，INF2的异常表达已被证实可干扰补体调节因子CD55和CD59的细胞内转运，后二者广泛表达于全身各种类型细胞，对于补体介导的血管内皮损伤具有保护作用。

除上述3种疾病以外，NGS还在其他罕见肾脏病中得到广泛应用(表1)。

表1 下一代测序在其他罕见肾脏病中的应用

存在的挑战与展望

罕见肾脏病因其复杂的遗传背景和多样的临床表型，在临床实践中常面临着“诊断奥德赛”的窘境，即患者从疾病症状或特征出现到最终确诊常需历经漫长的时间、多次转诊并接受一些不必要的检查。近年来，NGS的应用使得我们在罕见肾脏病遗传学研究领域取得了里程碑式的进展，它不仅为该类疾病的早期诊断提供了一种高效且低成本的检测手段，也是目前寻找疾病新候选基因的重要研究工具之一。但NGS作为一项新兴技术，其目前应用仍存在如下挑战。首先，基于高通量平台的NGS产生了海量的测序数据，这些数据当中累积了许多未知致病意义的变异，而明确此类变异的生物学效应是当前基因组学研究面临的最大难题之一。尽管目前已有相关软件程序和数据库可预测部分候选基因或突变的致病性，但最终仍需通过在生物模型中表征所识别变异的功能来加以验证其准确性，这一过程可能比NGS本身更为费时耗力，且需要更多的临床资料和遗传学证据支持。还需要注意的是，NGS的较高通量一定程度上是以牺牲测序读长的方式实现的，由此引发的问题是它对于含有高重复、高杂合度等序列的复杂基因组测序较为困难。虽然目前利用denovo组装等生物信息学策略可实现对部分复杂序列的重新构建，但该方法对测序文库制备通常有着较高的要求，且需要进行大量运算，亦进一步加剧了数据处理的负担，最重要的是其并未从根本上解决NGS读长较短的问题。以单分子实时测序为代表的第三代测序技术，测序读长达10～15 kb，可有效覆盖复杂基因组中的重复或杂合序列，但三代测序因其较高的错误率(15%以上)和高昂的运行成本，迄今仍未能大规模商用。此外，NGS的广泛应用也引发了伦理学方面的争议，如各NGS研究机构之间必要的数据共享与患者隐私安全保护之间的矛盾、NGS在早期诊断中的应用与疾病针对性治疗方法研发之间的不平衡发展等问题。

在过去的30年里，研究人员已在7000余种RD中确定了逾50%疾病的遗传学病因，其中包括了对100余种罕见肾脏病候选基因的甄别，其中NGS技术通过对大量患者及其家属进行无偏倚的、基于基因组水平的测序，极大地促进了在罕见肾脏病分子遗传学研究方面不断获取新的突破。随着该技术的日臻进步，其价格将进一步下降，这将推动NGS技术向着更长读长、更高准确性以及多组学整合分析策略为主的方向迈进，并有望在更大人群规模中开展，由此获得的遗传信息可用于构建生物分子网络，以帮助我们从分子遗传学角度理解疾病的发生发展机制，为疾病早期诊断、预后分析以及挖掘新的治疗靶点提供更全面的参考依据。此外，随着云计算与大数据、生物信息学以及其他分子生物学技术领域的不断革新，与这些技术的联合应用将逐步弥补NGS存在的缺陷，发挥其在复杂或罕见基因变异识别方面更大的潜力，为推动精准医学时代下罕见肾脏病的研究创造更多有利条件。