APP下载

应用二代测序技术进行胚胎植入前遗传学筛查及诊断的基本原理*

2019-07-16李丽莉张文新林一鑫方雅亮梁家杰曲守方

中国医学装备 2019年7期
关键词:易位胚胎染色体

李丽莉 孙 楠 张文新 林一鑫 方雅亮 梁家杰 黄 杰* 曲守方*

遗传学和基因组学的快速发展对人类生命健康及繁衍的影响日益深远,对多种常见和罕见疾病的研究有助于对应预防、检测及治疗方法的开发,从而提高患者及其家人的生活质量。在不孕不育等问题日益严峻的情况下,辅助生殖技术(assisted reproductive technology,ART)应运而生并被采用于个性化的生育治疗策略,帮助受生育难题困扰的家庭。其中,植入前遗传学筛查(preimplantation genetic screening,PGS)主要针对高龄、反复助孕失败、反复自然流产等患者,进行植入前胚胎的染色体畸变检测,用于筛查和丢弃染色体畸变的胚胎,保证受孕者所植入的胚胎具有正常染色体组的同时,解决因胚胎染色体畸变而导致的植入失败和反复流产现象,并提高妊娠率[1-2];植入前遗传学诊断(preimplantation genetic diagnosis,PGD)则主要针对父母本已患有明确遗传病或携带其致病基因,在种植前对胚胎进行相应遗传学诊断,主要包括单基因遗传病和染色体病(如罗氏易位、平衡易位等),通过选择无致病因素的胚胎进行植入,以提高生育健康婴儿的概率[3]。

1990年,Handyside等[4]首次使用基于聚合酶链式反应(polymerase chain reaction,PCR)技术的PGD对可能携带X-染色体连锁致病基因的胚胎进行性别选择。经过不断的发展,当前应用于PGD的PCR技术主要包括逆转录PCR、巢式PCR、荧光以及实时荧光定量PCR等,主要用于鉴定胚胎特定基因的点突变、小片段缺失或插入等。但PCR技术的主要问题在于通量低、样品易被污染、扩增失败和等位基因脱扣(allele drop-out,ADO)等,因此准确性波动大,且检测效率低[5]。而等位基因脱扣是PCR乃至二代测序(next-generation sequencing,NGS)(基于NGS的PGD基本需要进行多重PCR)中最难以解决的问题,具体指在两个等位基因中的一个扩增完全,而另一个扩增失败,发生率约为5%~15%,其原因可能包括欠佳的PCR环境、细胞裂解不完全、DNA降解、某片段鸟嘌呤和胞嘧啶(guanine and cytosine,GC)含量值高等[6-7]。PCR通常不应用于PGS,但目前也有应用荧光PCR进行染色体整倍体检测的少量报道[8]。

另一早期广泛应用于PGD的标准技术是荧光原位杂交(fluorescence in situ hybridization,FISH),1994年该技术被首次应用于胚胎性别诊断[9]。FISH采用荧光标记的特异性探针与处于分裂间期的胚胎卵裂球染色体DNA杂交,通过观察荧光信号的数量和分布,鉴定胚胎性别或判断染色体是否平衡[10]。但由于卵裂球的固定效果不稳定,探针也存在非特异性结合的情况,因此容易出现不可靠的结果[11]。传统的FISH无法一次性检测所有染色体,一般每个卵裂球细胞只能标记5条染色体,一次实验耗时5 h左右,因此很少用于PGS,直至近年才有采用FISH进行染色体整倍性的检测报道[12]。

比较基因组杂交技术(comparative genomic hybridization,CGH)利用不同颜色的荧光标记待测样本和对照组的基因组,然后与正处于人类中期染色体杂交,最后通过两组荧光强度的差异,判断染色体的重复和缺失,其分辨率比FISH高5~10 M[13-14]。由于传统的CGH需要制备人类中期染色体,操作较为繁琐,因此在微阵列技术出现后,比较基因组杂交技术与之结合形成了微阵列比较基因组杂交(array-based comparative genomic hybridization,array-CGH)并广泛应用于PGS/PGD。

基于对胚胎发育健康的考虑,所有的植入前检测都尽量取用最少量的胚胎细胞,但这也容易造成待测DNA量过少的问题。因此,全基因组扩增技术(whole genome amplification,WGA)应运而生。WGA非选择性地对全基因组序列进行扩增,即增加了DNA总量,也避免了序列倾向性,实现了微量DNA多基因位点分析和重复检测。WGA可与NGS或微阵列比较基因组杂交(array-based comparative genomic hybridization,array-CGH)技术结合应用于PGS/PGD。

array-CGH结合传统的CGH技术和基因芯片技术,是一种高通量分子细胞遗传学检测技术。该技术主要运用不同的荧光信号标记所检样本和标准参考品,使其竞争性地与芯片上微阵列分布的探针进行杂交,进而分析两标本的信号强度,判断染色体组的重复和缺失[15]。但当染色体片段<500 bp时,array-CGH技术的结果失误率高,不能检测单倍体和一些多倍体,无法准确分辨正常与平衡染色体易位携带者的胚胎,也不能追踪每个染色体的来源,因而不可用于单亲源性二倍体的检测[14,16]。

SNP微阵列(single-nucleotide polymorphism array,SNP array)用于检测基因组中特定位点单核苷酸的多态性,该多态性出现的频率为1/500~1000 bp[17]。该检测技术分辨率极高,可用于单基因遗传病PGD的检测,且全基因范围的SNP检测也可以体现片段重复、缺失及染色体整倍性的信息,因此也可用于PGS/PGD[18]。但由于其成本昂贵,加上无法检测平衡易位的缺点,因此难以进行广泛的应用。

NGS技术使用了一种新的测序策略——循环芯片测序法,是一种重复在布满脱氧核糖核酸样品的芯片上进行DNA的聚合酶反应和荧光序列读取反应的高新技术,具有高通量、较低成本、耗时少、自动化程度高、可检测未知缺陷和嵌合体[19]等优点,可以一次性对多样本进行测序,适用于遗传异质性较强的单基因遗传病的突变筛查。NGS技术用于PGS可以诊断胚胎基因组的染色体变异、微重复及微缺失,用于PGD可实现单基因病的检测[20]。目前多家生殖技术公司都采用NGS技术提供辅助生殖服务,故针对应用NGS进行PGS/PGD的基本原理进行深入阐述。

1 NGS在PGS中的应用原理

应用单细胞全基因组扩增(whole genome amplification,WGA)技术,结合NGS对23对染色体进行全面的染色体非整倍体性、微缺失及微重复异常的筛查,从而筛选出适合于种植的优质胚胎,降低因胚胎染色体异常导致的流产风险,提高妊娠率。

1.1 实验原理

首先需要采用胚胎活检技术对胚胎细胞进行取样,早期采用极体细胞进行PGS/PGD,但由于极体只能反映母本的遗传信息,因此目前的应用有显著下降的趋势;卵裂球活检虽然是对胚胎细胞的直接检测,但在卵裂期吸走1~2个细胞的操作,很可能影响胚胎的发育潜能[21-22];应用最广的是滋养层细胞活检,该阶段可以取得10个以上的细胞,而起始检测量的增多有利于测序准确性的提高[23]。然而,对滋养层的取样对内细胞团几乎无影响,因此也不对胚胎正常发育造成负面影响[9]。

采集滋养层细胞后,进行单细胞全基因组扩增,通过对扩增产物进行高通量测序,得到数以万计的碱基序列读段(reads),与人类基因组参考序列比对,可将reads定位到基因组上。而后通过选取一定长度的窗口,可对窗口内的reads进行计数,从而作为该窗口的信号值,该信号会随着测序深度的增加和窗口的增大而趋于稳定,这些拥有稳定信号值的窗口就是用于判定染色体异常的基础。对于二倍体的区域,将其信号值与正常值比较,则可判定为染色体正常、重复或缺失。

1.2 数据分析原理

数据分析分为基础分析和特定分析两大步骤。

(1)基础分析由测序仪自带程序进行,其中包括获得原始数据、数据过滤、序列比对及生成比对结果4个步骤:①在Illumina平台上获得的原始数据预设为fastq格式,而ThermoFisher平台预设为bam格式;②基本数据过滤可将测序质量值<17且序列长度<35 bp的片段(即低质量数据)除去,以提高比对结果的可靠性;③序列比对通过计算得到序列对应参考基因组的位置,常用的比对软件有Bowtie 2[24]及BWA[25]等;④比对后输出结果为bam格式。

(2)基础分析后,可根据不同的医学需要选择特定的分析,用于PGS的数据分析则需要继续进行去除重复序列、有效读数计算、GC校正及CNV分析4个步骤:①去除重复序列用于除去由于PCR扩增偏好引起的重复序列,序列比对方向一致且起始位置一致即被认为是重复序列,这一步的常用软件有SAMtools[26]及Picard tools等[27];②有效读数计算中,常用的有比对质量值≥10且序列长度>35 bp的片段被认为是有效片段;③GC校正用于去除由于GC含量引起的PCR扩增偏好性;④读深度法(read-depth method)[28-32]是目前CNV分析的标准方法,即首先将读段比对到参考基因组,如果该染色体不存在结构变异,那么一定长度区FF域(即“窗口”)内比对到的读段总深度是固定的。如果该染色体存在重复或缺失,那么重复区域的读段总深度会多于该固定值,而缺失区域的读段总深度会少于该固定值,见图1。

图1 使用读深度法进行CNV分析原理示意图

该方法的运作需要结合统计模型(PGS一般采用隐马尔可夫模型),上一步GC校正剔除了高GC含量区域的PCR扩增偏好性这一影响因素,使得候选变异范围内的序列深度可以正确反映拷贝数。然后利用隐马尔可夫模型模拟实际的序列深度,最后按照模型以及划分算法(PGS一般采用循环二元分割法[28])判断变异所处的区域。

窗口长度的选取是上述流程的关键步骤,直接关系到检测结果的假阳性和(或)假阴性率[33]。当窗口过短时,在某些区域的读段数过少,从而引发一种非均匀波动,并最终导致假阳性和(或)假阴性率升高。而针对特定的样本,可以根据窗口长度计算出对应的错误发现率(false discovery rate,FDR)。窗口愈长FDR愈低[34]。但窗口过长会降低分辨率,使检测失去意义,因此需要在FDR可接受的范围内,选择最佳的窗口长度[28]。PGS的测序深度一般为0.1 X,该测序深度下常用的窗口长度为1 M。当某1 M片段存在拷贝数变异且该变异在Decipher、Clinvar等数据库中可查时,报告中会有相应的报道;如果有拷贝数变异的片段在数据库中无记录,则只有当该片段>10 M时才会有所报道。

1.3 技术优势

该检测方法能全面覆盖23对染色体;可进行胚胎嵌合分析;分辨率高;样本处理高效快捷,能够实现鲜胚移植。

1.4 适用人群

该检测方法可用于自然流产3次及以上,或2次自然流产且其中至少1次流产物检查证实存在病理意义的染色体或基因异常的患者;反复种植失败(移植优质胚胎3次及以上,或移植≥10个可移植胚胎)的患者;严重的男性不育患者即存在少弱精子症、畸精症等症状的患者。

1.5 报告解读

在报告解读方面,拷贝数变异(copy number variation,CNV)分析完成后,会与参考基线相比。胚胎在无偏差时被判断为正常。为了显示方便会生成散点图,当点明显在基线上部(增益+)或下部(损失-)时,即存在拷贝数变异。Decipher、Clinvar、UCSC等常用数据库可用于检索并解读CNV,其中Decipher数据库记录了每一例CNV的染色体位置、纯合与杂合情况、致病性、表现型等信息;Clinvar数据库记录了CNV所在的基因、致病性等信息;UCSC数据库则可以查看特定CNV是否位于基因的功能性区域。

如果报告有嵌合体,一般30%以下被认为是可接受的正常现象,极大可能是由实验操作引起;如果报告结果为“未检测到DNA”,原因可能是分析管中无细胞存在或者质量差的样品。质量差的样本可能与质量差的胚胎相关。

2 NGS在PGD中的应用原理

胚胎PGD服务结合了高通量测序技术,对囊胚期滋养层细胞进行全基因组扩增,并对家系样本进行捕获测序和单核苷酸多态性(single nucleotide polymorphism,SNP)分析,以获得夫妇及先证者致病基因连锁单倍型信息,再根据胚胎样本的测序信息判断是否遗传了父母亲的致病单倍型,辅助临床上选择无致病基因携带或受遗传病影响最小的胚胎进行植入,阻断家族性遗传病的垂直遗传,提高遗传病患者或携带者生育健康婴儿的概率,降低新生儿的出生缺陷率。

2.1 技术原理

PGD基于SNP连锁分析原理,根据不同的单基因病设计panel,随后进行目标区域捕获及高通量测序,扩增位于突变位点附近的短串联重复(short tandem repeat,STR)多态性标记(STR是核心序列为2~6个碱基的短串联重复序列,大部分为杂合且个体之间的差异很大)。与突变的等位基因连锁的STR长度值可以通过在PGD之前使用父本和母本基因组DNA的片段分析来确定,且胚胎的基因型可以在PGD期间通过SNP连锁分析来诊断。除了通过限制性长度多态性或微量测序的直接突变技术之外,使用与突变位点连锁的多个STR标记物有助于克服ADO导致的误诊问题。确定胚胎的基因型后,结合对23对染色体非整倍性进行分析,为选择健康胚胎提供可靠依据。

2.2 数据分析原理

PGD的数据分析同样分为基础分析和特定分析两大步骤,其中基础分析的内容及步骤与PGS部分的基本一致,也是进行去除重复序列、序列排序,然后就是变异位点分析及单体型分析。

变异位点分析(call variant)根据样本基因组每个位点与参考基因组的比对情况,判断该位点是否发生突变,从而确定该位点的基因型;最后一步是单体型分析,一般采用SNP单体型连锁分析。位于一条染色体特定区域的一组相互关联,并倾向于以整体遗传给后代的SNP的组合,称为单体型。SNP单体型连锁分析即是以致病基因上下游SNP的整体组合来代表基因存在与否,通过识别一条包含致病基因的DNA链来代替单个基因位点的识别,最大限度则是比对同一位点上父本、母本及胚胎的基因型,判断胚胎该位点2个碱基的来源。假设这是一个家系的SNP位点,如第一行所示,如果子代胚胎在该位点的基因型是CC,且该位点父母的基因型都含有C,则无法确定子代的C分别来自于亲本的哪一方;但如第二行所示,该位点的父母本及亲本胚胎基因型分别为CG、GG及CG,那么可以明确子代胚胎的C来自父亲且G来自母亲。以此规则,分析诸多SNP位点,可将子代基因型的父源链及母源链区分开,即形成子代胚胎的单体型。据此,如果已知致病基因在父源的某一条链上,则可通过分析子代是否携带此链来判断子代是否遗传了父亲的致病基因。只要发现子代携带了致病链,即使在活检细胞扩增中父源致病基因扩增为阴性,也能辅助判断出致病基因的存在。

通过SNP连锁分析可以对ADO进行校正,例如,当父母本的基因型都为CC,但是子代基因型却出现了CG,则证明该G可能是ADO的结果,可考虑将其校正为C(图2)。

图2 SNP连锁分析原理示意图

2.3 技术优势

在无先证者资料的情况下,也可进行分析;可检测新发突变;测序深度高,可精确定位致病位点;可以解决等位基因脱扣问题。

2.4 适用人群

该检测方法可用于双方或一方核型异常的夫妻;单基因遗传病患者或携带者夫妇;有家族遗传病史且明确致病位点的夫妇;已生育过遗传病患儿且欲通过辅助生殖生育的夫妇。

2.5 适用的单基因病

常见适用于PGD的单基因病见表1。

2.6 适用的染色体异常疾病

由于NGS无法检测出DNA拷贝数无变化的染色体结构变异,包括罗氏易位和平衡易位,因此目前常用的方法是首先进行常规染色体核型分析,如果显示为染色体罗氏易位携带者或平衡易位携带者再进行PGD。

表1 常见适用做PGD的单基因遗传病

2.6.1 罗氏易位

罗氏易位指2个近端着丝粒染色体在着丝处或其附近断裂后,二者的长臂在着丝粒处结合在一起,形成一条由长臂构成的衍生染色体,2个断臂则构成1个小染色体,小染色体往往在第二次分裂时丢失。最终长臂数不变,短臂数减少2条[35]。通常发生在5条近端着丝粒染色体(13、14、15、21和22号染色体)上,其人群携带率约为1.23/1000,约占不孕人群的2%~3%[36]。

罗氏易位携带者PGD检测基于新一代测序技术,通过设计特异性引物,采用多SNP连锁分析的方法,构建单体型,鉴别衍生染色体,与正常染色体相互验证,结果准确率高。该检测适用于常染色体核型分析结果为染色体罗氏易位携带者,有利于医生对罗氏易位携带者提供遗传咨询和临床决策,进行植入前诊断可有效防止患病儿出生,有利于优生优育,使罗氏易位携带者患者有机会优先选择完全正常的胚胎,阻断该罗氏易位染色体在家族中的遗传。

2.6.2 平衡易位

平衡易位又称相互易位,是指2条染色体发生断裂后相互交换,形成2条新的衍生染色体,大部分平衡易位对基因表达和个体发育无严重影响,但平衡易位携带者会形成染色体不平衡配子,引发流产或复发性流产[37]。

平衡易位携带者PGD检测采用高通量测序技术,通过精确定位断点与其连锁SNP位点,再通过断点分析进行诊断,从而可以筛查完全正常和平衡易位携带者胚胎。

该检测有利于医生对平衡易位携带者提供遗传咨询及临床决策。即使本次助孕胎儿为平衡易位携带者,患者下次助孕及后代寻求助孕时可以利用已知的断点及相关信息区分染色体平衡易位核型与完全正常核型胚胎,防止生育后代畸形或促发自发性流产;同时有利于优生优育,使平衡易位携带者有机会选择完全正常的胚胎,阻断该平衡易位在家族中的遗传。

3 应用NGS进行PGS/PGD的局限性

NGS对PGS/PGD的各方面发展都有正面的影响。但在现阶段,NGS本身仍存在技术局限性。由于NGS采用基于鸟枪法的测序策略,因此无法检测出DNA拷贝数无变化的染色体结构变异;基因组中存在目前NGS难以准确分析的区域;对新发或罕见变异的解读有难度等。这些问题可能直接或间接地导致了PGS/PGD的误诊问题[38]。

目前的NGS技术及生物信息工具不能对同源区、重复区及高GC区域进行可靠的分析解读。目的基因的同源区域存在假基因,其序列与目的基因高度相似,因此在PGD中,如果扩增子来自于假基因,生物信息工具并不能很好地将其剔除,而可能导致与参考基因组的错误比对,使得假阳性和(或)假阴性率升高。这是鸟枪法测序策略的固有弊病,要解决这一问题,可能需要新的测序策略及仪器,例如长测序法[39-40]即先扩增出长片段的PCR产物再进行测序,读段的增长能够有效地减少错误比对的现象;基因组的重复区侧翼存在特定的序列,读段比对到这些特定序列后,可以确定重复序列的长度,但是如果重复区的长度大于DNA插入片段长度,该重复区将不含有侧翼序列,因此难以进行准确的比对[41]。在poly T区域,由于测序酶容易在该区域滑动,因此容易发生测序错误;高GC区域则主要由于形成二级结构而导致高背景噪声及低测序准确度。

目前,遗传学及基因组学的发展仍难以支持对NGS测序数据的充分解读。数据解读主要依赖以下几类资源:数据库(包括公开数据库、私有数据库及实验室特有数据库)、医学文献、患者信息、临床经验及小组讨论。虽然数据库在数据解读中极为有用,但不同的数据库侧重点不同且无高度综合性的数据库。数据库可能存在错误且更新不及时,因此可能存在相互矛盾的数据(例如某个突变体在旧的标准下被归类为致病突变)[42];目前的数据库难以给出双基因或多基因效应的相关内容;位于内含子及非编码区的突变的效应通常是未知的,位于外显子的新发突变或罕见突变也难以解读[43];移码突变和终止突变通常是致病的,但也存在例外[43];错义突变则更加难以解读,因此需要考虑多方面的因素,包括该突变与已知致病突变的相似性、相对于另一已知突变的顺式状态、是否为新发突变、是否存在于其他个体(人群、患病或健康的家庭成员)及预测的蛋白质改变等[44]。

基于上述现象,即使进行了PGS/PGD,也有可能无法检测到所有潜在出生缺陷。所以如果对NGS的结果有疑问,可能需要使用其他方法进行验证。就植入前检测而言,如果对非整倍体筛查的结果有疑问,可使用aCGH进行验证。或者在植入后,孕10~14周进行产前诊断[45](绒毛膜绒毛取样或羊膜穿刺术)以确认胎儿染色体是否无缺陷。因此,虽然NGS的应用范围越来越广,但是其他技术也因其各自的优势而有一定的应用面,具体见表2。

4 应用NGS进行PGS/PGD的其他影响因素

4.1 PGS/PGD实验室的建立及管理

实验室的建立应严格按照中华医学会生殖医学分会发布的“高通量基因测序植入前胚胎遗传学诊断和筛查技术规范(试行)”,且实验室必须建立在经省级医疗行政管理部门批准开展植入前遗传学诊断技术的试点或正式运行的医疗机构。

表2 不同检测技术在特定检测项目上的应用比较

PGS/PGD实验室应建立详细的标准操作流程,且应及时自查并更新;必须对实验技术人员进行严格的培训,在实验中严格阻隔外源DNA的污染,严格进行标本的标记及确认,严格按照规范进行数据收集及分析。以上操作中如果存在缺陷,则很可能对结果的准确性造成影响。

4.2 授精及胚胎培养方式

必须严格采用ICSI授精方式,防止精子滞留于透明带中而被父源遗传物质污染[46-47];为避免母源遗传物质的污染,在ICSI前应将卵丘颗粒细胞清除[48];为保证活检取样的准确性,胚胎应严格采用单滴培养,确保活检样本与活检后的胚胎严格一一对应。如果上述中存在污染现象,将严重影响PGS/PGD结果的准确性。

4.3 活检方法

胚胎活检作为一项创伤性的显微操作,需要十分谨慎的操作。如果操作不当或者方法选择不当,不仅会影响活检后胚胎的发育能力,对活检样本也可能造成损伤,从而影响PGS/PGD结果的准确性。活检前需要在透明带上打孔,目前打孔方法最常用的是激光法,原理是采用激光消除透明带,对胚胎无直接影响,且可以灵活调节空洞大小,操作简便。此外,两种方法化学法和机械法由于对胚胎的不利影响大,目前的应用不多;活检方法则包括抽吸法、机械切割法和激光切割法。抽吸法主要应用于卵裂球活检,而对于囊胚活检则需要在疝形成后使用激光法或机械切割法获取滋养层细胞。

猜你喜欢

易位胚胎染色体
平衡易位携带者61个胚胎植入前遗传学检测周期的结局分析
植入前胚胎研究取得新进展
母亲肥胖竟然能导致胚胎缺陷
多一条X染色体,寿命会更长
母亲肥胖竟然能导致胚胎缺陷
为什么男性要有一条X染色体?
间苯三酚在冻融胚胎移植中的应用
能忍的人寿命长
高等植物杂交染色体及其杂交基因表达的性状——三论高等植物染色体杂交
Xp11.2易位/TFE-3基因融合相关性肾癌的病理学研究进展