应用第三代测序技术检测Y连锁遗传性耳聋家系的复杂重组结构研究
2022-04-19吴萧男关静兰兰王洪阳王大勇王秋菊
吴萧男 关静 兰兰 王洪阳 王大勇 王秋菊
解放军总医院耳鼻咽喉头颈外科医学部耳鼻咽喉内科,解放军医学院,国家耳鼻咽喉疾病临床医学研究中心,聋病教育部重点实验室,解放军耳鼻咽喉研究所(北京 100853)
Y连锁遗传性耳聋(DFNY1)家系的发现,补全了遗传性耳聋关于孟德尔遗传的所有遗传方式[1]。DFNY1家系中所有直系男性均患有双侧迟发性感音神经性耳聋,听力曲线为高频缓降型或平坦型,发病年龄在5-27岁[2]。通过寡核苷酸微阵列比较基因组杂交分析、荧光原位杂交及交错式热不对称PCR,发现该家系男性的Y染色体9,520,205处存在一段复杂的重组结构[3],该结构位于Y染色体的扩增区,主要由1号染色体片段及Y染色体片段构成,通过复制叉停滞与模板转换(Fork Stalling and Template Switching,FoSTeS)机制形成[4]。
FosTes机制导致结构变异是遗传性耳聋一种全新的致病机制,而由于Y染色体本身存在高度的重复序列,且大部分片段为无功能片段,准确测序出该复杂重组结构中各片段的插入位置难度较大[5]。近年来,第三代测序技术(Third Generation Sequencing,TGS)发展迅速,并凭借自身读长长、无GC偏好性的特点,对拷贝数重复区域的测序较第二代测序技术优势明显[6]。本研究旨在应用第三代测序技术中的纳米孔(Nanopore)测序技术,对DFNY1家系基因组中的复杂重组结构进行检测,以期准确测得该复杂重组结构中各片段的插入位置,进一步明确FosTes机制产生的原因,丰富耳聋遗传学及基因组结构变异研究的理论内容。
1 研究对象
先证者为DFNY1家系中的一名44岁男性,9岁时逐渐开始出现双耳感音神经性耳聋,图1a为DFNY1的家系图,截选自王秋菊教授课题组2013年的研究[3]。该家系中的所有直系男性均患有双耳迟发性感音神经性耳聋。截止到2013年的研究[3],Ⅷ代、Ⅸ代的听力表现正常的直系男性,由于年龄较小,尚未出现耳聋症状,V代、VI代的听力表现正常的直系男性,由于缺少资料,因此标为正常。IX代的女性患者,有明确的氨基糖苷类药物的使用史,发病原因考虑与应用氨基糖苷类药物有关[2]。
对先证者进行听力学检测,纯音测听结果见图1b。先证者的听性脑干反应潜伏期显示双耳仅见V波,畸变产物耳声发射显示双耳各频率均未引出有意义的耳声发射。为求进一步明确其基因组中的突变位点信息,采集先证者的外周静脉血,进行第三代测序技术中的纳米孔(Nanopore)测序。同时随机抽取101名家系外正常男性进行Nanopore测序作为对照。所有人员均已签署知情同意书,本研究已通过中国人民解放军总医院伦理委员会的批准。
图1 DFNY1家系图及先证者听力图。a DFNY1家系的家系图,截选自王秋菊教授课题组2013年的研究[3]。○正常女性;□正常男性;■男性患者;●女性患者;先证者,已故。b先证者18年的听力随访结果。虚线为先证者首诊(23岁)时的听力结果,实线为先证者复诊(41岁)时的听力结果。双耳表现为稳定的感音神经性耳聋。建库完成后将一定浓度和体积的DNA文库加入到1个Flow cell中,并将Flow cell转移到Nano-pore GridION X5/PromethION(Oxford Nanopore Technologies,UK)进行实时单分子测序。Fig.1 The genogram and proband audiogram of DFNY1 pedigree.a is the pedigree genogram of DFNY1 pedigree,which was selected from the research of professor Wang in 2013[3].○Normal female;□normal male;■male patients;●female patients;the proband,deceased.b is the 18 years hearing follow-up of the proband.The dashed line is the hearing situation of the first visit(age 23),and the solid line is the hearing situation of the subsequent visit(age 41).Both ears showed stable sensorineural deafness.
2 研究方法
2.1 DNA提取
对采集到的先证者外周静脉血样本,采用QIA-GEN®Genomic DNA提取试剂盒(Cat#13323,Qiagen),根据生产厂商提供的标准操作流程进行基因组DNA抽提。对所得DNA使用NanoDrop™One UV-Vis spectrophotometer(Thermo Fisher Scientific,USA)检测DNA纯度(OD260/280在1.8-2.0之间;OD 260/230在2.0-2.2之间)并使用Qubit® 3.0 Flu-orometer(Invitrogen,USA)对DNA进行精确定量。
2.2 建库及测序
样本质检合格后,使用BluePippin全自动核酸回收仪(Sage Science,USA)将大片段进行切胶回收,在纯化后的DNA片段两端进行末端修复并进行加A反应;纯化后,使用LSK109连接试剂盒(Cat#SQK-LSK109,Oxford)中的接头进行连接反应,最后用 Qubit® 3.0 Fluorometer(Invitrogen,USA)精确地对建好的DNA文库进行定量检测。
2.3 生物信息分析
对Nanopore测序下机数据进行统计并按照reads平均qScore值≥7为标准进行过滤,使用NGMLR-Sniffles流程进行结构变异检测,分析基因组存在的结构变异。采用ANNOVAR进行结构变异的基因、转录因子结合位点、基因组大片的重复、CpG岛、MicroRNA结合位点等注释。按照结构变异与公共数据库结构变异的相互重叠度大于或等于50%进行结构变异注释。
2.4 正常男性样本验证
根据先证者Y染色体上插入序列断点位置的信息,对101例听力正常男性对照样本进行目标区域分析。利用Nanopore分析测得的数据,对比分析复杂重组结构中较大的插入片段在先证者及正常样本中拷贝数分布情况,计算102个样本(先证者+101个正常男性样本)在该区域的拷贝数。
3 研究结果
重点关注Y染色体上的插入变异、Y染色体和1号染色体上的易位变异。下机数据经质量控制后,Y染色体上共检测到2个1号染色体的易位断点,该易位有4条reads支持,经数据核对后认为该易位变异的可信度较高,由此可以确定1号染色体拷贝数扩增片段插入到Y染色体的具体位置,即在Y染色体Yp11.2区9,520,205位点处插入了一段1号染色体,1号染色体两端的插入位点断点分别为160,159,483及160,318,972。
在Y染色体9,520,205断点上下游,发现一段长的片段重复序列(segmental duplication,Seg Dup区域),位置为9,466,034-9,640,281,这一Seg Dup区域相似性高于90%且横跨断点,容易引起序列比对的错误,致使拷贝数重复片段比对到Y染色体的多处位置,且每处位置的read数差异较大。因此我们结合2013年的文献信息[3],对该结构变异进行梳理,发现在先证者中的Y染色体上共有9个拷贝数增加的片段,分别命名为INS1-INS9,各片段的连接处具有相同的微同源序列,详细信息见表1。其中INS1、INS2、INS3及INS5来自1号染色体的不相连位置,INS4、INS6、INS7、INS8及INS9来自Y染色体的不相连位置。由于测序方法的限制,INS7-INS9的断点为估计值。整理第三代测序技术所得的测序结果,并将最终结果绘制示意图(图2)。
图2 Y染色体复杂重组结构示意图。先证者Y染色体Yp11.2区9,520,205位点插入一段复杂重组结构,长度为793,298bp,含9段不相连的片段,以不同的颜色表示。片段1、2、3、5来自1号染色体,片段4、6、7、8、9来自Y染色体。Fig.2 Schematic diagram of Y chromosome complex recombination structure.A complex recombinant structure was inserted into the site 9,520,205 of the Yp11.2 region of the proband's Y chromosome,and the length is 793,298bp,consisting of nine unconnected fragments,which is repre-sented by different colors.Segments 1,2,3 and 5 are from 1 chromosome and segments 4,6,7,8 and 9 are from Y chromosome.
表1 Nanopore测序发现的Y染色体上9个拷贝数增加片段详细信息Table 1 Details of the 9 copy number increasing fragments on Y chromosome discovered by Nanopore sequencing
将测序结果中的较大插入片段与听力正常男性对照样本进行对比分析,结果表明101例听力正常男性样本Y染色体上并未发现上述大片段的插入。先证者在Y染色体插入片段INS1(chr1:160,159,484-160,318,972)、INS8(chrY:9,760,000-9,910,000)、INS9(chrY:9,200,000-9,520,205)区域的拷贝数100%高于正常样本,在Y染色体插入片段INS7(chrY:9,930,000-10,092,864)的拷贝数高于大部分(84个,83%)正常样本(图3a)。
图3 Y染色体插入片段的拷贝数及携带基因情况。a为INS1、INS7、INS8、INS9在先证者及听力正常男性对照样本中的拷贝数情况。横坐标为插入的片段,纵坐标为该片段区域的拷贝数。红色虚线代表先证者的拷贝数情况。b为Y染色体插入片段及Seg Dup区包含的拷贝数增多的基因。INS1中携带的基因为9个;INS7中携带的基因为2个;INS9中携带的基因为7个;Seg Dup区域上携带的基因为7个。Fig.3 Copy number of insertions and gene carrying situations in Y chromosome.a is the copy number of INS1,INS7,INS8,INS9 in the proband and male control samples with normal hearing.The abscissa is the inserted segment,and the ordinate is the copy number in the segment area.The red dotted line represents the copy number of the proband.b is the gene with increased copy number in Y chromosome inserted segments and Seg Dup region.INS1 carried 9 genes;INS7 carried2 genes;INS9 carried 7 genes.Seg Dup region carried 7 genes.
进一步用UCSC基因组浏览器(hg19)查看片段重复区域的基因分布情况,发现拷贝数增加的片段中,INS1、INS7、INS8及INS9片段中携带功能基因。其中 INS1中携带的基因为:CASQ1、AK093299、PEA15、DCAF8、PEX19、COPA、SUMO1P3、Y_RNA、NCSTN;INS7中携带的基因为:JA668106、JB175072;INS9 中 携 带 的 基因 为 :TSPY1、TSPY3、TSPY4、FAM197Y2、FAM197Y5、CYorf16、RBMY3AP。另外在插入断点9,520,205附近的长Seg Dup区域上携带的 基 因 为 :TSPY4、FAM197Y5、TSPY3、CYorf16、FAM197Y2、TSPY1、RBMY3AP。详细情况见图3b。由于部分基因(如DCAF8)不只增加了1个拷贝,因此图3b中存在基因重复出现的情况。
除外复杂重组结构涉及到的结构变异,进一步使用Nanopore测序筛选出1号染色体及Y染色体携带的其他结构变异,其中长度大于1kb结构变异共12个,在1号染色体6个,Y染色体6个;长度小于等于1kb结构变异共2个,均位于1号染色体上。上述发生在1号染色体上的8个结构变异经IGV(Integrative Genomics Viewer)查看(上下游1kb)发现其中5个结构变异具有较高可信度;发生在Y号染色体上的6个结构变异经IGV查看(上下游1kb)发现其中1个结构变异具有较高可信度,筛选出的结构变异具体结果见表2。
表2 Nanopore测序发现的1号染色体及Y染色体其他结构变异Table 2 Other structural variations of 1 chromosome and Y chromosome detected by Nanopore sequencing
4 讨论
作为男性性别决定的染色体,人类的Y染色体从至少1.8亿年前的普通常染色体进化而来[7]。原Y染色体在获得性别决定基因后,其本身发生的一系列倒置反应阻碍了原X染色体与原Y染色体之间的重组。在这个过程中,女性的X染色体保留了一个交换对象,而男性的Y染色体的交换机会变得越来越有限,致使原Y染色体受到遗传衰退的影响,基因不断缺失,最终只保留了祖先常染色体上3%的基因[8,9]。由于Y染色体的大部分序列不受染色体配对要求的限制,从而使这些序列避开了交叉互换的洗牌效应,这使得Y染色体上的重复序列得以不断的积累。这些重复序列反过来通过染色体内重组引发频繁的染色体重排,从而形成高度复杂的结构变异[10]。这种现象对Y染色体的结构、突变过程以及种群内和种群间的多样性都有显著的影响。
Y染色体的重复序列主要位于Y染色体的扩增区,扩增区长约10.2Mb,约含60个基因,具有高度的重复序列和回文序列[11]。重复序列的存在可能为染色体促进基因转换的方式,从而克服了Y染色体由于缺乏重组而导致的遗传衰败[12,13]。然而,由于这些重复序列彼此之间的相似性>99%,并且在不同人群中扩增区内的基因拷贝数有很高的变异性,这给Y染色体的精准测序带来了巨大的挑战[14]。
第三代测序技术中的Nanopore测序技术读长可达数百kb[15],由于读长较第二代测序技术明显延长,从而可以凭借其超长的读长来跨域测序片段中的重复序列,避免由于重复序列过高的相似性而产生的染色体比对组装错误[16]。且第三代测序技术可以避免第二代测序技术产生的GC偏好性[17],能够较为准确的测序出重复序列及长拷贝数变异[18]。
本研究通过使用第三代测序技术中的Nano-pore测序对DFNY1家系中的一名先证者进行检测,发现其Y染色体Yp11.2区9,520,205位点处插入了一段长约793kb的复杂重组结构,属于基因组结构变异的特殊情况。这段复杂重组结构由9段不相连的、1号染色体及Y染色体的片段序列,凭借片段间的微同源序列,通过FosTes机制形成[4,19],并且在INS1、INS7及INS9中均发现拷贝数增加的基因。除此之外,进一步将检测结果与101例听力正常男性对照样本进行对比分析,未发现正常男性的Y染色体上存在该复杂重组结构。其中,INS7区域先证者拷贝数较84个听力正常男性对照样本高,但仍有17个对照样本的拷贝数高于先证者。推测原因可能为由于该复杂重组结构的拷贝数重复片段比对到Y染色体的多处位置,使得关于Y染色体长拷贝变异片段的组装结果存在误差。而在INS1、INS8及INS9区域的先证者拷贝数均高于101个正常男性对照,进一步证明了正常男性的Y染色体上不存在该复杂重组结构,以及通过Nanopore技术检测的该段复杂重组结构的可靠性、利用第三代测序技术对基因组内复杂重组区检测的优势。
通过Nanpore测序,我们得到的最长read读长为306kb,N50读长为24kb,而先证者复杂重组结构的长度约为793kb,最长片段约为320kb。因此,Nanopore测序技术未能完全跨越Y染色体的全段复杂重组结构。下一步,计划通过改进Nanopore测序技术来增加测序读长,争取跨越Y染色体的全段复杂重组结构,进一步明确拷贝数变异的前后插入断点,并使用第三代测技术中的PacBio技术,通过循环一致性测序来增加单碱基的正确率[20],对Nanopore的测序结果进行修正。
5 结论
本研究通过第三代测序技术中的Nanopore全基因组测序分析,在Y连锁遗传性耳聋(DFNY1)家系中的男性Y染色体Yp11.2区检测到1段复杂重组结构,由9段1号染色体及Y染色体不相连片段组成,且其中的插入片段区域的拷贝数显著高于听力正常男性样本。