基于高通量测序技术的拷贝数变异筛选分析流程的建立及应用
2018-11-08吴冰冰王慧君董欣然卢宇蓝周文浩
秦 谦 刘 博 杨 琳 吴冰冰 王慧君 董欣然 卢宇蓝 周文浩,2,
拷贝数变异(CNVs)是一种常见的遗传多态性,表现为基因组片段的重复或缺失。范围过大的CNVs,如整个染色体水平的变化可导致各类染色体疾病,包括21三体综合征、Turner综合征和猫叫综合征等。影响关键基因的CNVs也可导致严重疾病,如SMN1基因缺失导致的脊髓性肌萎缩症[1,2]。CNVs的检测和解读对临床上诊断遗传性疾病非常重要,常规的CNVs检测方法包括染色体核型分析、微阵列比较基因组杂交、FISH或荧光定量PCR。这些方法各有特点,考虑到临床检测的效率、成本和覆盖范围,目前微阵列比较基因组杂交检测是检测致病CNVs的主流方法[3, 4]。
高通量测序技术的发展带来了新的CNVs检测手段[5]。在分析算法上,研究者基于不同的统计模型或不同的标准化方法,开发了众多的CNVs检测算法,如CoNIFER[6]、XHMM[7]和CANOES[8]。在临床应用上,Hehir-Kwa 等[9]在2 603例患者中运用CoNIFER可提升约2%的诊断率。Purcell等[10]运用XHMM算法对ExAC数据库中约60 000例数据进行了CNVs分析,检测出一系列的拷贝数变异谱。如能通过二代测序技术同时检测和分析单碱基变异(SNV)和CNVs,对于进一步缩短疾病的遗传检测时间、提高诊断阳性率都具有重要意义。
然而,目前运用高通量测序技术流程化地检测临床致病变异的方法尚未成熟,其检测的敏感度和特异度是否等同或优于微阵列比较基因组杂交检测尚无定论。复旦大学附属儿科医院分子诊断中心(我中心)建立了从原始测序数据开始的CNVs变异检测、功能注释和致病变异排序流程(Pipeline for Clinical NGS-involved CNVs,PICNIC)。本文通过对同时行基因组杂交微阵列比较基因组杂交检测和高通量测序分析的样本进行对比分析,比较两种检测技术的检测结果,探讨高通量测序技术检测CNVs用于遗传病临床诊断的可行性。
1 方法
1.1 病例纳入标准 2016年1月1日至2017年12月31日在我中心基于临床需要、取得患儿家长知情同意、同时送检了微阵列比较基因组杂交检测和高通量测序分析的病例。
1.2 微阵列比较基因组杂交检测CNVs 采用Agilent Human Genome CGH microarray 180K试剂盒,分辨率为6.4 kb。每次实验上样1.5 μg DNA,实验样本和标准样本经Agilent DNA Labeling试剂盒进行酶切、荧光标记、混合、变性、COT-DNA和阻断试剂处理,在微阵列比较基因组杂交芯片上保温杂交40 h(65°C,每分钟20转)。芯片清洗后由Agilent G2505A scanner进行荧光检测,图像由Feature Extraction software识别,经Agilent DNA Analytics软件进行数据处理和CNVs检测。
CNVs片段的筛选:①选择重复片段>500 kb,缺失片段>200 kb 的CNVs 数据;②对照原始图像,除外假阳性结果;③除外国际基因组CNVs多态性数据库(DGV)报道的正常人群的CNVs(片段>80%的重合,且重复或缺失类型相同);④除外片段区域内不包含基因的CNVs。然后,结合患儿表型人工进行结构评判。致病/可能致病(P/LP):检测到的CNVs已知的表型与患儿表型符合;临床意义未明(VUS):检测到的CNVs已知的表型与患儿表型不完全符合。
1.3 PICNIC
1.3.1 DNA提取及外显子捕获测序 采用QIAGEN公司mini blood全血试剂盒抽提血样基因组DNA。DNA浓度和定量分析采用美国Thermofisher公司生产的NanoDrop紫外分光光度仪测定。全外显子测序使用SureSelect Human All Exon试剂盒,临床外显子组测序使用Agilent ClearSeq Inherited Disease 试剂盒,实验流程均按说明书进行。基因组DNA经过超声打断、末端修复、接头连接和杂交捕获,制成捕获文库,使用Illumina HiSeq200平台测序。测序原始文件经Illumina base calling Software 1.7进行图像识别生成序列,处理污染和接头序列后得到Clean reads,再采用Burrows-Wheeler Aligner(BWA)软件(v.0.5.9-r16),以人类基因组hg19(GRCh37)为参考序列进行比对得到BAM文件。
1.3.2 流程 图1显示,从同一测序批次的BAM文件开始,经过外显子覆盖深度的计算、质控筛选、CANOES计算CNVs评分并提供候选CNVs。再从基因和区域水平对CNVs进行注释和筛选。
图1从原始测序数据开始的CNVs变异检测、功能注释和致病变异排序流程
1.3.2.1 数据输入 输入数据为常规高通量测序生成的BAM文件,因基线评估需要,一次性需要输入>20例样本,尽量保证数据来自于同一测序平台的同一批次。流程另准备了基于GENCODE注释(版本v19)的外显子BED文件,对于不同的捕获试剂,会另外计算两者重合的区域,作为CNVs检测的靶区。对于供检测的BAM文件,使用bedtools multicov软件计算各样本在靶区域上的测序片段丰度(reads coverage),并将此丰度数据用作CNVs变异检测。
1.3.2.2 变异检测 采用CANOES算法[8]进行CNVs变异的检测。该算法基于负二项分布建立测序片段丰度和拷贝数变异的关联模型,并用每个外显子的QC含量进行校正。原始的CANOES算法不包括对X染色体的检测,流程通过对男性样本的X染色体数据加倍处理、重新评估基线,实现了对X染色体上CNVs的检测。
1.3.2.3 变异注释 在基因水平上,首先整合了RefSeq定位、相关OMIM致病基因注释、HGMD致病基因注释和SwissProt基因功能注释,总结CNVs所影响到的基因可能导致的症状或表型;然后,参考内部CNVs多态性数据库的频率,对检出CNVs的频率>10%的基因进行标记并过滤;最后,通过与样本的标准人类表型术语(HPO)进行自动化匹配,对影响基因功能、相关表型符合疾病既往文献报道的CNVs进行标注。在区域水平上,结合DGV、DECIPHER等数据库对CNVs进行区域重合对比,标记出公共数据库所报道的CNVs突变;同时参考前期研究中总结的致病CNVs核心基因[11],对已知的可能通过拷贝数变异形式致病的基因进行标记;最后,评估所检出CNVs的大小,对于>1 Mb的变异予以标注。
1.3.2.4 变异优选 在基因水平上,综合考虑CNVs所影响基因的遗传模式、既往报道的基因相关的疾病表型和患者的匹配程度、基因上CNVs变异的人群频率,进一步对样本中检出的CNVs进行优选;对覆盖核心基因、既往文献报道的致病CNVs或>1 Mb的CNVs进行优选,结果以P/LP或VUS输出。
1.4 预设结果判读和统计学分析 结果的判读:①针对P/LP及VUS的CNVs,②针对经过筛选步骤后的全部检测出的CNVs。比较两种方法的检出率。针对敏感度和阳性检出率,通过比率检验给出95%CI。
2 结果
2.1 一般信息 113例病例进入本文分析,男性68例。年龄生后1 d至11岁,均值2岁,中位数1岁。临床表型包括发育迟缓82例,惊厥16例,孤独症5例,先天性心脏病3例,遗传咨询7例。
2.2 微阵列比较基因组杂交检测CNVs结果 通过CNVs筛选流程,由临床医生审核数据后得出报告结论。检测到CNVs共446个,每例样本平均3.9个。
2.3 PICNIC分析结果 113例样本的NGS数据,49例全外显子测序和64例临床外显子测序的病例,平均测序深度分别为125X和183X,分别有靶向的95%和97%的外显子获得了≥20X的覆盖倍数,分别有87%和90%的外显子覆盖倍数方差/均值比<0.3。对外显子捕获测序的质控结果表明,113例的数据具有足够高的覆盖深度,且样本之间的实验误差较小,可以用于基于外显子测序深度的CNVs分析。具体到检测的应用,在所有GENCODE的外显子注释基础上,只保留了在所有检测样本中都覆盖>5次的外显子区域。流程共检测到CNVs 236个,每例样本平均2.1个。
2.4 微阵列比较基因组杂交和PICNIC检测CNVs结果比较
2.4.1 P/LP及VUS的CNVs 微阵列比较基因组杂交检测到P/LP为76例,VUS为37例;PICNIC检测到P/LP为92例,VUS为21例;微阵列比较基因组杂交检测到的P/LP和VUS病例均包含在PICNIC检测到的病例中,微阵列比较基因组杂交检测为VUS的37例CNVs被PICNIC纳入P/LP。微阵列比较基因组杂交检测CNVs的VUS被PICNIC升级的原因主要为区域内基于基因的表型注释与患者临床表现出现部分匹配,故而被纳入P/LP。以微阵列比较基因组杂交检测为金标准,以PICNIC为待测标准,敏感度100%(95%CI: 94%~100%),特异度100%(95%CI: 81%~100%),阳性预测值82.6%(95%CI: 73%~89),阴性预测值56.8%(95%CI:40%~72%)。
2.4.2 针对经过自动筛选后的全部CNVs 微阵列比较基因组杂交检测到的446个CNVs中,PICNIC检测到190个;PICNIC检测到的236个CNVs中,微阵列比较基因组杂交检测到190个。对于PICNIC检测到而微阵列比较基因组杂交未检测到的CNVs,包含30例缺失和16例重复。其中1例5号染色体长臂1.5 Mb嵌合重复的log2ratio为0.331,其余重复的log2ratio为1.30~1.97(均值0.596),缺失的log2ratio为-NA~-0.680(均值-4.12,-NA表示测序深度为0)。经比对PICNIC检测到的测序深度为0的DEL,多为本研究所用微阵列比较基因组杂交探针未覆盖区域;1例嵌合重复,在下调微阵列比较基因组杂交检测分析软件阈值之后能够检出。
2.5 成本效益对比 目前我院微阵列比较基因组杂交检测的临床价格为每例2 000~5 000元人民币,本文中参与对比的微阵列比较基因组杂交检测样本为中等程度的分辨率水平(探针密度为180 k),临床成本4 800元,临床检测周期3~4周。相对于高通量捕获测序,临床外显子组测序的价格目前为每例1 800元,临床检测周期2~3周。两者临床检测周期相差不多,但微阵列比较基因组杂交检测较PICNIC每例多花费3 000元左右。
3 讨论
3.1 PICNIC分析流程 基于捕获的高通量测序技术常用于大规模检测SNV或小片段插入/缺失突变,是目前遗传病诊断和研究的主要方法之一。随着近年来算法方面的研究进展,通过高通量捕获测序检测CNVs成为可能。考虑到临床检测对于变异检测、注释、筛选的综合需求,我中心整合现有的CNVs检测算法,建立了可用于优选临床阳性CNVs结果的PICNIC分析流程,能够从原始的高通量测序数据出发,结合数据输入处理、变异检测、变异注释和变异优选为一体,便于临床报告使用。PICNIC分析流程在本研究测试样本中平均检测到CNVs 2.1个,相比微阵列比较基因组杂交检测(3.9个),大幅缩小了后续进入人工分析的CNVs数量,提升了诊断效率。考虑到VUS在长期随访或科学研究中也很重要,在特殊情况下也可直接分析原始的检测结果。
3.2 CNVs检测结果对比 微阵列比较基因组杂交检测CNVs的不足:探针设计并非全基因组覆盖,部分基因遗漏;对于较小的CNVs,由于微阵列比较基因组杂交无法获得足够的探针统计数而无法检测。高通量测序提供了以外显子为检测单位的CNVs信息,检测范围更精细。在CNVs检测的具体断裂位点和大小方面,微阵列比较基因组杂交检测在探针设计阶段,通过控制探针的密度实现对CNVs真实断点和大小的判断。基于高通量捕获测序的CNVs检测,受限于外显子分布,只能从外显子角度对CNVs的大小和影响范围进行推测。鉴于目前对CNVs致病性的解读主要以致病基因为主,基于外显子测序的CNVs检测能够满足对有临床意义的变异的检测需求。对于检测非编码区域CNVs或是明确断点位置,外显子捕获测序并不适用,可以考虑通过全基因组测序进行更精确的检测和分析。由于实验随机误差的影响,外显子捕获测序检测CNVs需要稳定的实验流程和大量样本的积累来保证准确性。
本文以113例同时行高通量测序和微阵列比较基因组杂交检测的样本为例,比较了两种检测方式在数据处理和报告结果方面的区别。对于微阵列比较基因组杂交检测的76例P/LP,PICNIC流程均能够精确检测到,实现了100%的覆盖率;对于微阵列比较基因组杂交检测到的37例VUS,PICNIC分析流程将其中16例定义为P/LP,主要原因为区域内基于基因的表型注释与患者临床表现存在部分匹配,故而被升级为P/LP。其中的表型主要为一些非特征性、不具备诊断意义的表型,如肌张力低下、发育落后、智力低下等。故对于VUS的变异还需要予以关注。
从CNVs的全部情况看,微阵列比较基因组杂交检测到的446个CNVs中,PICNIC检测到42.6%(190/446)。这些CNVs中部分被PICNIC检测到,但是过滤掉了,主要原因是区域内包含的基因与患者临床表现完全不匹配。还有部分PICNIC并未检测到。因此,CNVs最为可靠的方式还是微阵列比较基因组杂交检测,也客观说明,基于高通量测序数据的CNVs识别在技术层面还有上升的空间。在PICNIC检测到的236个CNVs中,微阵列比较基因组杂交也检测到190个CNVs。这些CNVs大部分并没有被微阵列比较基因组杂交检测到,主要原因是CNVs较小,仅累及单个或几个基因。提示微阵列比较基因组杂交检测对于CNVs的分析也有一定局限性。
3.3 成本效益对比 虽然两种方法临床检测周期相近,但微阵列比较基因组杂交较PICNIC每例多花费约3 000元。除CNVs检测外,高通量捕获测序还能提供关键的SNV及Indel信息,这是微阵列比较基因组杂交检测无法获取的。因此,综合考虑遗传病的临床诊断,高通量测序能一次性获取CNVs和SNV的信息,改进整体的诊断效率和时间成本。未来如能进一步提高检测的精准性,将在临床基因检测中发挥更大作用。