单基因病遗传变异自动化分析和解读研究
2019-07-30曹宗富喻浴飞陈翠霞蔡瑞琨李乾罗敏娜高华方马旭
曹宗富,喻浴飞,陈翠霞,蔡瑞琨,李乾,罗敏娜,高华方,马旭*
(1.国家卫生健康委科学技术研究所,北京 100081;2.国家人类遗传资源中心,北京 102206)
医学正迈入精准医学时代。近十几年来,随着基因组技术尤其是高通量DNA测序的迅猛发展,为基因组学的发展提供了强有力的工具,使人类对基因组的了解越来越便利,人类对疾病基因组的认识也越来越全面,认识到越来越多的疾病都有其相应的遗传学基础或病因。通过这些遗传学改变能够对疾病进行诊断、预测疾病的发生风险、药物应答及不良反应的发生[1-3]。人类基因组学、疾病基因组学、以及药物基因组学的发展正在引来医学史的一场巨大变革,带来全新的预防、诊断和治疗模式,并过渡到个性化医疗(personalized medicine)或精准医学(precision medicine)时代。个性化医疗时代拥有个性化的健康管理模式,可根据不同个体的遗传背景,预测不同疾病在个体中的发病风险,从而实施个性化的健康管理[4];通过产前无创筛查来避免大部分染色体异常的胎儿出生,通过新生儿筛查和产前诊断来对严重的遗传性疾病进行干预,并对可能携带的人群进行再生育指导[5];个性化诊断则将根据患者某种疾病相关基因上的变异而进行疾病诊断[6]。
单基因遗传病是精准医学的重大方向之一。单基因遗传病(Monogenic disease)是指由于身体所有细胞中单个基因改变而引起的遗传病,又称孟德尔遗传病(Mendel disease)。它的遗传方式遵循孟德尔定律,突变既可来自父母,也可源于自身,都有遗传给下一代的可能。单基因病种类繁多,据估计,有超过10 000种人类疾病是单基因病引起。根据世界卫生组织统计,在全球出生人口中所有单基因遗传病的总发病率高达1%。单基因遗传病危害严重,可致畸、致残甚至致死,严重影响生存时间和生存质量。单基因病精准医学首先要实现疾病的精确诊断,鉴定出先证者携带的致病性突变,从而对单基因病患者进行针对性的治疗和干预,对单基因病家庭进行再生育指导。在精准医学时代,如果能够在孕期检出胎儿是否携带引起单基因病的致病基因和突变,则可以进行出生缺陷干预。对部分单基因病,如先天性白内障等,如果在婴幼儿期通过基因检测早期检出,则可以进行早期治疗干预,最大可能降低致残致畸程度。精准医学是基于遗传检测技术的发展而发展起来的,遗传检测在单基因病精确诊断的价值也越来越重要,使得基于不同技术平台的遗传检测产品正在被开发并应用。
新一代测序技术(Next-generation sequencing,NGS)在单基因病致病突变研究和医疗实践中的应用越来越广泛[7]。近年来,大量的研究证实,全外显子组测序是开展单基因病相关研究,对单基因病患者进行致病突变鉴定的理想方法之一。然而,在精准医学应用层面,基于新一代测序数据分析和临床解读还存在着很多问题,阻碍着基于新一代测序相关产品和技术的推广,不利于精准医学的发展。这些问题包括:一是表型复杂,大部分单基因病表型复杂,同一种单基因病表型异质性强,不同单基因病之间临床特征相互重叠,给单基因病的诊断带来了很大的挑战,需要借助于遗传学辅助诊断;二是遗传变异的识别,其分析流程过于复杂,难以为医疗机构人员和其他广大非生物信息学人员所掌握使用;三是致病突变的鉴定,需耗费大量时间对发现筛选的变异逐个人工审核和确认,效率非常低。为此,我们开发了一套基于云的可视化自动化智能化的单基因病遗传变异分析解读系统,以满足单基因病相关临床和科研的精准医学需求,通过www.pgenomics.cn提供免费共享服务。
资料与方法
一、单基因病基因变异参考数据库的建立
基于ClinVar[8]、OrphaNet[9]、UniProt[10]等公共数据库、PubMed文献知识库和自有数据库,参考人类表型标准用语(Human Phenotype Ontology,HPO)[11]和中文人类表型标准用语联盟(China HPO,CHPO)的疾病表型用语、HUGO基因命名委员会(HUGO Gene Nomenclature Committee,HGNC)[12]的基因名称、人类基因组变异协会 (Human Genome Variation Society,HGVS)[13]的变异命名规则,通过数据库整合、数据挖掘和文本挖掘技术,结合人工编译审核,整理整合单基因病表型-基因-变异关系,建立单基因病基因变异参考数据库。
二、遗传变异的生物信息学分析
采用Fastqc软件对测序原始数据进行质量检查,使用BWA MEM对原始数据与人类参考基因组进行比对,采用picard去除重复序列,参考GATK(Genome Analysis Toolkit)最佳实践对遗传变异进行分析和识别[14],采用VEP(Variant Effect Predictor)对遗传变异进行注释[15],利用Genmod对变异的遗传模式进行分析。
三、遗传变异的推荐
根据单基因病基因变异参考数据库获取单基因病相关的基因,参考ACMG单基因病变异临床致病性分级标准对遗传变异进行分级[16],根据遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级、数据库证据等信息对遗传变异进行综合评分,根据评分实现对单基因病检测样品或家系中致病性变异的推荐。遗传变异的评分定义为遗传变异多种注释结果的加权评分之和,具体方法为
其中,wi为不同证据的评分权重,si为每个证据的评分。wi默认值为1,可根据情况进行调整。
在突变评分基础上,对突变所在的基因进行累计评分。对每个基因,以在此基础上,进行累计评分。基因评分Scoreg的方法如下:
Scoreg=max(Scorev)+weSe+wtSt
其中,Scorev为该基因上所有遗传变异评分的最大值,作为该基因的基线分值。Se为疾病已知致病基因的评分,we为该项评分的权重。St为该基因突变是否符合单基因病遗传模式评分,wt为该项评分的权重。we和wt默认值为1,可根据实际情况进行调整。
四、致病变异的再确认
致病变异的人工审核和再确认包括:一是,通过基因组浏览器查看致病变异两侧区域的序列比对质量;二是,对致病变异在dbSNP[17]、OMIM[18]、MedGen[19]、OrphaNet、1000基因组、gnomAD、PubMed等公共数据库和自有数据库进行循证溯源和确认;三是,通过患者病历与系统自动化推荐的疾病典型临床特征进行表型比对。经人工检查和确认后的致病变异位点可生成打印解读报告。
结 果
一、单基因病基因变异参考数据库
在基因水平,参考HPO对疾病表型的标准化命名和HGNC对基因符号的标准化名称,整合ClinVar、OrphaNet、UniProtKB和PubMed来源的疾病基因关系信息,共包括5 654种单基因病和26 109个基因(图1)。其中,在两个及两个以上数据库中出现的基因共9 601个,占总基因数目的34.70%。
在变异水平,参考HGVS命名规则,整合了来自ClinVar、UniProtKB和PubMed来源的变异共648 814个(图2)。其中,在两个及两个以上数据库中出现的变异共67 797个,仅占变异总数目的10.45%。
图1 参考数据库整合的26 109个基因在各个数据库的分布
图2 参考数据库整合的682 349个遗传变异在各个数据库的分布
二、基于NGS数据的自动化分析和解读
我们基于云开发了可视化自动化智能化的单基因病遗传变异分析解读系统,通过www.pgenomics.cn提供免费共享服务,用户注册申请后即可登录使用。
用户根据试验设计,选择对应的NGS分析流程进行分析。可供选择的NGS分析流程包括:单样本外显子组测序胚系突变分析、基于家系设计的外显子组测序胚系突变分析、单样本全基因组测序胚系突变分析、基于家系设计的全基因组测序胚系突变分析。然后导入对应的测序原始数据(fastq文件),提交分析后即可等待分析结果。待分析完成后,即可查看单基因病测序分析报告,该单基因病家系或患者可能的致病基因和变异将被推荐出来(图3)。示例为一个常染色体隐性遗传的Joubert综合征患者的高通量测序分析结果,根据基因评分和变异评分,自动推荐出CSPP1基因上的两个不同位置的复合杂合突变,c.1132C>T(p.Arg378Ter)和c.2244_2245del(p.Glu750GlyfsTer30)。
对于推荐的致病变异位点,可进一步使用在线基因组浏览器对致病变异的质量进行可视化评估,包括致病变异位点两侧的参考基因组序列复杂度、测序序列比对质量、测序覆盖度、等位基因频率、变异在测序序列的位置分布等(图4)。
图3 单基因病测序分析致病基因和变异的自动化推荐
图4 通过基因组浏览器查看致病变异质量
对推荐的致病变异,还可以以在线形式进行变异的循证溯源(图5)。不同数据源提供的证据包括:(1)变异所在基因在OMIM、MedGen、OrphaNet数据库中的单基因病名称、临床特征描述;(2)变异在1000基因组、gnomAD、dbSNP中的频率,尤其是在东亚人群中的频率;(3)变异在PubMed中的报道。对以上两个位点,在东亚人群中的频率分布为0.000 24和0.000 38,属于罕见变异位点。其中CSPP1:c.1132C>T在PubMed已经报道[20],该突变引入终止密码子,造成CSPP1蛋白的提前终止,为致病性位点;而CSPP1:c.2244_2245del尚无报道。
同时,原始数据文件的质量评估报告、序列比对报告、致病突变列表都自动生成,可逐个查看并下载。突变列表共有三个供下载,分别是:(1)最可能致病的突变;(2)疾病相关致病基因上的所有变异,包括质量不合格的变异位点;(3)全基因组水平的所有变异位点,包括质量不合格的变异位点。最后,用户可以预览报告,通过患者病历与系统自动化推荐的疾病典型临床特征进行表型比对。在确认致病变异后,用户可以在线打印检测报告。
图5 变异位点的循证溯源
讨 论
该研究采用信息学技术,提供了一种自动化的单基因病遗传变异分析解读系统,能够对新一代测序的原始数据进行生物信息学分析,识别检测样品中遗传变异,并根据变异的类型、功能预测结果、人群频率、人群致病性证据、是否符合遗传传递模式等对变异进行综合评分和致病性分级,最终鉴定和报告检测个体中的致病突变。我们研究并开发的系统能够实现从新一代测序原始数据到致病变异报告的全程自动化,并可通过基因组浏览器在线查看致病变异的测序质量,可通过PubMed ID实现对变异相关文献报道的查证,或对来源于数据库的证据进行溯源,极大降低了遗传变异人工解读的工作量,大大提高了单基因病新一代测序中遗传变异分析和临床解读的效率。
该研究获得的整合数据库为单基因病遗传变异分析及解读提供了参考数据,其来源包括ClinVar、OrphaNet、UniProtKB和PubMed。这四个数据库收录的变异各有不同,互为补充。ClinVar是一个描述人类遗传变异和表型关系的整合型综合性数据库,是一个由用户驱动的开放型数据库,允许多个用户提交数据,相同的变异-表型关系可得到相互验证。这也使得ClinVar能够收录没有报道过的变异。OrphaNet是专注于罕见病和孤儿药的参考性数据库,其目标旨在帮助罕见病患者来改善诊断、照护和治疗。OrphaNet仅对基因水平的数据进行公开,而变异水平的数据不能免费获取。UniProtKB关注于导致氨基酸改变的变异,其数据来源主要是Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库,与其它数据库的来源不同,可作为ClinVar、OrphaNet等的补充。PubMed数据库收录的大多是首次发现的遗传性疾病相关的基因和变异,并没有全部被其他公共数据库收录。我们没有整合OMIM数据库,主要是由于需要每个月获取序列号,而且限制使用;另一方面,OMIM数据库也会定期向ClinVar提交数据。
单基因病遗传变异分析解读系统实现了对单基因遗传病患者和受累家系致病基因突变的鉴定,辅助单基因病领域相关的临床医生进行遗传学病因诊断,加快单基因病相关科研人员的研究发现,为单基因病患者的治疗、康复和预后提供参考,以及单基因病家庭的再生育指导提供帮助。该系统通过国家人类遗传资源共享服务平台,可为我国单基因病领域临床医生和科研人员提供免费共享服务。目前,该系统正在面向我国17个省、直辖市或自治区的45家临床医疗机构和科研院所,为单基因病领域的临床医生和研究人员提供单基因病智能化遗传咨询共享服务[21-22]。