APP下载

利用条件错误发现率方法识别欧洲人群炎症性肠病相关位点

2018-10-10吕万强刘会敏张卫东

郑州大学学报(医学版) 2018年5期
关键词:曼哈顿位点遗传

夏 鑫,吕万强,张 蔷,刘会敏,张卫东

郑州大学公共卫生学院流行病学教研室 郑州 450001

炎症性肠病(inflammatory bowel disease,IBD)是一种累及回肠、直肠、结肠的一种特发性肠道炎症性疾病。近年来,IBD的全球发病率一直在上升,在18~20岁的欧洲后裔中,每10万人中有100~150人发病[1]。IBD主要包括溃疡性结肠炎(ulcerative colitis,UC)和克罗恩病(crohn′s disease,CD)[2]。CD一般情况下累及回肠和结肠,有些情况下可能影响肠道的任何区域[3]。UC主要累及结肠黏膜下层和直肠[4-5]。两种疾病均有各自的临床特点,同时又有着某种共同的发病机制。遗传流行病学数据[1,3,5]表明,IBD发病的易感性是可遗传的,迄今为止,已经超过有200个基因被识别为IBD的潜在致病基因。2015年的一项跨种族全基因组关联研究(genome wide assiciation study,GWAS)的meta分析识别出了38个与这两种疾病都相关的遗传位点,但这些位点仅能分别解释CD和UC遗传度的13.1%和8.2%[1]。本研究利用更加高效的统计方法——条件错误发现率(conditional false discovery rate,cFDR)方法识别更多与欧洲人群IBD相关的遗传变异位点。

1 材料与方法

1.1数据集来源汇总数据集由国际炎症性肠病遗传学协会在其官网上发布,下载地址为https://www.ibdgenetics.org/downloads.html。最新的数据集为Latest combined GWAS and Immunochip trans-ancestry summary statistics,该数据来源于欧洲人群,CD数据集来自7个GWAS数据的meta分析汇总数据;UC数据集来自8个GWAS数据的meta分析汇总数据[1]。CD相关的meta分析涉及5 956个病例和14 927个对照;UC相关的meta分析涉及6 968个病例和20 464个对照[1]。

1.2数据集的处理首先整合数据,保留UC和CD数据集中均有包含的单核苷酸多态性(SNP)位点,最终得到10 867 439个SNPs,对于每条染色体以每50个相邻的SNPs为单位,以HapMap Phase3为参照,以欧洲人群的基因库作为对照,计算SNPs两两之间的LD值(r2),如果r2大于0.2,就删除掉MAF较小的那个SNP,重复上面的删减过程,直到剩下的SNPs之间不再有强连锁现象,最终剩余140 983个SNPs。由于在meta分析之前,GWAS分析已经对这些SNPs进行了相应的质量控制[1],因此,在本研究中不再考虑质量控制问题。

1.3FDR方法的简介假设同时研究的两个疾病分别为疾病i和疾病j,则某SNP与疾病i相关的cFDR被定义为该SNP所对应的pi和pj值均小于预先设定的阈值p0i和p0j,且在真实情况下SNPs与疾病i是没有关联的概率值,表示为cFDR(pi∣pj)=Pr(H0i∣pi≤p0i,pi≤p0j)。其中,pi代表某个SNP与疾病i之间关联强度假设检验的P值;pj代表了该SNP与疾病j之间关联强度假设检验的P值,H0i表示真实情况下该SNP与疾病i的发生没有关系[6]。

将ccFDR定义为cFDR(CD|UC)和cFDR(UC|CD)中较大的一个[6]。如果某个SNP的ccFDR小于设定的阈值,就代表这个SNP和两个表现型均相关。

1.4多效性的评估和曼哈顿图利用分层Q-Q图和分层TDR图对UC和CD之间的多效性富集程度进行评估。分层标准,pj≤1(即所有的SNPs都纳入的一组),pj≤0.1,pj≤0.01,pj≤0.001,pj≤0.000 1。如果图中的散点向左偏离对角线则说明UC和CD之间存在多效性富集现象,而且偏离的程度越大,说明富集程度越强。

以轴遗传变异位点的位置信息为x,以-log10cFDR或-log10ccFDR为y轴作曼哈顿图。以y=2为基准线,基准线以上的散点对应的遗传变异位点为与疾病相关的SNPs。

1.5统计学处理cFDR以及ccFDR的计算和曼哈顿图的绘制均使用R3.42,SNPs的标注和修剪均使用Plink 1.07,数据分析操作过程均在Ubuntu 16.04下完成。

2 结果

2.1多效性的评估见图1。图1A、B显示,随着与条件疾病对应P值的减小,SNPs对应的散点向左偏离对角线的程度逐渐增大,表明UC和CD之间存在很强的多效性富集现象。图1C、D显示,与CD或UC相关的多效性富集程度最强的分层(分层条件为0.000 1)TDR也最大。

A:以CD为条件的UC分层Q-Q图;B:以UC为条件的CD分层Q-Q图;C:以CD为条件的UC分层TDR图; D:以UC为条件的CD分层TDR图

图1分层Q-Q图和分层TDR图

2.2UC相关位点识别结果有130个SNPs的cFDR(UC|CD)小于0.01,分别位于21条常染色体上(图2)。有87个SNPs已被报道和UC相关[7-10],43个SNPs是新发现的关联位点。其中有5个新发现的SNPs被报道与类风湿性关节炎(RA)或银屑病相关[11-13]。这130个SNPs一共被标注了144个基因,有70个基因被报道与UC相关联[1,14]。

纵坐标:以CD为条件与UC相关的SNPs的-log10cFDR;横坐标:常染色体编号以及对应的位置;红线以上的点:cFDR小于0.01的SNPs

图2以CD为条件的UC的曼哈顿图

2.3CD相关位点识别结果有174个SNPs的cFDR(CD|UC)小于0.01,分别位于22条常染色体上(图3)。有88个SNPs已被报道和CD是相关,86个SNPs是新发现的关联位点。有57个SNPs被报道与CD疾病相关;剩余的86个SNPs是新发现的遗传位点,其中有6个新发现的SNPs被报道与乳糜泻、类风湿性关节炎(RA)或多发性硬化(MS)相关[2,4,15]。这174个SNPs一共被标注了190个基因,有82个基因被报道与CD相关联[1,16]。

纵坐标:以UC为条件下与CD相关的SNPs的-log10cFDR;横坐标:常染色体编号以及对应的位置;红线以上的点:cFDR小于0.01的SNPs

图3以UC为条件的CD的曼哈顿图

2.4UC和CD同有相关位点分析结果共有75个多效性SNPs与UC和CD均有关,分别位于19条染色体上(图4)。其中,有22个SNPs是新识别的和53个SNPs已经被报道[1,8,13,16]。有3个新识别的SNPs被报道与RA或银屑病(Psoriasis)有关。这75个多效性的SNPs被标注了87个基因,其中有36个基因与这两种疾病都相关[1,3,16-17]。有11个新识别的SNPs被标注到了与UC和CD都相关的基因上,见表1。

纵坐标:与UC和CD均相关的SNPs的-log10ccFDR;横坐标:常染色体编号以及对应的位置;红线以上的点:ccFDR小于0.01的SNPs

图4 CD和UC的联合曼哈顿图表1 新识别的UC和CD共相关位点

#:被报道和RA或银屑病相关

3 讨论

利用cFDR新识别的SNPs中有一部分被标注在和IBD相关的基因上,有些SNPs位于基因间或非编码区,有些SNPs是位于疾病相关基因的编码区甚至是UTR3或UTR5,如果这些位点发生突变,影响基因表达的可能性就会很大,那么这一部分的SNPs和疾病真实相关的可能性就会很大,这个结果也从侧面证明了cFDR方法的可靠性。例如,本研究中一个和CD相关的SNP rs1738074,它的cFDR=0.008 8,位于CHR6的BP为159465977,且被标注在基因TAGAP(Gene ID:117289)的UTR5区域,该基因和一些自身免疫性疾病是相关的,如类风湿关节炎(Rheumatoid Arthritis, RA),乳糜泻和多发性硬化[18-19],而且这个基因被报道和CD是相关的[20],如果该位点发生突变,很可能通过影响基因TAGAP的表达进而对疾病的发生造成影响,且该基因同时和一些自身免疫性疾病相关,这与临床数据显示的IBD常伴有一些自神免疫性疾病相符合。同时进一步证明使用的cFDR分析方法可以更加有效的识别与疾病相关的位点。另外,有两个SNP rs3812609和SNP rs6563在本研究中被识别出与CD和UC都相关,它们对应的ccFDR分别为0.005 6和0.000 66,这两个位点均位于CHR 9上,BP分别为139408892和139389184,两者的LD度量r2=0.032且rs3812609位于基因NOTCH1(Gene ID: 4851)的内含子区域,rs6563位于该基因的UTR3区域。而对于基因NOTCH1而言,它是编码了NOTCH家族的单通道跨膜受体[21-22];NOTCH信号通路是一种高度保守的细胞间信号通路,它在及时的细胞谱系规范中扮演着重要的角色,包括内分泌和外分泌腺的胰腺和来自共同的淋巴细胞前体T细胞谱系血统继承,而且有研究[23-24]表明NOTCH信号通路的失调或故障会对肠道的健康造成很大的影响。而且这个基因在之前的研究中已被报道与UC和CD都相关[25]。

本研究通过使用cFDR方法,识别出了22个与两个疾病都相关的遗传位点,这些新发现为探索UC和CD同有的致病机制提供了新的见解,并为进一步的实验研究提供了可能的线索。但本研究也存在一定的局限性:首先,由于缺乏详细的个人样本数据,没有多效性位点对表型影响方向的信息;此外,因为无法获得样本的临床数据资料,无法将识别的遗传位点与临床结果联系起来;最后,因为本研究中使用的是汇总数据的一个子集,所以研究的结果中并没有包含发现所有之前已报道的与CD和UC有关的位点和基因,且由于在对SNPs进行修剪的过程中,删除掉了那些具有较小MAF的SNPs,这会削弱cFDR方法对罕见变异的识别能力。因此,我们的这些新发现还需要更多的临床数据资料和对应的生物实验研究来做进一步验证。

总之,通过利用cFDR方法将UC和CD的GWAS数据进行二次挖掘,研究发现UC和CD之间的存在很强的多效性富集现象,并且识别出22个两者共有的多效性遗传位点。这些识别出的UC和CD之间的多效性遗传位点,可能会为研究这两个疾病之间共同的遗传机制供新的见解或线索。

猜你喜欢

曼哈顿位点遗传
非遗传承
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
基于网络公开测序数据的K326烟草线粒体基因组RNA编辑位点的鉴定与分析
对标“曼哈顿”,叫板珠江新城!广州海珠湾凭什么?
还有什么会遗传?
还有什么会遗传
还有什么会遗传?
一种改进的多聚腺苷酸化位点提取方法
曼哈顿中国城失火一人死亡