肾脏全基因组关联研究及发展方向
2011-04-13王伟铭
仲 芳 王伟铭
全基因组关联研究(genome-wide association study,GWAS)及进展
GWAS是采用高通量的基因分型技术,对覆盖全基因组的遗传标志进行基因分型,通过病例对照研究或基于核心家系的关联分析,寻找全基因组中与疾病相关的基因,它的理论基础是连锁不平衡和常见疾病-常见变异(common-disease commonvariant,CDCV)模型。1996 年Risch等[1]首先提出GWAS,随后的人类基因组计划 (human genome project,HGP)和人类基因组单倍型图谱计划(Hap-Map)提供了大量遗传信息,采集大量病例和对照样本,更新基因分型方法和技术,以及发明Plink等强大的分析算法,都促进了GWAS的可行性,为GWAS的发展奠定了坚实的基础,使之在十年后真正得以实现。
2005年,Science首次报道了视网膜黄斑变性病GWAS结果[2],引起了极大的轰动。此后一系列GWAS陆续展开,如肥胖、糖尿病、冠心病、中风、癌症、炎症性肠病、不宁腿综合征、多发性硬化、剥脱性青光眼、人类免疫缺陷病毒(HIV)感染、儿童哮喘、房颤、肌萎缩侧索硬化症、风湿性关节炎等,这些研究不仅证实以往已发现的关联基因,而且还发现很多新的候选基因区域[3-11]。
GWAS采用的研究方法与传统的候选基因病例-对照(case-control)关联分析一致。如果人群基因组中一些单核苷酸多态性(single nucleotide polymorphism,SNP)与某种疾病相关联,理论上这些疾病相关SNP等位基因频率在某种疾病患者(case)中应高于未患病对照人群(control)。在HapMap中选择标签SNPs(tag SNPs)标记的单体型,或在初筛阶段利用芯片对所有tag SNPs进行基因分型,在病例-对照人群间比较SNPs等位基因频率,然后进行全基因组关联统计分析,得出有意义的SNPs。在验证阶段,需另外选择独立的病例-对照人群对初筛阶段的结果进行验证。这种设计策略需要保证第一阶段筛选与疾病或者表型关联SNP的敏感性和特异性,尽量减少分析的假阳性和假阴性,并在第二阶段应用大样本人群,甚至在多种族人群中进行基因分型验证[12-13]。GWAS与候选基因关联分析策略明显;它不需要在研究之前构建任何假设(hypothesis free),即不需要预先依据尚未充分阐明的生物学基础来假设某些特定的基因或位点与疾病相关联。
GWAS在肾脏疾病中的应用
GWAS对肾脏疾病的研究相对较少,主要集中在研究其发病机制,寻找易感基因,评估疾病的进展,活动性和对药物的敏感度。目前在慢性肾脏病、糖尿病肾病、高尿酸血症和肾结石等疾病中已有相应的研究。
糖尿病肾病(diabetic nephropathy,DN)DN为发达国家慢性肾脏病的首要病因,也是引起终末期肾病(ESRD)的最主要原因,在近20年内其患病率仍将进一步升高[14]。目前,微量白蛋白尿是诊断DN最为可靠的、非创伤性指标,但某些仅有微量白蛋白尿的患者肾脏病理改变却较严重,若能更早期的予以诊治将会改善其预后。
Maeda通过来自冰岛、丹麦和美国人群的GWAS研究发现,TCF7L2、SLC12A3、ELMO1等数个基因可能与2型DN发病相关[15],来自日本人群的GWAS研究也发现了 TCFL12与 DN相关,但与SLC12A3 无明显相关性[16]。Pezzolesi等[17]将 820例受试者(基因型约36万SNP,284例仅表现蛋白尿,536例ESRD)和885例1型糖尿病患者作为对照组,进行糖尿病并发症长期的前瞻性流行病学调查,发现FRMD3和CARS为1型糖尿病晚期并发症的新候选基因。Iyengar等[18]联合11个研究中心,其中来自欧洲、非洲、墨西哥、印度和美国等八个中心的378个家族的1 227例患者,联合尿白蛋白对肌酐比值(ACR)进行统计分析,发现397对患有DN的同胞中,较强的连锁位置在染色体7q21.3,10p15.3,14q23.1 和18q22.3 区域,而在883 例患有糖尿病的同胞(兄弟或姐妹)中,最强的连锁信号则在染色体 2q14.1,7q21.1 和 15q26.3。这些结果证实先前已有对染色体7q、10p和18q的报道,并对其的肾病易感性进行了评估,进一步阐明了家族内已有多名糖尿病或DN的患者较其他患者更易加速DN的进展和产生相关的并发症。
目前的临床和流行病学研究显示,DN与遗传存在一定的关联,但尚未发现明确的致病基因。而将得到的候选基因鉴定后,发现与DN相关的基因或基因组区间相对不一致。这也存在着多种因素,如人群内部的异质性及DN发病机制的复杂性,例如DN发病涉及多种基因,研究可能仅发现其中之一。在最近的糖尿病控制和并发症试验/糖尿病干预和并发症流行病学研究(diabetes control and complications trial/epidemiology ofdiabetes interventions and complications,DCCT/EDIC)统计中发现,只有3/11 SNP得以证实,2/11 SNP为临界状态,其余的与DN 发展无关[19]。
IgA肾病(IgA nephropathy,IgAN)IgAN是亚洲人群中最常见的原发性肾小球肾炎,也是发展成慢性肾脏病的常见病因。研究发现有15%~20%的IgAN患者可在发病10年内进展至ESRD[20]。应用GWAS有助于鉴别IgAN和其他类型肾小球疾病并监测疾病进展。
Gharavi等[21]在 2000 年首次指出 6q22-23 对IgAN的发展具有很大影响,其LOD值为5.6,但只有60%的家系中发现了该位点。同时,在随后的日本家系的研究中,该位点又被排除了[22]。而在2006年,Bisceglia等[23]对意大利家系的研究中发现,4q26-31和17q12-22与IgAN的发展具有相关性;2007年,Paterson等[24]在加拿大家系中发现了2q36,同年,在对黎巴嫩的人的研究中[25],6q22-23,2q36,或是4q22-31均未被再次证实。这些研究表明,至少部分IgAN的遗传基础只限定于特定人群的家庭,因此,寻找共有的单元性的易感SNP位点成为近期的热点。
Feehally等[26]选用患者的父母或已筛查过正常的个体作为对照组,在英国慢性肾小球肾炎的DNA库中选取914例患者或家庭,对其318 127个SNP进行分析,发现无论是在家族还是个人的连锁分析中,6p都具有明显的关联性,而对HLA的分析显示其信号通路非依赖HLA-B信号途径,并位于DQ基因座附近,这提示HLA区域很可能包含了易感基因。
Gharavi等[27]在1 194 例患者和 902 例汉族人群对照及针对中国和欧洲匹配的1 950例患者和1 920例对照组的研究中,确定了和IgAN相关的5个基因位点。三个位于染色体22q12的主要组织相容性复合物上的独立基因座,其他两个为CFHR1和CFHR3在染色体1q32上的共同缺失,(相关p值在1.59 ×10-26和4.84 ×10-9之间,次要等位基因比率为0.63~0.80)。这5个位点解释了疾病4%~7%的变异及高达十倍的个体风险差异。多数等位基因在抵抗IgA肾病的同时,也提高了自身免疫病或感染疾病的风险,其风险频率和当地的疾病患病率密切相关,这也暗示了自然选择的复杂性。
局灶节段性肾小球硬化(FSGS)FSGS是激素抵抗性肾病综合症(steroid-resistant nephrotic syndrome,SRNS)的主要类型,进展至ESRD的概率大且易复发。FSGS主要有两个病因:一是遗传性基因突变,二是特发性FSGS,如何在家族性及特发性的FSGS中寻找具有遗传性的基因突变,成为目前GWAS的主要研究方向。
虽然FSGS发病机制不明,但多认为其本质上属于足细胞病。2008年,Kopp等[28]在190例FSGS的非裔美国患者和222例对照组的研究中发现22号染色体的LOD值高达9.2,而其MYH9的峰值更是高达12.4。MYH9的多种单元型的SNP被证实在FGSG的进展中起到了重要作用,尤其是在外显子的14到23区域,并提示与高血压性肾损害关联强于2型糖尿病,其相似的结果也被 Kao等[29]发现,在随后几年中,该基因位点的易感性被不断证实[30,31]。最近,Gbadegesin等[32]在六个未发现已知的遗传性FSGS基因突变的其中一个家系中发现了一个新的位点突变:2p15,随后对着六个家系进行了连锁分析,验证了该基因位点的LOD值为3.6。
特发性膜性肾病(Idiopathic membranous nephropathy,IMN)IMN是成年人肾病综合征中最常见的病理类型之一,其病因至今尚不完全清楚。Stanescu等[33]由欧洲多国科学家组成的研究小组,对来自英国、法国以及荷兰的三组患有特发性膜性肾病的556例白种人进行了SNPs的基因组关联研究。通过数据分析发现,位于染色体2q24和染色体6p21两个基因座上的等位基因——PLA2R1和HLA-DQA1,与特发性膜性肾病有密切关联。携有这两个风险等位基因的人,其特发性膜性肾病的发病可能性高达78.5%。位于染色体6p21的HLADQA1等位基因在白种人中是目前特发性膜性肾病最密切相关的等位基因,而该等位基因还可能导致自身免疫反应对抗基因PLA2R1的变异,该研究结果进一步揭示了IMN的病因基础,并阐述了HLA如何调节适应性免疫。
肾脏功能评估及其他
Hwang等[34]使用 Affymetrix GeneChip Human Mapping 100K SNP芯片对1 345例患者进行筛查后发现 rs2839235与 GFR相关,P值为1.6×10-5;rs1158167和胱抑素 C相关,P值为8.5×10-9;rs1712790和尿蛋白排泄率相关,P值为1.9×10-6。2009年,Köttgen等[35]对 21 466 例研究对象(其中1 932例为慢性肾脏病患者)进行分析发现了,GFR相关的易感SNP位于UMOD、SHROOM3和 GATMSPATA5L1区域,而与胱抑素C相关的位于CST和STC1 区域。最近,Köttgen等[36]又荟萃分析了20 个关联研究共67 093例研究对象的实验结果,发现了13个新的与GFR下降相关的基因。
McArdle等[37]发现 GLUT9的非统一编码的SNP(rs16890979)与尿酸异常和痛风发作有关,其显著性在女性患者强于男性患者。Thorleifsson等[38]在2009年对3 773例肾结石病例及42 510例对照组中进行研究发现,位于 CLDN基因的rs219780有显著相关性,P值为4.0×10-12,并估算携带者的易感性比非携带者高1.64倍,而其携带者还伴有脊柱骨或髋骨的骨密度减少。
GWAS的影响因素
GWAS目前仍是一种较昂贵的技术,并且很多实验都未取得良好的重复性结果。这种状况显示,虽然GWAS是发现疾病基因的强有力的工具,但是由于其受一系列因素的影响,故结果的重复性不高。
决定GWAS是否能成功的因素主要在于是否有足够的样本量,是否能够提供足够的统计效能来检测中等效能(OR<1.5)的遗传变异[39]。统计效能是样本量、基因效应和基因频率的函数,基因效应和基因频率在发现基因变异以前是未知的,因而样本量是决定GWAS能否成功的一个主要因素,大样本即意味着巨额的费用。在结果重复性比较差的研究中,样本较少是它们的共性。而统计效能太低,则无法检测到中等效应的位点[40]。
为进一步降低GWAS的费用,也能在有限的样本中得到最大的检验效能,一些学者提出采用多阶段分析的方法,即开始在一个相对较少的研究中进行关联分析,然后将筛选出的SNP在另外的独立样本中进行第二阶段分析,甚至后续的第3,第4,甚至第5,第6阶段分析[12,13,41-44]。采用 Pooling(基因池)的方法[45,46]也能降低费用,据估计采用 Pooling的方法只需要1/30的费用。Pooling的方法需要非常准确的测定等位基因的频率,理论上也可构建单体型分析,但在实际操作中往往很难非常准确地对每个位点或多个位点进行分型[47]。
tag SNPs的选择也影响到GWAS的统计效能,因为tag SNPs决定GWAS的基因组覆盖率。Barrett等[48]评估了目前全基因组SNPs芯片对全基因的覆盖情况,结果发现尽管各种芯片对SNPs的选择方法各异,它们对基因组的覆盖情况基本相似,100万个tag SNPs就基本可捕获全基因组的MAF(最小等位基因频率)>5%的常见 SNPs。500k的SNPs(Affymetrix 500 k,IlluminaHuman 300)在日本东京的日本人(JPT)、中国北京的汉族人(CHB)和CEPH人群(CEU)样本中基因组覆盖率为65%~75%,但是对于特定基因可能不够[49]。以前文提及的关于血尿酸 GWAS为例,若与 GLUT9连锁不平衡的rs16890979未被检测,该研究就会错失得到GLUT9与尿酸的内稳定和痛风发作关联的信息,因为此SNP是该区域唯一被分析的SNP。
多重检验问题也是GWAS面临的一个难题。GWAS同时在全基因组中检测了大量的SNPs,需要进行大规模的假设检验,这会增加I类错误,如果进行Bonferroni纠正,P值有统计学意义的阈值要小于10-7,这就要求大规模样本量。在无足够样本的情况下,又会导致增加Ⅱ类错误。
样本分层(stratification)也是以病例对照为基础的GWAS需要认真对待的问题,由于GWAS需要大规模的样本,样本分层会影响实验的准确性,产生假阳性的结果。大样本量也可能会导致遗传异质性的问题更加严重,若对病例的诊断分型不准确也会导致结果的不可靠,这些问题在目前的研究中已有所反映。
展 望
通过上述研究,人们发现人类基因组计划完成后,GWAS为研究复杂性肾脏疾病揭开了新的序幕。短短数年,通过GWAS已经发现许多未知的与疾病相关的位点和染色体区域,为了解这些疾病的分子发病机制提供了更多的线索[50]。预计随着技术的不断成熟和数据分析平台的完善,它会在肾脏疾病研究中发挥更重要作用,具有不可限量的前景。但GWAS研究样本量大、花费大,且目前的研究结果与最初的期望差距甚远。很多已发现的SNP仅轻度增加疾病风险,大多数疾病的遗传关联仍难以解释;应用GWAS结果进行疾病的早期预测和个体化的治疗更非想象的那样简单[51]。目前对肾脏疾病中的GWAS研究应该审慎地有计划地实行,避免急功近利,实验前要有严谨科学的设计,同时需要注意基因-基因、基因-RNA、基因-蛋白质、基因-环境因素之间复杂的相互作用,及其如何共同参与疾病的发生发展过程,从而更好的理解肾脏疾病发病机制。
1 Risch N,Merikangas K.The future of genetic studies of complex human diseases.Science,1996,273(5281):1516-1517.
2 Klein RJ,Zeiss C,Chew EY,et al.Complement factor H polymorphism in age-related macular degeneration.Science,2005,308(5720):385-389.
3 Herbert A,Gerry NP,McQueen MB,et al.A common genetic variant is associated with adult and childhood obesity.Science,2006,312(5771):279-283.
4 Diabetes Genetics Initiative of Broad Institute of Harvard and MIT,Lund University,and Novartis Institutes of BioMedical Research,Saxena R,Voight BF,Lyssenko V,et al.Genome-wide association analysis identifies loci for type 2 diabetes and triglyceride levels.Science,2007,316(5829):1331-1336.
5 Shah SH,Freedman NJ,Zhang L,et al.Neuropeptide Y gene polymorphisms confer risk of early-onset atherosclerosis.PLoSGenet,2009,5(1):e1000318.
6 Ikram MA,Seshadri S,Bis JC,et al.Genomewide association studies of stroke.N Engl J Med,2009,23,360(17):1718-1728.
7 Tomlinson I,Webb E,Carvajal-Carmona L,et al.A genome-wide association scan of tag SNPs identifies a susceptibility variant for colorectal cancer at 8q24.21.Nat Genet,2007,39(8):984-988.
8 Duerr RH,Taylor KD,Brant SR,et al.A genome-wide association study identifies IL23R as an inflammatory bowel disease gene.Science,2006,314(5804):1461-1463.
9 Stefansson H,Rye DB,Hicks A,et al.A genetic risk factor for periodic limb movements in sleep.N Engl JMed,2007,357(7):639-647.
10 van Es MA,Van Vught PW,Blauw HM,et al.ITPR2 as a susceptibility gene in sporadic amyotrophic lateral sclerosis:a genomewide association study.Lancet Neurol,2007,6(10):869-877.
11 Plenge RM,Seielstad M,Padyukov L,et al.TRAF1-C5 as a risk locus for rheumatoid arthritis-a genome wide study.N Engl J Med,2007,357(12):1199-1209.
12 International HapMap Consortium,Frazer KA,Ballinger DG,Cox DR,et al.A second generation human haplotype map of over 3.1 million SNPs.Nature,2007,449(7164):851-861.
13 Price AL,Patterson NJ,Plenge RM,et al.Principal components analysis corrects for stratification in genome-wide association studies.Nat Genet.2006,38(8):904-909.
14 Wild S,Roglic G,Green A,et al.Global prevalence of diabetes:estimates for the year 2000 and projections for 2030.Diabetes Care,2004,27(5):1047-1053.
15 Maeda S.Recent advances in searching the gene(s)conferring susceptibility to diabetic nephropathy.Nippon Rinsho,2005,63(Suppl 6):458-463.
16 Maeda S,Osawa N,Hayashi T,et al.Genetic variations associated with diabetic nephropathy and type II diabetes in a Japanese population.Kidney Int Suppl,2007,(106):S43-48.
17 Pezzolesimg,Poznik GD,Mychaleckyj JC,et al.Genome-wide association scan for diabetic nephropathy susceptibility genes in type1 diabetes.Diabetes,2009,58(6):1403-1410.
18 Iyengar SK,Abboud HE,Goddard KA,et al.Genome-wide scans for diabetic nephropathy and albuminuriain multiethnic populations:the family investigation of nephropathy and diabetes(FIND).Diabetes,2007,56(6):1577-1585.
19 Carpena MP,Rados DV,Sortica DA,et al.Genetics of diabetic nephropathy.Arq Bras Endocrinol Metabol,2010,54(3):253-261.
20 Barratt J,Feehally J.IgA nephropathy.J Am Soc Nephrol,2005,16(7):2088-2097.
21 Gharavi AG,Yan Y,Scolari F,et al.IgA nephropathy,the most common cause of glomerulonephritis is linked to 6q22-23.Nat Genet,2000,26(3):354-357.
22 Tsukaguchi H.A genetic mapping for a familial IgA nephropathy.Nephrology(Carlton),2004,9[Suppl 2]:A65.
23 Bisceglia L,Cerullo G,Forabosco P,et al.European IgAN Consortium:Genetic heterogeneity in Italian families with IgA nephropathy:Suggestive linkage for two novel IgA nephropathy loci.Am J Hum Genet,2006,79(6):1130-1134.
24 Paterson AD,Liu XQ,Wang K,et al.Genome-wide linkage scan of a large family with IgA nephropathy localizes a novel susceptibility locus to chromosome 2q36.J Am Soc Nephrol,2007,18(8):2408-2415.
25 Karnib HH,Sanna-Cherchi S,Zalloua PA,et al.Characterization of a large Lebanese family segregating IgA nephropathy.Nephrol Dial Transplant,2007,22(3):772-777.
26 Feehally J,Farrall M,Boland A,et al.Genome-wide analysis identifies strong association between HLA and IgA Nephropathy.J Am Soc Nephrol,(published ahead of print July 1,2010).
27 Gharavi AG,Kiryluk K,Choi M,et al.Genome-wide association study identifies susceptibility loci for IgA nephropathy.Nat Genet,2011,43(4):321-327.
28 Kopp JB,Smith MW,Nelson GW,et al.MYH9 is a major-effect risk gene for focal segmental glomerulosclerosis.Nat Genet,2008,40(10):1175-1184.
29 Kao WH,Klag MJ,Meoni LA,et al.MYH9 is associated with nondiabetic end-stage renal disease in African Americans.Nat Genet,2008,40(10):1185-1192.
30 Freedman BI,Parekh RS,Kao WH.Genetic basis of nondiabetic endstage renal disease.Semin Nephrol,2010,30(2):101-110.
31 Gopalakrishnan I,Iskandar SS,Daeihagh P,et al.Coincident idiopathic focal segmental glomerulosclerosis collapsing variant and diabetic nephropathy in an African American homozygous for MYH9 risk variants.Hum Pathol,2010,42(2):291-294.
32 Gbadegesin R,Lavin P,Janssens L,et al.A New Locus for Familial FSGSon Chromosome 2P.J Am Soc Nephrol,2010,21(8):1390-1397.
33 Stanescu HC,Arcos-Burgos M,Medlar A,et al.Risk HLA-DQA1 and PLA(2)R1 alleles in idiopathic membranous nephropathy.N Engl J Med,2011,364(7):616-626.
34 Hwang SJ,Yang Q,Meigs JB,et al.A genome-wide association for kidney function and endocrine-related traits in the NHLBI's Framingham Heart Study.BMC Med Genet,2007,8(Suppl 1):S10.
35 Köttgen A,Glazer NL,Dehghan A,et al.Multiple loci associated with indices of renal function and chronic kidney disease.Nat Genet,2009,41(6):712-717.
36 Köttgen A,Pattaro C,Böger CA,et al.New loci associated with kidney function and chronic kidney disease.Nat Genet,2010,42(5):376-384.
37 McArdle PF,Parsa A,Chang YP,et al.Association of a common nonsynonymous variant in GLUT9 with serum uric acid levels in old order amish.Arthritis Rheum,2008,58(9):2874-2881.
38 Thorleifsson G,HolmH,EdvardssonV,et al.Sequence variants in the CLDN14 gene associate with kidney stones and bone mineral density.Nat Genet,2009,41(8):926-930.
39 Seng KC,Seng CK.The success of the genome-wide association approach:a brief story of a long struggle.Eur J Hum Genet,2008,16(5):554-564.
40 Altshuler D,Daly M.Guilt beyond a reasonable doubt.Nat Genet,2007,39(7):813-815.
41 Li Y,Willer C,Sanna S,et al.Genotype Imputation.Annu Rev Genomics Hum Genet,2009,10:387-406.
42 Aulchenko YS,Ripke S,Isaacs A,et al.GenABEL:an R library for genome-wide association analysis.Bioinformatics,2007,23(10):1294-1296.
43 Marchini J,Howie B,Myers S,et al.A new multipoint method for genome-wide association studies by imputation of genotypes.Nat Genet,2007,39(7):906-913.
44 Purcell S,Neale B,Todd-Brown K,et al.PLINK:a tool set for wholegenome association and population-based linkage analyses.Am JHum Genet,2007,81(3):559-575.
45 Sham P,Bader JS,Craig I,et al.DNA Pooling:a tool for large-scale association studies.Nat Rev Genet,2002,3(11):862-871.
46 Norton N,Williams NM,O'Douovan MC,et al.DNA pooling as a tool for large-scale association studies in complex traits.Ann Med,2004,36(2):146-152.
47 Hirschhorn JN.Genetic approaches to studying common diseases and complex traits.Pediatr Res,2005,57(5 Pt 2):74R-77R.
48 Barrett JC,Cardon LR.Evaluating coverage of genome-wide association studies.Nat Genet,2006,38(6):659-662.
49 Li M,Li C,Guan W.Evaluation of coverage variation of SNPchips for genome-wide association studies.Eur JHum Genet,2008,16(5):635-643.
50 Hardy J,Singleton A.Genomewide association studies and human disease.N Engl JMed,2009,360(17):1759-1768.
51 Manolio TA.Genomewide association studies and assessment of the risk of disease.N Engl JMed,2010,363(2):166-176.