患病-未患病同胞的关联回归分析与应用*
2016-12-27李彩霞黎培兴方縮靖方积乾
李彩霞 黎培兴△ 方縮靖 方积乾
患病-未患病同胞的关联回归分析与应用*
李彩霞1黎培兴1△方縮靖2方积乾3
目的 当核心家系中无父母信息时,经典的传递不平衡检验(TDT)已不再适用,本文针对患病-未患病同胞家系数据,提出相应的关联分析方法,并校正协变量的影响。方法 我们把家系中的受累同胞作为病例,未受累同胞作为匹配的对照,建立非均衡的条件logistic回归模型或分层Cox回归模型。我们把模型应用到96个华人原发性高血压核心家系的基因定位数据,分析校正协变量后ACE的I/D多态性、钠盐摄入水平与高血压的关系。结果 ACE与高血压的关联性受到钠盐摄入量高低的影响,ACE与钠盐摄入程度存在交互作用,较高的钠盐摄入患者其ACE的I/D多态性与高血压的关联性更强。结论 条件logistic回归模型或分层Cox回归模型能校正协变量的影响,有效分析基因的主效应和基因与协变量的交互作用。
遗传关联分析 条件logistic回归模型 分层cox回归模型 交互作用
传统的基于核心家系数据的遗传关联分析往往需要双亲的基因型,如传递不平衡检验(transmission disequilibrium test,TDT)[1-3],较适用于发病年龄早的疾病。对于发病年龄晚的疾病,双亲生物标本往往难以获得。因此有人提出以未患病的同胞作为对照的关联分析研究思路。
Curtis(1997)[4]在 Sham 等(1995)[3]的似然比TDT方法的基础上提出了同胞-传递不平衡方法,但只利用家系中一对同胞对(患病/未患病)。Spielman(1996)[2]利用家系中所有的患病与未患病的同胞,通过对某个特定等位基因在病例中出现的实际次数与期望次数的差异比较,进行关联分析。而 Boehnke(1998)[5]通过对患病同胞与未患病同胞的等位基因频数的差异比较,进行关联分析。
以上方法都没有涉及协变量的影响。下面,针对患病-未患病同胞家系数据,以未患病同胞作为患病同胞的对照,建立匹配设计的回归模型,考虑校正环境因素等协变量的影响,考察标记位点与疾病是否关联,以及环境与基因的交互作用。
患病-未患病同胞的条件logistic模型
设家系r有n1r个患病同胞,n2r个非患病同胞,共nr=n1r+n2r个同胞,其基因型分别记为g1,g2,…,gnr。若校正环境因素等协变量的影响后,疾病位点与标记位点之间不关联,则
这里Ai为家系中的第i个同胞的患病状态(1,患病;0,未患病),Xi=(Xi1,Xi2,…,Xip)′为家系中第 i个同胞的p维协变量向量。假设具有基因型g,协变量X的个体的患病概率满足logistic模型
这里,β=(β1,…,βp)′,Z为基因型向量,若基因型有m种,可设Z=(Z1,Z2,…,Zm-1)为m种基因型引入的m-1个哑变量,
Zk=
此时参数 α=(α1,…,αm-1)′。在某些特定的遗传模式下,Z的维度可相应减少。遗传模式可通过AIC准则进行选择。由(1)与(2)得N个家系的条件似然函数
分母中的下标{j1,j2,…,jn1r}为{1,2,…,nr}中任取n1r个元素所形成的集合。此式即为匹配设计的条件logistic回归模型的似然函数。(1)式要成立,应有α向量为0。
条件似然函数(3)等价于如下的分层Cox比例风险模型的偏似然函数:每一个配对组(同一个家系的同胞)作为一个层,在每层内,所有患病病例的发病时间全部相同,即“生存”时间相同(可全设为1),未患病同胞作为右删失数据(删失时间可全设为2),层r中个体i的对应风险函数为
这里h0r(t)为层r的基底风险函数,是与时间有关的未知函数,各层的基底风险函数可以不同,反映层间的差异。模型(4)所对应的偏似然函数即为模型(3)。
可通过SAS中Cox模型相应模块PHREG(proportional hazards regression)过程实现参数估计与假设检验[6]。
上面匹配设计的患病-未患病同胞的条件logistic模型等同于一个特殊的Cox模型:患病个体的发病时间全视为相同。因此,这里忽略了真实的发病时间,若已知患病个体的发病时间信息,则可把发病时间引入模型,可进一步建立分层Cox回归模型。
应 用
遗传因素是原发性高血压公认的重要发病因素之一。在已研究过的所有原发性高血压候选基因中,血管紧张素转化酶(ACE,angiotensin-converting enzyme)的研究比较深入[7-9]。ACE基因位于17号染色体,存在插入型(insertion,I)或缺失型(deletion,D)多态性,其主要功能是调节血管紧张性。目前有关ACE的I/D多态性与高血压发病的关系结论不一。近年来有研究发现ACE与高血压的关联性受到钠盐摄入量高低的影响,ACE与钠盐摄入程度存在交互作用[10]。
把上述的患病-未患病同胞的条件logistic模型应用到96个华人原发性高血压家系中所测得的基因定位数据中[11],探讨ACE与高血压的关联性,以及与钠盐摄入程度的交互作用。此96个家系数据集中,共315个个体,每个家系由2~9个同胞组成,其中2、3、4、5个同胞组成的家系数分别为39、22、14、15个,6个或6个以上同胞的家系数共6个。
ACE基因有三种基因型(II,ID,DD),除 6人基因型信息缺失外,其余309人中,血压正常者146人,高血压患者163人,协变量包括:年龄(age,23~61岁),性别(gender),肥胖指标 BMI(body mass index,17.34~38.09 kg/m2),以24小时尿钠浓度来衡量的钠盐摄入量(usodium,32~482 mmol/day)。这些变量的统计描述见表1。
表1 96个原发性高血压家系数据描述
根据 ROC(receiver operating characteristics)曲线选择最佳分割点195 mmol/day,把24小时尿钠浓度分为两个水平:低钠盐组(salt=0:usodium<195 mmol/day)与高钠盐组(salt=1:usodium(195 mmol/day),表2给出了不同血压水平与钠盐摄入水平的ACE基因型频数分布。
下面考虑ACE基因的显性、隐性、加性这3种遗传模式,分别引入变量
表2 不同血压水平与钠盐摄入水平下的ACE基因型(II/ID/DD)的频数分布
用SAS的PHREG过程实现匹配设计的条件logistic模型,纳入变量 age,gender,BMI,salt,ACE_dom(或ACE_rec,或ACE_add)以及交互作用ACE与salt的交互作用项 ACE_dom×salt(或 ACE_rec×salt,或ACE_add×salt),得到3种遗传模式的模型AIC值分别为126.36,117.26,126.11。根据 AIC最小原则,选择隐性遗传模式,其参数估计与检验的SAS输出如表3。
表3 隐性遗传模式参数估计与检验结果
由表3可知,age(年龄),BMI对原发性高血压有影响。年龄或BMI越大,相对风险越高,年龄的OR值为1.169(95%CI为1.074~1.274),BMI的 OR值为1.453(95%CI:1.263~1.671)。在控制 age,gender,BMI的影响后,ACE与原发性高血压的关联性受到钠盐摄入量高低的影响,ACE与钠盐摄入程度存在交互作用(P=0.0266)。在低钠盐摄入水平(salt=0)下,ACE的基因型II在高血压组与正常组中的频率差异无统计学意义(P=0.0910)。记ACE_rec与ACE_rec×salt的回归系数分别记为β、γ,我们可进一步采用Wald卡方检验β+γ是否为0,得Wald卡方值为11.251,P=0.0008。可知在高钠盐摄入水平(salt=1)下,ACE的基因型II在高血压组与正常组中的频率差异有统计学意义(P=0.0008),II相对于DD+ID的 OR值为 exp(β+γ)=24.539(95%CI:3.782~159.216)。此结果与Yamagishi等人的研究结果一致[10]。
小 结
针对无父母信息,只有同胞信息情形,我们建立匹配设计的条件logistic回归模型,分析标记位点与疾病的关联性。在这个模型中,每个家系可有多个患病同胞与多个未患病同胞,且每个家系的患病同胞或未患病同胞数可以不同。进一步,对有发病时间信息的资料,我们可以利用发病时间信息,建立分层Cox模型,在考虑发病早晚的影响下,分析标记位点基因型与是否发病的关系,同时校正协变量的影响,并把模型应用到96个华人原发性高血压核心家系的基因定位数据。高血压和钠的关系很密切,高钠盐饮食是高血压的一个重要危险因素[12],因此,在分析ACE的ID多态性与高血压的关联性时,有必要考虑钠盐摄入程度的影响。我们在校正年龄、性别、BMI后,分析ACE的ID多态性、钠盐摄入水平与高血压的关系,结果表明:ACE与高血压的关联性受到钠盐摄入量高低的影响,ACE与钠盐摄入程度存在交互作用,较高的钠盐摄入的患者其ACE的ID多态性与高血压的关联性更强。
[1]Spielman RS,McGinnis RE,Ewens WJ.Transmission test for linkage disequilibrium:the insulin gene region and insulin-dependent diabetes mellitus(IDDM).Am JHum Genet,1993,52(3):506-516.
[2]Spielman RS,Ewens WJ.The TDT and other family-based tests for linkage disequilibrium and association.Am J Hum Genet,1996,59(4):983-989.
[3]Sham PC,Curtis D.An extended transmission/disequilibrium test(TDT)for multi-allele marker loci.Ann Hum Genet,1995,59(2):323336.
[4]Curtis D.Use of siblings as controls in case-control association studies.Ann Hum Genet,1997,61:319-333.
[5]Boehnke M,Langefeld CD.Genetic association mapping based on discordant sib pairs:the discordant-alleles test.Am J Hum Genet,1998,62(4):950-961.
[6]高惠旋.SAS系统 SAS/STAT软件使用手册.北京:中国统计出版社,1997.
[7]Li Y.Angiotensin-converting enzyme gene insertion/deletion polymorphism and essential hypertension in the Chinese population:a meta analysis including 21058 participants.Internal Medicine Journal,2012,42(4):439-444.
[8]胡芳,肖君华.原发性高血压分子生物学的研究进展.国外医学遗传学分册,1999,22(2):82-85.
[9]朱鼎良.高血压基因研究现状与展望.现代康复,1999,3(9):1078-1079.
[10]Yamagishi K,Tanigawa T,Cui R,et al.High sodium intake strengthens the association of ACE I/D polymorphism with blood pressure in a community.The American Journal of Hypertension,2007,20(7):751-757.
[11]Fang Yujing,Li Caixia,Fang Jiqian,et al.Pulse pressure and interactions between polymorphisms in the angiotensin II type 1 receptor and uncoupling protein 1 genes in hypertensive Hong Kong Chinese.Journal of the American College of Cardiology,2004,43(5):522A-522A.
[12]辛青,张成秋,谭小燕,等.高校教职工高血压患病情况及影响因素.中国卫生统计,2013,30(6):874-876.
Regression Models and Application for Association Study Between Affected and Unaffected Siblings
Li Caixia,Li Peixing,Fang Yujing,et al
(School of Mathematics and Computational Science,Sun Yat-Sen University(510275),Guangzhou)
Objective When the information of parents is not available in the nuclear family,classical transmission disequilibrium test(TDT)is no longer suitable.In this paper,association analysis methods,in which the covariates were adjusted,were developed for affected and unaffected siblings.Methods Using affected siblings as cases,and unaffected siblings as matched controls,an unbalanced conditional regression model and stratified Cox model were proposed.We used an example of gene mapping for essential hypertension(ESH)to illustrate our method,and showed the association between the I/D polymorphism of the ACE gene,sodium intake level and ESH,after adjusting covariates.Results The results show that sodium intake modifies the association of ACE with ESH.There is interaction effect between sodium intake and ACE.The association between I/D polymorphism and ESH was stronger among persons with a higher sodium intake than in those with a lower sodium intake.Conclusion The gene's main effect and gene-covariate interaction were derived efficiently after covariates adjusted by using conditional regression model or stratified Cox model.
Genetic association analysis;Conditional regression model;Stratified Cox regression model;Interaction effect
*本项目受第44批教育部留学回国人员科研启动基金资助
1.中山大学数学与计算科学学院(510275)
2.中山大学肿瘤防治中心
3.中山大学公共卫生学院
△通信作者:黎培兴
邓 妍)