应用多因子降维法MDR分析基因-基因的交互作用
2012-01-05王娜娜张毓洪
王娜娜 张毓洪 杨 泽
交互作用是指两个或多个因素相互发生作用而产生的一种效应。当两个或多个因素共同作用于某一事件,其效应大于或小于各因素共同作用的效应时,可认为因素间存在交互作用,前者称为协同效应(cooperative effect),后者称为拮抗效应(antagonistic effect)。医学研究证实,罕有疾病是纯粹由单一的遗传或者环境因素决定的,尤其是基因-基因交互作用在许多疾病,特别是常见的慢性疾病(高血压、糖尿病、哮喘等)发病中,具有非常重要的意义。
探讨基因-基因交互作用,根据不同个体的遗传因素寻找相互之间可能存在的交互作用,对制定有效的疾病预防控制干预措施,提高群体健康素质具有非常重要的理论研究意义和实用价值;更有效地检测和分析交互作用也是近年一直困扰医学及其关联学科研究与发展的难题。在进行多基因交互作用分析过程中,模型中常常会产生较多的参数,但样本含量相对较少;小样本研究中,由于过度拟合,给统计方法学研究提出了许多新问题,比如众所周知的“维度困扰”。由于每个基因有多个位点,如果统计分析不考虑位点之间的相互作用将会使模型的效能大大降低。交互作用分析时,众多的分类影响因素及其组合会产生高纬度的列联表,这就导致列联表中有些格子的频数为O,出现所谓“空格子"(null cells count)情况,这对交互作用分析提出了新要求,交互作用阶数越高,解释分析问题就越复杂。有关研究交互作用的方法很多,现主要介绍MDR方法。
1.MDR方法介绍
2001年Ritchie等[1]第一次提出了多因子降维法(multifactor dimensionality reduction,MDR),“因子”是交互作用研究中的变量(如基因型或环境因素),“维”是指研究的多因子组合中因子(如基因型)的数目,以疾病易感性分类(高危、低危)的方式建立模型,将研究中的多个因子看作一个多因子组合(基因型组合),这样就把高维的结构降低到一维两水平(即高危或低危),即为“降维”。这是一种非参数、无需遗传模式的分析方法,适用于病例对照研究或患病不一致同胞对设计,只需具备各位点的遗传数据(例如SNPs),即可进行基因-基因交互作用的分析,而无需其他特殊条件。
1.1 MDR方法基本原理
MDR方法实际上是一种组合划分方法(combinatorial partitioning method,CPM)的扩展[2],虽然所针对的结局变量的类型不同,CPM要求连续变量,而MDR针对的是诸如疾病状态等分类变量,但它们都是采用数据降维的策略,以解决在有限的样本量条件下,分析高维数据之间交互作用的问题。
1.2 MDR 方法分析步骤(见图 1 所示)[3~5]
图1 MDR方法基本步骤示意图
第一步,将所有数据随机地的分成10等份,其中9份作为训练样本,1份作为检验样本。
第二步,从众多研究因素中选择n个因子,组成n个因子的不同组合(n个因子就代表n维),这些因子可以是SNP或者是分类明确的环境因素。
第三步,根据n个因子的不同水平,将个体划分为不同的分类,如图中的单元格所示,左侧条带表示病例,右侧条带表示对照。
第四步,计算每个格子的病例数与对照数的比值,若其病例与对照之比大于某个阈值(例如≥1),则标记为高危,反之则标记为低危,这样就把n维的结构降低到一维两水平(即高危或低危)。
第五步,多因子分类的集合中包含了MDR模型中各因子的组合,在所有的组合中,选择个体错分最小的那个MDR模型,该模型在所有模型中具有最小的预测误差。
第六步,通过十重交叉验证评估模型的预测误差,选择预测误差最小的模型作为最终的模型,取10次检验的预测误差平均值,作为模型相关预测误差的无偏估计。
1.3 模型评估与检验[6]
交叉验证(cross validation)和置换检验(permutation test)是评估MDR模型统计学意义的两个重要手段。交叉验证一致性通过以下方法衡量:对每次的十重交叉验证,比较同一个位点/因子组的验证次数。如果因子组合只发生在一个亚组中,为最小值1;如果所有10个亚组确定的都是相同的位点/因子组合,则为最大值10。通过十重交叉验证,在一定程度上可以避免因数据转换的偶然性,使Ⅰ类误差增大而产生假阳性结果的影响。预测误差是衡量MDR模型在独立检验的亚组中预测危险状态的指标,其通过十重交叉验证的亚组中每一个的预测误差的平均值来计算。最佳模型的假设检验可以通过使用不同的随机数进行置换检验,来评估交叉验证一致性和预测误差估计值的大小,确定该模型与那些无关联的模型相比是否更合适。
2.实例分析
研究中国人群与前列腺癌风险基因的关联,选取124例病例和 138例对照人群,对 TET2(rs7679673),LMTK2(rs6465657),8q24 区(rs12543663),PDLIM5(rs17021918)和NKX3-1(rs1512268)基因上的五个多态性位点进行了单个位点的关联研究,结果显示染色体8q24区上rs12543663位点可能与前列腺癌发生风险相关(P=0.046;OR,1.883;95%CI,1.006-3.526),其他位点尚未有研究确切的说明其关联。采用MDR方法分析此5个多态性位点的交互作用发现(见表1,图2,3),模型的交叉验证一致性相同的两个模型,两位点模型(rs17021918和 rs1512268)和四位点(rs7679673,rs6465657,rs17021918和 rs1512268)的模型,但由于只有两位点模型检测样本有统计学意义(P=0.0089)。所以最佳模型包含了PDLIM5基因的1个位点(rs17021918)和NKX3-1基因上的rs1512268位点,因此,该研究提示 PDLIM5基因rs17021918位点与NKX3-1基因rs1512268位点之间,可能存在基因-基因交互作用。有树状图可看出TET2基因rs7679673和LMTK2基因rs6465657位点有协同作用,而PDLIM5基因rs17021918和NKX3-1基因rs1512268位点有更强的协同作用。
表1 MDR方法分析多位点交互作用的模型
图2 PDLIM5(rs17021918)和 NKX3-1(rs1512268)基因交互作用分析单元格图
图3 TET2(rs7679673),LMTK2(rs6465657),8q24 区(rs12543663),PDLIM5(rs17021918)和NKX3-1(rs1512268)基因交互作用分析树状图
3.MDR方法分析的优缺点
3.1 MDR是一种非参数、无需遗传模式的分析方法,适用于病例对照研究或患病不一致同胞对设计,只需具备各位点的遗传数据(例如SNP),即可进行基因-基因交互作用的分析,而无需其他特殊条件。与其他传统的统计学建模方法相比,其优点在于可以大大降低建模所需的自由度,MDR方法的主要特点是:①并不需要指定遗传模式(显性或隐性遗传)和交互作用模型(线性或非线性模型,加法或乘法模型);②结合MDR Software程序包,可以识别多个SNP位点之间的高阶交互作用。③在分析各因素、各水平问交互作用时并不考虑主效应。因此当潜在的主效应没有统计学意义时,它仍然可以发现高阶交互作用。
3.2 MDR仅仅能发现交互作用,如果主效应有意义时,它不能揭示主效应;MDR发现交互作用的能力随着研究因子数K的降低而减小,所以当交互作用存在且是低维度时,MDR几乎无能为力[7];在处理高阶交互作用的时候,很可能出现有的格子观察值为零的情况:在病例和对照例数接近时,按高危、低危进行分类是非常不稳定的。
MDR方法适合对病例对照研究或患病不一致同胞对设计进行2~6个基因位点或环境因素的交互作用分析,目前已成功应用于散发性乳腺癌、心房颤动和原发性高血压等疾病的研究[8],但这也只是为研究遗传流行病学交互作用提供一种可选择的方法或策略。固然,它也有一些不足之处:当主效应或已知的协同作用存在时,用MDR方法很难得到最终的模型,例如MDR提示最佳模型为四因子模型,但它并不能明确是四因子之间都有交互作用,还是两组单独的两因子交互作用,抑或是两个主效应加上另外两因子的交互作用等[9],并且MDR同样也会受到遗传异质性的严重影响[10],必须引起注意。此外,等位基因关联或连锁不平衡对MDR效能和Ⅰ类错误的影响还未知,这特别是在评估位点内交互(显性、隐性)时更重要。提供关于效能和样本量的详细说明也很重要,比如进行3个、4个,甚至10个位点交互作用的研究需要多少数据?一般认为,几乎没有任何一种方法可以理想化地用于所有情况下的数据分析,而MDR更可能成为得到一致结果的几种方法之一[11]。在后基因组时代,遗传流行病学研究的主要目标是了解各基因的功能,其中包括基因-基因、基因-环境之间复杂的交互作用。虽然目前尚不能奢望能够完全解释全部的基因-基因交互作用,但至少可能对多基因疾病中相对重要的一些交互作用予以探讨,这也将有助于今后对多基因疾病更全面的认识。当然,对于简单的基因-基因的统计学交互作用的研究。
1 Ritchie MD,Hahn LW,Roodi N,et al.Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer[J].Am J Hum Genet,2001,69:138-147.
2 Nelson MR,Kardia SL,Ferrell RE,et al.A combinatorial partitioning method to identify multi locus genotypic partions that predict quantitative trait variation[J].Genome Res,2001,11:458-470.
3 HAHN,L,R1TCHIE,M.AND MOORE,J.Multifactor dimensionality reduction software for detecting gene-gene and gene-environment interaction [J].Bioinformatics,2003,19:376-382.
4 Moore,J.H.and William,S.M.New strategies for identifying gene-gene interactions in hypertension[J].Ann.Med,2002,34:88-95.
5 Moore,J.H.et al.Symbolic discriminate analysis of microarray data in autoimmune disease[J].Genet.Epidemi01,2002,23:57-69.
6 骆常好.惩罚logistic回归与多因子降维法交互作用分析及其应用[D].山西医科大学,2009.
7 MEE YOUNG PARK.Penalized logistic regression for detecting gene interactions[J].Biostatistics,2008,9(1):30-50.
8 Moore JH.Computational analysis of gene-gene interactions using multifactor dimensionality reduction [J].Expert Rev Mol Deign,2004,4:795-803.
9 Coffey CS,Hebert PR,Ritchie MD,et al.An application of conditional logistic regression and multifactor dimensionality reduction for detecting gene-gene interactions on risk of myocardial infarction:the importance of model validation [J].BMC Bioinformatics,2004,5:49.
10 Ritchie MD.Hahn LW.Moore JH.Power of multifactor dimensionality reduction for detecting gene-gene interactions in the presence of genotyping error,missing data,photocopy,and genetic heterogeneity[J].Genet Epidemiology,2003,24:150-157.
11 唐迅,李娜,胡永华.用多因子降维法分析基因-基因交互作用[J].中华流行病学杂志,2006,27(5):437-441.