病例对照研究中基因型关联分析方法的比较

2016-05-14修良昌覃继恒赵小蕾饶绍奇丁元林

科技资讯 2016年8期

修良昌　覃继恒　赵小蕾　饶绍奇　丁元林

摘要：在遗传流行病学研究中，常采用病例对照设计分析某个或某些遗传标记与疾病的关联，所用方法有Pearson卡方检验、Cochran-Armitage趋势检验、哈代-温伯格不平衡检验和对遗传模型稳健的检验方法等，这些方法各自有其优势和劣势，该文对它们的原理进行简明扼要地介绍，并比较它们的异同及各自的适用条件。

关键词：病例对照研究遗传标记关联分析

中图分类号：R954 文献标识码：A 文章编号：1672-3791（2016）03（b）-0110-03

基于病例对照数据进行关联分析，Pearson卡方检验和Cochran-Armitage趋势卡方检验是两种较为常用的检验方法（分别简称为卡方检验和趋势卡方检验），2006年Song和Elston[1]又提出哈代-温伯格不平衡检验（Hardy-Weinberg disequilibrium test，简记为HWDT），它们都是基于基因型的传统检验方法。在实际研究中，由于基因的遗传模型通常是未知的，研究者们又发展出对遗传模型稳健的检验方法。

1 Pearson卡方检验

Pearson卡方检验是Karl Pearson提出的一种应用范围很广的统计方法。对于R×C表资料，卡方检验公式为

其中，Oi，是第i个格子的实际频数，Ei是理论频数。

表1为单位点病例对照基因型数据，A和a为某位点上的两个等位基因，并假设A为风险等位基因，对应的3种基因型分别为aa、Aa和AA，也可记为G0、G1和G2（下标代表基因型中风险等位基因的个数）。R和S分别为病例组和对照组的样本数，r0、r1、r2为病例组中每种基因型对应的人数，s0、s1、s2为对照组中每种基因型对应的人数，，。ni为病例组和对照组的基因型Gi的合计数，ni=ri+si ，i =0，1，2，N为两组样本数之和。（r0，r1，r2）和（s0，s1，s2）分别服从M（R，p0，p1，p2）和M（S，q0，q1，q2）的多项分布，和为病例组和对照组的基因型概率分布。

对于表1的数据， Pearson检验可以表示为

在H0成立条件下，即pi=qi，ZCHI服从自由度为2的卡方分布。对备择假设无其他具体信息的情况下，卡方检验是最有效的稳健性检验。

2 趋势卡方检验

趋势卡方检验是Cochran和Armitage在20世纪中叶提出的用于等级数据相关性的检验。对于表1中的数据，若疾病发生的概率随着基因型中风险等位基因的个数增加而升高，那么这个数据就是等级数据。趋势检验考虑了等级信息并试图利用这个信息提高检验效能。假设基因型Gi的分值为xi，i=0，1，2。趋势卡方检验比较病例组和对照组基因型概率的加权和（权为每个基因型的计分），即与0相比差异是否有统计学意义。令：

在H0成立条件下将作为对pi和qi的估计，V 代入方差公式即得，进而得出H0成立时，检验统计量ZCAT近似服从自由度为1的卡方分布。

虽然趋势卡方检验依赖于分值（x0，x1，x2）的选取，但是对于分值的线性变换趋势检验的结果是恒定的，因此可令，≤≤1，即将基因型aa和AA的分值分别固定为0和1，杂合子基因型Aa的分值为x，分值的变化主要体现在x的变化上。为体现趋势卡方检验对x的依赖性，分值为（0，x，1）时检验为：

分值的选取很重要但也相当困难，对于多态位点基因型分值的选取则是难上加难。对于二态位点3个基因型分值的选取，当和时分别为隐性模型和显性模型下的最优计分，是加性模型下趋势检验的局部最优计分。基因型的计分为时，趋势卡方检验等价于卡方检验。

3 哈代-温伯格不平衡检验

哈代-温伯格平衡是在满足随机交配、群体同质且群体足够大等一系列假定下成立的遗传定律，然而在实际研究中特定的研究群体通常偏离哈代-温伯格平衡。这种偏离在遗传学上通常用哈代-温伯格不平衡系数来体现。常用的哈代-温伯格不平衡系数有两种，即用基因型频率的比值定义的哈代-温伯格不平衡系数和用基因型频率的差来定义的哈代-温伯格不平衡系数。对于二态的位点，这两种不平衡系数分别为

这两种定义都是合理且常用的定义方式，但是它们各有其应用条件和优势。

当哈代-温伯格平衡在某个群体中成立时，式（5）的δ应为0。定义病例组和对照组的哈代-温伯格不平衡系数分别为δ1和δ0，当H0成立时δ1=δ0=δ0，因此当δ=0时，δ1和δ0之间的差异可以用来判断基因型是否与疾病关联，由此引出哈代-温伯格不平衡检验，其检验统计量如下：

在H0成立的条件下，Zhwd近似服从标准正态分布。在实践中，用Zhwd来检验基因型是否与疾病关联检验效能通常比较低，特别是当真正的遗传模型为乘积模型时，该检验的效能几乎为零。但是研究发现，虽然Zhwd不是一个理想的检验关联性的统计量，但是它可以被用于基因型数据的质量控制，判断基因型检测数据是否存在较大的误差；另外一方面，该检验可以用来判断较为可能的遗传模型。

4 对遗传模型稳健的检验方法

上文已指出趋势检验依赖于预先指定的分值。在基因型关联分析中，不同的遗传模型对应于不同的计分。4种常见的遗传模型即隐性模型、加性模型、乘积模型和显性模型，它们的最优计分分别为0、1/2、1/2和l。当假定的遗传模型是真正的遗传模型时，对应的趋势卡方检验其检验效能最高，但在实际应用中，真正的遗传模型通常是未知的，用错误的遗传模型做关联分析就会降低检验效能，尤其将显性模型误认为是隐性模型或者将隐性模型误认为是显性模型时，检验效能显著降低。基于这些原因，统计学家们试图建立对遗传模型稳健的检验并尽可能提高检验效能。

MAX检验（包括MAX2和MAX3）和MERT检验是Freidlin等2002年提出的有效稳健检验[2]。MAX2取Z0和Z1的最大值，而MAX3取Z0 、Z1/2和Z1三者中的最大值。对模拟数据和实际数据的分析均显示MAX检验具有优良品质，并且Zang等在2010年给出了在H0成立条件下渐进分布的简单算法[3]，使得该方法能够比较容易实现。

MERT（the maximin efficiency robust test）是标准化最优检验的线性合并。假设只考虑显性模型、加性模型和隐性模型的情况，将显性模型、加性模型和隐性模型的最优检验统计量表示为ZDOM、ZADD和ZREC，则

其中corH为H0成立条件下，ZDOM与ZREC的相关系数。当样本量较大时，ZMERT服从标准正态分布。

另外一类稳健方法是基于选择遗传模型的趋势检验[4]。基于选择遗传模型的趋势检验分为两个步骤：第一步根据数据确定可能的遗传模型，第二步用所估计的遗传模型对应的趋势检验进行关联分析。对于病例对照数据（如表1），f0、f1和f2分别为3种基因型aa、Aa和AA的外显率，K为群体的患病率，为基因型相对风险。Song和Elston[1]构造的哈代-温伯格不平衡检验为

假设在群体中哈代-温伯格平衡成立，。按照外显率、相对风险及基因型的概率分布之间的关系，δ1和δ0为

在H0成立条件下，即时，；当潜在的遗传模型是隐性模型，即时，，；当潜在模型为显性模型，即时，，；当潜在的模型为加性模型或者乘积模型时δ1和δ0都接近于0。进一步可知，在隐性模型下，而在显性模型下。由此可以利用的符号来判断潜在的遗传模型究竟为何种模型。在实际应用中，如果观察到大于某个阈值c0，则将遗传模型估计为隐性模型，若观察到小于c0，则认为潜在的遗传模型为显性模型，其他情况则认为是加性或者乘积模型，这就是Zheng等[4]2008年在书中所提出的遗传模型选择方法。Zheng等[4]通过模拟发现，当群体中风险等位基因的频率大于0.3时，对模型有较高的正确判定率。即使在风险等位基因的频率较小时，将显性模型判定为隐性模型或者将隐性模型判定为显性模型的概率也是很低的，只是在这样的风险等位基因频率下会有较多的显性或者隐性模型被判为加性模型。

综上所述，在对备则假设无详尽信息的情况下，卡方检验是最有效的稳健性检验。当个体的患病风险随着风险等位基因个数的增加而升高时，根据具体的遗传模型给每一个基因型计分并用相应的趋势检验来进行关联分析。但在实际应用中，特别是一些复杂疾病研究中，遗传模型不可能预先知道，如果用错误的遗传模型对应的趋势检验分析就会大大降低检验效能。因此，趋势检验对于潜在的遗传模型不是稳健的检验。哈代-温伯格不平衡检验并不是一个理想的用于检验相关性的方法，但是它可以用来进行基因型数据的质量控制，判断存在较大误差的基因型测量值；另外一方面，该检验可以用来判断遗传模型。对于遗传模型稳健的检验方法具有优良的品质，但其难点在对遗传模型的选择，且与风险等位基因频率大小有关。从广义的角度来说，卡方检验、趋势检验和MAX检验都属于趋势检验，只是计分方法不同罢了[5]。

参考文献

[1] Song， K. and R.C. Elston， A powerful method of combining measures of association and Hardy-Weinberg disequilibrium for fine-mapping in case-control studies[J].Stat Med，2006，25（1）：26-105.

[2] Freidlin， B.， G. Zheng， Z. Li， et al.，Trend tests for case-control studies of genetic markers： power， sample size and robustness[J].Hum Hered，2002，53（3）：52-146.

[3] Zang， Y.， W.K. Fung，G. Zheng， Simple Algorithms to Calculate Asymptotic Null Distributions of Robust Tests in Case-Control Genetic Association Studies in R[J].Journal Of Statistical Software，2010，33（8）：1-24.

[4] Zheng，G.，H.K.Ng，Genetic model selection in two-phase analysis for case-control association studies[J].Biostatistics，2008，9（3）：9-391.

[5] Zheng，G.，J.Joo，Y.Yang.Pearson's test， trend test， and MAX are all trend tests with different types of scores[J].Ann Hum Genet，2009，73（2）：40-133.