基于潜变量构建高维单核苷酸多态性基因关联模型*
2011-02-10张岩波
张岩波
山西医科大学卫生统计学教研室太原 030001
在后基因组时代,单核苷酸多态性(single-nucleotide polymorphisms,SNPs)研究已成为生物医学许多研究领域的焦点。随着基因分型技术的发展与成熟,基于大规模SNPs基因分型数据的全基因组关联(genome-wide association,GWA)分析成为多基因复杂疾病遗传易感性和基因定位研究的主要方法。近年来与之相适应的基于群体的统计学方法研究也成为国际上遗传统计学领域的研究热点。基因关联性分析利用连锁不平衡(linkage disequilibrium, LD)原理,在特定的遗传模式假定下,采用分析流行病学方法,探索已知的遗传标记与未知致病基因之间是否存在关联以及关联强弱,从而为致病基因的定位提供统计学依据。由于SNPs数据具有维度高、数据量大、存在测量误差等特征,统计学家们提出了许多方法去解决这些问题。作者在回顾常用分析方法基础上,介绍了基于潜变量构建高维SNPs基因关联模型的思想及应用进展。
1 常用基因关联分析方法
基于群体的关联性分析的统计方法大致可分为两类。一类是通过分析代表性标记SNPs的交互作用,间接反映基因-基因的交互作用,如M-H、logistic模型、多因子降维法(multi-factor dimensionality reduction,MDR)、Bayesian网络模型以及用于疾病相关SNPs位点初筛的关联规则挖掘技术等[1-4]。另一类是大部分学者所倾向的基于单体型(haplotype)基因定位的关联分析,其通过染色体区域内的单体型之间的交互作用反映基因之间的交互作用。Clark[5]指出基于单体型分析有以下优点:①单体型有时是生物的基本单位。②单体型是染色体上的结构特征,常作为一个整体传递给下一代。③在统计学上,利用单体型可以降低研究问题的维度。常用的单体型分析方法有M-H法、logistic模型、广义线性模型、广义似然方法以及区间定位或多位点定位等[6]。单体型具有单体型种类较多和不确定的特点,而且受到SNPs维度的限制,为此Peng等[7-8]介绍了“整体基因”的概念和适合于高维SNPs(multiple SNPs)数据的分析方法,他们采用主成分的bootstrap置信区间检验(PCA-based bootstrap confidence interval test,PCA-BCIT)和核典型相关理论来分析基因交互作用。Schaid[9]与朱文圣等[6]认为最好的解决办法是采用单体型聚类分析,通过合理聚类可以使聚集在同一类的单体型及其效应很相似,并且可以降低研究问题的自由度。
2 基于潜变量的基因关联模型
针对基因数据高维度的特征,近几年基于潜变量的群体SNPs分析越来越受到学界的关注,许多研究成果已见诸文献,这类方法称为潜在结构模型或潜变量模型。潜变量分析具有以下优点:一是既能反映单体型或一组SNPs的综合效应,又能达到降维效果,降低问题的自由度,使结果易于解释;二是既能消除测量误差的影响或者容许基因型测量误差存在,又能实现SNPs的整体检验,提高检验功效;三是既能实现单体型与疾病质量和数量性状的关联分析,又能进行(验证性或探索性)单体型推断研究或高维SNPs的聚类分析。
Wang等[10]基于群体数据引入潜变量进行了数量性状位点(quantitative trait loci,QTL)的关联分析。Lee等[11]采用结构方程模型(structural equation model,SEM)分析了美国国家生物技术信息中心(NCBI)数据库中的急性髓样白血病SNPs资料,将转录因子RUNX1与Ets变体基因6(ETV6)作为潜变量,6个SNPs作为显变量,结合路径图构造基因网络来分析其关联性。Wang等[12]提出在病例对照研究中应用潜变量方法检验一组关联性较强的SNPs,他将潜变量引入外显模型刻画假定的疾病易感位点(disease susceptible locus,DSL),这些位点可能包含标记位点或单体型,然后采用EM算法(expectation-maximization algorithm)拟合外显模型,估计单体型联合概率,研究证实:采用潜变量方法描述DSL更具灵活性,而且在特定情景下(遗传模式)比传统单体型关联分析更能提高检验功效。Nock等[13]将因子分析与结构方程模型应用于代谢综合征多重SNPs的分析和整体基因功能的评价。也有研究者[14]将 SEM应用于行为遗传研究,将基因-环境协方差(genotype-environment covariance,CovGE)作为参数引入模型,减少了其他参数的偏倚。因此,采用结构方程模型分析SNPs作用,考察变量间结构关系,思路新颖,针对性强。
在分析SNPs数据时,通常是将个体基因型量化为某种特定的遗传模式,但是这种遗传模式具有不确定性,所以不妨保留SNPs的原始分类信息,据此考察基因型的概率分布,然而,这样不宜再采用结构方程模型。Dean等[15]从HapMap Project(国际人类基因组单体型图计划)公共数据库中随机抽取若干SNPs,将等位基因作为变量,抽取的SNPs作为聚类指标,采用潜在类别分析(latent class model, LCA)考察SNPs的分布特征。评价指标BIC倾向于最优类别数为3,与实际分布(种族)相匹配,并且该方法将数据维度完美地降低了 1/3。有学者[16-17]结合潜变量模型与Bayesian网提出了一个聚类模型,并采用结构EM算法(structural EM algorithm),该方法可以有效地对SNPs进行聚类。作者在模拟研究基础上,采用概率参数化估计的 LCA模型,依据一组SNPs将抑郁症患者分为2个类别,结果显示导致类别不同的正是从属于 5-羟色胺受体 1B基因(HTR1B)的rs11568817、rs130058与rs6298位点。据此线索作者获得了有意义的结论:不同类别的特质对应不同的疗效,结合SNPs多态性可知哪个等位基因疗效更好,从而指导临床针对个体采取不同的治疗方案,该结论正是药物基因组学期待的结果[18]。在作者另外一项尚未公开发表的研究中,采用基于Bayesian网的多层次潜类模型分析了得克萨斯生物医学研究所基因分析工作组(genetic analysis workshop,GAW)提供的SNPs数据,抽取了1号染色体上的29个SNPs,并进行潜在聚类,获得了很好的聚类效果。由此可见,潜在类别既具有因子分析的特征,又具有聚类分析的功能,透过概率可以深入了解分类变量背后的规律[19]。
3 存在的问题与展望
在进行关联分析时作者建议以单体型为基础,但并不局限于单体型,应进一步跨越单体型的限制,对一组高维度相关联的SNPs进行整体检验,以提高分析效率。即便如此,基于群体SNPs数据的关联性分析方法仍有诸多不足:①单个SNP位点所提供的信息非常有限,该 SNP很难恰好是致病位点,而且反映的只是标记SNP的作用,而非整个基因的作用。尤其对于复杂性疾病,往往是由于多个位点的变异引起的,因此应该同时利用多个SNPs进行研究。而且随着现代分子生物学技术的发展,SNPs检测难度降低,动辄几十甚至上百上千个SNPs,变量维度的增加给统计分析带来了困难,导致分析效率很低[20]。②许多研究[6]指出,由于单个 SNP存在多位点重复检验,因此,基于单体型的研究比基于单个SNP的研究更具功效。但是由于单体型的不确定性,若能突破单体型的界限,对一组相关联的SNPs进行整体检验,将更加实用,并且会带来更大的检验功效。③虽然目前针对SNPs交互作用的研究发展出了很多有效的统计方法,但研究者普遍关注的基因交互作用通常假设变量间独立,而具有高度连锁效应的基因位点间具有较强的相关性,因此不适宜作交互效应的分析,应将单体型或一组高维相关的SNPs视为一个整体,进行整体效应的分析。这样既能体现基因的整体功能,又能有效提高检验功效。④传统方法均假定变量被完全测量,不存在测量误差,而基因型数据大部分都含有测量误差,许多研究[6]表明即使很小的基因型测量误差也会给单体型推断带来较大的影响,这也是目前许多方法存在的明显缺陷。学界对此颇为重视,并提出了多种对策。Zou等[21]提出一种基于基因型误差的单体型推断方法,但是该方法必须事先知道基因型误差率的大小,这实际是存在困难的。Kang等[22]建议为了避免测量误差带来的影响,不要直接利用含有误差的基因型数据,而是根据前一级观测数据的荧光值去推断单体型,并提出了GS-EM方法。朱文圣等[6]建议采用双重抽样方法和多次测量方法减少测量误差对单体型推断的影响,但这样会增加经费。
作者认为将潜在结构模型应用于单体型或高维SNPs整体效应的关联分析及其相关的推断性研究独具优势,但依然有些问题有待于深入探讨:①结构方程模型要求可观测变量与潜变量服从正态分布,但是SNPs数据无论以何种遗传模式量化,都违背正态假定,因此建议采用更稳健的或适用于非正态分布的数据分析方法,如bootstrap方法和S-B估计拟合结构方程模型[19],进行 SNPs整体效应和关联性分析。另外,我们还可以利用均值结构模型进行不同群体间的SNPs整体效应比较。②潜变量分析适用于高维度的数据,但联合概率分布的复杂度相对于维度数呈指数增长,随着SNPs维数增加,信息获取的难度和概率推理的复杂度增加,且算法的收敛速度和计算速度降低。因此,建议引入基于Bayesian网的理论构建多层次潜类分析,利用其“图论”语言直观揭示所分析问题的结构,降低信息获取的难度和概率推理的复杂度,考察高维度SNPs在人群中的分布特征。③当研究位点的维度太高时,即使样本量再大,也会出现单体型观测数很小的情况(即稀有单体型)。对于稀有单体型,对其频率估计的方差会很大,导致单体型效应估计的参数方差也很大。因此,建议发展适合于稀疏数据或小样本的更加有效的方法。
总之,基于潜变量的基因关联分析将为群体遗传学研究提供实用有效的分析方法,为复杂性状疾病的遗传以及基因定位等方面的研究提供强有力的方法支持。潜变量分析方法同样适用于基因-环境交互作用分析,拟引入的环境变量只增加了变量的维度,并不会带来方法上的困难。
[1]李照海,覃红,张洪.遗传学中的统计方法[M].北京:科学出版社,2006:184
[2]Manuguerra M,Matullo G,Veglia F,et al.Multi-factor dimensionality reduction app lied to a large prospective investigation on gene-gene and gene-environment interactions [J].Carcinogenesis,2007,28(2):414
[3]Rodin AS,Boerwinkle E.Mining genetic epidemiology data with Bayesian networks I:Bayesian networks and examp le app lication(p lasma apoE levels)[J].Bioinformatics, 2005,21(15):3273
[4]邹莉玲,赵耐青,秦国友,等.应用关联规则筛选疾病相关的SNP位点及其组合的分析方法[J].中国卫生统计,2009,26(3):226
[5]Clark AG.The role of haplotype in candidate gene studies [J].Genet Epidemiol,2004,27(4):321
[6]朱文圣,郭建华.基于单体型的复杂疾病基因定位研究[J].数理统计与管理,2009,28(2):370
[7]Peng Q,Zhao J,Xue F.A gene-based method for detecting gene-gene co-association in a case-control association study[J].Eur JHum Genet,2009,23(10):1038
[8]Peng Q,Zhao J,Xue F.PCA-based bootstrap confidence interval tests forgene-disease association involvingmultiple SNPs[J].BMC Genet,2010,11(1):6
[9]Schaid DJ.Evaluating associations of hap ltypes with traits [J].Genet Epedemiol,2004,27(4):348
[10]Wang T,Weir B,Zeng ZB.A population-based latent variable app roach for association mapping of quantitative trait loci.http://statgen.ncsu.edu/:(doi:10.1111/j.1469-1809.2006.00264.x)
[11]Lee S,Jhun M,Lee EK,et al.Application of structural equationmodels to constructgenetic networks using differentially expressed genes and single-nucleotide polymorphisms [J].BMC Procee,2007,1(Suppl 1):S76
[12]Wang T,Jacob H,Ghosh S,et al.A joint association test formu ltiple SNPs in genetic case-control studies[J].Genet Epidemiol,2009,33(2):151
[13]Nock NL,Wang X,Thompson CL,et al.Defining genetic determinants of the Metabolic Synd rome in the Framingham Heart Study using association and structuralequationmodeling methods[J].BMC Proc,2009,3(Suppl 7):S50
[14]Hershberger SL.Latent variable models of genotype-environment covariance[J].Structural Equation Modeling, 2003,10(3):423
[15]Dean N,Raftery AE.Latent class analysis variab le selec-tion[J].Ann Inst Stat Math,2010,62(1):11
[16]Zhang Yulong,Ji Liang.Clusteringof SNPs by a structural EM algorithm[C].International Joint Conference on Bioinformatics,Systems Biology and Intelligent Computing,2009:147
[17]张连文,郭海鹏.贝叶斯网引论[M].北京:科学出版社,2006.
[18]裴磊磊,郭小玲,张岩波,等.抑郁症患者单核苷酸多态性(SNPs)分布特征的潜在类别分析[J].中国卫生统计,2010,27(1):7
[19]张岩波.潜变量分析[M].北京:高等教育出版社,2009.
[20]Zhao LP,Li SS,Khalid N.A method for the assessmentof disease associations with single-nucleotide polymorphism hatplotypes and environmental variables in case-control studies[J].Am JHum Genet,2003,72(5):1231
[21]Zou G,Zhao H.Hap lotype frequency estimation in the presence ofgenotyping errors[J].Hum Hered,2003,56(1/3):131
[22]Kang H,Qin ZS,Niu T,et al.Incorporating genotyping uncertainty in haplotype in ference for single-nucleotide polymorphism s[J].Am JHum Genet,2004,74(3):495