单倍型分析及其在全基因组关联分析中的研究进展

2017-09-03宋志芳于国升邢荷岩芦春莲曹洪战

猪业科学 2017年8期

关键词：连锁基因组关联

宋志芳，于国升，邢荷岩，芦春莲，曹洪战

（河北农业大学动物科技学院，河北保定 071000）

单倍型分析及其在全基因组关联分析中的研究进展

宋志芳，于国升，邢荷岩，芦春莲，曹洪战*

（河北农业大学动物科技学院，河北保定 071000）

单倍型中含有丰富的连锁不平衡信息，单倍型分析在定位疾病和性状有关的基因方面具有更好的功效。利用基因分型技术能得到大量的单核苷酸多态性标记(SNP)数据，单倍型分析能利用大量的SNP信息来揭示和探究复杂性状的遗传机制，在全基因组关联分析（GWAS）中也扮演着重要角色。该文就单倍型分析的相关概念、原理和方法、相关软件和在GWAS中的应用加以综述。

单倍型分析；单倍型频率；连锁不平衡；SNP位点；关联分析

如果要分析某基因中单个位点与动植物复杂疾病或性状的关联程度，产生的结果可能是可靠的[1]。对某区域内多个位点组成的单倍型块与疾病或性状进行分析，才可能找到与之相关的遗传标记，进而发掘相关的候选基因[2]。单倍型分析已经成为连锁不平衡分析和寻找重要基因等的工具。可以通过多种方式和途径进行单倍型的构建及其频率的获得，比如对染色体进行测序、遗传标记结合家系信息进行连锁分析和通过软件计算群体的单倍型频率等[3]。通过候选基因法和连锁不平衡法可以确定与研究对象相关的单核苷酸多态，但前者需要全基因组测序，成本高。在对SNP芯片数据与性状进行GWAS分析时，单倍型分析是其中重要的一环，获得与疾病或性状显著相关的SNPs后，判断位点间的连锁程度，并计算每个单倍型的频率及其与疾病或性状相关性的P值，找到全基因组内是否存在单倍型。在关联分析中，应该有效利用SNP信息，找到更多与动植物疾病或性状相关的可靠SNP位点，进行疾病治疗和动植物育种。

1 单倍型分析的有关概念

1.1 单倍型（haplotype）

单倍型指在同一染色体上或一定区域内若干个决定同一性状的且紧密连锁的SNPs，具有统计学关联性，可以是两个基因座或整条染色体。单倍型确定后，绘制单倍型图可用于关联分析。SNP密度和样本量影响单倍型的确定。

1.2 单倍型块（haplotype block）

单倍型块指染色体上存在着的连续的、稳定的、几乎不被重组所打断的单倍型区域。一般一个单倍型块有几个常见的单倍型。以单倍型块为基础，进行与疾病或性状与基因的关联分析是目前最经济的连锁不平衡(LD)分析方法。

1.3 连锁不平衡（LD）

又称等位基因关联，指在某一群体中，不同座位某两个等位基因同时出现在同一条染色体上的频率大于因随机分布而同时出现的频率的现象，可称两个位点处于连锁不平衡状态。

1.4 标签SNPs（htSNPs）

指确定染色体某区段要确定单倍型所必须、少量且关键的SNPs，可以确定单倍型或基因，降低基因型检测的工作量。有时少数几个htSNPs就能确定一个单倍型结构。

2 单倍型分析的原理和方法

2.1 单倍型分析的原理

目前已经掌握了人类、猪、牛、羊、鸡、水稻等动植物的基因组，存在着数量庞大的SNP位点，这些位点可能是物种多样性的基础，与复杂疾病或性状有关。但在遗传过程中，大多数染色体区域只有几种单倍型，SNP位点倾向整体遗传给后代。在GWAS研究中，得到显著性位点，如果显著位点的密度低和定位区间范围大，给后续的候选基因搜寻造成困难。如果利用单倍型分析，进行单倍型构建和关联分析，会进一步缩短定位范围，发掘到更可靠的候选基因[4]，因此，单倍型分析在GWAS分析中是必不可少的。

2.2 单倍型分析的方法

传统的单倍型分析方法是利用家系资料，分析亲子代不同遗传标记的传递模式。如果家系资料缺失，就不能用此方法，且该过程复杂，不能分析个体或群体样本。所以有必要开发过程简单且适合家系或个体或群体样本的单倍型分析方法，扩大使用范围，增加准确度。随着SNP技术的发展，出现了以DNA测序技术和构建数学模型分析单倍型的方法。前者通过DNA测序或特定位点的PCR扩增，分析DNA片段的SNP位点，提高了单倍型分析的准确性[5]，但操作复杂且成本高；后者是利用数学模型构建单倍型并构建其在群体的单倍型频率，只能得到理论估计值，会因模型和估算方法的不同出现不同的结果[6-8]。

2.3 单倍型的推算方法

由于SNP标记数量多，单个SNP位点的关联逐渐转为以单倍型为主的关联，首先解决的问题是单倍型的获取。单倍型的推算方法主要有3个：实验法、系谱推算和统计算法。通过实验技术手段可以获得多标记单倍型，如单分子稀释技术、长插入片段克隆和等温回环扩增等[9-11]，但成本较高。通过特定的计算方法结合基因型信息和系谱信息也可获取基因型。在当前实验条件下，很容易得到群体的基因型，且价格低廉，并且即使某些条件与假设相反，利用统计算法也能合理解释推算的单倍型，已成为获取单倍型的首选方法[12]。系谱推算的统计算法主要有Clark算法、最大似然算法和贝叶斯算法。

Clark[13]（1990）首先提出在无关个体间利用基因分型数据进行单倍型的推算，原理是找到样本中所有纯合子与只有单突变位点的杂合子，将这些个体的单倍型作为已分型的单倍体型，如果每个已分型的单倍体型是为那些未确定单倍体型并有变异位点的序列的等位基因，就将这种SNP组合确定为新的单倍型。最大似然法由Excoffier和Slatkin[14]（1995）提出，假设研究群体处于哈迪-温伯格状态，采用最大期望算法(EM)进行样本单倍型频率的最大似然估计，但单倍型数量的增多会降低EM算法的统计效力，不能处理太多位点。随后提出的随机EM算法（2001）可以有效解决不收敛和局部收敛问题。Stephens[15]采用SSD（Stephehs-Smith-Donnelly）算法将贝叶斯理论用于单倍型的推断，不仅错误率大大降低，而且能处理较大规模的数据，给出单倍型构建的不可靠性估计，后又经过修正，考虑了缺失值和所有可能的单倍型，提高了单倍型推断和缺失数据等位基因的估计。经过发展和完善，其所推断的单倍型的准确性和可靠度得以提高[16]。后续出现了基于组合学、统计计算和零重组等的单倍型推算方法。算法之间既有区别，又有相同之处，但缺乏一个系统、全面的比较。进行单倍型推断时，要结合群体假设、数据类型、数据大小等选择合适的统计算法。此外，单倍型的计算复杂度、准确度评价标准、系谱结构和大小、标记数目和密度和标记缺失等都会影响单倍型推断的准确性[17]。

3 单倍型分析的软件

随着生物技术的快速发展，SNP芯片技术得到了普遍使用，且成本降低，得到了大量的SNP基因分型数据，且在染色体上分布广泛，加上基因组计划的推进，使得这些SNPs成为人们寻找与疾病或性状相关联的遗传标记。基于单倍型算法和计算机技术，开发了用于单倍型分析的程序和软件。简单介绍几种：

3.1 PHASE软件

由来自University of Washington的Matthew Stephens编写，是一款以人口数据为基础构建单倍型频率的软件，有多种版本，在Lunix、Windows、Solaris和Mac OSX等多个操作系统下都能安装运行。由于很难通过直接测序的方法得到单倍型，通常只能得到基因型数据，所以PHASE软件是分析单倍型较流行的软件。

3.2 Haploview

Haploview是用于单倍型分析的一款软件，功能包括LD和单倍型分析、单倍型人群频率估算以及分析SNP和单倍型关系等，该软件在JAVA环境下才能运行。最后能够得到LD plot（显示SNP位点的连锁情况）和htSNPs等。

3.3 haplo.stats软件包

是一种在R语言环境下运行的软件包，由Sinnwell JP和Schaid DJ开发，用于单倍型与多种类型性状（案例—控制、二分类、数量、序数和泊松）与协变量的统计学分析。该R包的前提假设是所有研究个体无关联且单倍型不明确，主要的函数有haplo．em，haplo．glm，haplo．score和haplo．power，其中通过haplo．score函数可得到单倍型与分析性状的得分统计量（总得分统计量和特定单倍型得分）。

3.4 SNPassoc软件包

是一种在R语言环境下运行的软件包，由Juan R González和Lluís Armengol等人开发，用于基于SNP的全基因组关联研究，包括大部分常规分析，如缺失值的描述性统计和探索性分析、计算哈迪-温伯格平衡、基于GLM的关联分析（数量性状或二分类性状）以及单个或多个SNPs与特定表型的分析（单倍型和上位分析）。也可在5个不同遗传模式（显性、共显性、隐性、极显著和log-加性）下进行全基因组关联分析，得到不同模式的P值和P值的plot图。

3.5 DnaSP和Network软件

生物地理学和谱系地理学研究中也常用单倍型分析，依靠DnaSP软件检测不同物种或样本的标记基因和叶绿体基因，然后通过Network进行网状图分析，揭示不同单倍型之间的遗传进化关系。

4 GWAS中单倍型分析的研究成果

GWAS最先应用于人类疾病，用于寻找致病基因以及研究基因与疾病间的关系。关联分析（可分为群体关联分析和家系关联分析）和连锁分析是两种基于统计学进行基因定位的方法，前者定位常见疾病的效果更佳，可能原因是复杂疾病通常由多个基因或多个遗传变异共同作用。后来GWAS延伸到其他动植物研究领域，用于研究与动植物重要性状和复杂疾病显著关联的SNP位点，进而发现和定位与之相关的候选基因，并探索基因的生物学功能。由于单倍型含有更多的LD信息，更有利于在关联分析中找到与疾病或性状相关的变异位点[18]，使用模型主要有回归模型和广义线性模式（GLM）。目前已有大量单倍型关联分析的研究成果。

刘铮铸等[19]（2010）采用PCR和直接测序法分析了绵羊MSTN基因内含子2和外显子3的SNP检测和单倍型分析，共检测到12个单倍型。罗维真等[4]（2013）以大白猪×民猪F2资源群体为对象，利用GWAS检测出的SNP标记构建单倍型，分析与血红蛋白和平均红细胞体积等免疫性状的关联，找到了与性状极显著或显著关联的单倍型区段和相关的候选基因。樊庆灿等[20]（2014）分析了15个SNP位点与京海黄鸡生长性状的关联，对关联显著的SNPs进行LD和单倍型分析，最终发现了与该性状有关的单倍型和基因。Mikhailova S V等[21]（2016）研究了欧亚大陆北部人群（代谢紊乱或胃癌患者和长寿人群）HFE基因的单倍型分析，结果在亚洲群体中发现了，与HLA-A2相关联位点的CCA单倍型，且HFE 基因编码区内突变等位基因的频率在对患者和健康人群中没有显著差异。

5 小结

国内外关于单倍型分析的统计算法和利用其分析与性状的关联已经有了大量的文献报道，给后续候选基因的群体验证和功能分析打下了可靠基础。最近几年GWAS方法的运用，使得单倍型分析愈加成熟和完善。关于单倍型的分析方法、统计算法和软件开发等也会克服一些缺点，提高关联统计的可靠性。如已经研究了单倍型的分布估计和基因型有误差时的单倍型分析的统计方法等。单倍型方法不仅在寻找和定位与动植物复杂疾病和重要性状的基因方面具有重要作用，还可为数量性状的选种、选配和育种提供重要且系统的信息，在未来还会得到长足发展。

[1] SCHAFER A J，HAWKINS J R．DNA variation and the future of human genetics[J]．Nature biotechnology，1998，16(1)：33-39．

[2] WEISS K M，TERWILLIGER J D．How many diseases does it take to map a gene with SNPs？[J]．Nature genetics，2000，26(2)：151．

[3] 苏智广，张思仲，肖翠英，等．一种单核苷酸多态性的单倍型分析技术[J]．遗传学报，2005，32(3)：243-247．

[4] 罗维真，陈少康，张龙超，等．影响猪免疫性状的单倍型关联分析[J]．畜牧兽医学报，2012，44(6)：843-852．

[5] DOUGLAS J A，BOEHNKE M，GILLANDERS E，et al．Experimentally-derived haplotypes substantially increase the efficiency of linkage disequilibrium studies[J]．Nature genetics，2001，28(4)：361-364．

[6] FALLIN D，SCHORK N J．Accuracy of haplotype frequency estimation for biallelic loci，via the expectation-maximization algorithm for unphased diploid genotype data[J]．The American Journal of Human Genetics，2000，67(4)：947-959．

[7] STEPHENS M，SMITH N J，DONNELLY P．A new statistical method for haplotype reconstruction from population data[J]．The American Journal of Human Genetics，2001，68(4)：978-989．

[8] XU C F，LEWIS K，CANTONE K L，et al．Effectiveness of computational methods in haplotype prediction[J]．Human genetics，2002，110(2)：148-156．

[9] RUANO G，KIDD K K，STEPHENS J C．Haplotype of multiple polymorphisms resolved by enzymatic amplification of single DNA molecules[J]．Proceedings of the National Academy of Sciences，1990，87(16)：6296-6300．

[10] MICHALATOS-BELOIN S，TISHKOFF S A，BENTLEY K L，et al．Molecular haplotyping of genetic markers 10 kb apart by allele-specific long-range PCR[J]．Nucleic acids research，1996，24(23)：4841-4843．

[11] LIZARDI P M，HUANG X，ZHU Z，et al．Mutation detection and single-molecule counting using isothermal rolling-circle amplification[J]．Nature genetics，1998，19(3)：225-232．

[12] NIU T，QIN Z S，XU X，et al．Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms[J]．The American Journal of Human Genetics，2002，70(1)：157-169．

[13] CLARK A G．Inference of haplotypes from PCR-amplified samples of diploid populations[J]．Molecular biology and evolution，1990，7(2)：111-122．

[14] EXCOFFIER L，SLATKIN M．Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population[J]．Molecular biology and evolution，1995，12(5)：921-927．

[15] STEPHENS M，SMITH N J，DONNELLY P．A new statistical method for haplotype reconstruction from population data[J]．The American Journal of Human Genetics，2001，68(4)：978-989．

[16] LIN D Y．Haplotype based association analysis in cohort studies of unrelated individuals[J]．Genetic epidemiology，2004，26(4)：255-264．

[17] 王春考．用于一般系谱的单倍型推断方法[D]．北京：中国农业大学，2006．

[18] SCHAID D J．Evaluating associations of haplotypes with traits[J]．Genetic epidemiology，2004，27(4)：348-364．

[19] 刘铮铸，李祥龙，巩元芳，等．绵羊MSTN基因内含子2和外显子3部分序列的SNP检测和单倍型分析[J]．中国畜牧杂志，2010，46(7)：9-12．

[20] 樊庆灿，王金玉，张跟喜，等．京海黄鸡生长性状与15个单核苷酸多态(SNP)位点的关联分析[J]．农业生物技术学报，2014(8)：1009-1017．

[21] MIKHAILOVA S V，BABENKO V N，IVANOSHCHUK D E，et al．Haplotype analysis of the HFE gene among populations of Northern Eurasia，in patients with metabolic disorders or stomach cancer， and in long-lived people[J]．BMC genetics，2016，17(1)：83．

2017-06-13）

河北省科技计划项目“深县猪新品系的选育”（15226301D）

宋志芳（1992-），女，硕士研究生，研究方向为动物遗传育种，E-mail：18730285576@163.com

曹洪战（1970-），男，教授，博士，硕士、博士研究生导师，研究方向为养猪生产，动物遗传育种与繁殖，E-mail:chz516@126.com