基于农艺植物粒型相关性状探讨GWAS分析方法研究进展
2020-04-02李嘉琦逄洪波解元坤李玥莹
李嘉琦,逄洪波,解元坤,李玥莹,陈 强
(1.沈阳师范大学生命科学学院;2.沈阳师范大学实验教学中心,辽宁 沈阳 110034)
在过去的20年里,用致病基因或对其他复杂性状有影响的基因座绘制基因联锁图谱,已经普遍存在.基因连锁图谱依赖于因果变异与系谱内标记等位基因的共分离,但由于单个因果变异的影响(外显率)太弱,无法通过系谱内的共分离进行检测,因此连锁分析不能可靠地识别复杂性状基因座[1].GWAS(genome-wide association study,GWAS)是一种基于连锁不平衡(linkage disequilibrium,LD)原理的分析方法,用于检测基因变异和来自群体的样本特征之间的联系.
在过去的5年中,GWAS已经用于几乎所有主要的免疫介导的疾病,并且成功地对强直性脊柱炎、类风湿关节炎、系统性红斑狼疮、溃疡性结肠炎等7种自身免疫疾病进行了基因定位[1].同时在糖尿病和精神分裂症的研究上也取得了极大的进展[2].目前,在动物培育方面,特别是奶牛产业中应用最为广泛,鸡、猪的培育中也开始应用[3,4];在植物育种中,全基因组关联分析的方法在大豆、水稻、玉米等重要作物上取得了极大的成功.Zatybekov et al[5]共鉴定到30个SNP位点,这些标记与开花和成熟时间、株高、可育节数、单株产量等相关,研究证实了GWAS在大豆重要农艺性状的分子标记鉴定中的有效性.Li et al[6]利用266个栽培稻品种的微核心种质(mini core collection,MCC)和全基因组序列,基于GWAS和相互作用分析,研究了抽穗期(heading date,HD)与产量性状之间可能的分子遗传机制,为培育出生长时间短、产量高的水稻品种提供了理论基础.Jiao et al[7]对278个不同生育阶段的温带玉米自交系进行序列分析,结果表明,稀有等位基因的相对比例可以作为未来育种计划的选择指数.Yano et al[8]对176个粳稻品种的全基因组序列分析,同时计算了基因组的核苷酸多样性,确定了4个与农艺性状相关的新基因.Yu et al[9]利用504个栽培稻的1 000万个SNP鉴定出99个与水稻籽粒长度相关的QTL,其中有92个是新发现的位点,并通过对每个基因座杂合度指数(observed heterozygosity per locus,Ho)进行连锁和关联作图,鉴定出2个与籽粒长度相关的新基因.Si et al[10]使用混合线性模型(mixed linear model,MLM)对381个粳稻品种进行GWAS分析,研究表明,通过GLW7编码转录因子OsSPL13,促进籽粒颖壳增大,从而使籽粒变长,并增加产量.
以GWAS为关键词,在谷歌学术检索从2005年至今发表的文献数量,发现自2010年开始与GWAS相关的论文数量大幅增多,从2012年至今,论文年发表数量都在10000篇以上(图1).通过检索GWAS在几种植物中的应用可以发现,GWAS在拟南芥和水稻中有较为广泛的应用,在大豆、玉米等作物中也有应用(图2).
1 影响关联分析结果的主要因素
1.1 群体遗传结构
群体结构会影响QTL定位的准确性,对GWAS分析的准确度造成影响[11].由于群体结构的影响通常导致种群间遗传变异的等位基因频率存在差异,在与无关个体的关联研究中未检测到或未记录的种群结构有可能导致混杂和偏差,群体结构易混淆会导致在分析过程中出现虚假关联,因而评定GWAS中的群体结构十分重要[12].Chen et al[13]提出了一种逻辑混合模型,即广义线性混合模型关联测试(generalized linear mixed model association test,GMMAT),在二元特征和个体遗传变异之间没有关联的零假设下进行测试.通过模拟研究和数据分析证明,GMMAT在分析各种研究设计中的二元特征时有效地控制了种群结构和相关性.
1.2 上位效应
上位效应用于描述一个基因座对另一个基因座的掩蔽效应[14],也被广泛地称为跨表型的不同基因的联合效应.忽略上位效应可能会导致分析结果偏差并导致遗传缺失[15].上位关联分析的研究充实了数量遗传学内容.Zhang et al[16]提出了BEMA法,包括两个基本组成部分,分别是基于Markov链蒙特·卡罗方法(Monte Carlo)的贝叶斯上位推理工具和用于评估统计显著性的新型检验统计量.Zhang et al[17]提出了基于完整的多基因线性模型的PEPIS,专门为上位遗传估计而开发,包括四个独立的模块,亲属矩阵计算,多基因成分分析,主要效应和上位效应的基因组扫描或绘图.LU et al[18]提出了一种用于纯合作物的上位性关联作图(EAM)方法,用于进行EAM作图的分别是复杂性状的表型值以及分子标记信息.Gyenesei et al[19]提出的BiForce支持GWAS中上位性的高通量分析,用于定量致病性状研究.BiForce可以将上位性分析作为GWAS的常规运算,从而帮助我们理解在基因调控复杂性状过程中上位性起到的作用.
1.3 稀有等位频率
单一位点检验和多位点检验方法在稀有变量检验中存在局限性,导致在稀有变量数据检验中功效低和稳定性差.而近年来新出现的方法避免了这些问题.针对稀有位点设计的首个检验方法是由Morgenthaler et al[20]提出的队列等位基因加和检验(cohort allelic sums test,CAST);与CAST以一个区域内的稀有变量数目做二分类折叠稍有不同的是Morris et al[21]提出的通过计算稀有变量进行折叠的检验方法.随后又发展了2种方法,即多元与集合合并法(combined multivariate and collapsing,CMC)[22,23]和加权和法(weighted sum method,WSM)[23]以解决CAST中遇到的问题.Price et al[24]提出的可变阈值(variable-thresholds,VT)合并关联分析方法进一步改进了由于阈值选择性带来的问题.之后,Pan et al[25]提出了一系列的关联分析适应方法,根据不同的检验统计量、不同的变量排序方法,可以得到不同的适应检验方法,VT方法可以作为这种适应方法的例子.Neale et al[26]提出了C-α检验方法(C-alpha score),比较所有变量的分布观测方差和期望方差间的差距,从而能很好地规避不同作用变量位点带来的作用相消情况,当致病变量和保护性变量的个数相当时,此种方法的功效在所有已有方法中是最高的.Wu et al[27]提出序列核关联性检验(sequencing kernel association test,SKAT)检验方法,SKAT通过拟合只包含协变量的空模型,快速计算出p值,从而方便地应用于全基因组数据,并且具有显著的速度优势.
1.4 环境效应
环境因素和基因相互作用下可能会产生许多复杂的性状,这些SNP具有较弱的边际效应,在全基因组关联分析过程中可能被忽视[28].Aulchenko et al[29]使用probABEL进行了全基因组的环境相互作用研究,并建立了包含4分位数组的虚拟变量和SNP,并以此测试基因与环境的交互作用.Zhang et al[28]提出了一种两步测试法,代替传统的一步法,通过筛选优先考虑最可能参与基因与环境相互作用的SNP以提高效率.Kraft et al[30]提出了边际关联和基因-环境相互作用的联合检验,将该联合检验的功效和样本大小要求与其他分析进行比较,发现联合检验的结果更有说服力,结果的可靠性也不会随着边际检验的增加而降低.Murcray et al[31]提出的两步法可以通过结合初步筛选步骤构建,以有效地使用数据中的所有可用信息,并且证明这种两步法比各种模型的标准交互测试更强大.
2 不同关联分析对象使用的方法
随着关联分析的快速发展,GWAS已经成功地应用于多种数据的分析,如单核苷酸多态性(single nucleotide polymorphisms,SNP)、基因拷贝变异(copy number variations,CNV)、基因、转录水平等不同类型的数据.针对这些数据类型,关联分析产生了多种分析模型(表1),从而缩短计算时间,可以更有效地进行数据分析.
2.1 单核苷酸多态性
对于SNP基因座,可以采用广义线性模型(generalized linear model,GLM)和混合线性模型(mixed linear model,MLM)的方法分析.Wang et al[32]基于重叠基因以及由于LD引起的SNP之间的相关性两个问题,设计了广义线性混合模型.Aulchenko et al[33]提出的两步法,能够有效地减少由于个体数量庞大而导致的MLM计算时间增加.Lu et al[34]提出的BLVS方法,不仅考虑了SNP集之间的相关性,而且还能够检测与性状略微不相关的因果SNP集.Wang et al[35]提出了一种基于SNP之间的LD信息的新的标签化SNP集选择方法,可以含有最多信息的SNP.与传统分析方法相比,这种方法不仅具有更高功效,而且可以最小化所选标签SNP的数量,并最大化所选标签SNP提供的信息,具有较低的基因分型成本和较低的时间复杂度.
表1 关联分析软件功能及特点Table 1 Main functions and features of softwares relating to genome-wide association studies
2.2 基因拷贝变异
直接基因拷贝变异(copy number variations,CNV)能够有效地确定致病基因的遗传风险.Yoon et al[36]人开发了基于读取深度检测CNV的方法,可以分成3个阶段.(1)首先,估计个体基因组中非重叠区域的测序深度和覆盖度;(2)使用CNV-calling算法和EWT测试进行位点检测;(3)比较多个个体的数据,区分多态性位点和其他相似拷贝数的位点.计算窗口内的读取深度时,以100 bp为1个单位计算.由于GC碱基会引起读取深度偏差,首先需要用等式adjusted_read depth=read depth×m /(mGC)调整每个窗口的读取深度,其中adjusted_read depth是调整的读取深度,read depth是窗口的读取深度,m是染色体所有窗口的中值,mGC是与调整窗口具有相同GC含量的所有窗口的中值读取深度.调整GC含量后,再进行CNV检测.
2.3 基因
Gamazon et al[37]提出了名为PrediXcan的基于基因的关联方法,可直接测试遗传变异影响表型的分子机制.该方法估计由基因表达特征推定的基因组成的成分,并将“推定的”基因表达与研究中的表型相关联,以鉴定涉及表型的致病基因,使用参考转录组数据集得到的全基因组组织依赖性预测模型估计遗传调节的基因表达.Yano et al[38]使用GWAS的方法对全基因组序列进行分析,鉴定了水稻在农艺学上的重要基因,然后根据核苷酸多态性的估计效应筛选候选基因,通过使用这种方法,确定了4个与农艺性状相关的新基因,并且可以检测到标准SNP分析无法检测到的部分基因.
2.4 转录水平
关于转录组变异的GWAS,也称为eQTL作图,将遗传标记与数千个基因的表达变异联系起来,并证明了基因表达特征的单纯遗传基础,因为每个eQTL通常解释了大部分表型(表达水平)变异.GWAS在处理转录水平的数据时面临着两方面挑战,(1)统计能力有限,(2)在蛋白质非编码区存在SNP,使得解释它们的功能以及复杂性状的生物学机制变得复杂[39].Alexander et al[40]提出了应对策略,将基因表达量与GWAS的信息相结合,以识别其顺势调控的表达及与复杂性状相关的基因.利用表达归一化关联扫描(transcriptome-wide association study,TWAS)转录组数据,以识别显著的复杂基因与性状的关联.Kuna et al[41]提出的两阶段贝叶斯方法BAY-TS,不仅优于现有方法,而且是一种优于缺失数据和测量误差理论的标准方法.为了拟合基因的贝叶斯两阶段回归模型,使用该基因的k自助模型的βj分布作为第二阶段回归中的先验.
3 GWAS的未来展望
GWAS为大量的基因组测序提供了平台,现在已经成为检测基因变异与表型特征的有力工具.同时GWAS也面临着挑战,一些影响因素如缺失基因型、遗传异质性、上位性、低等位基因频率或复杂的遗传结构会直接影响GWAS结果的精确度.因此,针对此类问题,GWAS分析方法也将不断完善.随着功能标记开发、反向遗传学研究及生理学等学科的综合推进,高通量测序成本的降低,GWAS作为一种综合的分析方法,将会具有更为广阔的发展空间,可以快速识别出影响农艺植物粒型变异的位点,鉴定与农艺性状相关的基因,定向选育农艺作物,提高农艺作物产量,推动作物改良育种,在植物遗传育种中发挥更大的作用.