关联分析在水稻产量性状遗传研究中的应用
2021-03-29卢钰霞张再君田志宏
卢钰霞,张再君,田志宏*
(1.长江大学生命科学学院湿地生态与农业利用教育部工程研究中心 涝渍灾害与湿地农业湖北省重点实验室,湖北 荆州 434025;2.湖北省农业科学院粮食作物研究所 粮食作物种质创新与遗传改良湖北省重点实验室,湖北 武汉 430064)
水稻是重要的粮食作物之一,是全球约一半人口的主食。为满足随人口增长及经济快速发展带来的日益增加的粮食需求,迫切需要进一步提高水稻产量。在适宜的生长环境中,水稻产量主要由每穗粒数、粒重和单株有效穗数决定[1-2]。水稻产量性状高度复杂,由多个子性状决定。例如,每穗粒数主要由小穗结实率和穗型决定,其中穗型由分枝的数量、长度和小穗密度组成[3]。此外,小穗内的小花数也是影响每穗粒数形成的一个重要因素[3-4]。水稻高产育种时,千粒重是决定产量的三要素之一,主要受粒型影响,粒型又取决于籽粒的长度、宽度及厚度3个子性状[1]。每株有效穗数则取决于水稻的分蘖势力[5]。
水稻产量属于复杂的数量性状,受多基因协调控制,同时也受环境因素影响[6]。从水稻品种中挖掘与水稻产量或产量相关子性状的相关基因,了解其遗传和分子机制,可为水稻产量性状改良提供新策略。当前,QTL作图(quantitative trait locus mapping)和关联作图(association mapping)是鉴定植物数量性状相关基因及基因功能表征的有效手段[7-9]。近几十年来,通过QTL作图和关联作图,已成功鉴定得到许多与水稻重要农艺性状相关的位点或候选基因[10-12]。其中,关联作图又称关联分析(association analysis)或连锁不平衡作图(linkage disequilibrium mapping,LD mapping),是基于连锁不平衡,根据遗传标记和性状之间的相关性强度来检测和定位数量性状位点的方法。与QTL作图相比较,关联作图具有以下几个优势:(1)关联作图具有更高的定位分辨率,可达到单基因水平;(2)关联作图研究对象一般为自然群体,可减少构建定位群体的时间;(3)关联作图可同时对多个等位基因进行分析,增加等位基因数量[13-14]。基于以上优势及测序成本的降低,关联分析成了植物遗传研究的热点手段之一,并在水稻遗传研究中发挥了重要作用。
本文主要概述关联分析的基本原理及分析策略,简述关联分析在水稻产量性状遗传研究中的进展,并探讨关联分析在水稻高产育种中的应用前景。
1 关联分析的基本原理
1.1 关联分析的理论基础
关联分析的理论基础是连锁不平衡(linkage disequilibrium,LD),连锁不平衡又称配子不平衡或配子相不平衡,是指不同基因座等位基因之间非随机关联。与连锁(linkage)不同的是,LD是指群体中等位基因之间的相关性,而连锁是指基因座通过染色体上的物理连接而产生的相关遗传[15]。群体内的LD是突变、重组和其他一些因素累积产生的结果,位点间紧密的连锁可能会导致高程度的LD,同一染色体或者不同染色体的基因座之间均可出现连锁不平衡状态[14]。LD在关联分析中起重要的作用,LD持续的距离将决定用于关联分析的标记数量和密度[16-17]。
1.2 连锁不平衡的度量
LD是指2个或2个以上基因座的等位基因的非随机关联,统计的是不同位点间等位基因单倍型的实际观测频率与期望频率之间的差值。假如有2个基因座A、B,其等位基因分别为A、a和B、b,构成单倍型有AB、Ab、aB、ab。4个等位基因的频率分别为PA、Pa、PB、Pb;4种单倍型的频率表示为PAB、PAb、PaB、Pab。则LD的基本定义式为DAB=AB-PA·PB,其中AB表示单倍型(或配子)AB的实际观测频率,PA和PB分别表示等位基因A和B的频率。D值的取值范围高度依赖于等位基因频率,因此,鲜少将D作为LD值的衡量指标。对于双等位基因和多等位基因数据,有几种标准化的LD度量方法[18]。其中应用最广泛的是D′(个体LD值的标准化测量)和r2(双等位基因的相关系数r)[19],其中D′是对仅衡量样本的重组差异,r2则反映了样本的重组史和突变史[18]。D′和r2的取值范围均为0~1。当D′,r2=1,表示2位点间完全连锁;当D′,r2=0时,则表示2位点间处于连锁平衡状态[20]。D′,r2取值越大,连锁不平衡程度越高。当样本容量较小时,4种低频多态性等位基因组合概率降低,这将导致高度不稳定的D′值,因此,D′不适用于小样本容量的研究[21]。r2预示标记与候选的QTL间可能存在的相关性大小,所以在关联分析中,通常r2是首选的LD衡量指标[15,18]。在鉴定与表型性状变异显著相关的SNP或单倍型时,r2是最合适的LD衡量指标[13]。
利用D′衡量群体的LD值,一般以D′=0.5或最大D′和最小D′的中间值来描述LD在染色体上的衰减距离;若以r2衡量群体的LD值,则一般以r2=0.1或r2=0.2来描述LD在染色体上的衰减距离[13,20]。如果LD在很短的距离内衰减,预计映射分辨率较高,但需要大量的标记;相反,如果LD延伸的距离较长,则需要的标记数量相对较少,但映射分辨率较低[13]。有2种常见的方法用于可视化等位基因之间的LD程度:(1)LD衰减散点图,用于可视化LD随遗传或物理距离衰减的速率;(2)LD矩阵,是某基因内或某染色体上多态性位点间LD的线性排列[9,21]。
1.3 连锁不平衡的影响因素
群体的LD程度受许多遗传和非遗传因素影响,如重组、遗传漂变、选择和交配模式等[17,22]。突变产生的多态性是LD形成的原因,多态性间的重组会削弱染色体内部的LD程度,而多态性间的自由组合将会打破染色体内部的LD程度[15]。种群交配模式对LD具有很强的影响,其对LD的影响主要取决于群体内等位基因的有效重组率,自交物种个体趋于纯和,所以在发生减数分裂时自交物种的有效重组率比异交物种的有效重组率低。因此,与异交物种相较而言,自交物种的LD程度较高,LD衰减速度较异交物种慢。LD也可以在经历种群大规模减少并伴随极端遗传漂变的种群中产生。种群再分及混合(即不同群体的个体间互交而导致种群间基因流动)将导致LD程度增加,但其影响取决于种群数量、种群间的交换率和重组率[22-23]。此外,选择会导致群体遗传多样性降低,从而导致LD增加。
2 关联分析策略及其在水稻产量性状遗传研究中的应用
2.1 关联分析策略
关联分析利用自然群体中的祖先重组事件来产生标记-表型关联[24]。目前关联分析的应用包括基因组关联分析(genome wide association,GWAS)和候选基因关联分析(candidate gene association analysis,CGAS),GWAS主要用于分析一定密度均匀覆盖于全基因组的单核苷酸多态性(single nucleotide polymorphism,SNP)和目标性状之间的相关性,而候选基因测试只对候选基因进行测序,通常用于分析特定基因的突变体,识别有助于作物改良的等位基因[7,25]。两者都取决于研究群体的大小和LD程度,基于全基因组扫描的关联分析在中度至重度LD的群体中最有效,而基于候选基因的关联分析则更适用于低LD群体[24]。
2.2 GWAS及其在水稻产量性状遗传研究中的应用
基于LD的GWAS技术是近年来挖掘植物复杂性状基因或数量性状位点的一种有效方法[26],能够最大限度地利用自然群体中不相关个体的遗传变异来获取更多与相关表型显著关联的位点,而不需要额外构建定位群体[12]。水稻GWAS中关联显著性阈值的确定至关重要,对于不同群体和不同标记数量的水稻GWAS,没有固定的阈值。通常有几种方法用于确定P值的显著性阈值,以控制全基因组关联分析中发生的Ⅰ类错误,如最小贝叶斯系数(minimum Bayes factor,mBF)[27]、错误发现率(false discovery rate,FDR)[28-29]、Bonferonni校正(Bonferonni correction)[29-31]等。
多项研究证实,GWAS是揭示水稻复杂性状遗传变异和鉴定候选基因的有效手段[32-34]。例如,Huang等[35]对950份来自世界各地的水稻品种的抽穗期及籽粒相关性状的表型进行GWAS分析,检测到Waxy、ALK、Rc、OsC1及GS3基因的功能性突变与先前的报道一致,另外还发现了32个与抽穗期相关的新位点,10个与籽粒性状相关的新位点。籽粒性状是决定水稻产量和品质的关键因素,了解水稻籽粒自然变异的遗传基础可以帮助育种家培育高产水稻品种。Feng等[26]利用5 291个单核苷酸多态性(SNPs)对全球469份不同水稻种质进行了关联定位,总共检测到424个候选基因,除已知的基因外,还检测到了11个新的关联位点,另外还在3个不同环境中检测到与粒长、粒宽、长宽比和千粒重相关的位点分别有3、18和2个,在2个不同环境中检测到3、11、6和1个分别与粒长、粒宽、长宽比和千粒重相关的位点。这些位点对籽粒性状的调节较稳定,受环境因素影响较小,将有助于利用分子标记辅助选择进行水稻粒型改良育种。通过GWAS和基因功能分析,Duan等[36]鉴定出1个调控水稻籽粒大小的新基因GSE5,研究表明,GSE5功能缺失将导致籽粒变宽,粒重增加,而过表达GSE5基因将导致籽粒宽度变小。利用996 722个SNPs标记对270份水稻种质资源的粒长和粒宽进行了全基因组关联分析,Ma等[37]鉴定出粒长和粒宽的数量性状位点分别有5和4个,还鉴定出1个抗旱候选基因OsSNB同时负调控籽粒大小。通过候选基因分析发现,OsSNB基因启动子区225 bp的Indel与粒宽高度相关,另外还设计了OsSNB_Indel2标记作为水稻粒宽改良的功能性标记。
分蘖数决定水稻的有效穗数,有效穗数是决定水稻产量的重要因素之一,分蘖数过多会导致过多的无效分蘖,分蘖数过少则会导致过少的有效分蘖,因此,适量的分蘖数是水稻高产的重要条件之一。研究表明[38],水稻分蘖数主要受多基因调控,并且存在多条信号途径共同影响水稻分蘖的发生,因此,为充分发挥水稻的产量潜力,必须挖掘更多有利用价值的水稻分蘖基因或有益突变体,并揭示其分子机制。利用GWAS已经成功鉴定出与水稻分蘖数自然变异相关的基因座。张继峰等[39]利用788 396个SNPs和295份粳稻品种进行GWAS分析,检测与粳稻分蘖数显著相关的SNP位点,筛选得到LOC_Os09g25090和LOC_Os09g25100影响粳稻分蘖数的候选基因。Zhao等[34]利用219份韩国水稻高质量的SNPs数据,和不同生长阶段水稻的分蘖数及与分蘖数相关的抽穗期进行GWAS分析,在与水稻分蘖数显著相关的位点上检测到几个候选基因,其中,候选基因OsRLCK57参与分蘖发育,与分蘖前期的分蘖数相关;与发育阶段转换相关的OsHAM1、OsHAM2和OsTOC1与最大分蘖期的分蘖数相关;HD1与水稻的有效分蘖率和抽穗日期同时相关,说明光周期抽穗基因直接控制水稻的有效分蘖率。结果表明,参与发育阶段转换相关的基因,以及调控水稻分蘖发育的基因也可以决定水稻不同生育阶段的分蘖模式。
每穗粒数作为水稻产量的主要组成因素,对水稻增产起着至关重要的作用。对不同环境条件下的自然优势变异进行识别,可促进水稻产量的可持续遗传改良。Xie等[40]利用1个包含154份籼稻和119份粳稻的微核心种质,在7个不同环境下进行了每穗粒数的关联研究,在籼稻中确定了20个有益基因型和24个负控基因型,在粳稻确定了24个有益基因型和16个负控基因型。对有益基因在籼粳稻中的累积效应进行研究发现,在籼稻中鉴定得到的有益基因的积累,可提高所有环境中籼稻和粳稻的每穗粒数,而在粳稻中鉴定得到的有益基因的积累并无此明显效应,特别是在短日照环境中表现明显。每穗粒数取决于穗型结构,穗型结构由一系列不同分枝组成:穗轴、一级分枝、二级分枝、三级分枝及小穗。每个小穗将产生一粒种子,因此,研究和分析水稻穗型遗传机制将有助于提高水稻的每穗粒数,进而提高水稻产量。Ta等[41]利用越南159个传统水稻品种和3个参考水稻品种(Nipponbare、IR64和Azucena)组成的群体进行全基因组关联分析,鉴定出29个稳定的穗部性状QTLs,为研究穗部结构的遗传决定因素提供了新的信息。
水稻增产可通过基因渗入或杂交改良重要农艺性状来实现。杂种优势是获得水稻超高产育种的重要途径之一,利用高密度标记对多亲本群体进行遗传作图可以揭示杂种优势的遗传基础。Zhen等[42]利用14个雄性不育系和39个恢复系杂交得到约500份F1杂种材料,通过全基因组关联分析确定了多个与F1杂种的产量性状、父本杂种优势及配合力相关的QTL,其中Hd3a、qGL3、OsmiR156h和LAX2在这些QTLs中被确定为候选基因,进一步分析发现,雄性不育系和恢复系对杂种F1代的优势等位基因贡献不同,且对不同性状的贡献也不同。Huang等[43]开发了一种完整的基因组方法来构建1 495个优良杂交水稻品种及其自交系的基因组图谱,与38个农艺性状进行关联分析,确定了130个相关位点,对杂合基因型效应的深入分析表明,杂种中只有少数几个位点具有较强的超显性效应,但产量与优势等位基因的数量有很强的相关性。
2.3 候选基因关联分析在水稻产量性状遗传研究中的应用
候选基因的关联分析是基于基因水平将对目标性状有很大贡献的优势等位基因从自然群体中挖掘出来。对于多效基因,不同的多态性位点可能与不同性状独立关联,因此,候选关联分析可以从基因水平剖析不同位点与性状的相关性。Yu等[44]将504份栽培稻品种和约10万个SNPs位点进行全基因组关联研究,鉴定得到92个与粒长相关的新位点。在连锁和关联作图的基础上,扫描定位同一QTL的双亲杂交组合的Ho(观察到的每个位点的杂合度)指数(即Ho-LAMap法),鉴定出2个新的粒长基因。随后利用Ho-LAMap法克隆1个新的基因OsLG3,正向调控籽粒长度,该基因可以在不影响稻米品质的情况下提高水稻产量。Xiong等[25]通过候选基因关联分析,发现OsLG3启动子的自然变异与水稻种子对渗透胁迫的耐受性有关,过表达OsLG3显著提高了水稻对模拟干旱的耐受性,而抑制OsLG3的表达则导致了更高的敏感性。含有OsLG3IRAT109优良等位基因的导入系和转基因系表现出较高的耐旱性,表明OsLG3的自然变异有助于水稻的耐旱性。以上结果表明,OsLG3是一个多效基因,它对水稻籽粒长度和耐旱性有共同的贡献,是水稻抗旱性和产量改良的重要遗传资源。Lu等[45]对104份栽培稻(O.sativa)和3份普通野生稻(O.rufipogon)的种质资源进行了测序,利用候选基因关联分析技术,以鉴定Ghd7中影响株高、抽穗期、单穗粒数的不同等位基因/单倍型和关键SNP,除了先前报道的Ghd7的第一个外显子过早终止突变导致多种性状的表型改变外,还发现了位于ATG上游918 bp的C/T功能性突变,C/T突变可能通过改变基因表达调节株高。检测到的与水稻重要农艺性状显著关联的变异,可直接设计作为水稻育种的分子标记。Vemireddy等[46]通过对200个水稻品种进行定向重测序,揭示影响产量的6个关键基因(DEP1、Ghd7、Gn1a、GS3、qSW5和sd1)中与产量性状显著相关的有益等位基因,鉴定出91个新的有益等位基因,进一步的单倍型分析表明,部分水稻基因型具有罕见的单倍型,特别是高产品种,具有有益等位基因和罕见单倍型的水稻品种,在水稻育种中具有巨大的应用价值。鉴定出的优良单倍型可通过单倍型辅助育种应用于水稻育种研究中。此外,Abbai等[47]利用基因组测序数据及表型数,对120个基因进行候选关联研究和单倍型分析,筛选出21个调控10个籽粒产量和品质性状的强关联基因,并报道了与水稻产量和品质显著相关的优异单倍型。并进一步指出,利用目标基因的优良单倍型组合,通过单倍型育种开发出适合未来食物和营养需求的下一代定制水稻是可行的。
2.4 影响关联分析结果的因素
众所周知,群体结构可能会导致虚假的相关性,致使假阳性率升高,种群结构的影响可以通过在基因组中使用大量独立的遗传标记来修正[24]。此外,为了减轻并消除关联分析中由群体分层引起的假阳性,前人提出了一系列方法[14]。其中,Q+K MLM模型和PCA+K MLM模型能够较好避免由群体分层引起的假阳性[9]。研究者可根据研究需要选择合适的统计方法。
3 关联分析在水稻育种工作中的应用
水稻育种的本质是优良等位基因的选择与聚合,许多基因及其不同的等位基因组合参与决定稻米的最终大小、形状和重量[1]。等位基因在多个基因间的叠加性和上位性作用,使得一些有利等位基因的组合可以改良性状,而其他组合无法改良性状[48]。因此,为达到最佳的性状改良目标,需考虑等位基因间相互作用。
单倍型育种是最近一种有希望开发定制作物品种的育种方法,它涉及到优良单倍型的鉴定及其在育种计划中的应用[49]。关联分析作为一种高效的QTL鉴定工具,可同时对多个等位基因进行鉴定,筛选到最优等位基因的效率更高。利用候选基因关联分析对目标基因和相关性状进行关联研究,并结合单倍型分析,可鉴定得到对表型有益的自然变异位点和优异单倍型。所鉴定出的优良单倍型和携带这些优良单倍型的种质资源,将为利用单倍型育种技术开发新水稻品种提供重要的科学依据。此外,还可对鉴定得到的功能性突变位点设计引物,这将有助于分子标记辅助选择育种。基于CRISPR-Cas9的QTL多重编辑是一种新的育种策略,既简单又经济高效[50]。研究者可利用CRISPR-Cas9的QTL多重编辑技术与关联分析技术相结合,对于关联分析鉴定得到的有益突变位点及优异单倍型进行验证,为定制水稻育种方案设计提供科学依据,进一步提高育种效率。