全基因组关联分析在植物中的应用
2013-08-14涂雨辰卢向阳
涂雨辰,田 云,卢向阳
(1.湖南省农业生物工程研究所,湖南 长沙410128;2.湖南农业大学生物科学技术学院,湖南 长沙410128)
1 GWAS的发展背景
重要的农艺性状如产量、作物品质以及植物抗病性是由多个基因控制的,均受连续变化且脆弱的环境影响。与单基因控制的性状相比,其遗传基础更为复杂。Visscher等[1]指出,众多科学和生物的发现已通过全基因组关联分析(GWAS)所验证。GWAS是经典的定量遗传理论的拓展,对基因的研究具有重大意义。作为一个整体,定量特征是由许多具有同等作用的微效基因互相影响,通过建立遗传模型和估计遗传方差,选择统计参数来进行研究。许多经典的定量遗传模型都在育种实践中发挥着重要作用,比如籽粒的淀粉[2]和维生素A原含量[3]、小麦的籽粒大小和研磨品质[4]、拟南芥(Arabidopsis thaliana)的开花期[5]和抗病性[6]等。然而,在“Micro-effect gene”理论中,具体影响数量性状的基因尚未发现,分子生物学机制的定量特征变化也未能得出确切结论。近年随着生物技术的发展,尤其是分子标记技术的出现与发展,人们对量化特征的认识从基因水平发展到数量性状分析水平,充分说明理解遗传机制的定量特征已经上升到分子水平的高度。
此外,植物的数量性状往往受到等位基因多样性的影响,而传统研究仅能得到有限的基因组相关解析。GWAS克服传统基因映射方法的一些局限性,通过提供更高的分辨率,在基因水平上利用样本的数量关联到表型变化的差异。由于高密度单核苷酸(SNP)多态性的出现,进行全基因组扫描时,能识别很小范围的与数量性状变异显著相关的单元型域。这些方法的出现使得研究性状的可能性不断增大。目前,GWAS已经确定了许多与性状相关的重要位点,为生产实践提供理论指导。
2 GWAS的研究原理及研究策略
与日益普及的基因组多态性数据相比,GWAS正成为研究遗传学定量特征的默认方法。通过GWAS,已经发现了数以百计的遗传变异与人类疾病相关的复杂的特征,彻底改变了人类基因图谱,并且现在也广泛应用于植物研究中。
GWAS的研究原理是:在基因水平上通过分子标记的手段,对整个基因组内的SNP进行综合分析与分型,再将不同表现的性状变异统计出来,提出假设,并且验证其与期望性状间的关联性。
GWAS的研究策略类似于传统的候选基因法。在设计初始GWAS实验时,一般分成两个阶段:首先对整个基因组SNP基因分型芯片和SNP多态性进行统计分析,通常能够筛选少量阳性SNPs,然后在更多样本中对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。GWAS两阶段研究策略减少了工作量和成本,通过重复实验也减小了误测率;但是在第一阶段,所有可能与疾病相关联的SNP多态性的样本量不足。为了寻找更多的易感基因位点,目前常用的方法是扩大GWAS的样本量,即在同一时间适当放宽第一阶段的选择标准并扩大验证SNP多态性的范围。
3 GWAS在植物中的应用
3.1 在玉米育种方面的应用
在过去的20年中,伴随着基因组学以及分子标记技术的飞速发展,作物遗传育种方面的研究得到有效且深入的开展。在玉米研究方面,2011年《Nature Genetics》上发表了1篇关于GWAS研究玉米相关性状的文章。文中通过GWAS得到一个玉米嵌套的关联映射面板,确定了玉米重要叶片结构的基础架构特征和一些关键基因,并证明了叶片性状、基因结构是受基因多效性及环境相互作用的影响。GWAS结果表明,突变体基因的变化导致更多的叶片向上生长。玉米的多样性对GWAS来说是个挑战,然而,在玉米Hap Map中160万个SNPs位点被鉴定、嵌套关联绘图(NAM)也有所发展之后,在玉米研究中有效开展GWAS不再是难题。玉米NAM嵌板是基于一个参考线,由25条不同的交叉线组成,然后产生5000个重组自交系(RILs)。作者运用这种新型的玉米NAM设计并分析向上叶片角度的结构、叶片长度以及宽度,再运用Joint stepwise regression鉴定出30~36个QTLs,解释了74.8%~80.3%的表型变异,以及大于83%的遗传方差。为了进一步剖析这些QTLs,通过输入160万个 Hap Map SNPs位点进行GWAS分析,发现27个NAM母系映射到RILs上。在160万个测试的SNPs中,作者探测到与叶片角度、长度、宽度相关的SNP位点分别是203、287、295。在其它复杂的玉米性状里也能观察到类似的基因结构[7,8],与动物一样[9],对自花授粉植物有更大的 影响[10-12]。这些结果表明复杂性状的基因结构在异形杂交和自交的物种中的进化程度相同。
3.2 在大麦及大豆分子标记研究中的应用
Lorenz等[13]研究发现,大麦中单独关联到早熟性状的位点对应着33个染色体区域,并确定了15个与其它性状相关的重要标记和7个区域[14]。对于每一个性状的分析,都需要经过包括SSR、SNP和DArT在内的760个标记来确定。研究发现,共有130个显著特征关联标记以及8~22个重要位点,这也代表了62个标记存在于除染色体5d之外的所有染色体上。而观察图谱的位置,最明显的候选基因(Ppd-1,Vrn-1,Vrn-2,Vrn-3,Vrn-4,Rht-1)也表现出显著的相关性[15-18]。而在大豆中,关联到重要性状的重要位点分别为I、T、W1、R、O[19,20],这些位点的确定对植物生长和作物生产实践都起到重大的作用。
3.3 在挖掘水稻重要遗传基因位点方面的应用
世界上约一半人口以大米为主食,但其产量常常受到大量病原微生物或昆虫的严重威胁[21-23]。为了有效识别遗传多样性的种植水稻种质资源,挖掘水稻高品质性状相关的基因、培养遗传改良品种的水稻,对水稻实践生产意义重大。
近年来开展的全基因组测序分析可通过基因组之间的差异挖掘出与水稻重要性状相关的位点。研究者分别对517类不同的水稻种质测序,鉴定出360万个SNP序列,构成一个水稻基因高密度单体型图。通过GWAS研究,解释了水稻品种中36%的表型方差,将其分为以下5类农艺性状:形态特征(分蘖数、叶角度)、收益率(谷粒宽度、粒长、千粒重和小穗数)、粮食质量(糊化温度和直链淀粉含量)、着色(顶端颜色、果皮颜色和外壳颜色)和生理特性(抽穗期、抗旱能力和种子破碎的程度)。通过GWAS研究,确定了稻籼亚种的14个农艺性状。研究者将高通量基因组测序技术应用于950份来自不同国家的水稻种质材料中,通过基因分型鉴定基因的变异。该体系能高效、准确地确定多个重要性状的关联位点,分别鉴定出1个控制花期的位点和10个与粮食主产性状相关的32个新位点[24]。
3.4 在拟南芥性状研究中的应用
研究复杂性状的遗传基础,如开花时间、伸长速度和产量,已经成为改善作物和了解植物适应性的重点。拟南芥分布广泛,一直是研究植物自然变异和适应性的极具价值的模式植物。通过全基因组基因分析,Aranzana等确定了拟南芥基因中控制自然变异、开花时间和病原体抵抗的相关位点。通过分析拟南芥的107种表型,GWAS搜寻到250 000个SNP位点[25]。通过GWAS来识别潜在的反应变异,其中最为明显的反应为控制下胚轴的伸长。结果表明,这些性状的变异受基因座的影响,符合YUCCA5、YUCCA9和RGA1 3组基因的控制模式。YUCCA5和YUCCA9都参与生长素生物合成,而RGA1是DELLA家族的成员。下胚轴表型包括在这项研究中,它们是高度的高R:FR条件(模拟太阳)、高度的低R:FR条件(模拟阴影)和2个不同指数响应低R:FR条件。GWAS结果表明,这些性状的变异由许多基因座的低到中度影响控制。
不同作物重要性状的相关位点见表1。
表1不同作物重要性状的相关位点Tab.1 The related loci of important traits for different species
4 结语
GWAS为大量的基因组测序提供了一个很好的平台,由于其技术方法能扩展到在生态环境中且能适应遗传变异的结构化背景,与人类疾病GWAS相比,在植物研究中获得了更大的成功[30]。为了能更高效地运用GWAS技术,首先,在选择基因样本时,应尽量选择优质品种的优良基因,以提高分析的精确度与有效性;其次,SNP位点对作物性状的影响基于影响基因的表达程度,所以应该提高对基因编码区以及相关调控方式的认识,更确切地了解植物复杂性状的成因;最后,GWAS能够一次性对重要性状进行轮廓性概览,适用于复杂性状的研究。在全基因组层面上,开展多中心、大样本、反复验证的基因与性状的关联研究,是全面揭示疾病发生、控制其发展的重要手段。
由于植物性状与基因组之间的关系受多种因素的作用[31],GWAS也面临着一些问题,如结果不能完全解释某些复杂性状等。但随着功能标记开发、反向遗传学研究及生理学等学科的综合推进,作为一种综合性的分析方法,GWAS必将迎来更为广阔的发展空间。在提高自动化和高效率的同时,通过降低成本、挖掘与植物重要经济性状或生理性状相关的位点,GWAS必将在植物遗传育种中发挥更大的作用。
[1]Visscher P M,Brown M A,McCarthy M I,et al.Five years of GWAS discovery[J].Am J Hum Genet,2012,90(1):7-24.
[2]Wen W,Mei H,Feng F,et al.Population structure and association mapping on chromosome 7using a diverse panel of Chinese germplasm office(Oryza sativa L.)[J].Theor Appl Genet,2009,119(3):459-470.
[3]Harjes C E,Rocheford T R,Bai L,et al.Natural genetic variation in Lycopene epsilon cyclase tapped for maize biofortification[J].Science,2008,319(5861):330-333.
[4]Breseghello F,Sorrells M E.Association mapping of kernel size and milling quality in wheat(Triticum aestivum L.)cultivars[J].Genetics,2006,172(2):1165-1177.
[5]Olsen K M,Halldorsdottir S S,Stinchcombe J R,et al.Linkage disequilibrium mapping of Arabidopsis CRY2flowering time alleles[J].Genetics,2004,167(3):1361-1369.
[6]Aranzana M J,Kim S,Zhao K,et al.Genome-wide association mapping in Arabidopsis identifies previously known flowering time and pathogen resistance genes[J].PLoS Genet,2005,1(5):e60.
[7]Buckler E S,Holland J B,Bradbury P J,et al.The genetic architecture of maize flowering time[J].Science,2009,325(5941):714-718.
[8]Laurie C C,Chasalow S D,LeDeaux J R,et al.The genetic architecture of response to long-term artificial selection for oil concentration in the maize kernel[J].Genetics,2004,168(4):2141-2155.
[9]Flint J,Mackay T F C.Genetic architecture of quantitative traits in mice,flies,and humans[J].Genome Res,2009,19(5):723-733.
[10]Koornneef M,Alonso-Blanco C,Vreugdenhil D.Naturally occurring genetic variation in Arabidopsis thaliana[J].Annu Rev Plant Biol,2004,55(4):141-172.
[11]Takahashi Y,Teshima K M,Yokoi S,et al.Variations in Hd1 proteins,Hd3apromoters,and Ehd1expression levels contribute to diversity of flowering time in cultivated rice[J].Proc Natl Acad Sci USA,2009,106(11):4555-4560.
[12]Turner A,Beales J,Faure S,et al.The pseudo-response regulator Ppd-H1provides adaptation to photoperiod in barley[J].Science,2005,315(5750):1031-1034.
[13]Lorenz A J,Hamblin M T,Jannink J L.Performance of single nucleotide polymorphisms versus haplotypes for genome-wide association analysis in barley[J].PLoS One,2010,5(11):e14079.
[14]Jin X L,Wei K,Zhang G P.A genome-wide association analysis of quantitative trait loci for protein fraction content in Tibetan wild barley[J].Biotechnology Letters,2012,34(1):159-165.
[15]Pasam R K,Sharma R,Malosetti M,et al.Genome-wide association studies for agronomical traits in a world wide spring barley collection[J].BMC Plant Biol,2012,12(1):16.
[16]Varshney R K,Paulo M J,Grando S,et al.Genome wide association analyses for drought tolerance related traits in barley(Hordeum vulgare L.)[J].Field Crops Research,2012,126(1):171-180.
[17]Wang H Y,Smith K P,Combs E,et al.Effect of population size and unbalanced data sets on QTL detection using genome-wide association mapping in barley breeding germplasm[J].Theoretical and Applied Genetics,2012,124(1):111-124.
[18]Wang M H,Jiang N,Jia T,et al.Genome-wide association mapping of agronomic and morphologic traits in highly structured populations of barley cultivars[J].Theoretical and Applied Genetics,2012,124(2):233-246.
[19]Yang K,Jeong N,Moon J K,et al.Genetic analysis of genes controlling natural variation of seed coat and flower colors in soybean[J].J Hered,2010,101(6):757-768.
[20]Palmer R G,Pfeiffer T W,Buss G R,et al.Qualitative Genetics in Soybeans:Improvement,Production,and Uses(3rd ed)[M].Madison(WI):ASA,CSSA,and SSSA,2004:137-214.
[21]Clark R M.Genome-wide association studies coming of age in rice[J].Nat Genet,2010.42(11):926-927.
[22]Inagaki Y S,Etherington G,Geisler K,et al.Investigation of the potential for triterpene synthesis in rice through genome mining and metabolic engineering[J].New Phytol,2011,191(2):432-448.
[23]Huang X H,Zhao Y,Wei X H,et al.Genome-wide association study of flowering time and grain yield traits in a worldwide collection of rice germplasm[J].Nat Genet,2012,44:32-39.
[24]Arite T,Umehara M,Ishikawa S,et al.d14,A strigolactone-insensitive mutant of rice,shows an accelerated outgrowth of tillers[J].Plant Cell Physiol,2009,50(8):1416-1424.
[25]Atwell S,Huang Y S,Vilhjálmsson B J,et al.Genome-wide association study of 107phenotypes in Arabidopsis thaliana inbred lines[J].Nature,2010,465(7298):627-631.
[26]Huang X H,Wei X H,Sang T,et al.Genome-wide association studies of 14agronomic traits in rice landraces[J].Nat Genet,2010,42(11):961-967.
[27]Li Q,Yang X,Xu S,et al.Genome-wide association studies identified three independent polymorphisms associated withα-tocopherol content in maize kernels[J].PLoS One,2012,7(5):e36807.
[28]Raman H,Stodart B,Ryan P R,et al.Genome-wide association analyses of common wheat(Triticum aestivumL.)germplasm identifies multiple loci for aluminum resistance[J].Genome,2010,53(11):957-966.
[29]Yu L X,Morgounov A,Wanyera R,et al.Identification of Ug99 stem rust resistance loci in winter wheat germplasm using genome-wide association analysis[J].Theor Appl Genet,2012,125(4):749-758.
[30]Hindorff L A,Sethupathy P,Junkins H A,et al.Potential etiologic and functional implications of genome-wide association loci for human diseases and traits[J].Proc Natl Acad Sci USA,2009,106(23):9362-9367.
[31]Ku C S,Loy E Y,Pawitan Y,et al.The pursuit of genome-wide association studies.Where are we now?[J].J Hum Genet,2010,55(4):195-206.