关联分析在林木改良育种中的作用
2013-04-11刘希华张丽邢建宏梁一池
刘希华,张丽,邢建宏,梁一池
(1.三明学院资源与化工学院,福建三明365004;2.内蒙古赤峰市林业科学研究院,内蒙古赤峰024000)
关联分析在林木改良育种中的作用
刘希华1,张丽2,邢建宏1,梁一池1
(1.三明学院资源与化工学院,福建三明365004;2.内蒙古赤峰市林业科学研究院,内蒙古赤峰024000)
林木生长周期长,遗传背景复杂等独有的特点,影响了遗传改良的进程。作为第三代分子标记——SNP具有双等位性,丰富度高,较低的突变率,易于自动化分析等特点,通过LD作图,可构建高分辨率的遗传图谱,在功能基因组研究中有重要的作用,加速林木育种技术的革新。
分子标记;单核苷酸多态性;连锁不平衡;关联分析
目前,我国成为全球森林资源增长最快的国家,到2010年全国森林覆盖率将达到20%,年均增加森林面积6000多万亩,人工林面积年均增量占全球年均增量的53.2%,将成为全球森林资源增长最快的国家。因此,急需生产速度快,材性优的良种,营造优质人工林对我国国民经济和社会发展有着重要作用。但是林木生长周期长,必须依靠现代生物技术与常规育种技术相结合,进而缩短育种周期,加速育种进程,创造新种质,选育新品种,营造优质人工林,以缓解木材供需矛盾,增加林业收益。
为了合理经营和利用现有的森林资源及加速林木的遗传改良进程,迫切需要对影响森林生产力、适应性和抗性的分子遗传学机制进行更深入的研究。随着人类、拟南芥、水稻和杨树全基因组测序工作的完成和许多可利用的ESTs数据库的建立,人们把注意力迅速转移到研究自然群体中的个体间的遗传变异形式。单核苷酸多态性(single nucleotide polymorphisms,SNPs)是真核生物中最常见的遗传变异形式。近年来,随着模式植物全基因组测序的完成,植物基因组学的研究已经呈现出由简单质量性状向复杂的数量性状转移的趋势,特别是大量SNP标记的开发以及生物信息学的迅猛发展,应用关联分析方法发掘植物数量性状基因已成为目前国际植物基因组学研究的热点之一。关联分析(association analysis),又称连锁不平衡作图或关联作图,是一种以连锁不平衡为基础,鉴定某一群体内目标性状与遗传标记或候选基因关系的分析方法[1]。与连锁分析相比,关联分析优点有三:(1)花费的时间少。一般以现有的自然群体为材料,无需构建专门的作图群体;(2)广度大。可以同时检测同一座位的多个等位基因;(3)精度高。可达到单基因的水平[1-3]。
本文就SNPs在树木改良中的作用做详细论述,期望对林木遗传改良提供一些研究基础。
1 早期选择与分子标记辅助选择
林木作为多年生木本植物,其生长周期长,遗传杂合性高,遗传机制不明,而且许多重要经济性状是属于多基因控制的数量性状,这使得常规育种手段往往难以满足不同目的定向培育林木新品种的要求[4]。因此林木遗传改良计划必须从近期和长期两个方面对所花费的时间和可能得到的增益加以平衡。林木育种工作者长期以来一直在寻求一种可以缩短育种周期的捷径,对林木早期选择日益深入的研究,为育种工作者实现这一目标提供了有益的帮助。早期选择一直是育种学家关心和感受到棘手的问题之一,长期以来林木早期选择的精确和可靠程度一直没有很好解决。借助遗传图谱上的分子标记进行目的性状的早期选择潜力很大,将使林木育种项目获得巨大的效益。通过构建高密度遗传连锁图谱还可有效地快速定位和克隆目的基因,为有效地进行遗传资源的收集和保存提供科学依据[5-7]。
利用分子标记跟踪基因的转移情况,使之与要选择的基因紧密连锁,可在早期筛选分离群体中含有目的基因的植株。同时确定育种材料中是否存在有用的遗传变异,并采用有效途径把目标基因转移到品种中,是植物育种项目的两方面工作。利用易于鉴定的遗传标记进行辅助选择是提高选择效率并减少育种盲目性的常用手段。近年来发展起来的分子标记辅助选择(marker—assisted selection,MAS)途径是通过分析与目的基因紧密连锁的分子标记基因来进行育种,从而提高育种效率。有效地克服了常规育种过程中所采用的形态学标记存在的数目少、受环境影响较大,不易直接选择的不足,而且分子标记辅助选择具有可快速鉴定材料基因型、可进行非破坏性的性状评价等优点。大量理论研究发现,分子标记辅助选择比以表现型为基础的选择更为有效。因此,分子标记辅助育种的理论与实践成为研究的热点。
与其他遗传标记相比,可利用的SNP标记数量和分布都具有显著优势,因此SNP标记用于标记辅助选择(MAS)育种更具潜力[8]。
2 SNPs的特征
根据SNP所处的位置,可将SNP分为蛋白编码SNP[9]和非蛋白编码SNP 2类,前者位于外显子中,如果它不引起所编码的氨基酸改变,则称为同义SNP,否则称为非同义SNP,后者往往会影响相应蛋白质的功能;同义SNP可位于内含子区或基因间区,都不会影响到蛋白质序列,而位于基因调节区的SNP称为调节SNPs,也称为基因周边SNPs,如果它影响到基因的表达水平,就会影响到RNA或蛋白质的产量从而影响性状[10]。
自从19世纪80年代快速测序和高能量基因型分析技术的开发和应用开展,实现大样本、多基因较大规模的SNPs工作的开展才得以实现[11]。据估计,在人类基因中至少包括1000万个常见的SNPs(把SNPs在群体中出现的频率超过10%的称为常见SNP)[12]。由于SNPs具有丰富性、稳定性、双等位性以及容易进行高通量地基因型分析等优点。因此,近年来,在现代分子遗传学的研究领域,SNPs正在迅速地替代简单序列长度多态性(simple sequence repeats,SSR)或其他标记类型而成为第三代分子标记。在相关性分析及作图过程中,须检测少数候选基因上的等位基因,以确定其与哪一表现性状相关,或者若要鉴定与某一特定表型相关的基因区域,就需要对全基因组进行检测[13],所需检测的最少基因座数取决于不平衡连锁的程度。已有研究报道,同一基因组不同区域上的重组率至少可相差100倍[14]。
群体遗传学是研究群体遗传结构及其变化规律的一门学科,其主要的研究工具是DNA分子的多态性。在玉米中其多态性较高,有各种可利用的自交系,非常有利于SNP单倍型分析。甚至一个玉米基因座上,仅从几百个碱基对区域间就可鉴别出一部分SNP单元型。并且这一基因组片段上的SNP基因座是连锁不平衡的,也就是说,一个基因座上的等位基因与另一个基因座上的等位基因不是随机分离和组合的。基于单倍型的分析比基于单个SNP分析可提供更多的生物学信息,并且在分析SNP与表型相关性时更为有效。近几十年来,一些栽培作物种质的多样性不断减少,其结果使连锁不平衡性增加,这有利于目的基因座上SNP单元型与表型的相关性分析。
3 连锁不平衡作图与关联分析
SNPs拥有的这些特征暗示了它应该在分子遗传学领域具有重要的应用前景。无可争辩,SNPs最有希望的应用领域是通过连锁不平衡(linkage diseauilibrium,LD)作图手段来研究单个基因或基因组区域与数量性状的连锁关系[15]。在相关性分析及作图过程中,须检测少数候选基因上的等位基因,以确定其与哪一表现性状相关,或者若要鉴定与某一特定表型相关的基因区域,就需要对全基因组进行检测[13],所需检测的最少基因座数取决于不平衡连锁的程度[16]。
林木QTL定位方面出现了一些新的趋势。一是对QTL的确认,或者QTL在不同群体中转移的研究,即在不同群体中定位QTL以提高其在标记辅助选择中的通用性。目前只有极少数报告在两个以上的群体中进行了QTL的对比研究;二是连锁不平衡作图,或称关联作图(association mapping)、关联遗传学(associantion genetics),即以现有群体或种质资源为材料(而不是QTL定位谱系),通过检测群体内连锁位点间等位基因的非随机关联来解析复杂性状,阐明与个体表型变异有关的候选基因及其等位基因,即QTN(quantitativetrait nucleotide),这对实验谱系较难建立的物种特别有用,在林木中刚刚开始应用[17]。一般情况下LD越低,QTL定位越精细,但检测一个关联所需的SNP越多;相反,LD越高,QTL定位精度越低,但基因组扫描所需的标记数量则越少。林木为异交物种,遗传背景杂合度高,LD较低,LD作图比传统的QTL作图具有更高的精度[18];三是利用cDNA芯片分析基因的差异表达与数量性状的相关,美国北卡罗来纳州立大学Ronald Sederoff的研究小组在巨桉(Encalyptus grandis)中将cDNA芯片上的表达数据作为数量性状进行研究,并在分离群体中定位,找到了两个对材性影响较大的基因[19]。
与先前的QTL作图相比,LD作图是利用自然群体中的连锁不平衡来直接分析SNP标记与目标性状的关联,它是利用种内史上的重组事件,可利用的重组是无限的,得到的信息可应用于整个群体的遗传改良,而QTL作图是基于标记和目的基因在家系子代中的分离,分析的是标记与基因间的连锁关系。仅利用了一代或少几代的重组,因此重组是有限的且得到的信息只能用于特定的杂交的组合。此外,先前的QTL作图是基因上某一大的染色体区段与表型性状的连锁,假如在杨树遗传图谱上某一标记与QTL的距离约为1cM,对应的物理距离约为22万个碱基对[20],有可能包含10几个基因,使研究者很难确定哪个基因与目标性状相关联。而LD作图是直接利用基因内部一个或多个SNPs与表型性状的连锁关系,具有很高的分辨率。在重组率较低的基因组区域,如着丝粒区,比常染色质区域有更广泛的LD。基因周围的染色体区域,重组率较高[14,21]。小麦等作物的基因组被划分为基因密度较高的区域和基因相当贫乏的重复DNA区域,因而整条染色体上的重组率分布是极不均匀的。
4 遗传图谱与功能性分子标记
林木生长周期长、体积大、造林地立地条件多种多样,遗传背景复杂,高度杂合,有许多重要性状都是由多基因控制的复杂性状,譬如材性、抗性等。要了解这些复杂性状的分子机理,不但要对单个基因,而且也要对多基因,甚至整个基因组在同一时间内表达的所有基因进行分析研究。因此,研究者有必要在林木功能基因组学中开展SNP的连锁不平衡研究。SNP是多态性标记的无尽的资源,可用于高分辨率遗传图谱的构建,也可用于那些基于候选基因或整个基因组的相关性研究。为了绘制高分辨率的遗传图谱,就需要构建大小不受限制的作图群体。亦可利用先前作图的群体,因为这些群体在多代遗传以后,重组机会较多,有利于改进作图分辨率[22]。而且,对一些育种品系进行的多年研究,有助于更准确地鉴定难判断的复杂表型性状。虽然全基因组多态性分析所需的标记数量还有待研究,但可知其数目会因品种不同和群体不同而有差别。通过建立具有合适水平LD的远缘杂交群体和遗传相关性分析,可构建具有较好分辨率的遗传图谱[23]。最近,已报道了一些校正群体结构对相关性研究影响的方法[13]。
高密度的基于基因组序列的SNPs分子标记的应用,可以使目的基因的作图更加精细,使目的基因在基因组的候选区间大大收窄,甚至有些SNPs位点就在目的基因的编码区内,为后来的基因克隆、互补实验和功能验证带来许多方便[8]。
随机DNA分子标记基于基因组中随机多态性位点开发而成,目的基因标记基于基因与基因之间的多态性开发而成,而功能性分子标记基于功能基因基序(motif)中功能性单核苷酸多态性(SNP)位点开发而成。随机DNA分子标记(random DNA markers,RDMs)与目的基因标记(gene targeted markers,GTMs)的开发可以不依赖于表型,而基于功能基因基序中单核苷酸多态性位点开发而来的FMs则需要与表型直接相关[24]。而功能性分子标记(functional markers,FMs)的应用可以不用事先构建作图群体和遗传图谱而直接应用,这在构建分离群体亲本材料的选择、系谱选择及近交选择等育种工作中非常方便;同时,在杂交育种及复合育种中FMs可以将功能等位基因整合到一起,从而防止群体选择和循环选择中有益基因位点的遗传漂移;此外,FMs还可以通过在不同变种中选择等位基因与表型相关的功能性位点的存在和缺失情况来评价和区分种质[24]。
5 结论与展望
植物育种正在向分子技术与常规技术相结合的方向发展。可以预期,SNP的应用将促进分子标记技术与其他生物技术的结合,这对于重要经济性状遗传机制的分析、目标基因的定位和克隆、亲缘关系的正确估计、亲本选配计划的科学制定、选择效率的提高,以及种质资源的研究、开发和保护等工作将产生巨大的推动作用,也将加速植物育种技术的革新。功能基因组学和生物信息学的发展,为育种技术变革提供了一个前所未有的契机。随着木本模式植物毛果杨全基因组测序的完成,林木基因组学进入的快速的发展阶段[25],让人们了解到了大量的杨树SNPs信息,对将来如何充分利用杨树和其他林木的SNPs提供了方便。但是,现阶段SNP研究还处于发展时期,研究重点还在于SNPs的发现和SNP分型,离在林木遗传育种中广泛应用还有一段距离。因此,下一步的研究重点将是:
(1)基因发掘和基因互作的研究。基于连锁定位和连锁不平衡(LD)的方法,在多环境下发现影响目标性状的SNP标记,并充分考虑到选择牵连效应。在物种的人工进化过程中,人们根据需要会对某些性状进行选择,比如矮秆、大穗、大粒、抗病等特性,具有这些特性的个体或群体在驯化过程中被选择并保留下来。现代育种选择作用史强,从基因组内部来看,在一些控制重要农艺性状的基因组区段,只有极个别基因(等位变异)被保留下来,其它等位变异则逐步被淘汰,致使一些基因座的遗传多样性显著低于基因组平均水平;同时对这些基因座的选择会导致其两侧区域遗传多样性显著低于基因组平均水平,在遗传学上将这种现象称为选择牵连效应(也称搭载效应,hitchhiking effects)。
(2)分子连锁标记的开发。主要利用等位基因关联(allelic association)和基因互作研究的成果,发掘新的基因内分子标记或功能标记(functional molecular markers,FM),标记和性状关联信息(MTA ,marker trait association),特别是与早期选择性状关联的标记,用于基因内分子标记精确辅助育种。建立高通量低成本的EST-SSR和SNP-SSR基因型平台[26],为育种家提供特殊等位基因的应用信息,减少不利基因之间的遗传累赘。
(3)建立高通量的数据库。虽然近几年来,SNP标记开始应用于林木中,并已在多个树种中取得初步的进展,但主要集中于材性及株型性状上[27-31],并研究了部分有关林木生态与分子生态方面[27,29]。随着目前地球环境的日益破坏和资源的逐渐减少,选择高效利用有限资源并达到生物量的最大产值的性状指标,并与分子标记相关联,扩大目标基因的范围,并建立较高分辨率的遗传图谱。同时在已有的基因库数据的基础上,整合基因组学、功能基因组学、蛋白组学、表观遗传学的最新数据,发展基于互联网的基因型和目标表型对应的计算机信息库。
为了定向培育出与生产紧密相关的林木新品种,当前的作法往往用转基因的方法来导入所需的目标基因,来改善林木的目的性状,从而培育出所需的林木新品种。对于候选基因的筛选以及候选基因的单核苷酸多态性的发现将大大有助于提高转基因技术。随着分子生物学技术的发展,如果将表型选择与其内在生理生化和分子机理的筛选相结合,也就是常规育种和现代分子育种相结合,提到一个新的高度。
[1]FLINT GARCIA S A,THORNSBERRY J M,SES B E.Structure of linkage disequilibrium in plants[J].Annu Rev Plant Biol,2003,54:357-374.
[2]YU J M,BUCKLER E S.Genetic association mapping and genome organization of maize[J].Current Opinion in Biotechnology,2006,17:16.
[3]SHARMA J R,ARIEFF Z,GAMEELDIEN H,et al.Association analysis of two single-nucleotide polymorphisms of the RELN gene with autism in the South african population[J].Genetic Testing and Molecular Biomarkers,2013,17(2):93-98.
[4]张志毅,林善枝,张德强.现代分子生物学技术在林木遗传改良中的应用[J].北京林业大学学报,2002,24(5):250-261.
[5]谭晓风,胡芳名.分子标记及其在林术遗传育种研究中的应用[J].经济林研究,1997,15(2):19-22.
[6]苏晓华,张倚纹.林木遗传图谱研究的现状与展望[J].林业科技通讯,1995(5):10-12.
[7]DIOPERE E,HELLEMANS B,VOLCKAERT F A M,et al.Identification and validation of single nucleotide polymorphisms in growth-and maturation-related candidate genes in sole(Solea solea L.)[J].Marine Genomics,2012,9:33-38.
[8]刘传光,张桂权.水稻单核苷酸多态性及其应用[J].遗传,2006,28(6):737-744.
[9]COLLINS F S,GUYER M S,CHAKRAVARTI A.Variations on a theme:Cataloging human DNA sequence variation[J]. Science,1997,278(5343):1580-1581.
[10]GOTTGENS B,BARTON L M,GILBERT J G.Analysis of vertebrate SCL loci identifies conserved enhancers[J].Nature Biotechnol,2000,18:181-186.
[11]SANGERF,COULSONAR.DNAsequencingwithchain-terminationinhibitors[J].ProcNatlAcadSciUSA,1977,74:5463-5467.
[12]KRUGLAK L,NICKERSON D A.Variation is the spice of life[J].Nat Genet,2001,27:234-236.
[13]REMINGTON D L,THORNSBERRY J M,MATSUOKA Y.Structure of linkage disequilibrium and phenotypic associations in the maize genome[J].Proc Natl AcadSci USA,2001,98:11479-11484.
[14]DOONER H K,MARTINEZ,FERZ I M.Recombination occurs uniforrnly within thebronzegene,ameioticrecombination hotspotin the maize genome[J].Plant Cell,1997,9:l633-l646.
[15]SHUTU X,DALONG Z,YE C,et al.Dissecting tocopherols content in maize(Zea mays L.),using two segregating populations and high-density single nucleotide polymorphism markers[J].BMC Plant Biol,2012,12:201.
[16]MORIGUCHI Y,UJINO-IHARA T,UCHIYAMA K,et al.The construction of a high-density linkage map for identifying SNP markers that are tightly linked to a nuclear-recessive major gene for male sterility in cryptomeria japonica D.Don[J].BMC Genomics,2012,13:95.
[17]NEALEDB,SAVOLAINENO.Associationgeneticsofcomplextraitsinconifers[J].TrendsinPlantScience,2004,9(7):325-330.
[18]INGVARSSON P R K.Nucleotide polymorphism and linkage disequilibrium within and among natural populations ofEuropean Aspen(Populus tremula L.,Salicaceae)[J].Genetics,2005,169:945-953.
[19]KIRST M,CORDEIRO C M,REZENDE G D,et al.Power of microsatellite markers for fingerprinting and parentage analysis in Eucalyptus grandis breeding populations[J].J Hered,2005,96(2):161-166.
[20]YIN T M,DIFAXZIO S P,ELEGL.Large-scale heterospecific segregation distortion in populus revealed by a dense genetic map[J].Thero Appl Genet,2004,109:451-463.
[21]THURIAUX P.Is recombination confined to structura1 genes on the eukaryotic genome[J].Nature,1977,168:460-462.
[22]YOU C G,LI X J,LI Y M,et al.Association analysis of single nucleotide polymorphisms of proinflammatory cytokine and their receptors genes with rheumatoid arthritis in northwest Chinese Han population[J].Cytokine,2013,61(1):133-138
[23]TALBOT C J,NICOD A,CHERNY S S.High-resolution mapping of quantitative trait loci inout breed rice[J].Nat Genet,1999,21:305-308.
[24]杨景华,王士伟,刘训言,等.高等植物功能性分子标记的开发与利用[J].中国农业科学,2008,41(11):3429-3436.
[25]JANSSON S,DOUGLAS C J.Populus:a model system for plant biology[J].Annu Rev Plant Biol,2007(58):435-458.
[26]TANKSLEY S D,GRANDILLO S,FULTON T M.Advanced backcross QTL analysis in a cross between an elite processing line of tomato and it s wild relative L.pimpinel lifolium.[J].Theor Appl Genet,1996,92(2):213-224.
[27]KRUTOVSKY K V,NEALE D B.Nucleotide diversity and linkage disequilibrium in cold-hardiness-and wood quality-related candidate genes in douglas fir[J].Genetics,2005,171(4):2029-2041.
[28]GONZá LEZ,MARTí NEZ S C,WHEELER N C,et al.Association genetics in Pinus taeda L.I.Wood property traits[J].Genetics,2007,175(1):399-409.
[29]POT D,MCMILLAN L,C C E,et al.Nucleotide variation in genes involved in wood formation in two pine species[J]. New Phytol,2005,167(1):101-112.
[30]卫尊征,郭琦,李百炼,等.小叶杨ga20氧化酶基因的克隆、表达及单核苷酸多态性分析[J].林业科学,2009,54(4):19-27.
[31]杨晓慧,张有慧,张志毅,等.毛白杨干细胞决定基因Wuschel的克隆及其单核苷酸多态性分析[J].林业科学,2009,45 (1):43-49.
Applications of Association Analysis in Forest and Tree Improvement
LIU Xi-hua1,ZHANG Li2,XING Jian-hong1,LIANG Yi-chi1
(1.Department of Resources&Chemical Engineering,Sanming University,Sanming 365004,China;2.Chifeng Academy of Forestry of Inner Mongolia Autonomous Region,Chifeng 024000,China)
The forest's particular characteristics of the long growth cycle and complex genetic background influence the process of genetic improvement.As the third-generation single nucleotide polymorphism(SNP),it has the characteristics of double allelism,high abundance,lower mutation and easy automatic analysis.Through LD mapping,genetic map of high resolution will be constructed.Single nucleotide polymorphism(SNP)plays an important role for functional genomics research and can accelerate innovation of technology of forest tree breeding.
molecular marker;single nucleotide polymorphism;linkage disequilibrium;association analysis
S722
A
1673-4343(2013)04-0088-06
2013-06-17
福建省科技厅重点项目(2011N0030);福建省教育厅科技项目(JA11249)
刘希华,男,福建闽清人,博士,讲师;研究方向:林业生物技术教学与研究。