基于基因组学的作物种质创新研究进展
2020-11-12何春玲童伴玲曾祥有
曹 征,何春玲,童伴玲,曾祥有
(茂名市农作物技术推广站,广东 茂名 525000)
种质创新(Germplasm enhancement),又称作前育种(Pre-breeding),是指将育种中不易利用的种质资源变成好利用的材料,将不适应的外来种质变成本地能利用的育种材料的一系列相关科研活动。种质创新不仅能够创造新的育种材料,而且还可以拓宽育种遗传基础,是种质资源利用与育种的重要环节[1],具有持续周期长、人力物力财力消耗量大等特点,这使注重短期目标的育种人员望而却步,也导致种质创新具有很强的公益性[2]。
1986 年基因组学被提出后,基因组学发展日新月异,而测序技术的发展和延伸,更是促进了生物学科“大数据”发展[3],对作物种质资源创新的研究思路、方法与技术路线产生了深刻的影响,使种质资源研究迈入了一个新的历史发展阶段。
1 测序技术的发展历程
DNA测序技术在过去的40多年发展十分迅速,从第1代测序技术到第2代、第3代乃至第4代[4],测序片段的读长也经历了由长到短,再由短到长的变化。技术的不断更新改进主要集中在运行时长、读取时间、花费、读长、错误率、输出数据运行等方面[5],而每一次测序技术的变革,都对基因组、疾病医疗、作物育种等领域产生了巨大促进作用。
1.1 第1代测序技术
第1代测序技术又叫Sanger测序技术,是由桑格(Sanger)和考尔森(Coulson)开创的链终止法。在1977年桑格测定了第1个全长5 375个碱基的噬菌体X174的基因组序列后[6],人类开始步入基因组学时代。研究者以此技术为基础,在2001年完成首个人类基因组图谱,其主要技术包括DNA的片段化、体内或体外的扩增、循环测序或聚合克隆构建、电泳检测或循环测序[7]。
Sanger DNA测序技术经过30多年的不断发展与完善,现在可以对长达1 000 bp的DNA片段进行测序,结果直观可视,也可对个性化的位点进行检测,同样也可以任意选择单项测序,并且对每个碱基的读取准确率高达99.999%[8]。然而,由于成本非常高,通量低且耗费时间长,严重影响了其在动植物基因组测序中的大规模应用。
1.2 第2代测序技术
经过不断改进与研发,以Roche公司的454技术、Illumina公司的Solexa、Hiseq技术和ABI公司的Solid技术为标志的第2代测序技术诞生。与第1代相比,第2代测序技术具有成本低、通量高、速度快、序列读长短[8-10]的特点,基本原理是边合成边测序,主要测序过程包括文库的构建、锚定桥接、预扩增、单碱基延伸测序、数据分析[7]。这3个技术平台各有优点,454技术的测序片段比较长,高质量的读长能达到400 bp,但其成本在第2代测序技术中最高,测序通量最低,现在已经停止运行;Solexa测序性价比最高,不仅机器的售价比其他2种低,而且运行成本也低,在数据量相同的情况下,成本只有454测序的1/10;Solid测序的准确度为目前第2代测序技术中准确度最高,但其数据读长在第2代测序技术中最短,不利于进行基因组和转录本的拼接,利用较少。
目前,第2代测序技术使用最广泛的是Illumina公司的测序平台。至今,Illumina公司已经推出较多测序仪,例如Genome Analyzer、MiSeq、HiSeq 2000/2500/3000/4000/X10等,使得这个平台的测序长度达50~300 bp,且产出数据通量和质量都非常高,是目前应用最广泛的第2代测序技术。基于这个平台,产生了大量物种的各种组学数据,主要包括基因组重测序、转录组、小RNA测序、DNA甲基化测序、染色质免疫共沉淀测序、三维基因组等。
1.3 第3代测序技术
第3代测序技术也叫从头测序技术,核心是实时单分子测序,基本原理是DNA聚合酶与模板结合,4色荧光标记4种碱基,在碱基配对阶段,不同碱基的加入会发出不同光,根据光的波长与峰值可判断进入的碱基类型[7]。MANRAO等[11]利用附带phi29的孔蛋白MspA,较好地控制了DNA通过的速度,使第3代测序实现了一次技术突破。HELISCOPE测序是第1个荧光单分子测序技术[12],目前,第3代测序技术主要有PacBio RSII和PacBio Sequel 2种仪器。RSII平均读长10~15 kb,且数据质量高,但数据产出较低,平均每个月大约产生110 Gb。对于Sequel测序仪,PacBio公司声称其测序通量能增加7倍,但其测序读长还不能达到RSII的水平,目前还没有被广泛应用。
第3代测序技术读长远超第2代测序技术,因此在对基因组进行De novo测序,全长转录本测序优势明显,但其单碱基错误率比较高(15%左右)。研究者可以通过提高测序覆盖度,同时辅助第2代测序技术,对其进行纠正来提高碱基的准确性。
目前,利用第3代测序技术组装的植物基因组有复活草与水稻等[13-14]。而玉米、高粱和棉花方面利用第3代测序技术,已经分析了各自的全长转录组,发现新基因,优化之前基因注释的结果和鉴定可变剪接事件[15-17]。
1.4 第4代测序技术
纳米孔测序技术又称第4代测序技术,是最近几年兴起的新一代测序技术。目前,市场上广泛接受的是Oxford Nanopore Technologies(ONT)公司的MinION纳米孔测序仪,其特点是单分子测序,测序读长较长(超过150 kb)、测序速度快、测序数据实时监控、机器方便携带等[18]。测序原理:将双分子DNA连接头部转接器、发卡转接器和尾部转接器;当测序开始,头部转接器带着测序分子进入由酶控制的纳米孔,其后是模板序列(即待测序的DNA分子)通过纳米孔,发卡转接器保证DNA双链测序;互补的序列(待测序分子的互补链)通过纳米孔;尾部转接器通过纳米孔[18]。其在碱基修饰的检测、实时测序监控、测得更长的read、结构变异的检测、RNA表达分析等方面较其他NGS测序平台具有更大优势。
2 基因组学在种质创新中的应用
测序技术的发展,使种质创新的研究也进入了基因组学的全新时代。目前,高效的分子或基因组水平的选择方法包括分子标记辅助选择(Marker-assisted selection,MAS)、分子标记轮回选择(Marker-assisted recurrent selection,MARS)与基因组选择(Genomic selection,GS)[19]。农作物育种从驯化、选择到应用,经历了不同的发展阶段,绝大部分作物的育种史是在孟德尔遗传规律发现后[20]。在之前,农作物育种主要靠从野生种质资源筛选优良性状来开展选择与驯化工作。
随着基因组测序技术的发展,大量的作物基因组被测序,极大地促进了以基因组为指导的全基因组育种的发展。现除了主要的粮食作物水稻、玉米、小麦等外,许多非主要农作物(油料、蔬菜作物与果类等)基因组也相继被测序(表1),比如榴莲完整基因组序列的发表,研究人员用第3代PacBio RSII测序仪平均读长6.2 kb,发现了1个称为MGLs(甲硫氨酸γ-裂解酶)的基因家族可以调节挥发性硫化合物的产生,与榴莲独特的气味有关,这些发现有助于理解榴莲产生独特气味的分子基础及代谢过程,为榴莲品种的种质创新和遗传改良提供了参考[21]。
目前,基于大量已经测序完成的作物基因组数据,基因组学的理论和方法已被广泛运用种质资源创新研究的多个层面,使种质资源创新发生了变革。在基于基因组学的作物育种研究过程中,产生了大量数据,例如,各种野生种质资源的基因型数据和表型数据等,这有利于深入挖掘野生种质资源,促进全基因组育种,推动种质资源创新。
2.1 作物驯化历史与地理起源
作物驯化和地理起源影响作物遗传结构、遗传多样性水平及驯化相关性状形成。目前,大多数作物驯化史和起源地等问题还不清楚。近年来测序技术的发展,基于基因组重测序分析的比较基因组学研究,促进了在全基因组范围内了解作物的驯化历史,通过选择谷作图(Selection sweep mapping),可以确定受选择的基因组区段和基因[22]。
HUANG等[23]对收集的446份野生水稻材料进行了低覆盖度的重测序,揭示了栽培水稻籼稻和粳稻的起源及其驯化历程。HUFFORD等[24]对35份玉米改良种、23份地方品种和17份野生种进行基因组重测序分析,揭示了玉米驯化过程中野生性状的渐渗现象,鉴定了大量受选择位点,表明可能是这些位点导致玉米重要形态改变。MUOZAMATRIAíN等[25]对8份栽培大麦和6份野生大麦进行重测序,通过比较基因组分析,发现野生材料中基因拷贝数变异水平比驯化种高。CAO等[26]对84份桃种质的重测序分析,确定了从西藏光核桃、山桃、甘肃桃到普通桃的分子进化路线。LIN 等[27]对360份野生与栽培番茄重测序,发现番茄的驯化与改良主要集中于两类QTL(Quantitative trait locus,数量性状位点),导致现代番茄比祖先中大100倍。WANG等[28]通过对20份非洲栽培水稻(Oryzaglaberrima)及94份野生近缘种(Oryzabarthii)的重测序,在分子水平上揭示了非洲栽培水稻独立起源于尼日尔河流域。ZHOU等[29]对302份野生与栽培大豆材料重测序,通过全基因组的关联分析,发现了一些新的与含油量、株高和表皮毛形成有关的位点。WANG等[30]通过对352份棉花的野生种和驯化种的重测序数据分析,鉴定了93个驯化清除区域,并且通过关联分析,发现了19个与纤维品质相关的位点,阐述了对纤维选择的亚组间不对等驯化。VARSHNEY等[31]对从45个国家收集的429份鹰嘴豆进行的基因组测序表明,地中海可能是鹰嘴豆起源主要中心区域。鹰嘴豆从地中海/新月肥沃到中亚的迁徙路线可能与东非(埃塞俄比亚)和南亚(印度)到中亚的迁徙路线平行。关联分析还发现了262个标记和13个性状相关候选基因。
表1 已经发表的主要作物的基因组
学者们通过对作物种质资源进行重测序分析,利用基因组学的方法,揭示了作物的地理起源与驯化历程,鉴定了大量控制优良性状的位点。对这些资源进行分析鉴定,不仅有助于揭示人工选择作用下生物遗传变异规律及物种的形成机制,可以获得优良变异,加深对特定生物性状的起源,变异及进化的认识,为进一步开发新的种质资源提供理论基础和指导,从而推动作物种质资源的创新,更好地为作物品种的改良服务[22]。
2.2 基于基因组学的种质资源新基因的发掘
种质资源是基因的载体,挖掘优异基因资源是种质资源创新的重要组成部分。随着植物基因组学的发展,对种质资源进行全基因组分析,发掘新基因,可以推动种质资源创新,加速作物育种与遗传改良。目前,在种质资源创新发掘新基因研究上主要用的是连锁分析和关联分析。
2.2.1连锁分析 连锁分析是基于作物家系研究的一种方法,主要是以2个遗传背景变化差异大的材料为双亲,构建人工群体,发掘新基因。分子标记主要有RFLP(Restriction fragment length polymorphism,限制性片段长度多态性)、RAPD(Random amplified polymorphic DNA,随机扩增多态性)、AFLP( Amplification fragment length polymorphism,扩增片段长度多态性)、SSR(Simple sequence repeats,简单重复序列)、SNP(Single nucleotide polymorphisms,单核苷酸多态性)和InDel(Insertion/Deletion,插入缺失序列)等。
随着测序技术的发展以及测序成本的降低,基于SNP标记构建高密度分子图谱将会成为今后的主流。SNP标记在构建图谱中,具有标记密度高、QTL定位精度高和区间小等优点。目前主要有2种策略:一种是首先对双亲进行深度重测序,比较分析后在高质量SNP中选择均匀分布在基因组上标记构建SNP芯片,最后用芯片对群体进行基因分型,其预测QTL的效率非常高[32];另一种是直接对群体中所有个体进行测序构建SNP变异图谱。例如,HUANG等[33]对150份水稻重组近交系进行低倍测序与基因分型发现,数据采集比常规的方法快20倍,主效QTL定位到了100 Kb的区间;LIU等[34]利用GBS(Genotyping by sequencing)技术对大麦的重组近交系进行测序分析,精细定位到了3个QTL,并找到相关的候选基因。
2.2.2关联分析 关联分析是直接利用种质资源来说明基因型与表型的关系,是研究种质资源变异、发掘新的优异等位基因的最佳方法之一,包括全基因组水平关联分析、局部水平关联分析和候选基因关联分析3种方式。
CHEN等[35]对529份水稻种质资源进行重测序,鉴定了640万左右的SNP,通过全基因组关联分析发现了36个与控制代谢物水平相关的候选基因。LIU等[36]利用芯片数据对205份小麦种质进行关联分析发现,5D染色体上2个基因的6个SNP与土传小麦花叶病毒的抗性相关。LI等[37]通过对368份玉米自交系进行全基因组关联分析,鉴定了74个控制籽粒油分积累和脂肪酸代谢的重要位点,同时结合QTL作图分析、连锁分析和共表达分析进行验证。HUANG等[38]利用芯片数据对503份棉花种质的16个性状进行全基因组关联分析,鉴定了324个SNPs和160个候选QTL区间与上述16个性状显著关联,并确定了1个与衣分相关的候选基因。WILSON等[39]用基因测序法对6个淀粉合成相关基因ae1、bt2、sh1、sh2、su1和wx1进行基因型分型,利用102份玉米自交系的关联分析群体,通过关联分析发现bt2、sh1和sh2与籽粒组分性状显著相关,ae1和sh2与淀粉糊化特性相关,ae1和sh1与直链淀粉含量显著相关。RODRIGUEZ等[40]在368份番茄种质资源中,分析了SUN、OVATE、FASCIATED(FAS)和LOCULENUMBER(LC) 4个控制果实形状基因的等位基因分布,发现其等位基因分布与番茄果实形状分类显著相关,并阐述了选择在亚群分化的重要性。XIE等[41]对150份玉米自交系进行关联分析,发现了7个SNP位点,这些位点与株高变化率和鲜质量改变率密切相关,还发现了8个与玉米耐盐性有关的候选基因,对于玉米耐盐性分子育种有重要意义。WU等[42]对213份小麦种质资源进行关联分析,鉴定了6个与赤霉病密切相关的位点、3个与脱氧雪腐镰刀菌烯醇积累相关的位点。
2.2.3连锁分析与关联分析相结合 由于连锁分析与关联分析各有优缺点,但将其相结合,可以互相弥补,并进行相互验证,可以快速定位目标性状的候选基因[43]。这也是一种基于种质资源挖掘新基因的重要的方法。
YU 等[44]和MCMULLEN等[45]指出构建巢式关联分析群体是将二者结合起来的最佳方法之一,即用1个共同亲本与有广泛遗传多样性的其他一系列亲本杂交创建重组近交系群体。例如,康奈尔大学研究者将B73分别与玉米的25个自交系杂交,构建了1个约有5 000个RIL的巢式关联分析群体,捕获了136 000个重组事件,后续研究者利用该群体,剖析了如叶部结构和小斑病抗性等重要农艺性状[46-47]。黄瓜苦味基因的发掘也是基于连锁分析与关联分析相结合。QI等[48]对115份黄瓜的核心种质进行重测序,通过群体基因组学分析,发现在驯化过程中,由于人类对Bt的人工选择导致栽培黄瓜苦味消失。SHANG等[49]利用关联分析检测Bi基因在115份黄瓜种质中的遗传变异,发现含有Bi的基因组区段有1个效应非常显著的SNP,其能使编码葫芦素生物合成第1种酶的基因产物的第393位氨基酸由半胱氨酸变成酪氨酸,从而使黄瓜苦味消失。之前,QI等[48]已经将Bt基因定位在第5染色体上包含67个候选基因的442 kb区间,其中就有包含苦味基因Bl及其2个同源基因成簇的存在于1个8.5 kb的区间。根据表达分析揭示其中的1个Csa5G157230作为Bt的候选基因,再通过局部关联分析发现有11个强烈的信号存在于Csa5G157230的调控区域,尤其1个位于起始密码子上游1 601 bp的1个SNP(SNP-1601)与1个大的F2群体的Bt共分离。SHANG等[49]认为对该候选基因调控区域的选择导致栽培品种中该基因下调,使苦味降低。在大豆中,LI等[50]用构建的巢式关联群体鉴定了139个与开花期相关的QTLs,有126个注释的候选基因包括9个生物过程,预示着这种性状是复杂的,包含多个生物过程而不是单纯由一些主效基因控制。
3 种质创新
长期的驯化与改良,导致现在的很多优良作物品种都遇到遗传基础变窄的瓶颈,迫切需要当今育种者从外源导入或引入新的优异基因。野生种和地方种的遗传多样性远高于现在的栽培种。ABLE等[51]指出,针对野生种和地方种的种质创新已是研究的热点。基因组学的发展使种质创新研究由过去的以表型选择为主转变为现在的以分子标记和全基因组选择等为主,这促使外源优异基因的鉴定与利用快速发展,加快了种质资源创新。
基因渐渗是在种质创新中利用野生近缘种最重要的途径,而基因组学的运用对种质创新起到了重要的推动作用。MUNNS 等[52]报道将二倍体野生栽培一粒小麦(Triticummonococcum)的耐盐碱基因TmHKT1;5-A导入四倍体硬粒小麦中,可以增强其抗盐碱能力,在盐碱土地上生长较对照增产25%。四川农业大学在二者杂交的F2代发现1株特殊的非整倍体材料(即部分可育三倍体植株 MT-71),用其作母本,可以用来打破二者的远缘杂交障碍[53-54]。WANG等[55]构建了黄褐棉与陆地棉的遗传图谱,并在渐渗群体中鉴定了14个稳定的QTL,其中有4个增加了棉花纤维的长度。进一步利用陆地棉与黄褐棉的21个BC3F2和12个与之相对应的BC3F2:3和BC3F2:4家系,鉴定了65个与纤维品质相关的QTL[56]。WANG等[57]利用水稻野生种Chaling与93-11构建了含有285个家系的导入系群体,鉴定了10个QTLs,并发现了1个抗盐的家系QL136,结合RNA测序发现了4个候选基因与盐抗性相关,为水稻的抗盐育种提供了新的种质资源。而在大豆中,YANG等[58]为了解析1年生野生大豆种子大小与形状,构建SojaCSSLP4导入系群体,其包含195个家系[58]。通过4个环境下的评价,分别有11、13、7、15、14个QTLs(片段)在种子的长度、宽度、圆度、周长、截面积等性状被预测。对番茄来说,挥发性物质是风味的主要决定因素,而风味又一直是番茄育种的主要目标。RAMBLA等[59]利用Solanumlycopersicum和1个红果番茄野生种Solanumpimpinellifolium为亲本构建了1个重组自交系群体(鉴定了102个风味QTLs)和导入系(鉴定了85个风味QTLs),其中在重组自交系群体中鉴定的几乎50%的QTLs在导入系群体中也鉴定到了,这些QTLs为番茄的风味育种提供了重要的线索。
通过这种基因渐渗的方法,将现代品种与地方种、老品种、野生种杂交,基于基因组资源,对杂交后代进行连续的选择回交,消除连锁累赘,培育携带目标基因或区段的导入系,再通过系间互交,从而实现重要基因和优良背景的高效组装,提高群体遗传多样性,又使目标性状定向改良,促进种质创新,培育有实用价值的品种[22]。
4 展望
随着高通量重测序技术的普及,各种植物全基因组测序的完成,为作物种质资源创新研究带来跨越式发展[60]。中国种质资源的深度发掘还相对薄弱[61],因此,要充分利用基因组学的理论方法,对还未建立核心种质的作物,尽快建立核心种质资源库,利用核心种质构建导入系、重组自交系、近等基因系等群体;利用高通量测序技术,在全基因组水平上对中国作物种质资源基因型分析鉴定;结合连锁分析与关联分析等方法,在对其表型精确鉴定的基础上,挖掘更多适应未来育种需求的优异基因与种质资源。未来再将基因组学与转录组学、蛋白组学、代谢组学、表型组学、表观组学等多组学结合,用系统生物学的研究方法来探究种质创新,挖掘优异基因,深入分析其遗传分子机制,利用种质创新打破作物育种瓶颈,推动作物遗传改良,加速培育新品种,进而推重中国农业的发展。