番茄基因组研究进展

2019-05-30唐亚萍王柏柯杨生保郭春苗余庆辉

新疆农业科学 2019年2期

唐亚萍，李宁，王娟，王柏柯，杨生保，郭斌，杨涛，郭春苗，马凯，刘君，王欢，余庆辉

(1.新疆农业科学院园艺作物研究所，乌鲁木齐 830091；2.新疆农业大学计算机与信息工程学院，乌鲁木齐830091；3.中国农业科学院作物科学研究所，北京100081；4.中国农业科学院生物技术研究所，北京100081)

0 引言

【研究意义】番茄(Solanumlycopersicum)具有极高的商业价值，年产量1.77亿吨，产值600亿美元[1]。番茄由于其环境适应性广、生命周期短、光周期敏感、高度自花授粉及较小的基因组(950 Mb)，也是重要经典遗传学和基因组研究的模式作物[2]。因此，综述国内外相关高质量番茄基因组研究进展,比较与分析一、二、三代测序技术的研究成果,对番茄重要性状功能基因的挖掘及育种有重要意义。【前人研究进展】番茄也是第一个实现使用图位克隆和QTL技术定位重要调控基因位点的植物[3-5]。在果实发育和成熟研究中，番茄也能够为其他结实植物提供参考。【本研究切入点】每个生物个体的基因组包含了生物体完整的遗传信息，基因测序技术能有效准确地获得生物体的DNA序列，为基因的定位、分离、结构和功能等研究奠定基础。基于全基因组和目标测序的基因组学方法，为作物进化提供重要参考信息。从遗传学角度，茄科植物多数都是经济作物，在茄科植物中番茄基因组较小，研究范围最广，番茄的基因组序列是茄科植物比较基因组学研究的数据基础。研究综述国内外相关高质量番茄基因组的研究现状及发展趋势。【拟解决的关键问题】研究栽培番茄和野生番茄基因组，比较和分析番茄的驯化过程及发掘野生番茄中的等位基因，为番茄育种提供丰富的参考资源，高质量番茄基因序列和遗传信息为番茄育种提供更高效的育种工具。

1 材料与方法

1.1 材料

收集查阅国内外相关官网、文献资料和番茄基因组现有研究前沿技术。

1.2 方法

整理汇总并进行对比分析番茄基因组研究进展。

2 结果与分析

2.1 基因组测序及组装技术

2.1.1 Sanger测序技术

测序技术始于20世纪70年代中期，1977年，Maxam和Gilbert报道了化学降解法及Frederick Sanger发明了双脱氧链终止法，标志着第一代测序技术的诞生[6,7]。Sanger法的原理是结合在待测序列上的引物通过一种DNA聚合酶延伸，直到渗入一种链终止核苷酸为止。每个测序反应由四种脱氧核苷酸(dNTP)和一种缺少延伸所需3’-0H的双脱氧核苷酸(ddNTP)构成，终止反应由ddNTP结合决定。化学降解法与Sanger法相似，只是用化学方法终止反应。Sanger法操作简单，得到了广泛的应用，以及在此基础上用荧光标记代替同位素标记[8]。

2.1.2 二代测序技术

第一代基因测序技术成本高额和速度慢，被Roche公司的454技术[9]、Illumina公司的Solexa技术[10-11]和ABI公司的SOLiD[12]研发第二代测序技术所取代。第二代测序技术通过扩增放大信号，采用微珠或者高密度芯片边合成边测序。华大智造在2018年10月发布了一款高通量测序仪开创性的采用四联芯片平台，提高测序公司的日生产力。21世纪进入后基因组时代，二代测序技术的高通量、高精准度、高效率降低了测序成本，但二代测序技术都是将基因组片段化后进行测序，测序结果的长度较短，适合用于已知基因组序列的重测序。基因组是物种分析的基础，测序技术的发展是为了能够快速获得基因组的完整序列，但二代测序数据的组装完整度受到基因序列的高杂合、高重复和高GC的影响。二代测序数据组装方法的原理是先利用overlap组装Contig，再利用图论的方法构建Scaffold。2007年到2011年的基因组数据来看，接近完整和每个碱基准确性都在99.99%以上的基因组所占比例不到35%[13-14]，二代测序基因组组装的质量都比较低。二代测序技术产生的短片段组装对于研究结构变异作用非常有限[15]，难以鉴定复杂结构变异、可变剪切，且不能直接检测表观修饰、不能鉴定特定基因调控区域及调控元件，重要性状功能基因有待进一步挖掘。

2.1.3 三代测序技术

二代高通量测序技术由于其测序速度、成本、准确度等方面仍存在缺陷，以单分子测序为特点的三代测序技术应运而生。第三代测序技术主要包括Helicos公司的Heliscope[16]单分子测序仪、Pac Bio公司的SMRT技术[17]和OxfordNanoporeTechnologies公司的纳米孔单分子测序技术[18]。其主要的特点就是单分子测序，不经过PCR直接边合成边测序，读速快并且读长超长，精准度能够达到99.99%，最小的GC偏好性，三代测序技术可直接用于RNA和DNA甲基化的测序[19]。随着测序数据读长的延长，数据组装也更加精准高效，10 kb读长超过绝大多数微生物和脊椎动物基因组重复序列的长度[20]，可以检测复杂的结构变异[21-23]。结合optical mapping(BioNano Genomics公司)、Hi-C(Phase Genomics公司)及GemCode(10X Genomics公司)组装技术，为研究提供了全新的基因组分析策略和工具[24-25]。将PacBio三代测序、BioNano光学图谱、Hi-C技术等结合在一起，获得了高质量的染色体级别的参考基因组序列。组装得到的基因组序列为1.385Gb比1.087Gb，Scaffold为3,486个比24,845个，Scaffold N50大小为3.84Mb比86.941 kb，Contig N50为1.66 Mb比14.505 kb，完成了基因组90%的序列组装，到达了染色体水平[26]。Contig N50是衡量基因组组装质量的重要指标，其值越高代表其基因组组装的越完整，在之后的功能研究上，尤其是多拷贝基因调控的性状研究其准确度也越高。表1

2017年6月玉米基因组PacBio三代测序结合BioNano光学图谱，利用已发布的BACs Sanger测序数据和SNP遗传图谱数据将基因组构建到染色体级别发表，对玉米自交系B73进行测序，得到了更详细的新版(B73 RefGen_v4)基因组图谱[27]，较先前版本Contig长度提升52倍[28]。基因间区段和着丝粒组装显著提升。从基因组重复区段鉴定出超过130,000 个完整转座子。也较先前组装的栽培种PH207的基因组版本[29]，新版基因组contigN50显著提升了近240倍(Contig N50为1,180 kb 比5 kb)。

表1 不同测序技术比较
Table 1 Comparison of different sequencing techniques

2 .2 番茄基因组(表2)

2.2.1 番茄基因组测序

研究表明,对栽培番茄S.lycopersicumHeinz 1706全基因组的精细序列分析，鉴定出番茄基因组中大约 34,727个基因，其中97.4%的基因已经精确定位到染色体上[30]。美国冷泉港实验室作为协作组成员之一，利用Illmina/Solexa测序技术，对栽培番茄祖先种野生醋栗番茄S.pimpinellifoliumLA1589进行了20倍深度测序，绘制了其基因组的框架图，通过与栽培番茄比较分析发现了番茄果实进化的基因组学基础。

通过对84个栽培和野生番茄的测序研究，发现野生番茄的SNPs超过10, 000, 000，比栽培番茄多了近20倍，栽培番茄在驯化和改良过程中发生了剧烈的基因流失，自交不亲和的野生种中有更高的杂合体。根据Heinz 1706的序列重新组装了3个野生番茄S.arcanumLA2157,S.habrochaitesLYC4 和S.pennellii LA0716，利用AllPathes-LG组装基因组序列[31]。采用Illumina WGS190X技术，完成了野生潘那利番茄(S.pennellii‘LA0716’)的测序，揭示了与其抗逆性和独特形态有关的重要基因，利用遗传图谱和简化基因组测序的标记组装了97.1% 约942 Mb 的基因组到染色体上[32]。

利用Illumina测序技术对野生番茄S.galapagense‘LA0436’和栽培番茄Heirloom品系中的‘Yellow Pear’进行了测序[33]，参考H1706的序列用BWA进行组装，再用SOAP version1.05重新组装基因组序列，栽培番茄的Contig N50 为25.15 kb，组装了93.5%的基因组，加拉帕戈斯Contig N50 为5.96 kb，组装了89.0%的基因组。同时结合已测序的栽培番茄进行了系统进化分析，得出野生番茄加拉帕戈斯、醋栗番茄和栽培番茄的分化发生在50万年前，野生番茄加拉帕戈斯与栽培番茄的亲缘关系较近，在加拉帕戈斯到达加拉帕戈斯群岛之前有共同的祖先。

采用纳米孔测序技术(Nanopore Sequencing)，对野生潘那利番茄(S.pennellii‘LYC1722’)进行了测序[34]，平均读长为11,979 bp。利用Canu进行原始reads纠错，然后利用Canu-SMART denovo.联合组装，Contig N50 高达 2.45 Mb，Contigs总数量为899，最大Contigs为12.32 Mb。但Nanopore原始数据组装的结果表现出明显的高错误率和高误差率，进一步利用Illumina测序reads对基因组进行矫正，有效降低了组装结果的错误率和误差率，基因完整性评估值为96.46%，优于S.pennellii的参考基因组。

SGN(Sol Genomics Network)在线发表了类番茄(S.lycopersicoides‘LA2951’)基因组测序结果(https://solgenomics.net/organism/Solanum_lycopersi- coides/genome)。采用PacBio SMRT三代测序技术，并利用Hi-C辅助组装，contig N50为139,475 bp，最长contig为3,446,189 bp，最终组装总长为1,269,715,057 bp，共有37938基因被预测。

2.2.2 番茄重测序

在番茄参考基因组序列公布之后，全基因组关联分析(GWAS)被快速应用于挖掘番茄果实性状和植株形态的功能基因[35]。这是一个能够将栽培番茄，樱桃番茄和野生番茄放在同一水平进行比较的平台[36]。在栽培番茄上进行了基因组重测序，发现测序的栽培番茄与参考基因组序列之间存在大量的遗传差异，这种多态性的产生可能与驯化或育种过程中基因的渗入有关[37]。2014年‘150 tomato genome re-sequencing project’对169个番茄进行了重测序，完成了360个番茄的重测序，构建了完整的番茄遗传图谱，揭示了在长期的驯化过程中，野生番茄果实在重量、颜色、形状等方面发生了显著变化。通过比较不同群体的基因组差异，发现决定果实可溶性固形物及果实硬度的基因集中在5号染色体上，通过全基因组关联分析，发现了决定果实果皮颜色的关键变异位点[38]。通过对163份番茄核心种质与控制果实代谢物变异位点的关联分析，明确了44个与果实蔗糖、抗坏血酸、苹果酸和柠檬酸等19个性状相关的位点[36]。

利用mGWAS(metabolome Genome-Wide-Association Study)方法和mQTL(metabolome Quantitative Trait Locus)方法，对398份番茄进行代表性的番茄种质进行全基因组测序和多点多次的表型鉴定，利用全基因组关联分析和连锁分析最终鉴定了影响27种风味物质的200多个主效的遗传位点，通过代谢物与基因型的关联分析，定位风味相关基因，并提出番茄风味改良的遗传机制方法[39]。Bauchet等[40]也利用mGWAS对300份番茄的60种代谢物进行了连续两年的分析，确定了79个位点关联影响13个初级代谢物和19个次级代谢物。

通过对600多份番茄资源进行基因组、转录组测序及980种果实代谢的群体多组学分析。利用多重组学大数据，揭示了在驯化和育种过程中番茄果实营养和风味物质的变化，定位了调控重要风味物质的遗传位点，为植物代谢物的分子机理研究提供了大数据和新方法[41]。

3 讨论

3.1 通过分析，与番茄果实颜色相关的具有GTC密码子的类胡萝卜素合成基因被定位于6号染色体上[31]。利用全基因组关联分析，果实硬度的相关基因被定位到5号染色体上[38]。果实重量和形状在进化过程中被分为两步，第一次驯化发生在南美洲，第二次驯化发生在中美洲[42]。

3.2 通过对12个野生番茄和29个栽培番茄基因组序列进行比较分析，发现在12个野生番茄中有8个基因至少是每个品种特有的，例如CER1是与番茄蜡质合成和花粉不育相关的基因；GDSL是与花器官和育性芽发育相关的基因。在29个栽培番茄中，在11号染色体上找到ARF9基因与果实大小密切相关，与蜡质合成有关联的基因也被定位在该染色体上。在10号染色体上发现GA2oxs基因调控开花、分蘖和种子形成[43]。

现代番茄含糖量降低，是因为现代育种过于注重产量、外观，导致高糖分等位基因在番茄驯化与改良的过程中发生了丢失。对脱辅基类胡萝卜素高含量相关等位基因进行选择，提高番茄果实中脱辅基类胡萝卜素的含量，可以在不影响果实大小和产量的同时提高果实的甜度，从而增加番茄的风味[42]。通过对M82渐渗系的代谢物关联分析，根据基因型效应的显著性鉴定了发现位于10号染色体上的113个代谢物QTL，根据基因型与环境相互作用的显著性鉴定了129个代谢物相关QTL[44]。利用番茄10000个SNP获得基因信息，进行了代谢物全基因组关联分析，发现果实重量与果实酸类物质代谢相关，鉴定出与13个初级代谢产物和19个次级代谢产物关联的79个基因区域，苹果酸含量相关的基因位于6号染色体上，苯乙醛和苯乙酸含量相关基因4号染色体上[45]。

从线性化水平上，尽管茄科植物的基因组在不断分化，但是其重复分布却非常相似，重复序列出现做多的是Ty3/Gypsy元素。通过不平等重组去除转座因子可能导致整个基因组序列的重排[46]。

4 结论

4.1 泛基因组

一个人的完整遗传信息只可能通过对他自己的全基因组测序和组装才能够得出，而无法通过与参照基因组比较找差异得出[47]，对来自不同背景和祖先的人群进行研究，创建人类基因组全面和包容性的重要性，更全面的人类基因组能更好地了解不同人群的疾病风险变化[48]。2013 年泛基因组测序开始应用于动植物研究领域，通过对不同品种基因组进行测序、组装，然后将组装好的基因序列进行整合注释，获取这个物种全部的遗传信息，并且对每一个个体间遗传变异信息进行解析，获得种群甚至个体特有的DNA 序列和功能基因信息，有利于理解物种形成的分子进化机制及其与自然选择的关系。其应用广泛，可选择不同亚种材料进行泛基因组测序来研究物种的起源及演化等重要生物学问题；也可选择野生种和栽培种等不同特性的种质资源进行泛基因组测序去发掘重要性状相关的基因资源。

2014年，中国农科院作物所采用二代测序技术，完成了7个野生大豆的泛基因组测序，对7个样本均进行了组装和注释，平均每个基因组注释出55,570个基因，其中85%～90%的基因为全长基因。泛基因组构建发现共有59 080个基因家族，其中48.6%为核心基因组，51.4%为非核心基因组。以栽培大豆基因组为参考进行变异检测，分别鉴定出SNP 3.6～4.7M，其中0.12～0.15M位于编码区；InDel 0.50-0.77M，2 989～4 181个导致了移码；而大量的变异位点(44～53%)是重测序手段未能识别出的新位点。并进行物种分化分析以及重要农艺性状(抗逆、抗病、花期、产油量和高度)基因定位及选择压力分析，在全基因组水平上全面解析了野生和栽培大豆种间遗传变异，特别是在阐明大豆种内/种间结构变异方面有所突破[49]。Golicz等[50]对九种有形态差异的甘蓝和一种野生型近缘芸薹属物种进行泛基因组测序分析，组装出泛基因组大小为587 Mb，包含61,379基因，81.3%基因为核心基因，18.7%是非核心基因，其中2.2%为某一品系特有基因。构建10个甘蓝物种的系统进化树，发现37.7%基因PAVs与系统发育评估一致，推测这些PAV为形态型谱系特异性基因PAV。进一步去对PAVs分析发现，许多基因与抗病、开花时间、硫甙的代谢和维生素合成等功能有关，这些新基因的出现，PAV有助于保持杂交品种优势并增加物种活性。Gordon等[51]对54份二穗短柄草(Brachypodiumdistachyon)进行泛基因组测序，发现泛基因组中，有7,315个基因在参考基因组中未见，有近半数为非核心基因，并证实不同基因导致表型变异并对种群遗传有很大影响，转座子(transposable elements)在泛基因组进化中具有重要作用。

对66份具有代表性的水稻进行了泛基因组测序组装[52]，构建了泛基因组图谱，并通过BAC文库对其中一份材料进行高质量组装来验证方法的可行性。将66个基因组与参考基因组“日本晴”上的序列(IRGSP build 4 version)进行分析，发现了16,563,789个SNP，5,549,290个InDel和933,489个SV，其中大部分都集中于少数几个种质中；鉴定出水稻基因组中的各类遗传变异，发现很多功能基因存在有多种等位基因类型；鉴定到栽培稻和普通野生稻中几乎饱和的编码基因集及其在不同品种中的PAV变异。发布了13个水稻品种的泛基因组研究成果[53]。研究将9个基因组(2个栽培种、6个野生种以及外群种Leersiaperrieri)和先前公布的4个基因组做了比较进化基因组学分析，并整合了RNA-seq和亚硫酸氢盐测序数据。利用6,015个单拷贝直系同源基因进行过滤筛选，构建了稻属的物种进化树。鉴定出群外物种L.perrieri和二穗短柄草具有更多基因的倒位。TEs的选择性扩增和缺失在稻属基因组和染色体进化中起着关键作用，强化了TEs是基因组进化的重要驱动因素；也研究证实InDels是基因组进化和驯化的驱动因素。研究还发现了数千个不与蛋白质编码基因重叠的lincRNA，大多数lincRNA家族具有物种特异性，证实LincRNA基因可以作为一种新的基因资源。研究还发现细胞内核苷酸结合的亮氨酸重复序列(NLR)受体在水稻群体中是多变的，籼稻和粳稻的NLR增幅与其野生祖先相比明显较高，与人工选择增加NLR多样性相一致，证实了抗病基因的进化。

番茄作为二倍体，基因组较小，目前只针对个别基因组进行研究，但某一个个体的基因组很难覆盖全部物种信息。同时，现代栽培番茄遗传背景日趋狭窄，而野生番茄含有抗旱(S.pimpinellifolium)、耐盐(S.pennellii)、抗冻(S.hirsutum，S.habrochaites)、抗病(S.galapagense)、抗虫(S.galapagense)等特性[54]，一些区域地方品种也含有特殊的优良性状[55]，采用长读长测序技术，通过泛基因组研究，进一步地挖掘这些优良性状及其变异，将更好地应用于品种改良。

4.2 三维基因组

主要针对三维空间结构内不同基因与非编码转录调控元件间的相互作用，及它们对目的基因在特定细胞或生物个体表达调控的生物学效应等方面进行研究[56-58]。目前，Hi-C作为三维基因组学的主要技术已被应用于棉花、水稻和拟南芥等植物，并取得一定的成果和进展[59-61]。利用三维基因组学对番茄的三维空间构象与基因转录调控间的关系进行研究，能进一步揭示番茄不同类型调控元件与基因间的互作关系，并能找到互作对基因特性异性表达模式产生的作用机制。三维基因组学还可与其它组学相互配合，对各基因互作与基因功能之间的关系进行更详细的解读，为实现更精准的基因调控提供新的途径，为培育出高产、抗逆、抗病虫害和具有多种功能的番茄新品种提供了理论依据。