APP下载

金花菜与苜蓿属主要物种基因组SSR分布特征的比较分析

2022-02-21任海龙邹集文

新疆农业科学 2022年9期
关键词:蒺藜拷贝数核苷酸

周 勃,任海龙,,张 龑,高 强,徐 麟,邹集文

(1.新疆农业科学院海南三亚农作物育种试验中心,海南三亚 572014;2.广州市农业科学研究院,广州 510308;3.新疆农业科学院农作物品种资源研究所,乌鲁木齐 830091)

0 引言

【研究意义】金花菜(Medicago polymorpha)属豆科苜蓿属一年生苜蓿[1]。金花菜在食用、饲用、药用和绿肥有较高价值[2],早年金花菜在我国栽培面积达20×104hm2(300万亩)[3]。近年来,金花菜是我国极具发展前景的多用途豆科牧草[4]。金花菜其所在的豆科苜蓿属(Medicago)大约有87个种,包括了豆科模式植物蒺藜苜蓿(Medicago truncatula)和最重要的豆科牧草紫花苜蓿(Medicago sativa)[5]。金花菜作为苜蓿属“Polymorpha clade”进化分支的代表性物种,其染色体数目的非整倍体减少(基本染色体数8→7)[6]。利用金花菜全基因组测序数据,分析其基因组中简单重复序列的分布特征及与蒺藜苜蓿和紫花苜蓿的异同,对金花菜种质资源遗传多样性和分子标记辅助选育有重要意义。【前人研究进展】简单重复序列(SSR,Simple Sequence Repeats)又称微卫星,为共显性标记,具有扩增稳定、数量丰富、多态性高及特异性强等优势[7]、指纹图谱构建[8]、遗传连锁图谱[9]及QTLs定位等研究[10]。利用高通量测序数据开发SSR标记是一种快速、高效、低成本的策略。由于金花菜等一年生苜蓿缺乏基因组序列信息,Eujayl等[11]提出利用豆科模式植物蒺藜苜蓿的ESTs(Expressed sequence tags)序列,开发可用于其它一年生苜蓿的EST-SSR穿梭标记,89%的蒺藜苜蓿EST-SSRs在其他一年生苜蓿上可以跑出条带。Chu等[12]通过对92对蒺藜苜蓿基因组SSR的研究发现,有53%的蒺藜苜蓿基因组SSR标记可以在金花菜上通用。但由于这些种间的SSR穿梭标记通常来自于物种基因组的保守区域,检测得到的金花菜多样性并不高,且难以获得大量的有效标记[13]。【本研究切入点】由于缺少基因组信息,金花菜SSR标记的开发只能借鉴其近缘物种的基因组进行,制约着金花菜相关工作的有效开展。需找到均匀覆盖金花菜全基因组的分子标记并高通量开发。2021年金花菜的全基因组测序工作顺利完成,针对该物种基因组进行SSR标记的分析与开发成为可能。【拟解决的关键问题】在perl语言环境下,运行微卫星筛选软件MISA(MIcroSAtellite identification tool)的脚本,分别对金花菜、蒺藜苜蓿和紫花苜蓿的基因组FASTA文件进行扫描,对筛选出的简单重复序列进行统计分析。

1 材料与方法

1.1 材料

金花菜基因组从国家基因组科学数据中心(National Genomics Data Center)数据库下载(https://bigd.big.ac.cn/gsa/s/q0VtV4XI)[14];蒺 藜苜蓿基因组(Mt 5.0)从美国国立生物技术信息中心(National Center for Biotechnology Information)数据库下载(https://www.ncbi.nlm.nih.gov/genome/6?genome_assembly_id=406060)[15];紫花苜蓿基因组从Figshare科学数据共享平台下载(https://figshare.com/articles/dataset/Medicago_sativa_genome_and_annotation_files/12623960)[16],3种苜蓿基因组所有序列均以FASTA文件格式保存。表1

表1 三种苜蓿的基因组测序信息Table 1 Genome sequencing information of three Medicago species

1.2 方法

使用微卫星检索工具MISA[17](https://webblast.ipk-gatersleben.de/misa/)执行命令perl misa.pl genome.fasta,对3种苜蓿全基因组进行扫描,筛选符合条件的简单重复序列。筛选标准为MISA软件的默认值:单核苷酸重复次数在10次及以上,二核苷酸重复次数在6次及以上,三至六核苷酸重复次数在5次及以上,复合型SSR的检索条件是2个SSR片段间的距离低于100 bp。将生成的数据采用Excel软件整理,对序列特征进行分析并绘制图表。

2 结果与分析

2.1 金花菜基因组SSR总体分布特征的比较

研究表明,金花菜为同源二倍体,染色体数目为14条,全基因组大小为457.53 Mb,共筛选出195 753个SSR,相对密度为428个/Mb,平均长度为18 bp;蒺藜苜蓿为同源二倍体,染色体数目为16条,全基因组大小为430.01 Mb,共筛选出242 434个SSR,相对密度为564个/Mb,平均长度为15 bp;紫花苜蓿为同源四倍体,染色体数目为32条,全基因组大小为817.12 Mb,共筛选出390 496个SSR,相对密度为478个/Mb,平均长度为16 bp。在这3种苜蓿中,金花菜检索到的SSR最少,平均SSR长度最长;蒺藜苜蓿检索到的SSR密度最高,平均SSR长度最短;紫花苜蓿的基因组最大,SSR的总数量最多。表2

表2 三种苜蓿基因组中SSR的分布Table 2 Distribution of SSR in three Medicago species

2.2 金花菜基因组SSR不同核苷酸重复单元特征比较

研究表明,金花菜基因组SSR类型比较丰富,其中又以单核苷酸重复单元的数量最多,占基因组SSR数量的75.58%(147 953个SSR位点),其次为二、三核苷酸重复单元类型,分别占基因组SSR数量的15.31%(29 975个SSR位点)和7.94%(15 548个SSR位点);四、五、六核苷酸重复单元类型所占比例均相对较低,三者的比例总和仅为1.16%(共2 277个SSR位点)。金花菜和蒺藜苜蓿基因组中,SSR均是单核苷酸重复单元数目最多,然后依次是二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸。紫花苜蓿除六核苷酸重复单元略高于五核苷酸重复单元外,其余核苷酸重复单元数目的变化趋势与金花菜和蒺藜苜蓿相一致,均是随重复单元核苷酸数的增加逐渐减少。

3种苜蓿同一核苷酸重复单元拷贝数变化趋势是相似的,且均随着重复拷贝数的增加,其SSR数目逐渐递减。金花菜,蒺藜苜蓿和紫花苜蓿的单核苷酸重复单元拷贝数主要集中在10~25次,分别占单核苷酸类型SSR总数的99.34%,98.95%和99.33%;二核苷酸重复单元拷贝数主要集中在6~26次,分别占比92.94%,91.20%和88.74%;三核苷酸重复单元拷贝数范围较为集中,主要集中在5~13次,分别占比94.21%,95.18%和88.81%;四核苷酸中重复单元拷贝数范围也较为集中,主要集中在5~8次,分别占比93.95%,96.57%和91.25%;五核苷酸重复单元拷贝数主要集中在5~7次,占比96.41%,98.03%和94.53%;六核苷酸重复单元拷贝数主要集中在5~7次,占比92.17%,94.53%和91.20%。在3种苜蓿中,金花菜的单核苷酸和二核苷酸重复单元拷贝数更为集中,蒺藜苜蓿三、四、五、六核苷酸重复单元拷贝数更为集中,紫花苜蓿的核苷酸重复单元拷贝数比金花菜和蒺藜苜蓿较为分散。表3

表3 三种苜蓿不同SSR重复单元的数目和占比Table 3 Number and proportion of different SSR repeat types in three Medicago species

2.3 金花菜基因组SSR重复单元核苷酸构成的比较

研究表明,共发现184种重复单元类型,比例最高的前20种类型共计有194 858个SSR(占99.54%)。在这些核苷酸重复单元中,单核苷酸重复单元中以A/T占绝对优势(共142 396个,占72.74%),其次为C/G(共5 557个,占2.84%);二核苷酸重复单元中以AT/AT占绝对优势(共14 803个,占7.56%),其次为AG/CT(共9 781个,占5.00%);三核苷酸重复类型中则以AAT/ATT(共5 694个,占2.91%)为优势重复单元类型,其次为AAG/CTT(1.88%)、AAC/GTT(1.37%)、ATC/ATG(0.77%)和ACC/GGT(0.40%)重复单元类型;四、五、六核苷酸重复单元相对较少,但类型较丰富,共2 277个,占SSR总数的1.16%,其中有72种重复单元类型仅出现1次。图1

图1 金花菜基因组SSR的重复基元类型及数量Fig.1 The number of different SSR in Medicago polymorpha genome

蒺藜苜蓿基因组中共发现177种重复单元类型,比例最高的20种类型SSR共计241 517个(占99.62%),从高到低依次为:A/T(共185 412个,占76.48%)、AT/AT(共21 621个,占8.92%)、AG/CT(共9 493个,占3.92%)、AAT/ATT(共6 361个,占2.62%)、AC/GT(共4 435个,占1.83%)、AAG/CTT(共3 443个,占1.42%)、AAC/GTT(共3 268个,占1.35%)、C/G(共2 729个,占1.13%)、ATC/ATG(共1 549个,占0.64%)、AAAT/ATTT(共697个,占0.29%)、ACC/GGT(共675个,占0.28%)、AGG/CCT(共484个,占0.20%)、AGC/CTG(共246个,占0.10%)、ACT/AGT(共245个,占0.10%)、AAAG/CTTT(共173个,占0.07%)、AGAT/ATCT(共151个,占0.06%)、ACAT/ATGT(共148个,占0.06%)、CG/CG(共142个,占0.06%)、AAAAT/ATTTT(共124个,占0.05%)和AGGG/CCCT(共121个,占0.05%)。图2

图2 蒺藜苜蓿基因组SSR的重复基元类型及数量Fig.2 The number of different SSR in Medicago truncatula genome

紫花苜蓿基因组中共发现200种重复单元类型,比例最高的20种类型SSR共计387 829个(占99.32%),从高到低依次为:A/T(共274 264个,占70.23%)、AT/AT(共39 090个,占10.01%)、AG/CT(共20 359个,占5.21%)、AAT/ATT(共11 562个,占2.96%)、AC/GT(共10 985个,占2.81%)、AAG/CTT(共8 212个,占2.10%)、C/G(共6 811个,占1.74%)、AAC/GTT(共6 179个,占1.58%)、ATC/ATG(共2 773个,占0.71%)、AAAT/ATTT(共1 227个,占0.31%)、ACC/GGT(共1 177个,占0.30%)、AGG/CCT(共935个,占0.24%)、AATC/ATTG(共781个,占0.20%)、AATT/AATT(共747个,占0.19%)、AATGTC/ACATTG(共580个,占0.15%)、ACAT/ATGT(共542个,占0.14%)、ACT/AGT(共505个,占0.13%)、AGAT/ATCT(共396个,占0.10%)、AAAG/CTTT(共372个,占0.10%)和AGC/CTG(共332个,占0.09%)。

3种苜蓿中,紫花苜蓿基因组中SSR重复单元类型最多,其次是金花菜和蒺藜苜蓿。重复单元类型中,A/T、AT/AT、AG/CT和AAT/ATT是三种苜蓿共有的常见核心SSR类型。图3

图3 紫花苜蓿基因组SSR的重复基元类型及数量Fig.3 The number of different SSR in Medicago sativa genome

2.4 金花菜基因组SSR片段长度比较

研究表明,金花菜基因组SSR序列长度主要集中于12 bp以内,为100 982个,占SSR总数的51.59%;分布于12~20 bp的SSR数量为72 215个,占SSR总数的36.89%;≥20 bp以上的SSR数量为22 556个,占SSR总数的11.52%。相较于蒺藜苜蓿和紫花苜蓿,金花菜SSR分布在<12 bp长度上的比例最高。金花菜仍有大量的中等多态性和较高多态性长度的SSR,具有较大的多态性标记开发潜力。图4

图4 金花菜基因组SSR不同片段长度的数量Fig.4 The number of different fragment length SSR in Medicago polymorpha genome

3 讨论

SSR序列长度<12 bp时SSR标记的多态性表现极低;序列长度在12~20 bp之间时标记多态性适中;≥20 bp时具有较高多态性,是理想的标记位点[18]。基因组中存在着大量的重复序列,从进化角度看,物种间重复序列的差异是自然选择的结果,因此鉴定SSR在基因组中的分布特征有重要意义[19]。金花菜、蒺藜苜蓿和紫花苜蓿是苜蓿属的不同种,其中金花菜和蒺藜苜蓿属于一年生苜蓿,紫花苜蓿属于多年生苜蓿,3种苜蓿基因组有很强的的共线性关系[14]。研究发现,金花菜基因组SSR的分布密度为428个/Mb,明显低于蒺藜苜蓿的分布密度(564个/Mb)以及紫花苜蓿的分布密度(478个/Mb)。Varshney等[20]研究认为,SSR分布密度之所以出现差异,除了物种间差异因素外,还与测序数据深度、序列拼接数据质量及SSR位点查找软件以及SSR搜索标准不同有关。研究选用主流的微卫星筛选软件MISA(MIcroSAtellite identification tool),在相同设置条件下分析了这3种苜蓿间差异。金花菜、蒺藜苜蓿和紫花苜蓿的测序深度分别为117X、109X和153X,均为二代+三代测序组装的高质量基因组,结果比较能真实发映出物种间的差异。金花菜基因组SSR的分布密度较低,可能与金花菜染色体数目少有关。

单核苷酸、二核苷酸和三核苷酸重复单元是绝大多植物基因组SSR序列中优势重复单元[18,21]。研究发现,金花菜基因组SSR中,单、二和三核苷酸重复单元类型分别占基因组SSR数量的75.58%、15.31%和7.94%,其后依次是,四、五和六核苷酸重复单元,与蒺藜苜蓿观测到的结果相一致。与金花菜和蒺藜苜蓿相比,紫花苜蓿的六核苷酸重复单元数量多于五核苷酸重复单元,且单核苷酸重复单元类型的SSR数量相对较少,这可能与紫花苜蓿是同源四倍体,异花授粉导致遗传变异更为丰富有关。

4 结论

共发现94 771个片段长度≥12 bp的金花菜基因组简单重复序列,具有较高的多态性。

金花菜基因组共筛选出195 753个SSR,相对密度为428个/Mb,平均长度为18 bp,金花菜基因组SSR的分布密度低于蒺藜苜蓿和紫花苜蓿,重复单元类型较丰富,具有较大的多态性标记开发潜力。

猜你喜欢

蒺藜拷贝数核苷酸
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
线粒体DNA拷贝数在儿童脑性瘫痪患者中的表达及临床意义
线粒体DNA拷贝数变异机制及疾病预测价值分析
蒺藜的本草学考证
又被蒺藜扎了
Acknowledgment to reviewers—November 2018 to September 2019
胎儿染色体组拷贝数变异与产前超声异常的相关性分析
日粮核苷酸对动物肠道健康和免疫功能的影响及其在养猪生产中的应用