APP下载

美国红枫转录组SSR序列分析

2021-07-30柯裴蓓沙文锋李玉娟

中南林业科技大学学报 2021年7期
关键词:基元碱基红枫

郭 聪,陈 燕,王 莹,谈 峰,柯裴蓓,沙文锋,李玉娟

(江苏沿江地区农业科学研究所,江苏 南通 226541)

美国红枫Acer rubrum,又叫红花槭,槭树科槭属落叶乔木,主要分布于美国北部及加拿大大部分地区。因其秋季色彩夺目,树冠整洁,既可以园林造景又可以做行道树,是城市园林绿化的理想树种之一,也是唯一可以用作行道树的彩叶树种。近年来,关于美国红枫的报道主要集中在栽培管理[1-2]、生理生化[3-4]以及组织培养[5-6]等方面,而对美国红枫种质资源遗传性评价和保护、分子育种等方面的研究较少。

简单重复序列(Simple sequence repeat,SSR)广泛分布于真核生物基因组中,是由1~6 个碱基为重复单位组成的串联重复DNA 序列,具有多态性高、重复性好、标记数量多等特点,是林木遗传育种研究中的一种辅助育种方法[7-9]。随着现代分子生物学技术的飞速发展,SSR 技术也被广泛应用于植物分子辅助育种、遗传图谱的绘制以及种质资源遗传多样性等方面的研究。周宵等[10]基于木本油料植物光皮树叶片转录组数据,筛选出12 538 个SSR 位点,并根据正交实验研究出SSR-PCR 反应体系最佳组合。张振等[11]从红松转录组中41 476 条Unigene 中筛选出1 757 个SSR位点,并对SSR 序列的数量、分布特征进行了统计分析,印证了利用红松转录组数据开发SSR 标记的可行性。蔡年辉等[12]基于SSR 分子标记技术,对不同生长优势等级云南松林木遗传多样性变异进行了研究,发现林木生长分化对遗传多样性的影响不明显。程健弘[13]利用已开发的95 对SSR多态性引物分析了杉木育种群体的连锁不平衡程度、遗传多样性和群体结构。李博[14]在构建毛白杨和毛新杨转录组图谱中,增加了若干SSRs 标记的分析来进行比较作图的研究。目前,SSR 分子标记技术已在很多园林植物中进行了遗传多样性分析、群体构建、遗传图谱的构建等方面的研究和应用,为品种保护、种群分布、系统进化等方面的研究提供了重要的依据。但是美国红枫与其他的园林植物相比,在遗传多样性、分子标记辅助育种等方面仍存在很大的差距。并且目前并没有发现关于美国红枫SSR 标记的报道,这严重限制了美国红枫微卫星的开发、遗传多样性的研究、品种选育等工作的开展。

本研究中以美国红枫转色期的不同叶色的叶片为材料,通过Illumina HiSeq 高通量平台进行转录组测序,并进行生物信息学分析,从其获得搜索到大量的SSR 位点,并对其进行序列分布特征、碱基重复类型、引物设计等方面进行分析。通过对美国红枫SSR 位点的分析,丰富了美国红枫SSR 位点数据库,有助于开发选育优良美国红枫品种的分子标记,为今后美国红枫品种选育、功能基因的开发等研究提供基础依据。

1 材料与方法

1.1 材料与转录组测序

本试验所使用的美国红枫叶片材料来自于江苏沿江地区农业科学研究所休闲农业研究室苗圃中。于2017年秋季(美国红枫叶片转色期间)选取叶色稳定、长势健壮的美国红枫,分别采集着生于植株上部、中部、下部的红叶、花叶、青叶各约0.2 g,每组叶片分别取3 个重复,速冻液氮中备用。

将采集的美国红枫叶片送至北京百迈客生物科技有限公司,利用Illumina HiSeq 进行转录组测序。

1.2 序列的拼接

对原始数据(Raw data)进行数据过滤,去除其中的接头序列及低质量的Reads 获得高质量的Clean data。使用Trinity 组装软件将Reads 打断为较短的片段,然后将这些小片段延伸成较长的片段(Contig),并利用这些片段之间的重叠,得到片段集合(Component),最后利用De bruijn 作图方法和测序Read 信息,在各个片段集合中分别识别转录本序列(Unigene)。

1.3 SSR 位点搜索

使用MISA(MicroSatellite identification tool)软件对美国红枫1 kb 以上的Unigene 进行SSR 位点搜索。搜索的标准为:单碱基重复SSR 重复次数至少为10;双碱基重复SSR 重复次数至少为6;四碱基重复SSR、五碱基重复SSR 和六碱基重复SSR 重复次数均至少为5;复合型重复SSR 包含至少2 个SSR,且之间距离小于100 bp。所筛选的序列使用Prime 3 软件进行引物的设计。

1.4 数据分析

采用Excel 2016 软件对美国红枫转录组中的SSR 分布和序列特征进行分析,包括SSR 位点基元类型、出现频率、SSR 分布的平均距离以基元组成等。其中,微卫星总数与总Unigene 的长度之比为SSR 位点的平均距离;微卫星总数与Unigene的总序列数量之比为SSR 出现频率[15]。

2 结果与分析

2.1 美国红枫转录组SSR 位点的分布特征

利用Illumina Hi-Seq 对美国红枫不同叶色的叶片进行转录组测序,经序列拼接,共获得去冗余的Unigene 78 571 条,其中长度≥1 kb 的Unigene 共23 278 条,总长度为48 624 939 bp。通过MISA软件进行分析,发现了12 974个SSR位点,出现频率为55.75%,分布平均距离为3 747.88 bp(表1)。

表1 美国红枫转录组各SSR 位点的分布特征Table 1 The distribution characteristics of various SSR loci in American red maple

美国红枫转录组中的SSR 重复碱基类型共有7种,由表1可知,重复率最高的碱基类型为单碱基,占总数的54.12%,其次为双碱基和三碱基,分别占20.64%和16.19%,其他的重复碱基类型较低。各重复碱基类型的SSR 出现频率差别也较大,单碱基重复类型出现频率最高,为30.17%,而六碱基重复类型出现频率最低,为0.03%。从SSR 分布平均距离来看,六碱基重复类型的SSR 分布平均距离最高,为8 104 156.50 bp。

2.2 美国红枫转录组SSR 重复基元分析

美国红枫转录组中的SSR 重复基元的序列特征列于表2。考虑到SSR 存在碱基互补作用,单碱基到六碱基重复出现的基元种类数分别为2、5、30、41、13、6 种。单碱基到四碱基重复基元的数量呈不均衡的分布。其中,单碱基、双碱基、三碱基重复基元数量最多的类型分别为A(3 553 个,占总SSR 27.39%)、AT(564 个,占总SSR 4.35%)、GAA(131 个,占总SSR 1.01%)。四碱基中有3种类型的重复基元数量最多,分别为AAAT(5 个,占总SSR 0.04%)、TTCT(5 个,占总SSR 0.04%)、TTTA(5 个,占总SSR 0.04%)。而五碱基和六碱基的重复基元的数量分布均匀,所有的基元均只有1 个。

表2 美国红枫转录组的SSR 重复基元序列特征Table 2 Characteristics of SSR repeat motif sequence in American red maple

由于五碱基重复基元和六碱基重复基元数量均较低,均在总SSR 的0.01%以下,因此,仅把单碱基、双碱基、三碱基和四碱基的基序分布频率进行统计。如图1所示,单碱基的主要重复基序为A/T,占总SSR 的53.95%(共7 000 个);双碱基的主要重复基序为AT/TA,占总SSR 的8.00%(共1 039 个),最低的双碱基重复基序是CA/TG,占总SSR 的0.89%(共116 个);三碱基的主要重复基序为GAA/TTC,占总SSR的1.65%(共214 个),最低的为TAG/CTA,仅占总SSR的0.06%(共8 个);四碱基的重复基序均较低,均在0.05%以下。

图1 美国红枫转录组中不同的SSR 基序类型比例Fig.1 Different SSR motif proportions in American red maple

2.3 美国红枫转录组各个基元重复次数分析

SSR 重复次数决定着重复碱基序列的长度,从而影响SSR 多态性[16]。美国红枫转录组SSR 中单碱基到六碱基各基元重复次数在5~22 次之间均具有较大的分布。由图2可知,单碱基重复SSR 重复次数在≥10 次上都具有较大的分布,共4 927 个,占总SSR 的37.98%;而双碱基到六碱基重复SSR 主要分布在5~10 次之间,且双碱基到六碱基重复SSR 随着重复次数的增加,SSR 数量呈下降的趋势。

图2 美国红枫转录组SSR 不同重复类型的重复次数Fig.2 SSR repeat types with different number of repeats in American red maple

2.4 美国红枫转录组SSR 重复片段长度分析

美国红枫转录组中单碱基到六碱基重复SSR 序列长度分布差异显著,总体长度的变化在10~48 bp 之间,平均长度为18.43 bp。单碱基重复至六碱基重复的平均序列长度分别为11.80、14.45、16.21、20.44、25.38、37.00 bp(表1),其中六碱基重复SSR 序列长度变化幅度最大,最小的为30 bp,最长达48 bp。其次是单碱基(10~23 bp)、双碱基(12~24 bp)、四碱基(20~32 bp)、三碱基(15~24 bp),最后五碱基的变化幅度最小,最小的为25 bp,最长的为30 bp。另外,总体长度分布中可以看出,美国红枫单碱基到六碱基的SSR 位点中长度为10 bp 最多,共2 805 个,占总SSR 的21.62%,并且随着片段长度的增加,其对应的SSR数量呈下降的趋势(图3)。

图3 美国红枫转录组中SSR 长度分布Fig.3 SSR length distribution in American red maple

2.5 美国红枫转录组SSR 位点的引物设计

为了筛选出可应用于试验中的美国红枫SSR,根据美国红枫SSR 位点两端的互补序列设计引物,以为后续试验打下基础。本研究中根据转录组测序所获得的基因序列,按照引物的设计原则,利用Primer 3 软件对12 974 个美国红枫SSR 进行引物设计,每个SSR 最多设计3 对引物(表3~4)。结果表明,共有10 751 个SSR 符合引物设计要求,共设计出32 253 对引物,占总SSR 的82.87%,包括单碱基重复SSR 5 931 个,双碱基重复SSR 2 076 个,三碱基重复SSR 1 828个,四碱基重复SSR 72 个,五碱基重复SSR 11 个,六碱基重复SSR 6 个,以及复合型重复SSR830 个。进一步分析发现,符合引物设计要求且长度在20 bp 以上的共1 081 个SSR 位点,但这些特异性引物是否具有多态性,还需进一步验证。

表3 美国红枫转录组的SSR 引物信息Table 3 SSR Primer Information in American red maple

表4 部分SSR 重复类型及引物序列Table 4 Partial SSR repeat types and primer sequences

续表4Continuation of table 4

3 结论与讨论

3.1 讨 论

对美国红枫不同叶色进行转录组测序,共获得Unigene 78 571 条。对1 kb 以上的Unigene 序列(23 278)进行SSR 位点的搜索,发现12 974 个SSR 位点,出现的频率为55.75%,高于马尾松[17](3.45%)、云南松[18](3.07%)、南方红豆杉[19](2.07%)、蓝靛果忍冬[20](32.51%)、短丝木犀[21](4.64%)、杜仲[15](2.90%)等木本植物;美国红枫转录组SSR 分布平均距离为3.75kb,低于马尾松[17](15.97 kb)、云南松[18](29.00 kb)、南方红豆杉[19](18.01 kb)、短丝木犀[21](15.02 kb)、杜仲[15](26.31 kb)等木本植物,高于蓝靛果忍冬[20](2.58 kb)。而形成这种差异的原因可能与不同物种间SSR 基因表达差异、转录组数据量、筛选标准等相关[22]。总体来说,美国红枫转录组SSR含量较为丰富,为今后分子育种等试验提供了基础资料。

已有研究表明,物种中存在大量简单重复基元表明具有较高的进化水平,相反则表明进化时间较短或者该物种变异频率低[23-24]。在本次研究中,美国红枫转录组中SSR 以单碱基、双碱基以及三碱基重复类型为主,分别占总SSR 的54.12%、20.64%以及16.19%,其它类型占比较少,这一特征与红松[11]、泡核桃[25]、黑枸杞[26]等植物是一致的,说明美国红枫存在较高的进化水平或者具有较高的变异频率。另外,在美国红枫转录组SSR 位点还发现了31 个在双子叶植物中不常见的CCG/CGG 重复基序,表明美国红枫中的SSR位点具有一些特定的抗逆性、信号传导与代谢调控等生理功能[26]。

已有研究认为,SSR 基元重复次数和由碱基数量不同形成的不同序列长度与SSR 多态性息息相关,其中SSR 的长度是影响多态性的主要因素[27-29]。当SSR 序列长度<12 bp 时多态性表现极低,序列长度位于12~20 bp 之间的时多态性表现中等,序列长度≥20 bp 时多态性较高,并且高级序列SSR 的多态性普遍低于低级序列[16]。本次研究对美国红枫转录组中单碱基到六碱基重复SSR 序列长度进行统计分析,发现长度<12 bp 的SSR 共有4 117 个,占总SSR 的31.73%;长度在12~20 bp 之间的SSR 共7 394 个,占总SSR 的56.99%;长度≥20 bp 的SSR 共1 462 个,占总SSR 的11.27%,其中,经过对长度≥12 bp 的SSR进行统计,发现单碱基重复SSR(2 904 个)的个数>双碱基(2 679 个)>三碱基(2 100 个)>四碱基(90 个)>五碱基(13 个)>六碱基(6 个),表明美国红枫转录组中的SSR 位点大多数可能具有潜在的多态性,具有较高的利用价值。

综上所述,本研究中美国红枫转录组中SSR位点分布平均距离较短,出现频率较高,碱基重复类型以单碱基、双碱基和三碱基为主,分布较丰富,且68.27%的SSR 位点长度≥12 bp,说明具有较高的多态性和利用价值。但是,该研究仅仅是对序列特征进行了分析,并没有通过其他手段对其多态性等方面进行进一步验证,这是今后需要进一步开展的工作。另外,根据本研究的SSR 位点信息,筛选美国红枫不同品种特有的分子标记,用于品种区分和新品种选育也将是后续进一步研究的方向。

3.2 结 论

本研究从美国红枫转录组测序数据中共获得78 571 条Unigene,通过对长度≥1 kb 的Unigene进行SSR 位点分析,共获得SSR 位点12 974 个,出现频率为55.75%,平均分布距离为3 747.88 bp;美国红枫SSR 重复碱基类型以单碱基、双碱基和三碱基为主,其优势重复基元分别为A/T、AT/TA与GAA/TTC;单碱基到六碱基各基元重复次数主要集中在5~22 次之间,序列长度在10~48 bp之间,平均长度为18.43 bp;通过Prime 3 软件对美国红枫SSR 进行引物设计,共发现有10 751 个SSR 位点符合引物设计要求,其中长度在20 bp 以上的共1 081 个SSR 位点。这些研究结果为今后美国红枫品种鉴定、遗传图谱绘制、遗传多样性分析以及培育新品种等方面提供了基础资料。

猜你喜欢

基元碱基红枫
面向异构履带车辆的统一运动规划方法
基于多重示范的智能车辆运动基元表征与序列生成
基因“字母表”扩充后的生命
创建新型糖基化酶碱基编辑器
有级转向履带车辆的驾驶员操控行为模型
红枫
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
人体细胞内存在全新DNA结构
踏着如歌的岁月前行