APP下载

基于甘薯耐盐转录组测序的SSR和SNP特征分析

2022-11-25张小红

农学学报 2022年11期
关键词:基元核苷酸甘薯

张小红,彭 琼,鄢 铮

(福州市农业科学研究所,福州 350018)

0 引言

甘薯[Ipomoea batatas(L.)Lam.]被认为是最具潜力的高产救荒粮食作物,具有易种植、自然适应性广、抗逆性强等优点[1]。由于甘薯富含淀粉,能源产量较高,因此也被当作一种新型能源作物,用于燃料乙醇的生产[2]。中国作为甘薯的主要生产国,种植面积与产量早已超越其他国家,分别占全球总量的36.65%和63.84%[3]。但是,目前中国甘薯多数育成品种的遗传组成都具有‘胜利百号’和‘南瑞苕’的成分,主栽品种种间遗传基础过于狭窄,不利于甘薯品种的遗传改良,同时也制约着甘薯新品种的选育进程[4-5]。因此,对甘薯品种的遗传多样性进行分析,有助于明确甘薯种质的差异,鉴定和评估优质甘薯种质资源,了解甘薯品种间的亲缘关系及遗传背景,对甘薯的遗传改良与新品种选育具有现实意义。

DNA分子标记是目前研究物种遗传多样性、鉴定物种种质资源、构建遗传图谱最高效可靠的方法,具有传统标记所没有的优势,在植物中已经得到了广泛的应用[6-9]。近年来,随着基因组学和分子生物学的迅速发展,利用具有高通量特性的转录组测序技术实现了分子标记的大规模挖掘,基于转录组测序的DNA分子标记技术也因此受到了极大的关注[10]。目前,以转录组测序为基础开发的分子标记主要为简单重复序列标记(Simple Sequence Repeats,SSR)和单核苷酸多态性标记(Single Nucleotide Polymorphsm,SNP)[10-11]。SSR作为第二代微卫星分子标记技术,因其数量丰富、多态性高、重复性好、易于检测等优点,成为植物基因组分析的重要来源[12]。SNP 是由单个核苷酸变异引起的DNA序列多态性,具有位点密度高、分布广泛、代表性强、遗传稳定等特点,被认为是逐步取代过去其他分子标记的新一代分子标记技术[13-14]。

由于甘薯是一种异源六倍体植物,遗传背景复杂,且存在自交不亲等问题,仅根据表型性状比较判断,难以真实反映其遗传差异和亲缘关系,而DNA分子标记具有稳定性好、多态性高且不受客观环境影响等特点,因此已作为甘薯种质资源研究及遗传鉴定的一种重要手段[15-16]。Wang 等[17]基于甘薯转录组测序数据,获得了8294 个SSR 重复位点,并设计了1060 对SSR 引物用于甘薯多态性评价和遗传图谱构建。张超凡等[18]通过对12 对SSR 引物进行PCR 扩增,分析了31 份湖南甘薯品种的遗传多样性。Xie 等[19]从紫薯的转录组测序分析中搜索到851个潜在的SSR。Zhao等[20]利用高通量测序对紫肉甘薯‘京薯6号’及其高花青素的突变体进行转录组分析,从7547个Unigenes中鉴定出2349个潜在的SSR 标记用于多态性研究。许家磊从‘徐781’和‘徐薯18’的转录组测序数据中挖掘到1386 个SNP 候选位点,并检测了这些候选SNP 位点,提出了甘薯SNP 分子标记适合的检测方法,可以用于甘薯SNP分子标记的开发[10]。

因此,鉴于SSR 和SNP 标记具有共显性遗传、检测方便和多态信息含量高等特点,本研究基于甘薯转录组的测序数据,对潜在的SSR位点和SNP位点进行挖掘及特征分析,以此完善甘薯分子标记,为今后甘薯的种质资源评估、遗传图谱构建和分子标记辅助育种等方面的研究提供有力参考。

1 材料与方法

1.1 材料

供试材料耐盐甘薯品种‘榕薯819’和不耐盐甘薯品种‘榕薯910’均由福州市农业科学研究所提供。

1.2 转录组数据来源

将经200 mmol/L NaCl 溶液处理0、3、6 天的不同基因型甘薯样品进行Illumina 高通量测序(测序委托北京组学生物科技有限公司完成)。测序完成后,对原始数据(Raw data)进行过滤,再采用Trinity[21]组装软件对Clean reads 进行序列组装,共获得157252 条Unigenes,总长度为90649057 bp,平均组装长度为576 bp。后续SSR及SNP分析均基于该Unigenes库进行。

1.3 SSR及SNP分析

采 用MISA(http://pgrc.ipk-gatersleben.de/misa/misa.html)对Unigenes 进行SSR 检测,鉴定SSR 类型,再根据SSR两端互补序列,利用Primer3[22]进行SSR引物设计。以Unigene作为模板用e-PCR[23]做电子PCR,去除有多处比对的引物以保证设计引物扩增的唯一性。

利用针对RNA-Seq的STAR软件[24]比对每个样本的Reads 与Unigene 序列,使用GATK 软件[25]识别测序样品与Unigene 间的单碱基错配,识别潜在的SNP 位点。GATK 识别标准为:(1)35 bp 范围内连续出现的单碱基错配不超过3 个;(2)经过序列深度标准化的SNP质量值高于30。

2 结果与分析

2.1 SSR分析

利用MISA 对Unigenes 进行SSR 分析,统计结果如表1 所示,甘薯转录组共获得157252 条Unigenes 序列,序列总长度为90649057 bp,平均长度为576 bp。按照搜索标准,在157252 条Unigenes 序列中共发现SSR 位点33192 个,分布在24323 条Unigenes 中,发生频率(含SSR 的Unigenes 数与总Unigenes 数之比)为15.47%。其中,6271 条Unigenes 含有超过1 个以上的SSR 位点。甘薯转录组中SSR 位点出现频率(SSR 数目与总Unigenes的数目比值)为21.11%。SSR 位点的平均出现频率为0.37 个/kb,即每2.73 kb 碱基序列就出现1个SSR位点。

研究共鉴定出全部6 种SSR 类型,涉及类型较为丰富,且各类型的出现频率和所占比率各不相同(表1)。其中单核苷酸重复SSR 18718 个,双核苷酸重复SSR 8121 个,三核苷酸重复SSR 5565 个,四核苷酸重复SSR 601个,五核苷酸重复SSR 129个,六核苷酸重复SSR 58 个,分别占总SSR 数量的56.39%、24.47%、16.77%、1.81%、0.39%以及0.17%。

表1 SSR分析结果统计

在甘薯转录组SSR 中,重复基元的种类较多,共观察到120 种重复基元(表2)。其中单核苷酸重复基元有A/T、C/G 两种,且A/T 数量最多,为18391 个,占SSR 总数的55.41%。双核苷酸重复基元有4 种,所占比例最高的为AG/CT,共3706 个(11.17%)。三核苷酸重复基元有10 种,AAT/ATT 和AAG/CTT 数量最多,分别有1606 个(4.84%)和1325 个(3.99%)。四核苷酸、五核苷酸和六核苷酸重复基元则分别有28 种)、40 种和36 种,除AAAT/ATTT之外(231 个,0.69%),其余核苷酸重复基元数量均在100个以下,占比不足1%。

表2 甘薯转录组的SSR重复基元类型分布

由表3 可以看出,甘薯耐盐转录组SSR 重复基元中,单核苷酸重复基元的重复次数主要集中在10~12次,且在5~9次重复中并无重复基元,而其他核苷酸重复基元的重复次数则主要分布在5~8次之间。从表中可以看出,SSR 基元重复次数最多的为10 次,有6256个,其次为6 次,有4139 个。从总体趋势上看,SSR 重复基元数是随着重复次数的增加而递减。

表3 甘薯转录组SSR重复基元的重复次数分布 次

由表4 可见,本研究中SSR 长度变化范围主要分布在10~553 bp之间。其中长度在12~20 bp的SSR数量最多,共14075个,占总数的49.01%。其次为21~30 bp,共有SSR 3647 个,占总数的12.70%。长度在41~50 bp 和50~60 bp 的SSR 则分别有573 个和390 个,占比3.28%和2.00%。而长度分布在61~70 bp 以及71~80 bp的SSR占比最少,均不足1%,分别为0.80%(229个)和0.65%(188 个)。长度大于80 bp 的SSR 则有1873个,占总数的6.52%。由此可见,甘薯耐盐转录组SSR主要集中在10~20 bp之间,多态性中等。

表4 甘薯转录组SSR重复序列的长度分布

筛选出可应用的甘薯SSR,利用Primer 3 进行SSR引物设计,结果显示,研究共获得符合标准的引物15411 对,其中多态性较高的SSR(长度在20 bp 以上)共获得3175对引物。部分引物序列参见表5。

表5 甘薯转录组部分SSR引物序列

2.2 SNP分析

研究利用GATK 软件识别测序样品潜在的SNP位点,在157252 条Unigenes 中挖掘到7691906 个SNP位点,SNP的分布密度为0.08个/bp,即平均约11.78 bp就会岀现1 个SNP 位点。从表6 中可以看出,转换类型(Transition)有4729922个,占总数的61.49%,颠换类型(Transversion)有2961984个,占38.51%,转换类型与颠换类型之比为1.60。在6 种突变类型中,同属于转换类型的C/T 和A/G 含量最高,分别为2487774 个和2242148 个,占总数的32.34%和29.15%。剩下的4 种颠换类型所占比例较低,分别为G/T 10.48%(806215个)、A/T 10.22%(785938 个)、C/G 9.31%(716147 个)以及A/C 8.50%(653684个)。

表6 甘薯转录组SNP类型统计

3 讨论与结论

近年来,随着新一代高通量测序技术的快速发展和完善,基于转录组测序开发的SSR标记和SNP标记也成为了目前生物界最流行的用于遗传图谱构建、基因功能研究、分子标记辅助育种的技术方法[10,26]。目前,国内已有学者对基于甘薯转录组测序的SSR分子标记开发进行了研究,但相关报道仍少于其他作物,而SNP分子标记的研究更是处于相对滞后的状态[27-28]。

本研究基于甘薯转录组测序数据,共发现SSR 位点33192 个,出现频率为21.11%,高于小麦(7.32%)[29]、玉米野生近缘种‘大刍草’(13.31%)[30]、印度南瓜(9.52%)[31]和辣椒(7.83%)[32],同时也高于Wang 等[33](7.28%)、Li(4.88%)等[34]和Zhu(10.38%)等[35]其他学者对甘薯SSR的研究结果,表明本研究中SSR的分布密度较大,数量较为丰富。

在SSR 类型分布特征分析中,本研究共鉴定出全部6种SSR类型,涉及类型较为丰富,且各类型的出现频率和所占比率各不相同,其中单核苷酸重复SSR所占比重最大,占总数的56.39%,这与火龙果[9]、木荷[36]、李府贡枣[8]等植物的研究结果相同。而郑燕等[37]在对4 种禾本科植物(二穗短柄草、水稻、玉米、高粱)的SSR研究中发现,三核苷酸重复SSR数量最多,六核苷酸重复SSR 次之。蒋超等[38]研究发现,在金银花及其变种红白忍冬中,占主导地位的SSR为二核苷酸重复SSR,其次为三核苷酸重复SSR。由此可见,不同物种间的SSR分布特征相差较大,其原因可能是物种间的基因组大小存在差异。此外,有研究表明,除三核苷酸和六核苷酸主要发生在编码区以内之外,其余核苷酸类型均与非翻译区相关[39]。本研究中,甘薯SSR 以单核苷酸为优势基元,表明该转录组Unigenes中包含了更多的非翻译区信息。在单核苷酸重复基元中,A/T(55.41%)含量明显高于C/G(0.99%)含量,这一结果符合植物单核苷酸重复基元中A/T 更为丰富这一规律[40]。在二核苷酸重复基元中,AG/CT所占比例最高,为11.17%,这也与前人的研究结果相一致[33]。

SSR分子标记的多态性是判断其可用性的重要标准,SSR 的长度和重复次数是影响其多态性高低的重要因素[8,41]。当SSR长度在12 bp以下时,多态性较低;长度分布在12~20 bp 之间时,多态性中等;而长度大于20 bp时,多态性较高[8,41]。本研究中,甘薯SSR长度变化范围主要分布在10~553 bp之间,其中长度在12~20 bp 的SSR 数量最多,共14075 个,占总数的49.01%。长度大于20 bp 的SSR 有7843 个,占总数的27.30%。由此可见,甘薯耐盐转录组SSR主要集中在10~20 bp 之间,多态性中等,而长度大于20 bp 的SSR具有较高的多态性,可以作为甘薯SSR分子标记引物设计的依据。虽然SSR在基因组上的位置不尽相同,但是其两端序列多是保守的单拷贝序列,因此根据SSR两端互补序列来设计扩增引物,通过PCR反应将得到的产物进行凝胶电泳,即可显示SSR位点的多态性。本研究共获得符合标准的引物15411 对,其中多态性较高的SSR(长度在20 bp以上)共获得3175对引物,可为后续甘薯SSR多态性分析提供有效数据。

在SNP 特征分析中,研究共获得7691906 个SNP位点,分布密度为0.08个/bp,即平均约11.78 bp就会出现1 个SNP 位点。SNP 分布密度显著大于SSR,表明单核苷酸变异在甘薯的基因组中更易发生。其中,转换类型(61.49%)所占比例明显高于颠换类型(38.51%),这与大多数植物的研究结果相一致。究其原因在于,DNA 序列中包含了大量的CpG 位点,而CpG 位点的胞嘧啶(C)极易发生突变,被甲基化后可以通过脱氨作用转化为胸腺嘧啶(T),从而形成了嘧啶和嘧啶之间的替换,使得转换比例有所增加[42-43]。在6 种突变类型中,同属于转换类型的C/T和A/G含量最高,分别占总数的32.34%和29.15%,这与蛇足石杉[7]、火龙果[9]和李府贡枣[8]等植物的研究结果相同。

鉴于甘薯的遗传背景较为复杂,DNA分子标记以其高稳定性、高多态性等特点已成为甘薯种质资源研究及遗传鉴定的一种重要手段。本研究基于转录组测序技术,结合生物信息学分析等方法,在甘薯中挖掘到大量SSR和SNP位点,丰富了甘薯分子标记类型。在对这些分子标记位点的特征分析中发现,本研究获得的SSR 和SNP 数量较丰富,出现频率较高,分布密度较大,具有较高的多态性。此外,获得的这些SSR 和SNP 标记均来自甘薯转录组测序数据,转录组来源的SSR和SNP多位于基因编码区,可获得与植物抗逆、生长发育等直接相关的功能基因表达信息,这也为甘薯功能基因的挖掘鉴定、分子标记辅助育种、甘薯遗传结构分析以及遗传图谱的构建奠定了理论基础。

猜你喜欢

基元核苷酸甘薯
面向游戏场景生成的细分插槽WFC算法研究
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
基于多重示范的智能车辆运动基元表征与序列生成
益生菌发酵甘薯汁的工艺优化
Acknowledgment to reviewers—November 2018 to September 2019
日粮核苷酸对动物肠道健康和免疫功能的影响及其在养猪生产中的应用
多管齐下 防好甘薯黑斑病
人体细胞内存在全新DNA结构
面向土地利用/土地覆被的基元产品的研究