橄榄果实转录组SSR和SNP/InDel位点特征
2023-05-16赖瑞联沈朝贵冯新陈义挺韦晓霞吴如健
赖瑞联 沈朝贵 冯新 陈义挺 韦晓霞 吴如健
关键词:橄榄;转录组;简单重复序列;单核苷酸多态性;插入缺失标记
中图分类号:S667.5 文献标识码:A
橄榄(Canarium album)是我国热带亚热带地区特色果树,其果实富含多种营养和药用成分,在我国福建、广东、四川、广西等地区广泛栽培。福州市是我国橄榄最主要的产地之一,“福州橄榄”品牌于2011 年获得农业部地理标志保护品牌,2017 年品牌价值评估达20.80 亿元人民币,入选全国农产品百强[1]。福州市传统栽培的橄榄品种主要包括长营、惠圆、檀香、自来圆等。其中,长营和惠圆的果实性状存在明显差异,长营可食率约为78.40%,可供鲜食或加工,在长营基础上选育出了一系列鲜食品种,例如福榄1 号(光甜)[2]、清榄1 号[3]、福榄2 号[4]等;惠圆可食率约为85.20%,因鲜食品质较差,主要以加工为主,通过惠圆选育出了惠圆1 号[5]、惠圆3 号[6]等橄榄加工品种。作为我国特色果树产业,品质性状提升是橄榄科研创新的重要命题。目前,在橄榄品种选育[2, 7]、性状评价[8-9]、品质模型[10]、遗传背景[11]等方面都开展了大量研究。值得注意的是,橄榄童期较长,开发果实性状相关分子标记用于育种材料初步筛选可有效提高种质创新和育种效率。而现阶段,橄榄果实性狀形成分子机制研究及相关标记的开发仍处于空白,限制了橄榄分子辅助育种进程。
DNA 分子标记鉴定是植物分子辅助育种重要技术手段,尤其是具有高灵敏度、高特异性的简单重复序列标记(simple sequence repeats, SSR)和单核苷酸多态性标记(single nucleotide polymorphism,SNP)在许多植物中得到了有效应用。?AHIN 等[12] 筛选了抗霜霉病相关的向日葵(Helianthus annuus)SSR 标记并成功应用于向日葵辅助育种;GHARSALLAH 等[13]结合表型和SSR 标记挖掘了番茄(Lycopersicon esculentum)品种耐盐特性相关位点,有效提高了番茄耐盐胁迫育种效率;TERAKAMI 等[14]采用SSR 标记对中国梨(Pyrus ussuriensis)黑斑病易感基因进行了定位,为梨抗黑斑病辅助育种提供了重要途径。
在SNP 开发相关研究中,TAN 等[15]开发了小麦(Triticum aestivum)抗黑森瘿蚊基因的SNP 标记,可用于进一步指导小麦育种;KIM 等[16]通过转录组测序挖掘了萝卜(Raphanus sativus)SNP标记用于萝卜种子的鉴定、纯度检测和亲本组合的调整;FROUIN 等[17]鉴定了水稻(Oryza sativa)预防砷吸收和积累相关的SNP 位点,为水稻相关育种提供了参考依据。目前,橄榄转录组测序相关研究也取得了一定进展,为分子标记开发奠定了良好的基础[18]。在前期研究基础上,本研究基于转录组数据对具有不同性状的橄榄品种长营和惠圆的果实进行SSR 和SNP/InDel 特征分析,以期为橄榄果实性状相关分子标记开发提供数据基础。
1 材料与方法
1.1 材料
供试材料为长营和惠圆橄榄品种的果实,取自福建省农业科学院果树研究所橄榄种质资源圃(26° 07′40″N,119°20′16″E)。以孔祥佳等[19]建立橄榄果实成熟度评价体系为参考标准,采集不同品种成熟、健康、无机械病虫损伤的果实,充分洗净后用液氮速冻,并置于超低温冰箱中保存备用。
1.2 方法
1.2.1 RNA提取与检测 采用植物多糖多酚试剂盒E.Z.N.A.TM Plant RNA Kit 提取果实总RNA,采用1.0%琼脂糖凝胶电泳和Agilent 2100 bioanalyzer(Agilent Technologies, USA)检测总RNA的完整性, 随后利用NanoPhotometer spectrophotometer(IMPLEN, USA)检测总RNA 的纯度。
1.2.2 文库构建与质检 取1 μg 橄榄果实总RNA,采用NEBNext? UltraTM RNA Library Kit试剂盒(Illumina, USA)进行建库。首先使用Oligo(dT)磁珠富集带有polyA 尾的mRNA,使用二价阳离子在高温下在NEBNext 第一链合成反应缓冲液(5×)中进行裂解,使用随机寡核苷酸引物和M-MuLV 逆转录酶体系合成cDNA 第一链。随后使用RNaseH 酶降解RNA 链,再通过DNA 聚合酶I 合成cDNA 第二链。纯化后的cDNA 进行末端修复、加A 尾、连接测序接头,随后使用AMPure XPbeads 筛选长度为250~300 bp 的cDNA片段,经PCR扩增后进行PCR 产物纯化,最终获得文库。采用Qubit 2.0 Fluorometer(Invitrogen,USA)和Agilent2100 bioanalyzer 进行文库质量检测,随后采用qRT-PCR 对文库进行定量,筛选有效浓度高于2.0 nmol/L 的文库后用于后续测序。
1.2.3 RNA 测序与数据组装 采用TruSeq PECluster Kit v3 cBot HS(Illumina, USA)对样本进行聚类,随后在Illumina Novaseq 平台上对制备的文库进行测序,并产生150 bp 配对末端读数。测序片段的图像数据经CASAVA 转化为fastq 格式的序列数据文件,去除带测序接头、无法确定碱基信息以及低质量的reads,最终获得高质量的clean reads。随后采用TRINITY 软件[20]将cleanreads 拼接成transcripts,再采用CORSET 软件[21]进行层次聚类后得到最长cluster 序列作为unigene用于后续分析。每个样本进行3 次生物学重复。
1.2.4 SSR 位点鉴定 采用MISA 1.0 软件[22]筛选和识别unigene,并对转录组SSR 位点进行分析,鉴定出单碱基重复、雙碱基重复、三碱基重复、四碱基重复、五碱基重复和六碱基重复等类型的橄榄果实SSR。采用Microsoft Excel 2013 软件进行数据分析和图表制作。
1.2.5 SNP/InDel 分型与特征分析 采用Picardtoolsv1.41 和Samtools v0.1.18 软件进行排序并删除重复数据,同时合并每个样本的校准结果,并采用GATK3 软件v3.4 版本[23]默认参数进行SNP位点检测和数据统计。
2 结果与分析
2.1 橄榄果实的SSR 位点检测
2.1.1 SSR 位点数量 通过长营和惠圆橄榄品种果实转录组测序, 6 个测序样本平均获得22 813 726 bp 的raw reads,过滤后的clean reads为22 019 057 bp,原始数据过滤后的平均碱基数为6.61 Gb,整体测序错误率约为0.02%,Q20 和Q30 分别为98.11%和94.19%,说明测序结果较好,可用于后续分析。拼接后,共获得125 021条转录本和44 062 条unigenes,这些unigenes 包含54 735 280 bp 核苷酸。采用MISA1.0 对获得的unigenes 进行SSR 位点鉴定,总共在10 124 条unigenes 上鉴定到13 935 个SSR 位点,发生频率为22.98%,平均每1 kb 序列出现0.25 个SSR 位点。这些SSR 分布的unigenes 中,2657 条序列包含1 个以上的SSR 位点,1072 条序列包含复合型SSR 位点。可见,橄榄果实转录组中广泛分布SSR 位点。
2.1.2 SSR 重复基元类型 橄榄果实SSR 位点的重复基元类型如表1 所示。SSR 重复基元类型较为丰富,除了含有单碱基重复到六碱基重复6 种类型,还包含977 种复杂重复类型。对单碱基重复到六碱基重复的SSR 类型进一步分析发现,单碱基重复的SSR 类型最多,达到9308 个,占全部SSR 位点的66.80%,随着重复基元碱基数的增加,类型数量逐渐减少,六碱基重复的SSR 类型仅有65 个,占全部SSR 位点的0.47%。从SSR位点的出现频率和分布距离来看,单碱基重复的SSR 位点类型分别为21.12%和5.88 kb,而六碱基重复的SSR 位点类型分别为0.15%和842.08 kb。结果可见,不同重复基元类型的SSR 位点数目和分布存在较大差异。
2.1.3 SSR 序列长度分布 不同重复基元的橄榄果实SSR 类型的序列长度为10~320 bp,平均长度为36.19 bp。对其中单碱基重复基元到六碱基重复基元的SSR 序列进一步分析发现(表2),整体上序列长度为10~72 bp,平均长度为14.34 bp。其中,长度差异最大的是单碱基重复的SSR 类型,介于10~64 bp 之间,平均长度为12.85 bp;差异最小的为五碱基重复的SSR类型,介于25~30 bp之间,平均长度为25.68 bp。
2.1.4 SSR 优势重复基元分布特征 橄榄果实SSR 位点基元数量统计分析结果如图1 所示。分布频率最高的基元分别是A/T(9290个,占比66.67%)、AG/CT(1304 个,占比9.36)、AT/AT(857 个,占比6.15%)、AAT/ATT(421 个,占比3.02%)、AAG/CTT(392 个,占比2.81%)。对不同SSR 重复基元类型的出现频数进行分析发现,所有SSR 位点共出现105 种重复基元,单碱基到六碱基重复的基元类型分别为2、4、10、21、29、39 种。单碱基重复基元到六碱基重复基元中的优势重复基元分别为A/T、AG/CT、AAT/ATT、AAAT/ATTT ( 65 个, 占比0.47% )、AAGAG/CTCTT (10个, 占比0.07% ) 和AGATGG/ATCTCC(5 个,占比0.04%)。
2.1.5 SSR 各基元类型重复次数 橄榄果实SSR位点不同基元类型的重复次数统计结果如图2 所示。其中,单碱基重复基元的重复次数主要分布在9~12 和13~16 之间,分别占SSR 位点总数的41.69%和17.22%,占单碱基重复基元总数的62.42%和25.77%;双碱基到六碱基重复基元的重复次数均主要集中在5~8,分别占对应重复基元总数的68.67%、93.55%、98.30%、100%和98.46%。不同重复基元类型的SSR 位点数量随着重复次数的增多呈递减趋势。
2.2 橄榄果实的SNP/InDel 的特征分析
基于转录组数据进行不同性状橄榄品种果实SNP/InDel 挖掘。共获得284 992 个SNP 位点,平均每1 kb 序列含有5.21 个。其中,转换类型的SNP 位点共166 162 个,C/T 和A/G 发生频率相近,每1 kb 序列分别含有1.51 个和1.52 个。颠换类型的SNP 位点共118 830 个,每1 kb 序列中A/T、A/C、T/G 和C/G 的平均个数分别为0.63、0.53、0.54 和0.47。转换类型的SNP 位点(3.03个)的发生频率明显高于颠换类型(2.18 个)。其中,第1、2 和3 位上发生SNP 突变的密码子数量分别为51 513、25 378 和50 306。在这些SNP 位点中,4479 条unigenes 包含1 个SNP 位点,3096 条unigenes 包含2 个SNP 位点,2419条unigenes 包含3 个SNP 位点,随着SNP 位点数增多,unigenes 的数量逐渐减少(图3A)。值得注意的是,其中的14 条unigenes 包含有100个以上的SNP 位点(表3),其中的9 条unigenes得到了功能注释,仍有5 条unigenes 在所有数据库中未得到有效比对,这些存在高频SNP 变异的unigenes 可能在果实性状差异形成过程中发挥了重要功能。
基于转录组测序数据,共获得18 548 个InDel位点,平均每1 kb 序列含有2.95 个,其分布变化趋势与SNP 相似(图3B),unigenes 中含有1 个InDel 位点的数量最多,达到7853 条。InDel 位点最多的是Cluster-4594.16496,达到24 个InDel位点,通过比对预测,其可能是胼胝质合成酶。
3 讨论
3.1 转录组测序可有效开发橄榄SSR 和SNP/InDel 标记
转录组测序是植物SSR 和SNP/InDel 标记开发有效的技术手段。VIDYA 等[24]从生姜(Zingiberofficinale)转录组中挖掘了16 790 个EST-SSR 位点,其中4597 个SSR 位点分布在已预测的编码基因中;ZHOU 等[25]从楠木(Phoebe bournei)转录组中鉴定了40 853 个SSR 位点,并对其中23个多态性EST-SSR 标记进行应用;TULSANI 等[26]从芫荽(Coriandrum sativum)转录组中鉴定到了9746 个SSR 位点,为其转录组草图和基因标记提供了重要信息;XU 等[27]基于转录组测序从草珊瑚(Sarcandra glabra)中挖掘了726 476 个SNP位点和42 939 个InDel 位点,为其资源开发奠定了基础。本研究采用Illumina Novaseq 测序平台,从不同性状的橄榄果实中分别挖掘了13 935 个SSR 位点、284 992 个SNP 位点和18 548 个InDel位点,为后续橄榄分子标记开发和应用奠定了数据基础。
3.2 橄榄果实中存在丰富多样的SSR位点
SSR 标记具有多态性高、分辨率高、通用性好、稳定性强等优点,是物种种质资源鉴定、遗传连锁图谱构建、基因定位、数量性状基因位点分析、分子标记辅助育种等研究的重要技术手段[28]。本研究通过转录组高通量测序,在10 124条unigenes 上鉴定到13 935 个SSR 位点,发生频率为22.98%。其中,单碱基重复基元类型的SSR位点最多并且单碱基重复是橄榄果实的优势重复基元,随着重复碱基数量的增加,SSR 位点出现频率下降,与油梨(Persea americana)[29]、甜柿(Diospyros kaki)[30]、香椿(Toona sinensis) [31]等物种的规律一致。橄榄果实中的优势重复基元主要包括A/T 、AG/CT 、AT/AT 、AAT/ATT、AAG/CTT 等,尤其A/T 的比例达到66.67%,与甜柿[30]、龙眼(Dimocarpus longan)[32]、油梨[29]等其他物种存在一定的相似性,但仍有差异,可见SSR 位点分布存在物种特异性。此外,橄榄果实SSR 位点中也发现了6 个CG/CG 和29 个CCG/CGG 重复基元,其在双子叶植物中较为少见[30],可能在橄榄进化过程中发挥特殊的生物学功能。从多态性上看,通常认为长度大于20 bp的SSR 位点具有较高的多态性[33],橄榄果实中四碱基、五碱基和六碱基重复的SSR 位点长度均在20 bp 以上,具有更高的多态性,可能具有较高的应用价值。
3.3 橄榄果实中广泛分布SNP/InDel位点
SNP/InDel 具有高效性、準确性,并且与作物性状密切相关。本研究基于转录组测序,共检测到橄榄果实284 992 个SNP 位点,平均每1 kb 序列含有5.21 个SNP 位点。其中,转换和颠换类型的比例为1.398,与理论值0.500 存在较大偏差,说明橄榄进化过程中对不同类型的选择并非随机而可能存在偏向性[34]。此外,本研究共获得橄榄果实18 548 个InDel 位点,每1 kb 序列平均包含2.95 个InDel 位点。后续还应进一步针对SNP/InDel位点进行深入研究,开发橄榄果实性状相关的特异性分子标记,为橄榄种质资源鉴定和分子辅助育种提供技术支撑。