基于转录组数据的密花香薷SSR位点特征分析
2021-05-25刘玉萍
富 贵,刘玉萍,苏 旭*
(1 青海民族大学 生态环境与资源学院,青海省特色经济高值化利用重点实验室,西宁 810007;2 青海师范大学 生命科学学院,西宁 810008;3 高原科学与可持续发展研究院,西宁 810016)
密花香薷 (ElsholtziadensaBenth.) 是唇形科 (Labiatae) 香薷属 (ElsholtziaWilld.),一年生草本植物,主要分布于中国河北、山西、陕西、甘肃、青海等地。多生长在海拔280 ~ 4 200 m的林缘、林下、河边、草地边缘、高山、荒地等处[1]。密花香薷全株富含各种活性成分,主要活性成分是挥发油,Amit等[2]最新研究发现了40种挥发性组成成分,占总挥发性油的83.3% ~ 83.7%,挥发性油主要包含3种主要的成分:松香芹酮 (51.9%)、反式松樟酮 (5.2%) 和乙酸香茅酯 (3.4%),具有一定的药用价值[3]。西藏、青海等地常使用密花香薷代替正品香薷入药,具有消炎、利湿、排汗、解暑的功效,可治疗夏季感冒、发热无汗、中暑、急性胃炎、乳腺癌、口臭、肾炎和小便不利等多种疾病[4-5]。藏医全草入药也可用于治培根病、胃病、梅毒性鼻炎、咽喉炎和寄生虫病,外用可治疗脓肿和皮肤病[6-7]。密花香薷因具独特香味,在中国西北地区常作为蔬菜和茶叶食用,是一种药食兼用的植物。另外,有研究报道[8-9],密花香薷是青藏高原重要的秋季蜜源,人工种植可为蜂户带来可观的收入,具有较大的开发价值。
分子标记技术被广泛用于植物遗传学研究中,有关分子标记技术的应用已在很多模式植物和重要的药用植物中进行了报道[10-14],SSR (simple sequence repeat) 简单重复序列是一种以特异引物PCR为基础的分子标记技术,动植物基因组上广泛分布有一种以1~6个核苷酸为重复单位组成的串联重复序列,如 (AC)n (GA)n (AT)n (AAG)n (AAT)n等,其中n代表重复次数,从几个到几十个不等[15-16]。基因组不同位置,每个座位其重复基元和重复次数皆不可能完全相同,因而在基因组水平表现出多态性。SSR在植物全基因组内广泛分布,具共显性遗传特点,同时具扩增稳定、假阳性少、操作简便、可揭示多态性丰富等优点而被广泛用于植物种质资源遗传多样性分析、分子遗传图谱构建、基因定位、指纹图谱构建以及植物系统发育分析等研究[17]。
目前对于密花香薷的研究主要集中于化学成分的分离和提取。如孙丽萍等[18]从密花香薷中分离得到 10个化合物;王笳等[19]采用GC/MS气质联用仪对密花香薷精油进行了化学成分分析,鉴定出13种化合物;徐海燕等[20]对密花香薷进行了生药学研究,发现密花香薷在原植物、性状、显微等方面具有专属性特征。密花香薷的水、醇溶性浸出物含量分别为3.75%、3.20%。但是密花香薷种质资源分布、物种分类及分子生物学等方面的研究还未曾被报道,严重阻碍了密花香薷优质种质资源的筛选和后续开发利用。本研究基于高通量测序 (Illumina HiSeq) 获得的密花香薷转录组数据,分析了分布于转录组上的SSR位点信息特征,可为后期密花香薷SSR引物开发与筛选提供理论依据,为密花香薷遗传多样性、系统亲缘关系、优质资源筛选鉴定及育种等相关研究奠定理论基础。
1 材料和方法
1.1 试验材料
本试验样本采集于中国青海省海南藏族自治州共和县青海湖二郎剑景区 (36.578 5°N,100.491 1°E),海拔3 194.15 m,挑选长势良好的密花香薷 3株,分别取叶片后,用锡箔纸包好,立即存入液氮中保存,送回实验室用于后续RNA的提取和测序。
1.2 试验方法
1.2.1 RNA的提取与建库采用经典提取方法 (Trizol法)[21]提取密花香薷样本RNA,获得RNA后,首先对其纯度和完整性进行检测,再通过Oligo (dT) 磁珠富集mRNA,用于反转录成cDNA。采用NEB普通建库,以信使RNA作为模板,随机寡核苷酸作为引物合成第一条cDNA链,以dNTPs (4种脱氧核糖核苷酸) 为原料合成cDNA的第二条链。两条链合成后进行纯化、末端修复等操作,再通过筛选,将筛选出的cDNA进行PCR扩增,二次纯化得到文库。
1.2.2 测序和数据评估获得的文库经过检测,质量得到保证才可以上机测序,构建好的文库用Illumina HiSeq 2000进行测序,获得的序列信息数据要进行一定程度的过滤,用Fast QC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/,快速地对测序数据进行质量评估) 检查原始读物的质量,去除带接头和含N的读片以及测序质量低的读长 (Qphred≤20的碱基数占读取长度的 50%以上),测序获得原始数据后,取得clean reads。Trinity软件(https://github.com/trinityrnaseq/ trinityrnaseq/wiki) 用于短reads的组装,组装后得到的序列拼接成为转录本再进行后续分析。
1.2.3 SSR位点的检测和搜寻利用MISA (microsatellite,https://webblast.ipk-gatersleben.de/misa/) 软件1.0版,选择默认参数,对应的各个重复基元的最少重复次数分别为1-10、2-6、3-5、4-5、5-5和6-5 (如:1-10,以单核苷酸为重复单位时,其重复数至少为10才可被检测到;2-6,以双核甘酸为重复单位时,其最少重复数为6),对转录本进行SSR检测。
2 结果与分析
2.1 密花香薷转录组分布概况
组装后的密花香薷转录组数据,利用CD-HIT软件 (https://github.com/weizhongli/cdhit/wiki/3.-User’s-Guide#CDHITEST) 去冗余后,共获得 42 362条Unigenes,平均长度为1 325 bp,总长度为56 141 397 bp。经搜索发现 SSR重复序列总共有17 564个,分布于11 903条 Unigenes 上,SSR 的出现频率为 28.10%,密花香薷转录组Unigenes序列平均每3 200 bp 出现一个 SSR 位点,包含有2个及2个以上SSR位点数为3 693个,复合型SSR 位点数为1 675个 (表1)。可见,密花香薷转录组所包含SSR位点较丰富,分布较为广泛。
表1 密花香薷转录组SSR分布特征描述Table 1 The description of distribution characteristics for SSR loci in transcriptome of Elsholtzia densa
2.2 密花香薷转录组SSR位点不同重复类型分析
对密花香薷转录组检测到的SSR位点进行了核苷酸重复类型分类,共有6种重复类型(表2)。不同重复单元形成的SSR位点数目相差较大,其中单核苷酸重复位点最多,为8 997个,占总SSR位点的51.22%,总长度为100 356 bp,平均每6 240 bp个核苷酸出现1个单核苷酸重复序列;二核苷酸重复序列次之,为4 475个,占总SSR位点的25.48%,总长度为59 434 bp,平均每12 550 bp个核苷酸出现1个二核苷酸重复序列;五核苷酸重复序列最少 (85),占总SSR位点的0.48%,总长度为1 775 bp,平均每660 490 bp个核苷酸出现1个五核苷酸重复序列。不同重复类型形成SSR频率差异较大,SSR出现频率介于0.20% ~ 21.20%之间,其中单核苷酸重复类型SSR发生频率最高,每100条Unigene 有21.20个SSR位点出现;五核苷酸重复类型SSR发生频率最低,每100条Unigene 仅有0.20个SSR位点出现。
表2 密花香薷转录组SSR位点重复类型、数量及分布统计Table 2 The statistics of repeating types,number and distribution for SSR loci in transcriptome of Elsholtzia densa
2.3 密花香薷转录组SSR基序类型特征分析
对密花香薷SSR位点不同重复基元进行分析,研究结果 (表3,图1) 表明,共有169个重复基元类型,在不同重复次数下形成17 564个SSR位点。其中单核苷酸 2 种基元类型,(A/T)n基元类型占明显优势,共形成8 888个SSR位点,占单核苷酸SSR位点的98.78%,总SSR位点的50.60%;二核苷酸基元类型4种,(AG/CT)n基元类型占优,共形成2 138个SSR位点 (47.80%,12.17%);三核苷酸基元类型为9种,其中 (AAG/CTT)n基元类型SSR位点最多,共形成638个SSR位点 (17.68%,3.63%),依次较高的为 (AAC/GTT)n,形成584个SSR位点 (16.18%,3.33%),(ATC/ATG)n 形成502个SSR位点 (13.90%,2.86%);四核苷酸基元类型25种,形成SSR位点较多的基元类型依次为 (AAAT/ATTT)n、(AAAG/CTTT)n和(AATT/AATT)n,分别形成38 (17.43%,0.216 4%)、35 (16.06%,0.20%)和34 (15.60%,0.20%) 个SSR位点;五核苷酸基元类型为29种,形成SSR较多的基元类型为 (AAAAG/CTTTT)n、(AAAAT/ATTTT)n 和 (AAAAC/GTTTT)n,分别形成17 (20.00%,0.10%)、11(12.94%,0.06 3%) 和8 (9.4%,0.05%) 个SSR位点;六核苷酸基元类型为99种,形成SSR位点较多的基元类型为 (AAAAAT/ATTTTT)n,形成8个SSR位点(4.44%,0.05%),(AAAAAG/CTTTTT)n、(AAAGAG/CTCTTT)n、(AAGGAG/CCTTCT)n、(AATTCC/AATTGG)n、(AGATGG/ATCTCC)n 5种基元类型均形成6个SSR位点 (3.33%,0.03%)。
图1 不同重复类型优势基序SSR位点数量分布Fig.1 The quantities distribution of SSR loci formed from preponderant motif of different repetitions
不同基序类型形成SSR位点数目存在广泛变异 (表3),单核苷酸基序 (A/T)n SSR发生频率最高 (20.98%);81个基序类型所形成的SSR位点发生频率最低,包括 8个四核苷酸基序,11个五核苷酸基序和62个六核苷酸基序,仅形成1个SSR序列 (0.0024%)。从总体来看,随着SSR基元碱基数目的增加,基元类型增加,SSR位点数呈下降趋势。
表3 密花香薷转录组不同基序SSR位点数量分布Table 3 The quantities distribution of different motif SSR loci in transcriptome of Elsholtzia densa
2.4 密花香薷转录组中SSR基元重复次数分析
密花香薷SSR 基元重复次数因基元序列长度表现出广泛的变异,不同重复次数所形成的SSR位点差异较大,每种基元类型构成的SSR位点中,最小重复次数的SSR位点最多,且随着基元长度的增加,重复次数类型呈下降趋势 (表4,图2)。单核苷酸重复基元其重复次数类型广泛,介于10 ~ 66之间,共有49种重复次数,不同重复次数所形成的SSR位点数量差异较大,最小重复次数为10次,且所形成的SSR位点比例最高,占所有单核苷酸SSR序列的35.90%,最大重复次数为66次,仅形成2个SSR位点,占所有单核苷酸SSR序列的0.02%。五核苷酸基元重复次数类型最少,重复次数介于5 ~ 11之间,共有4种重复次数,其中最小重复次数为5次,且所形成的SSR位点最多,为62个,占五核苷酸重复序列所形成SSR位点的72.94%,最大重复次数为11次,形成的SSR位点仅有1个,占五核苷酸重复序列所形成SSR位点的1.18%。所有基元类型重复次数相关信息详见表4。
图2 密花香薷转录组不同基序类型SSR位点统计Fig.2 The statistics of different motif SSR loci in transcriptome of Elsholtzia densa
表4 密花香薷转录组SSR基序重复次数统计Table 4 The statistics of repetition times for motif of SSR loci in transcriptome of Elsholtzia densa
2.5 密花香薷转录组不同基元类型SSR位点长度分析
对密花香薷转录组二至六核苷酸,不同基序SSR长度进行了分析,不同基序类型SSR位点所包含长度类型差异较大,总体来看,SSR长度主要集中在12 ~ 30 bp区间,该长度范围内包含有8 190个SSR位点,占所统计SSR位点的95.60%,而且随着SSR位点长度的增加,SSR位点数目呈下降趋势 (表5,图3)。二核苷酸基序构成的SSR位点,长度分布在12 ~ 30 bp的数量最多,为4 260,占二核苷酸SSR位点总数的95.20%;三核苷酸次之,长度分布在12 ~ 30 bp的SSR数量为3 509,占三核苷酸SSR位点总数的97.23%;五核苷酸最少,长度分布在12 ~ 30 bp的数量为83 (97.64%);四和六核苷酸2种基序SSR长度分布在12 ~ 30bp的数目分别为20 (92.66%)和136 (75.56%)。
图3 密花香薷转录组不同基元SSR位点长度分布Fig.3 Length distribution of different motif SSR loci in transcriptome of Elsholtzia densa
表5 密花香薷不同基元和不同重复次数SSR位点长度统计Table 5 Statistics of the length of different motif and repetition time SSR loci in transcriptome of Elsholtzia densa
3 讨 论
磁珠富集法作为一种经典的方法常被用于SSR标记的开发,该方法虽步骤繁多,但成本低,早期在SSR标记开发中得到了广泛应用,如富贵等利用磁珠富集法开发出了蕨麻 (Potentillaanserina) 20对多态性较好的SSR引物[17]。近年来,随着测序技术的发展和成本的降低,基于转录组、基因组及公共数据库EST (Expressed Sequence Tag) 数据,运用生物信息学方法检测SSR位点信息并进行引物开发已被广泛应用,如李荣华等[22]基于菜薹 (Brassicacampestris) 转录组分析检测到11 879 个SSR位点,并筛选出12对具有多态性的引物;黄兴发等[23]基于黑果枸杞 (Lyciumruthenicum) 基因组测序数据,获得2 494个SSR位点,筛选出10对高多态性SSR引物,并分析了48份枸杞的遗传多样性;张天缘等[24]利用MISA 软件从紫苏 (Perillafrutescens) 1 206条EST序列中检索到1 526个SSR位点,并设计获得了723条SSR引物。
本研究对去冗余后的密花香薷42 362条 Unigene 进行SSR位点检测和分析,共检测到 SSR位点17 564个,分布于11 903条 Unigene 上,SSR 的出现频率为 28.10%。刘小莉等[25]对唇形科云南鼠尾草 (Salviayunnanensis) 转录组SSR进行研究发现,SSR发生概率为 7.51%;刘欣雨等[26]基于丹参 (Salviamiltiorrhiza) 15.99 Mb 转录组数据,分析了含有 Unigene的 33 438 条序列,共获得 2 095 个 SSR 候选位点,SSR发生率为6.27%;张天缘等[24]对唇形科紫苏 (Perillafrutescens) EST-SSR分布特征进行了统计,EST-SSR发生频率为22.19%。对比以上几种同科近缘种,密花香薷转录组SSR发生频率相对较高。与其他外缘物种,如云南金花茶 (Camelliafascicularis,19.63%)[27]、党参 (Codonopsispilosula,12.22%)[28]、黑果枸杞 (26.36%)[29]和马铃薯(Solanumtuberosum,3.43%)[30]相比,密花香薷转录组所包含SSR位点亦表现出较高的丰富度。由此可见,密花香薷转录组所包含SSR位点数目丰富,可为后期SSR标记的开发和筛选提供大量的信息基础。对上述物种转录组SSR发生频率进行比较,不难发现,SSR 位点发生频率因物种不同而表现出差异性,究其原因,可能与物种自身基因结构固有差异,以及分析数据库大小、SSR 搜索工具和搜索条件的不同设置等有关[28]。
通过对密花香薷转录组不同基序类型SSR位点数目分析发现,密花香薷转录组SSR重复类型共有 6种,单核苷酸重复类型最多,占总SSR位点的51.22%,依次为二 (25.48%)、三核苷酸重复类型 (20.57%),由此可见,单、二、三核苷酸重复类型 (97.27%) 是密花香薷转录组SSR位点的主导基序类型,单核苷酸在3种主导基序类型中所占比例最高,为主要的基序类型。尹跃等[29]对黑果枸杞转录组SSR分析研究也得出了相似的结论,黑果枸杞转录组SSR主要类型为单、二、三核苷酸重复类型 (99.44%),单核苷酸重复 (74.33%)为主要基序类型。相同的结论在韭菜全长转录组SSR信息分析中也得到了支持[31]。唇形科云南鼠尾草、丹参和紫苏SSR序列信息研究结果发现,SSR基序主导类型也是一至三核苷酸重复,3种基序类型所形成SSR位点占比分别为92.58%、98.0%和98.85%,但与本研究不同的是上述三种植物转录组SSR主要基序类型是二核苷酸 (紫苏46.76%,云南鼠尾草41.47%,丹参61.60%)[24-26]。诸多研究表明,植物转录组SSR位点重复基元主要以短序列重复基元为主,但不同物种中SSR主导基序不同,这一结论在上述不同植物研究中均得到了验证支持。
有研究表明,被子植物和蕨类植物二核苷酸的优势基元主要为 (AG/CT)n,而裸子植物以 (AT/AT)n 为优势基元;双子叶植物、蕨类植物和少数单子叶植物以 (AAG/CTT)n 为三核苷酸的优势基元[30],不同植物转录组SSR基元类型所表现出的差异性可能和物种自身遗传和基因结构有关。密花香薷转录组SSR二核苷酸的优势基元为 (AG/CT)n,占二核苷酸SSR的比例为47.80%,三核苷酸优势基元为 (AAG/CTT)n (17.68%),这一研究结果与上述结论一致。同时,对诸多植物,如党参[26]、山地虎耳草 (Saxifragamontana)[32]、蒙农红豆草 (OnobrychisviciifoliaScop‘Mengnong’)[33]、细果角茴香 (Hypecoumleptocarpum)[34]转录组SSR研究也得到了上述相同的结论。但也有一些植物,二、三核苷酸优势基元与上述研究不同,如韭菜二核苷酸优势基元为 (AC/GT)n (20.28%)[31]、薄壳山核桃三核苷酸优势基元为 (AAC/GTT)n (34.95%)[35]、香蕉三核苷酸优势基元为 (AGG/CCT)n (12.53%)[36]。不同物种转录组SSR同一重复类型优势基元的不同,可能和其相应编码蛋白的使用频率差异有关[33]。
种内SSR位点的多态性主要表现在基元重复次数的差异,Xu 等[37]研究表明SSR 基元重复次数高的序列具有较高的多态性潜能,当其重复次数高于12次时,多态性较高[38]。密花香薷转录组重复次数变异范围广泛,分布在5~66次之间,共有121种重复次数,具有较高的重复类型数,每种基序类型最小重复次数所形成的SSR位点数最高,且随着基序核苷酸的增加,重复次数类型呈下降趋势。长度分析表明,SSR序列长度<12 bp时多态性表现极低,12~20 bp之间表现中等,≥20 bp时多态性较高,且低级基序SSR多态性普遍高于高级基序SSR[39]。密花香薷转录组二至六核苷酸基序SSR序列长度结果表明,每种基序类型SSR序列长度主要集中在12~30 bp,包含有8 190个SSR位点,占所统计SSR位点的95.60%,1 589 (≥20 bp) 个SSR序列具有极高的多态性,占所统计SSR位点的18.54%。据此推测,上述SSR位点在密花香薷SSR分子标记中具有较高的开发潜能。
本研究基于密花香薷转录组数据检索到17 564个SSR位点,并分析了其序列分布类型和结构特征,综合SSR出现频率、分布密度、基元重复次数和长度变异范围等多个研究结果发现,该研究所获得的SSR序列表现出较高的多态性潜能,具有较大的开发价值。目前,有关密花香薷的研究主要集中在活性成分及其功能方面的研究中,前人研究已充分证明了密花香薷的开发价值,所以,对于其种质资源的收集、筛选、鉴定及育种等方面的相关研究势在必行,SSR分子标记因其操作简单,稳定性好,具共显性等优点,可为上述研究提供有效的技术手段。