APP下载

山地虎耳草转录组SSR信息分析

2018-11-02更吉卓玛贾留坤王智华陈世龙高庆波

植物研究 2018年6期
关键词:基元碱基核苷酸

李 彦 更吉卓玛 贾留坤 王智华 陈世龙 高庆波

(1.中国科学院高山植物适应与进化重点实验室,中国科学院西北高原生物研究所,西宁 810001; 2.中国科学院大学,北京 100039; 3.青海省作物分子育种重点实验室,中国科学院西北高原生物研究所,西宁 810001)

青藏高原复杂的地理拓扑结构、特殊的自然环境以及丰富独特的生物资源,使其成为全球25个生物多样性重点保护地区之一[1]。研究表明,第四纪冰期与间冰期反复交替所引起的气候波动严重影响了该地区现有生物类群的地理分布和遗传结构[2~3]。山地虎耳草(SaxifragasinomontanaJ.T.Pan & Gornall)为虎耳草科(Saxifragaceae)虎耳草属(SaxifragaL.)多年生草本植物,在我国主要分布于青海、甘肃、四川、云南及西藏等地,其生境多为海拔2 700~5 300 m的高山草甸、灌丛和石隙[4],是青藏高原高寒草甸的重要组成部分,对维护该地区的生态平衡发挥着重要的作用。此外,山地虎耳草还具有药用价值,其花入药,可治头痛、神经痛等。随着分子生物学技术和分析方法的发展,DNA分子标记已广泛应用于虎耳草属植物的系统发育学和谱系地理学研究[5~11],以揭示北极和高山地区植物的分化模式。研究表明,山地虎耳草是虎耳草属山羊臭组(Saxifragasubsect.CiliataeHaw.)中较为年轻的一个物种,其居群分化历史小于5百万年甚至更短[6],可能具有更复杂的遗传结构和第四纪冰期进化历史。

简单重复序列(simple sequence repeats,SSR)或微卫星(microsatellite)是一类由几个核苷酸(2~6个)为重复单位组成的长达几十个核苷酸的重复序列,广泛分布于真核生物基因组中,并利用重复序列的重复次数在同一物种不同基因型间的差异来揭示物种的长度多态性[12~14]。微卫星作为一种共显性表达分子标记,具有数量多,长度短,分布广且均匀,多态性高,易于检测等优点,广泛应用于动植物遗传多样性分析,系统发育,遗传图谱构建及分子育种研究等[15~17]。近年来,基于高通量测序对青藏高原地区高山植物的遗传多样性研究也越来越多,例如唐古特红景天[18]、蓝玉簪龙胆[19]和西川红景天[20]等,但是关于虎耳草属植物还鲜有报道。

本研究基于山地虎耳草的高通量测序结果,利用MISA(MicroSatellite)软件搜索该物种的SSR位点,通过分析其微卫星重复序列特征,为山地虎耳草SSR标记的开发和遗传多样性检测提供理论依据。

1 材料与方法

1.1 材料

山地虎耳草(S.sinomontana)采集于青海省玉树藏族自治州玉树县小苏莽乡(32°34′20.7″N,97°12′41.6″E,4 880 m)。将野外采集的活体材料置于室内种植68天,再采取同一丛植株上的叶片,放入冷冻管中,用液氮处理约15秒后放入-80℃冰箱保存。凭证标本保存于中国科学院西北高原生物研究所青藏高原生物标本馆(HNWP)。

1.2 方法

1.2.1 样品检测、文库构建与测序

从山地虎耳草的叶片材料中提取100 μg总RNA,用琼脂糖凝胶电泳分析RNA的降解程度以及是否有污染,用Nanodrop初步检测RNA的纯度,最后分别选择Qubit和Agilent 2100来精确定量RNA浓度并检测其完整性。

样品检测合格后,用带有Oligo(dT)的磁珠富集山地虎耳草的mRNA。之后加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成第一链cDNA,然后加入缓冲液、dNTPs、DNA polymeraseⅠ及RNase H合成双链cDNA,再用AMPure XP beads纯化双链cDNA。纯化的双链cDNA先进行末端修复,加A尾并连接测序接头,再用AMPure XP beads对其片段大小进行选择。最后进行PCR扩增,并用AMPure XP beads纯化PCR产物,得到最终的文库。文库构建完成后,先使用Qubit 2.0进行初步定量,稀释文库至1.5 ng·μL-1,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2 nmol·L-1),以保证文库质量。

库检合格后,把不同文库按照有效浓度及目标下机数据量的需求混池后用Illumina HiSeqTM2000进行测序。

1.2.2 质量评估与拼接

对所得的数据进行质量评估,包括测序错误率分布检查;A/T/G/C含量分布检查;对测得的原始读序(Raw reads)进行过滤:去除带接头(adapter)的和N比例大于10%的reads,去除低质量的reads,得到干净的读序(Clean reads)后,再用Trinity(版本:v2012-10-05;参数设置:min_kmer_cov为2,其它参数为默认参数)[21]对得到的Clean reads进行拼接,并取每条基因中最长的转录本作为Unigene,以此进行后续分析。

1.2.3 SSR的筛选和统计分析

以组装出来的Unigene作为参考序列,使用MicroSatellite(MISA;版本:1.0;默认参数;http://pgrc.ipk-gatersleben.de/misa/)对Unigene进行SSR检测、筛选和分析。检索标准同时包括精确型(perfect)及复合型(compound)SSR重复单元[22],各重复微卫星类型重复次数设定如下:两碱基(di-nucleotide repeats,DNRs)至少重复6次,三碱基(tri-nucleotide repeats,TNRs)至少重复5次,四碱基(tetra-nucleotide repeats,TTNRs)至少重复5次,五碱基(penta-nucleotide repeats,PTNRs)至少重复5次,六碱基(hexa-nucleotide repeats,HXNRs)至少重复5次。并利用Excel(版本:Microsoft office 2016;默认参数)软件对SSR的类型、数量及发生频率等进行统计分析。

2 结果与分析

2.1 山地虎耳草转录组测序结果

对于RNA-seq技术,其测序错误率会随着测序序列长度的增加而升高[23~24],且单个碱基位置的测序错误率一般低于1%。山地虎耳草高通量测序获得94 855 756个Raw reads,过滤后获得90 311 228个Clean reads,占Raw reads的95.21%,单碱基错误率为0.035%,Q30值为88.98%,碱基G和C的数量总和占总碱基的42.39%。

对山地虎耳草的Raw reads进行处理后,用Trinity软件对所得的Clean reads进行组装,最终获得176 110个Transcripts和63 763个Unigene,并对二者的长度进行统计(图1),其中在拼接得到的Transcripts中N50为1 708,N90为465;在拼接得到的Unigene中N50为1 295,N90为276,其总的核苷酸数分别为189 919 691个、46 218 250个。

图1 拼接后的Transcript与Unigene长度分布图Fig.1 The length distribution of Transcript and Unigene after assemblage

2.2 山地虎耳草SSR频率及其分布

采用MISA对Unigene进行SSR检测,共检出含有SSR的序列为7 700条,发生频率为12.08%,其中6 454条序列含有单个SSR,1 246条序列含有1个以上的SSR。此外,共检测出4 622个SSR,包括4 098个完全型SSR和524个复合型SSR,其发生频率为7.25%(检测出的SSR数量与总序列数目的比值)。从分布情况来看,山地虎耳草转录组序列中平均每10.00 kB出现一个SSR。

对SSR类型进行统计发现,二至六核苷酸重复类型均有出现,其种类较为丰富,但各类型出现的频率和分布的平均距离相差较大。其中三核苷酸重复类型的SSR含量最多,占总SSR的55.50%;其次为二核苷酸重复类型,所占比例为30.23%;其他类型(四核苷酸、五核苷酸、六核苷酸和复合核苷酸重复)所占比例较小,分别为2.25%、0.41%、0.28%和11.34%,总计14.28%。从分布情况来看,不同重复基元SSR分布的平均距离差别较大,其中三核苷酸重复最多,出现频率为4.02%,每条SSR分布的平均距离为18.02 kB,六核苷酸重复最少,出现频率为0.02%,平均距离为3 355.25 kB(表1)。

表1山地虎耳草SSR序列的出现频率

Table1FrequencyofSSRsequencesofS.sinomontana

重复基元类型Repeat type数量Number比例Proportion(%)频率Frequency(%)平均距离Average distance(kB)二核苷酸Di-nucleotide139730.232.1933.08三核苷酸Tri-nucleotide256555.504.0218.02四核苷酸Tetra-nucleotide1042.250.16444.41五核苷酸Penta-nucleotide190.410.032432.54六核苷酸Hexa-nucleotide130.280.023355.25复合Compound52411.340.8288.20合计Total46221007.2510.00

注:比例.各核苷酸SSR在总SSR中所占比例;频率.含有SSR的序列数目与总序列数目的比值;平均分布距离.序列总长度与SSR数目之比值 下同。

Note:Proportion. Proportion in all SSRs; Frequency. The percentage of SSR number in all sequences; Average distance. Ratio of total sequence length and SSR number The same as below.

2.3 山地虎耳草SSR基元类型和比例

在山地虎耳草转录组4 098个完全型SSR中共发现了110种重复基元, 其中二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸重复基元分别有6、30、42、19和13种,占总SSR的比例范围为0.02%~11.27%。

表2 山地虎耳草转录组中不同SSR序列的出现情况

在二核苷酸重复基元中,AG/TC(521个)出现次数最多,为二碱基的优势重复单元,占二核苷酸重复基元SSR总数的37.29%,其次为AT/TA(346个,占24.77%)、CT/GA(292个,占20.90%)、AC/TG(131个,占9.38%)、CA/GT(101个,占7.23%),CG/GC(6个,0.43%)。其中,AG/TC也是所有2~6核苷酸重复基元中数量最多的SSR,占总SSR的11.27%。三核苷酸重复基元中,AAG/TTC(233个)出现频率最高,占三核苷酸重复基元的9.08%,即三碱基的优势重复基元,其次为CTT/GAA(202个,占7.88%)、AAC/TTG(180个,占7.02%)、AGA/TCT(164个,占6.39%)。四核苷酸重复类型中,AAGA/TTCT(8个)出现频率最高为7.69%,其次是AGAA/TCTT和CAAA/GTTT,二者均为6个,出现频率均为5.77%,AACA/TTGT(5个,占4.81%),其他类型出现频率较低。五核苷酸和六核苷酸中各重复基元的个数均为1,出现频率普遍偏低,分别占相应重复类型的5.26%、7.69%(表2)。

2.4 山地虎耳草SSR重复次数分布

在SSR中,基元重复次数差异而引起的位点长度变化是产生SSRs位点多态性的主要原因[25~26]。通过对山地虎耳草4 098个完全型SSR进行分类统计,发现随着重复次数的增加,SSR数量逐渐减少。且山地虎耳草SSR重复次数大部分分布在5~10次的较低重复次数基元中,共4 036个SSRs,占总SSR的98.49%,是山地虎耳草SSR的重要重复部分;11次、12次和14次为一般重复次数基元,分布有61个SSRs,占总SSR的1.49%;20次以上为较高重复次数基元,本研究中只出现了50次的重复,且仅含1个SSR。在5~11次重复中,发现重复基元以5次出现的频率最高,有1 640个,占总SSR的40.02%。其次为6~8次重复,分别占总SSR数量的31.67%、16.42%、5.76%(图2)。

图2 山地虎耳草转录组SSR重复次数分布Fig.2 The distribution of repeat number of SSR in transcriptome of S.sinomontana

据统计,二核苷酸基元重复次数类型最多,有8种,其分布为6~12次和50次,共1 397个,其中6~9次重复为主要类型,共1 258个,占二核苷酸基元的90.05%;三核苷酸基元重复次数类型次之,有5种,其分布为5~8次和14次,共2 565个,以5~7次重复为主要类型,共2 536个,占三核苷酸基元的98.87%;四、五、六核苷酸基元的重复次数分布分别是5~9、5~7和5~9次,其中5次重复最多。在这五种核苷酸基元中,随着重复次数的增加,SSR数量所占比例都有逐渐减少的趋势(图3)。

图3 山地虎耳草转录组SSR不同重复类型的重复次数分布Fig.3 The distribution of repeat number of SSR for different repeat types in transcriptome of S.sinomontana

在所有碱基中二核苷酸重复基元的重复次数类型多,跨度大,其中AG/TC跨度最大,重复次数类型为8种,其次是AT/TA和CT/GA,重复次数类型均为7种,AC/TG和CA/GT为6种,而CG/GC重复次数类型最少,仅有2种;三核苷酸重复基元的重复次数类型和跨度次之,其中ATT/TAA跨度最大,重复次数类型为5种,其余有15种重复基元均出现了4种重复次数类型,占三核苷酸总重复基元的50%;四核苷酸重复基元中仅有14种重复基元出现了两种重复次数类型,占四核苷酸总重复基元的33.33%,其余的重复基元仅有1种重复次数类型;在五核苷酸和六核苷酸重复基元中,均只有1种重复次数类型出现。

2.5 山地虎耳草SSR基元长度分布及其多态性

山地虎耳草EST-SSR基元长度区间为12~100 bp,其中最大的片段长度为二核苷酸重复50次(100 bp)的SSR。从整体来看,其分布范围较为集中,主要在12~30 bp(4 090个,占99.80%),大于30 bp的SSR数量较少(8个,占0.20%)。在所有SSR中,最多的为15 bp长度的SSR(1 529个,占37.31%),并且均为5次重复的三核苷酸基元,其次为18、12、21 bp的基元长度,分布情况分别为760个(18.55%)、627个(15.30%)、355个(8.66%)(图4)。

图4 山地虎耳草转录组SSR基元长度分布Fig.4 SSR motif length distribution in transcriptome of S.sinomontana

表4山地虎耳草转录组SSR不同重复类型的基元长度分布

Table4ThedistributionofmotiflengthofSSRfordifferentrepeattypesintranscriptomeofS.sinomontana

重复类型Repeat type长度Length(bp)SSR数量Number of SSRsSSR所占百分比Percent of total SSR(%)二核苷酸Di-nucleotide1262744.881431522.551620814.89181087.7320785.5822533.792470.5010010.07三核苷酸Tri-nucleotide15152959.611865225.422135513.8424281.094210.04四核苷酸Tetra-nucleotide208581.73241716.352810.963610.96五核苷酸Penta-nucleotide251789.473015.263515.26六核苷酸Hexa-nucleotide30969.233617.694217.6954215.38

研究发现,当SSR基序长度大于等于20 bp时其多态性较高,长度在12~20 bp时多态性中等,而长度在12 bp以下时多态性极低[27]。本研究筛选得到的山地虎耳草转录组SSR的长度均大于等于12 bp,其中12~19 bp的SSR有3 439个(83.92%),这些SSR具有中等多态性;而大于等于20 bp的SSR有659个(16.08%),这些SSR具有较高的多态性,所以推测本研究中山地虎耳草转录组SSR的多态性均在中等以上。此外,研究发现高级基元SSR的多态性普遍比低级基元的低[28]。本研究中二核苷酸和三核苷酸基元占总SSR的96.68%,在长度大于等于20 bp的SSR中,包含低级基元二核苷酸、三核苷酸共523条,占长度大于等于20 bp的所有SSR的79.36%,表明大部分山地虎耳草转录组SSR具有高多态性潜能(表4)。

3 讨论

本研究从山地虎耳草转录组63 763个Unigene中检测出了4 622个SSR,平均分布距离为1/10.00 kB,与其他检索二至六核苷酸重复基元SSR(即不包含单核苷酸的SSR)的植物相比,山地虎耳草转录组SSR的平均分布距离明显高于冷蒿(1/18.46 kB)[29]、地黄(1/23.08 kB)[30]、杜仲(1/26.13 kB)[31]和马铃薯(1/40.06 kB)[32]等,与蓝玉簪龙胆(1/9.97 kB)[19]、菊花(1/10.64 kB)[33]相差较小,但低于唐古特红景天(1/8.52 kB)[18]、红白忍冬(1/7.49 kB)[34]和刺梨(1/1.68 kB)[35]。由此表明,山地虎耳草转录组中SSR的数量比较丰富。此外,山地虎耳草转录组中SSR出现频率为7.25%,与唐古特红景天(7.1%)[18]的出现频率较为接近,高于冷蒿(2.61%)[29]和蓝玉簪龙胆(6.12%)[19]。出现这种差异可能与物种选择、组装方法、筛选软件、SSR搜索的标准(如SSR重复基元的类型、重复次数和长度等)及分析方法有关。

研究表明,大多数植物的SSR主要重复基元类型是二核苷酸和三核苷酸,但是主导重复基元的类型有所不同[36~37]。本研究发现,山地虎耳草转录组SSR的优势基元是三核苷酸重复,占总SSR的55.50%,其次为二核苷酸重复,占总SSR的30.23%,这与冷蒿[29]、唐古特红景天[18]、蓝玉簪龙胆[19]等植物的优势基元结果相一致。但在杜仲[31]、红白忍冬[34]和芝麻[38]等植物中二核苷酸重复占主导地位,在川西獐牙菜[36]、灯盏花[37]和半夏[39]等植物中二核苷酸和三核苷酸重复共同为主导类型。以上这种主导重复基元的差别可能与物种的差异有关。有研究表明三核苷酸、六核苷酸SSR重复基序的突变情况,可能是一种有利于植物进化的突变[40],在山地虎耳草中以三核苷酸SSR为主体的分布可能是自然选择的结果。此外,有研究指出转录区的三核苷酸基序对自然选择机制表现出积极选择作用,在编码区由于受到重大突变压力的影响而存在丰富的核苷酸重复基序[40~43]。即当植物表现出某些抗逆性时三核苷酸重复分布较为丰富。我们推测,随着第四纪冰期气候的反复波动,该物种产生了相应的抵御与适应机制,并形成了丰富特殊的三核苷酸重复结构。

被子植物和蕨类植物主要以AG/CT为二核苷酸的优势基元,而裸子植物以AT/AT为优势基元;双子叶植物、蕨类植物和少数单子叶植物以AAG/CTT为三核苷酸的优势基元[29]。在山地虎耳草的SSR中,二核苷酸重复基元以AG/TC(521,37.29%)为优势重复类型,三核苷酸重复基元中以AAG/TTC(233,9.08%)为优势重复类型,这与地黄[30]、马铃薯[32]、刺梨[35]等研究结果相类似。范三红[44]等认为这种占优势的重复基元可能与其编码相应蛋白质的使用频率较高有关。

GC含量作为碱基序列的重要特征之一,反映了基因的结构、功能和进化信息,GC分布不均会导致基因不同,GC含量序列不同其性质和功能也有差异[45],而且在大多数植物中GC重复基元很少出现,例如在唐古特红景天[18]和红白忍冬[34]等植物中均未发现该重复基元,但在山地虎耳草转录组SSR中检测到了6个GC重复基元,这种现象在大豆[14]、刺梨[35]、川西獐牙菜[36]中也均有出现。此外,多个研究指出GC重复基元可能与某特定的功能相关,SSR序列中GC含量的增加会使某些氨基酸序列的增加而获得某些特定功能,如胁迫抗性、转录调控、信号转导等[22,46]。对于山地虎耳草来讲,其适应青藏高原高、寒、旱环境的特性是否与GC重复单元有关还需要后期研究来加以探讨。

SSR位点多态性主要是由基元的重复次数和碱基数不同来决定的[39]。在山地虎耳草转录组SSR中二核苷酸重复基元的重复次数类型多,跨度大,其中AG/TC跨度最大,重复类型次数为8种,从6~12次,最高达50次,三核苷酸重复基元中ATT/TAA跨度最大,重复次数类型为5种,四、五、六核苷酸重复基元重复次数类型较少,仅有1~2种。Gao等[47]研究表明重复次数与SSR的变异呈正相关,所以本研究中二核苷酸SSR应具有更高的多态性[48]。

综上所述,通过分析和挖掘山地虎耳草转录组序列中SSR的信息,可为今后该物种SSR标记的开发和筛选奠定生物信息学基础,使其更合理、更有效地应用于系统发育学和谱系地理学等研究,为第四纪气候波动对高山植物的遗传多样性影响及其演化历史提供更有力的证据。此外,作为国家生态建设的战略要地,青藏高原拥有着类型多样的极端环境,如高寒缺氧、昼夜温差大、日照强烈、多风多雪、干旱贫瘠的土壤等,存在极大的脆弱性,所以通过物种遗传多样性的研究可以为高原生态可持续发展提供一定的理论基础和相应的保护策略,进而推动国家“一带一路”战略的实施。

猜你喜欢

基元碱基核苷酸
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
面向异构履带车辆的统一运动规划方法
基于多重示范的智能车辆运动基元表征与序列生成
应用思维进阶构建模型 例谈培养学生创造性思维
有级转向履带车辆的驾驶员操控行为模型
中国科学家创建出新型糖基化酶碱基编辑器
Acknowledgment to reviewers—November 2018 to September 2019
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员