APP下载

铁皮石斛转录组微卫星序列统计分析

2020-11-05石汝杰张元媛蒋雪梅戚文华

浙江农业科学 2020年11期
关键词:微卫星拷贝碱基

石汝杰,张元媛,蒋雪梅,戚文华*

(1.重庆三峡学院 生物与食品工程学院,重庆 404120;2.重庆三峡学院 环境与化学工程学院,重庆 404120)

铁皮石斛(Dendrobiumofficinale)为兰科(Orchidaceae)石斛属(Dendrobium)最为珍稀名贵的种,药用部位为新鲜或干燥茎,具有益胃生津、滋阴清热、润肺止咳、明目强身等功效。20世纪90年代之前主要利用野生资源,导致资源枯竭而列为国家保护中药材[1]。进入21世纪,铁皮石斛引种栽培技术及快繁体系日趋成熟,产业化的关键科学技术问题得以解决,使铁皮石斛产业从无到有,并形成百亿级产业[2]。铁皮石斛种质资源的研究工作主要还是局限于野生资源的普查以及引种栽培,缺乏从育种学角度进行品种改良的工作。对铁皮石斛种质资源研究有利于野生资源的保护,也可为育种工作奠定基础,分子辅助标记育种是现代分子育种学的一种主要手段,而相对于其他分子标记而言,微卫星标记多态性高、重复性好,而且操作简单,已广泛用于动植物群体遗传多样性研究[3-7]。微卫星DNA,又被称简单重复序列(simple sequence repeats),是均匀分布于真核生物基因组中的简单重复序列,由2~6个核苷酸的串联重复片段构成[4]。铁皮石斛全基因组测序研究结果表明:铁皮石斛为二倍体,有38条染色体,基因组大小为1.11 Gb,28 910个蛋白编码基因[8]。目前,有关铁皮石斛全基因组SSRs分布规律及其所蕴含的生物学信息未有相关报道,因此,本研究利用现代生物学方法搜索和统计铁皮石斛全基因组SSRs序列,揭示其全基因组或染色体上SSRs序列分布规律,并比较分析其生物信息学特征,以期为开发铁皮石斛和兰科石斛属植物通用SSR标记、遗传多样性和SSR引物筛选等提供一定的理论依据。

1 材料与方法

铁皮石斛全基因组序列均下载于https://www.ncbi.nlm.nih.gov/网站,铁皮石斛属于兰科植物,其基因组总大小为932.30 Mb。按SSR分布的类型分为完全型微卫星、不完全型微卫星和复合型微卫星3种类型进行分析[9]。采用微卫星序列搜索和统计软件MSDB(v2.4)(Microsatellite Search and Building Database)对铁皮石斛全基因组中完整型微卫星序列及其特征进行生物信息学分析。搜索和统计标准为单核苷酸重复至少12次,二核苷酸重复至少7次,三核苷酸重复至少5次,四至六核苷酸重复至少4次;重复序列两端的侧翼序列为200 bp;其他统计标准参考相关报道及SSRs序列统计术语参考相关报道的定义[10]。

2 结果与分析

2.1 铁皮石斛全基因组SSRs序列各重复类型的数量、频率和密度

铁皮石斛基因组中,微卫星序列总数量为215 661个位点,微卫星序列长度为4.07 Mb,占全基因组总长度的比率为0.44%。其总丰度为231.84个·Mb-1,总密度为4 031.927 bp·Mb-1。铁皮石斛基因组微卫星各重复类型的数量、频率顺序依次为:单碱基>二碱基>三碱基>五碱基>四碱基>六碱基,密度和丰度依次为:二碱基>单碱基>三碱基>四碱基>五碱基>六碱基,在铁皮石斛全基因组所有重复类型,以单碱基重复类型数量最多,占微卫星序列总数量比例约为47.49%,频率为101.55个·Mb-1;其次是二碱基和三碱基重复类型,占微卫星序列总数量比例分别为34.34%和13.36%,频率分别为73.44和28.58个·Mb-1;数量最少的是六碱基,占微卫星序列总数量比例为0.37%,频率为0.78个·Mb-1(表1)。

表1 铁皮石斛基因组微卫星各重复类型的数量、频率和密度

2.2 铁皮石斛各碱基重复拷贝类别的数量、频率和密度

在单碱基重复拷贝类别中,A重复拷贝类别的数量约为C拷贝类别数量的7倍,其频率和密度也存在明显差异。在二核苷酸重复拷贝类别中,AG和AT重复拷贝类别的数量占多数,其出现频率分别为38.03和27.94个·Mb-1,CG和AC两种拷贝类型出现频率仅分别为0.06和7.42个·Mb-1(表2)。

在三碱基重复类型中,AAT和AAC两种类型拷贝数量最多,丰度也最高;其次为AAG、AGG、ACC、AGT、ACT、CCG、ACG类型拷贝;AGC数量最低,丰度最低。可将三碱基重复拷贝类别AAC、AAT、AAG归类为AAX(X代表除A以外的任何碱基),ACG、ACT、ACC归类为ACX(X代表除A以外的任何碱基),AGC、AGT、AGG归类为AGX(X代表除A以外的任何碱基),AAX的出现频率为25.94个·Mb-1,ACX的出现频率为2.33个·Mb-1,AGX的出现频率为2.36个·Mb-1。由此可知,铁皮石斛基因组三碱基重复拷贝类别AAX和AGX数量最多,ACX次之,CCG最少(表2)。

表2 铁皮石斛全基因组单核苷酸至三核苷酸SSRs序列各重复拷贝类别的数量、频率和密度

铁皮石斛基因组四碱基重复拷贝类别有30多种类型,在此只列举数量较多和密度较高的16种重复拷贝类别。在四碱基重复类型中,数量较多和密度较高均为AAAT、AATT,其次是AAAG、ACAT、AGGG、AGAT、AAAC、AACT、AATC、ACTC、CCGG、AAGT、AATG,较低的是ACGT、AAGG、AACC等,其中,AAAT数量最多,有4 419个,频率为4.74个·Mb-1,其余类型频率均在1个·Mb-1以下(表3)。

表3 铁皮石斛基因组四碱基重复拷贝类别的数量、频率和密度

铁皮石斛五碱基重复拷贝类别有100多种,其中AAATA数量最多,其次是AAATT和AAAGA,数量超过100,其余所有五碱基SSRs重复拷贝类别的数量少于100个,其中数量最少的重复拷贝类别AGCCC,仅有47个。铁皮石斛全基因组六碱基SSRs重复拷贝类别有300多种,各拷贝类别的数量均较少,其中AATAAA数量最多,为78个,其余所有六碱基SSRs重复拷贝类别的数量少于70个(表4)。

表4 铁皮石斛基因组五碱基和六碱基重复拷贝类别的数量、频率和密度(各列举10种)

3 小结与讨论

本文利用生物信息学方法搜索和统计铁皮石斛基因组SSRs序列,分析其全基因组SSRs序列的分布、出现频率和密度等生物信息学特征。共统计了215 661个SSRS序列,其全基因组SSRs序列出现频率为213.84个·Mb-1。铁皮石斛全基因组SSRs各重复类型中,单核苷酸SSRs序列出现频率最高(101.55个·Mb-1),其次是二核苷酸SSRs序列(73.44个·Mb-1),之后依次为三核苷酸SSRs序列(28.58个·Mb-1)>四核苷酸SSRs序列(7.51个·Mb-1)>五核苷酸SSRs序列(1.98个·Mb-1)>六核苷酸SSRs序列(0.78个·Mb-1)。这与蒋雪梅等[10]对毛果杨全基因组SSRs的研究结果相似,毛果杨各重复类型中,单核苷酸SSRs序列出现频率最高(141.76个·Mb-1),其次是二核苷酸SSRs序列(97.61个·Mb-1),之后依次为三核苷酸SSRs序列(57.07个·Mb-1)>四核苷酸SSRs序列(22.22个·Mb-1)>五核苷酸SSRs序列(7.79个·Mb-1)>六核苷酸SSRs序列(4.82个·Mb-1)。但史洁等[11]对油茶的基因组SSRs序列研究表明,二核苷酸SSRs序列最丰富(146.20个·Mb-1)。郑燕等[12]对水稻、玉米、高粱的全基因组中微卫星序列研究发现,它们优势重复类型都是三核苷酸SSRs序列,其次是六核苷酸SSRs序列。由此可见,不同种属生物基因组的优势SSRs序列重复类型不一定相同,甚至分布有较大差异,这可能是由于物种之间全基因组大小不同,核苷酸含量不同,所以造成SSRs序列重复类型频率差异。

分析铁皮石斛全基因组微卫星分布规律得出,在单碱基重复类型中,占优势的是A碱基重复拷贝类别,C碱基重复拷贝类别较少。在二碱基重复类型中,占优势的是AG重复拷贝类别,AT和AC次之,CG最少。在三碱基重复类型中,占优势的是AAT和AAC重复拷贝类别,AAG、AGG、ACC次之,ACG和AGC最少。在四碱基重复类型中,AAAT重复拷贝类别最多,AATT和AAAG次之,CCCG和AGGC最少。在五碱基重复类型中,AAATA和AAATT重复拷贝类别最多,AAAGA、AGCTC和AAACA次之。在六碱基重复类型中,AATAAA、AGAGGG和AAGAAA重复拷贝类别最多,ATTATA、AGAAGG、AAACAA和AGAGGA次之。由此推测,重复拷贝类别较丰富的微卫星富含A或T,而富含G和C碱基的微卫星出现频率较少,这与铁皮石斛的近缘种金钗石斛以及对水稻、玉米、高粱等禾本科植物基因组SSRs序列研究结果一致[12-13]。

通过对铁皮石斛全基因组中单核苷酸至六核苷酸SSRs序列分析,发现单核苷酸SSRs序列有2种重复拷贝类别,二核苷酸SSRs序列有4种重复拷贝类别,三核苷酸SSRs序列有10种重复拷贝类别,四核苷酸SSRs序列有30多种重复拷贝类别,五核苷酸SSRs序列有100多种重复拷贝类别,六核苷酸SSRs序列有300多种重复拷贝类别,从单核苷酸到六核苷酸SSRs序列随着拷贝类别种类的增加,而SSRs序列的数量明显减少,据研究表明,亲缘关系较近的物种,其基因组中SSRs序列的重复类型和分布特征具有相似性,这反映了SSRs序列与生物进化存在关联性[14-20]。

本文利用生物信息学方法搜索和统计铁皮石斛基因组SSRs序列,分析其全基因组SSRs序列的分布、出现频率和密度等生物信息学特征。共统计了215 661个SSRS序列,其全基因组SSRs序列出现频率为213.84个·Mb-1。铁皮石斛全基因组中单核苷酸SSRs序列数量最多,其次依次是二核苷酸>三核苷酸>四核苷酸>五核苷酸>六核苷酸重复类型。本研究内容可以为铁皮石斛的品种鉴定、遗传多样性评价、遗传图谱构建以及分子标记育种提供科学理论依据。

猜你喜欢

微卫星拷贝碱基
酰胺质子转移成像和扩散峰度成像评估子宫内膜癌微卫星不稳定状态
绿鳍马面鲀全基因组微卫星分布特征
基于转录组西施舌微卫星标记开发及隐种鉴定
花斑无须鲶(Ageneiosus marmoratus)全基因组微卫星分布特征研究
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
唐氏综合征是因为“拷贝”走样了
文化拷贝应该如何“拷”