白灵菇菌丝体转录组测序及生物信息学分析
2022-06-27艾鑫赵文君律凤霞
艾鑫,赵文君,律凤霞
(牡丹江师范学院生命科学与技术学院,黑龙江 牡丹江 157012)
白灵菇(Pleurotusostreatus),在我国是一个非常重要的食用菌,常常被认为等同于阿魏菇[1],戴玉成课题研究组从分子生物学角度鉴定表明:白灵菇为刺芹侧耳独立进化的新分支,学名刺芹侧耳托里亚种(Pleurotuseryngiisubsp.tuoliensis),因此,白灵菇被提升为单独的新种[2]。分类学上隶属于菌物界、担子菌门、伞菌纲、伞菌目、侧耳科,其子实体形似灵芝,颜色纯白,故称白灵菇[3]。白灵菇子实体较大,菌盖直径8~15 cm或更大,厚3~4 cm,初期近扁球形,多侧生或偏生,表面近平滑偶有绒状膜,菌肉白色,肉质脆嫩[4]。
我国白灵菇主要分布于新疆的阿勒泰、伊犁、托里、塔城和木垒等高原地区,腐生或寄生于阿魏植物的根部或根茎处[5]。近年来,关于白灵菇在药理作用研究方面受到广泛关注,研究表明白灵菇具有抗氧化活性[6]、免疫活性[7]、抗肿瘤作用[8]、降血脂[9]和疲劳恢复作用[10]。目前国内外对白灵菇的研究大多集中在营养成分、药用价值和栽培技术等方面的研究,部分有关白灵菇地理分布和资源利用以及资源品质的研究[11-13],但关于白灵菇的分子生物学研究以及转录组信息和基因组数据未见报道。
本研究基于SBS(sequencing by synthesis)技术,用IIIumina Hiseq高通量平台对白灵菇菌丝体进行转录组测序[14-15],通过数据过滤、拼接、组装重建形成了白灵菇转录组Unigene数据,将数据与7大数据库进行功能注释比对、分类以及SSR分子标记。为今后有关白灵菇的有效成分利用、基因筛选、调控机制研究以及功能分析提供一定的理论依据[16-20]。
1 材料与方法
1.1 研究材料
白灵菇:牡丹江师范学院生科院教研室提供。
培养基配方:葡萄糖20%,胰蛋白胨1%,KH2PO40.1%,MgSO40.05%,VB10.03%,pH值自然。
白灵菇总RNA:白灵菇菌26 ℃150 r/min振荡培养10 d过滤得菌丝球,Plant Total RNA Isolation Kit(50T)试剂盒提取总RNA,检测提取物的浓度、完整性及污染情况,符合要求的RNA进行测序。
1.2 白灵菇原始测序数据处理
用软件Bcl2fastq对测序原始数据进行图像碱基识别,lllumina内置软件筛选每个测序结果片段,形成原始测序数据(Pass Filter Data)[21-22],以FASTQ文件格式储存。去除3`端接头序列,过滤低质量数据,清除基因组污染。利用软件Trinity(v2.2.0)对处理后数据从头组装,通过序列聚类对组装结果进一步序列拼接和清冗余处理,保留大于200bp的序列数据,获到非冗余Unigene序列。Unigene序列与COG、GO、KEGG、Nr和Swiss-Prot等数据库进行BLAST比对,对比对的注释基因进行功能分类和统计分析。用三种SSRs预测软件对样本序列进行SSR位点预测,将共有结果保留用于下一步的引物设计[23-25]。
2 结果与分析
2.1 测序数据过滤
利用Illumina测序平台对白灵菇的液体菌球进行转录组测序,数据经过严格的质量控制后过滤后数据共获得26973356条纯净序列,共计4.02Gb个碱基,GC含量为53.09%,碱基质量值 Q20 和 Q30 分别为 98.52%和 95.56%(表1)。以上结果说明白灵菇测序质量较高,为后续的组装和分析奠定了良好的基础。
表1 测序数据质量统计
2.2 白灵菇转录组测序与数据组装
采用软件Trinity对样品数据进行序列组装,组装结果通过序列聚类做进一步序列拼接和去冗余处理,得到长的非冗余的Unigene序列32969条,总碱基数量57.1318 M,序列数量与长度是组装质量的重要评价标准,N50长度为2701 bp ,远大于其对应平均长度1732.90 bp,说明组装结果较好。统计Unigene数量与长度分布情况见表2。
表2 Unigene数量与长度分布统计
表2显示:Unigene最小长度201bp,最大长度15498 bp,平均长度1732.90 bp,以500 bp为间距进行分组(除200 bp以下部分),长度在2000 bp以上的数目最多,达到11011条占比33.40%;200~500 bp占比23.83%;500~1000 bp占比17.10%;1000~1500 bp占比13.93%;1500~2000 bp占比11.74%(图1)。
图1 白灵菇Unigene 不同长度分布比例
2.3 Unigene的功能注释
使用BLAST软件将组装得到的白灵菇Unigene对比到常用的7大数据库(图2),获得注释Unigene共有21808条,占总Unigene的66.15%。白灵菇Unigene在不同数据库的注释数目有较大差异,其中注释数目最多的是Nr数据库,共有21664条Unigene得到注释,占比65.71%;其次为Swiss-Prot(12542条,占38.04%)、COG(12461条,占37.80%);白灵菇Unigene注释数目最少的为KEGG数据库,仅有1304条Unigene,占比3.96%。
图 2 Unigene各数据库注释结果Venn图
2.4 白灵菇Unigene的Nr功能注释
白灵菇Unigene在Nr数据库比对后同源序列注释最多,21664条(99.34%)。同源排序前十位的物种为(图3):真姬菇(Hypsizygusmarmoreus)6603条同源注释(30.48%);Moniliophthoraroreri1117条(5.16%);奥氏蜜环菌(Armillariasolidipes)1072条(4.95%);光盖裸盖菇(Psilocybecyanescens)1028条(4.75%);高卢蜜环菌(Armillariagallica)994条(4.59%);热带紫褐裸伞(Gymnopilusdilepis)974条(4.50%);阿太菌科FibularhizoctoniaspCBS 10969)785条(3.62%);TermitomycesspJ132 669条(3.09%);暗蓝斑褶菇(Paneoluscyanescens)647条(2.99%);白环菌属的LeucoagaricusspSymC.Cos636条(2.94%),另有32.93%的Unigene在其他物种中获得注释。
图3 Unigene的Nr功能注释物种分布Top10
2.5 白灵菇Unigene的GO功能分类分析
1.催化活性;2.结合;3.转运活性;4.核酸结合转录因子活性;5.酶调节剂活性;6.结构分子活性;7.抗氧化活性;8.蛋白质结合转录因子活性;9.分子转导活性;10.鸟苷酸交换因子活性;11.电子载流子活度;12.分子功能调节剂;13.营养库活性;14.翻译调节活性;15.蛋白标签;16.受体调节活性;17.金属血红素活性;18.趋化活性;19.化学活性;20.通道调节活性;21.细胞部分;22.细胞器;23.细胞器部分;24.膜部分;25.大分子复合物;26.膜;27.胞外区;28.膜封闭腔;29.胞外区部分;30.细胞连接;31.突触部分;32.突触;33.细胞外基质;34.细胞;35.细胞外基质成分;36.类核;37.其他有机体部分;38.胶原三聚体;39.病毒部分;40.细胞过程;41.代谢过程;42.单生物过程;43.生物调控;44.本土化;45.应激反应的过程;46.发展过程;47.多细胞生物进程;48.细胞组织或生物合成;49.免疫过程;50.生长;51.生殖进程;52.运动;53.信号;54.生物粘附;55.有节奏的过程;56.再生作用;57.行为;58.多细胞生物生长过程;59.细胞死亡;60.激素分泌;61.细胞聚集
白灵菇Unigene在GO数据库中比对,主要功能分类包括细胞组成、分子功能和生物过程三个主类61个亚类(图4)。分子功能功能主类内含20个亚类,Unigene功能以催化活性和结合的数量最多;细胞组成主类内含19个亚类,Unigene功能以细胞部分数量最多,细胞器、细胞器部分和膜部分次之;生物过程主类内含22个亚类,Unigene功能以细胞过程、代谢过程和单生物过程为主。
2.6 白灵菇Unigene的KEGG生物通路分析
1.全局和总览图;2.碳水化合物代谢;3.氨基酸代谢;4.脂质代谢;5.核苷酸代谢;6.能量代谢7.其他氨基酸代谢8.辅助因子和维生素的代谢9.糖的生物合成和代谢10.萜类和多酮类化合物的代谢11.其他次生代谢产物的生物合成12.异生素的生物降解和代谢13.翻译14.折叠、分类和降解15.转录16.复制和修复17.运输和分解代谢18.细胞生长和死亡19.信号转导20.膜运输
白灵菇Unigene的KEGG生物通路富集分析显示,共有1304个Unigene得到注释,涉及到111条生物通路。KEGG数据库的生物通路分四大类,细胞过程、环境信息处理、遗传信息处理和新陈代谢,内含20个二级亚类。亚类中涉及新陈代谢相关通路的最多,12条通路2053个基因(67.09%);其次是遗传信息处理有4条通路694个基因(22.68%)、细胞过程有2条通路222个基因(7.25%)、环境信息处理有2条通路91个基因(2.97%)。
2.7 白灵菇Unigene的COG功能分类
白灵菇Unigene与COG数据库比对显示(图6):有12461条Unigene注释到25个功能类别。一般功能预测功能注释数目最多,有2187条(17.55%);翻译后的修饰、蛋白质转换和分子伴侣类群等功能注释有1204条(9.66%);信号转导机制功能注释有1093条(8.77%);次生代谢产物的生物合成,运输和分解代谢功能注释有1005条(8.07%);细胞运动功能注释有15条Unigene,仅占总数的0.12%,是注释数目最少的类别。
A.RNA加工和修饰;B.染色质结构和动力学;C.能量生产及转换;D.细胞周期控制,细胞分裂,染色体分裂;E.氨基酸的运输和代谢;F.核苷酸转运和代谢;G.碳水化合物的运输和代谢;H.辅酶的运输和代谢;I.脂质运输和代谢;J.核糖体结构和生物起源;K.转录;L.复制重组和修复;M.细胞壁/细胞膜/包膜的生物发生;N.细胞运动;O.翻译后的修饰,蛋白质转换,分子伴侣. P.无机离子的转运和代谢;Q.次生代谢产物的生物合成,运输和分解代谢;R.一般功能预测;S.未知函数;T.信号转导机制;U.细胞内运输,分泌和囊泡运输;V.防御机制;W.细胞外结构;Y.核结构;Z.细胞骨架
2.8 白灵菇SSR位点特征分析
白灵菇转录组测序数据共检索到3014个SSR位点(图7),三核苷酸重复数为1869个,占SSR位点总数的62.01%,而三核苷酸重复中CGA/GAC重复基元最多(390个);单核苷酸重复有738个(24.49%),C/T重复基元最多(555个);二核苷酸重复数284个(9.42%),CG/CT重复基元最多(167个);四核苷酸重复数65个(2.16%),TGAG/AGGG重复基元为主(46个);六核苷酸重复数最少,65个占总SSR位点的1.92%。
图7 白灵菇SSR位点5种类型统计分析
3 讨论与结论
白灵菇RNA转录组测序及数据处理后,获得32969条Unigene,序列平均长度1732.90bp,N50为2701bp。其中21808条Unigene被注释到GO、KEGG、Nr和COG等7大数据库,占总Unigene的66.15%。这些被注释的Unigene为今后有关白灵菇的有效成分利用、基因筛选、调控机制研究以及功能分析提供一定的理论依据。此外,还有11161条Unigene未得到注释,推测可能是白灵菇的特异性新基因、非编码RNA序列或目前公共基因数据库尚未完善。
白灵菇Unigene数据在Nr数据库中注释21664条,30.48%同源注释到真姬菇,真姬菇与白灵菇均属于菌物界、担子菌门、伞菌纲、伞菌目,同目不同属下同源基因数目较多;还有32.93%的Unigene序列未匹配到同源序列,可能由于Unigene片段较小而无法同源匹配到单数据序列。
白灵菇Unigene数据在GO功能分类中共注释到3个主类和61个亚类,主要集中在催化活性、结合功能和细胞部分功能等。白灵菇的KEGG代谢通路富集分析主要富集在次级代谢产物的生物合成、抗生素的生物合成和核糖体等路径,表明白灵菇的生物合成表达上具有较高的基因丰度。分子标记技术被广泛应用于研究的各个领域,其中SSR位点是目前应用较为广泛的一种标记类型。本研究挖掘到3014个SSR位点在不同核苷酸重复类型中均有分布,证实白灵菇基因位点较为丰富。本研究对白灵菇进行转录组测序及数据处理,获得了高质量的Unigene序列信息,经生物信息学相关软件对白灵菇Unigene进行功能注释分类、代谢通路富集分析及SSR位点的类型等多方面分析研究,为后续白灵菇基因组学功能研究、分子标记辅助育种、种质资源开发利用和遗传多样性修复等提供数据参考。