APP下载

长白山猪苓与陕西猪苓的菌丝体转录组差异比较分析

2019-11-22李太元李艳茹梁运江赵洪颜许广波

延边大学农学学报 2019年3期
关键词:猪苓菌丝体差异基因

任 洁, 李太元, 李艳茹, 梁运江, 赵洪颜, 许广波

(延边大学农学院,吉林 延吉 133002)

猪苓[Polyporusumbellatus(Pers.) Fries.]为非褶菌目,多孔菌科,多孔菌属[1-2],是一种常用的传统药用真菌[3-4]。中医中有大量关于猪苓的记载,“猪苓利水尽,则口益干,而欲其口舌之生津”[5],猪苓的药用部位为地下生长的多年生菌核[6-7],在临床上可用于治疗小便不利、全身水肿、急性肾炎和其他疾病[8]。菌核中最早分离出来的活性成分是猪苓多糖,现代医学研究发现,猪苓多糖还具有抑制肿瘤生长[9-10],增强机体免疫力,降血糖[11-12]等药理作用。

猪苓在我国分布广泛[13],主要分布于河北、山西、陕西、云南等省区和东北的长白山区,其中以云南的产量最大,陕西的质量最好[6]。长白山猪苓在形态和生物学特性上与陕西、山西等地的猪苓有很大差异[14],长白山地区的猪苓菌体表面多褶皱、分枝较多、菌体较小,因其形如鸡爪而俗称鸡爪苓[15]。许广波等[16]提出鸡爪苓为长白山区特有的野生猪苓种属。邢晓科等[17]利用nrDNA-ITS区序列分析表明,长白山区猪苓与陕西等地区的猪苓差异较大。在实验室培养条件下,陕西猪苓的菌丝体长势缓慢,生长周期长,并且很容易黄化;相反长白山猪苓菌丝体生长速度比较快,菌丝呈白色,在较短时间内就可以铺满整个培养基表面,还能够生长出纯培养菌核。

该研究通过对长白山猪苓与陕西猪苓菌丝体进行转录组测序以及数据分析,筛选出2种猪苓菌丝体的差异表达基因[18],并对其进行生物信息学分析[19-20],旨在探讨猪苓的基因表达特性和种源间差异性,为深入研究猪苓种质资源的系统进化关系提供理论依据。

1 材料与方法

1.1 材料与试剂

1.1.1 试验材料

试验材料为延边大学微生物实验室保存的长白山猪苓和陕西猪苓的菌丝体。

1.1.2 主要试剂与仪器

主要仪器:Qubit2.0荧光计,微型漩涡混合仪,台式高速低温离心机,电泳仪,生物电泳图像分析系统,PCR仪。

1.2 方法

1.2.1 总RNA的提取与检测

利用Trizol法提取2种猪苓菌丝体样品的总RNA,Qubit2.0检测RNA浓度,1%琼脂糖凝胶检测RNA完整性以及基因组污染情况[21]。

1.2.2 文库构建及测序

1) 利用Qubit2.0 RNA检测试剂盒对Total RNA 精确定量,以确定文库构建所加入总RNA的量。

2) 利用信使RNA 3′端polyA结构及相关分子生物学技术,对6个样本完整总 RNA进行mRNA分离、片段化、双链cDNA合成、cDNA片段化学修饰、磁珠纯化及片段化分选、文库扩增等处理。经过检测和质控后,最终获得能够适用于Illumina平台的测序文库。

1.2.3 测序数据处理

将构建好的文库送上海生工进行测序,然后根据测序结果,整理、过滤原始数据,获取优质序列,并进行对比和统计分析[22]。

2 结果与分析

2.1 RNA质量检测

对长白山猪苓以及陕西猪苓菌丝体6个样品的总 RNA 进行浓度检测(表1),OD260/OD280均在1.8~2.2之间,琼脂糖凝胶电泳检测结果如图1所示,从6个样品中提取的总RNA都具有清晰的28 S和18 S条带,且比值约为2∶1,证明所提取的RNA质量良好,这与转录组数据库的测序要求一致,可以进入下一步试验。

表1 总RNA浓度检测

注:M为Marker

2.2 转录组测序数据组装

将6个样品的原始数据进行混合,使用Trinity将clean数据de novo组装成转录本,参数min_kmer_cov 2,其余默认。对Trinity拼装得到的转录本Transcript去冗余,取每个转录本聚类中最长的转录本作为Unigene,以此作为后续分析的参考序列。

拼接结果如表2所示:组装得到133 662个Transcript,平均长度为1 870.76 bp, N50长度为3 136 bp。其中,长度≥500 bp的Transcript有97 327个,占总体的72.82%;≥1 000 bp的Transcript有77 431个,占总体的57.93%。

在Transcript的数据基础上,进一步进行组装,共获得20 999个Unigene,平均长度为1 235.7 bp,N50为3 135 bp。其中,长度≥500 bp的Unigene有9 368个,占总体的44.61%;≥1 000 bp的Unigene有6 527个,占总体的31.08%。

表2 拼接结果统计

注:N50/N90的定义为按照长度将拼接转录本从大到小排序,累加转录本的长度,到不小于总长50%/90%的拼接转录本的长度。

2.3 与参考基因组比对结果

将拼接得到的转录本作为参考序列,使用Bowtie2将质控后的测序序列与参考序列进行比对,通过RSeQC统计比对结果。

测序序列经过测序数据过滤后的高质量测序标签(Total reads)分别为50307178、53538364、55874460、55892258、52633804和50705500。将长白山猪苓和陕西猪苓菌丝体的6个文库中的所有高质量测序标签与参考基因序列进行比对,显示在参考序列上有唯一比对位置的测序序列数分别为2020634、2139209、2109861、3053043、3200648和2745108,分别占高质量标签总数的4.02%、4.00%、3.78%、5.46%、6.08%和5.41%。整段比对到外显子的测序序列数为2020634、2139209、2109861、3053043、3200648和2745108(表3)。

表3 与参考基因组比对结果统计

注:Total Reads: 测序序列经过测序数据过滤后的数量统计(Clean data);Total Mapped:能定位到参考序列上的测序序列的数量的统计;Mutiple mapped:在参考序列上有多个比对位置的测序序列的数量统计;Unique Mapped:在参考序列上有唯一比对位置的测序序列的数量统计;Read1Mapped,Read2Mapped:测序序列Read-1比对到参考序列上的数量统计(仅计算Unique Mapped序列);Mapped to '+', Mapped to '-':测序序列比对到参考序列上正链和负链的数量统计 (仅计算Unique Mapped序列);Non-splice reads:整段比对到外显子的测序序列的统计;Splice reads:分段比对到两个外显子上的测序序列(也称为Junction reads)的统计;Reads mapped in proper pairs:双端reads同时比对上的测序序列统计。

2.4 Unigene功能注释

各数据库及功能注释所用到的软件及方法:

CDD、KOG、COG、NR、NT、PFAM、Swissprot、TrEMBL注释:NCBI Blast+;

GO功能注释:基于Swissprot和TrEMBL 2部分的蛋白注释结果根据Uniprot的注释信息得到GO注释;

KEGG注释:KAAS,KEGG Automatic Annotation Server。

统计结果如表4所示。共有20 999个基因被注释到,注释到不同数据库之中的基因有重叠。其中注释到NR数据库的基因最多,为10 824,匹配比率为51.55%;其次是TrEMBL,注释到10 603个基因,匹配比率为50.49%。

表4 基因注释比率统计

注:Annotated in Database:在数据库中成功注释的基因数量及其占基因总数的比例;Annotated in at least one Database:在至少一个数据库中成功注释的基因数量及其占基因总数的比例;Annotated in all Databases:在所有数据库中都成功注释的基因数目及其占总基因数的比例。

2.5 差异表达分析

对2种材料进行组间基因表达差异分析,记作SX-VS-CBS,采用DESeq进行分析。为了得到显著差异的基因,将筛选条件设为:qValue<0.05 且差异倍数|FoldChange|>2。根据组间比较得到的差异基因,统计上下调基因个数详见表5。

与陕西猪苓菌丝体相比,长白山猪苓菌丝体共有5 881个表达差异基因出现,其中上调基因有2 616个,下调基因有3 265个。

表5 表达差异分析统计结果表

注:Comp.为差异表达基因集名称;Up为上调基因数;Down为下调基因数;Total为差异表达基因总数。

2.6 差异表达基因GO功能富集

基于GO数据库的注释结果,可以看出长白山猪苓和陕西猪苓菌丝体差异表达基因和所有基因的注释情况(图2)。分析可知,共有9 389个基因注释到GO条目中,参与的细胞组分数目为22个;分子功能为20个;生物学过程为26个。差异表达基因在GO条目中共注释到2 470个,上调基因和下调基因分别有970和1 500个,参与生物学过程、细胞组分以及分子功能的基因分别有1 538、1 751、2 015个。对差异基因进行GO富集分析发现,在细胞组分中,膜条目富集到861个,膜部分条目富集到777个,细胞和细胞部分条目都富集到 1 228个,细胞器条目富集到965个;分子功能中,催化活性条目富集到1 438个,绑定条目富集到1 306个;而在生物学过程中,代谢过程条目富集到1 125个,细胞过程条目富集到1 197个。

注:横轴是功能分类,纵轴是分类中基因数(右)及其占被注释上基因总数的百分比(左)。不同颜色代表不同的分类。柱状图和坐标轴上浅色代表差异基因,深色代表所有基因。

图2 差异基因GO注释分类柱状图

Fig.2 Differential gene GO annotation classification histogram

2.7 差异表达基因KOG功能分类

根据KOG数据库的注释结果,注释到KOG类别中的基因共有4 976个,差异表达基因在KOG类别中共注释到1 006个,上调基因和下调基因分别有322和684个(图3)。可以看出长白山鸡爪苓和陕西猪苓菌丝体差异表达基因所涉及到的KOG功能类别比较全面,涉及了大多数的生命过程。其中,一般功能基因预测包含基因数目最多有172个;其次是蛋白质翻译后修饰与转运、伴侣蛋白有108个,次生代谢产物的生物合成、转运和分解代谢有94个,信号转导机制有82个,脂质运输和新陈代谢有74个,氨基酸转运和代谢有67个,翻译,核糖体结构和生物发生有67个,能源生产和转换有66个,碳水化合物的运输和新陈代谢有62个。而参与细胞活性的基因数目最少,只有1个。

注:横轴为KOG各功能分类,纵轴为该分类内基因个数(右)及其占被注释上基因总数的百分比(左)。柱状图和坐标轴上浅色代表差异基因,深色代表所有基因。A,RNA加工和修饰;B,染色质结构与动力学;C,能量生产与转化;D,细胞周期控制,细胞分裂,染色体分裂;E,氨基酸转运与代谢;F,核苷酸转运和代谢;G,碳水化合物转运和代谢;H,辅酶转运和代谢;I,脂质转运和代谢;J,翻译、核糖体结构、生物发生;K,转录;L,复制、重组和修复;M,细胞壁/膜/被膜生物发生;N,细胞活性;O,蛋白质翻译后修饰与转运、伴侣蛋白;P,无机离子转运与代谢;Q,次生代谢物的生物合成、转运和分解代谢;R,一般功能基因预测;S,未知功能;T,信号转导机制;U,细胞内运输、分泌和囊泡转运;V,防御机制;W,细胞外结构;Y,核结构;Z,细胞骨架。

图3 差异表达基因KOG注释分类统计

Fig.3 Differential expression gene KOG annotation classification statistics

2.8 差异表达基因KEGG功能注释

根据KEGG中的途径类型对差异表达基因KEGG的注释结果进行分类,分类结果如图4所示。

KEGG代谢通路可被分为细胞过程、环境信息处理、遗传信息处理、新陈代谢和有机系统5大类。注释到KEGG中的基因共有1 959个,差异表达基因在KEGG中共注释到305个,一共涉及到5大类33个小类216个代谢通路,上调基因和下调基因分别有76和229个。其中细胞过程中的细胞生长与死亡注释到23个差异基因,运输和分解代谢注释到28个差异基因;环境信息处理中的信号转导注释到27个差异基因;遗传信息处理中的折叠、分拣和降解注释到27个差异基因,翻译注释到38个;新陈代谢中的氨基酸代谢注释到37个差异基因,碳水化合物代谢注释到48个差异基因;有机系统中的内分泌系统注释到13个差异基因,神经系统注释到10个差异基因。

注:横轴为KEGG各代谢通路,纵轴为注释到该通路下的基因个数(右)及其占被注释上基因总数的百分比(左)。柱状图和坐标轴上浅色代表差异基因,深色代表所有基因。

图4 差异表达基因KEGG分类

Fig.4 Differential expression gene KEGG classification

3 讨论与结论

近年来有关猪苓的遗传多样性、功能基因克隆分析等方面的分子生物学研究正在逐步展开[23],但是关于猪苓转录组方面的研究鲜有报道。而作为相同分类地位的多孔菌科树花属的大型真菌灰树花关于转录组学方面的研究则相对较多。王伟科等[24]人利用Illimina高通量测序技术对灰树花菌丝体和原基进行了全转录组测序,共发现两者具有显著差异表达的基因4 094个,其中,1 886个基因在原基中上调表达,有2 208个基因在原基中下调表达。本研究采用新一代Illimina高通量测序技术对长白山猪苓和陕西猪苓菌丝体进行了转录组测序,通过对转录组原始数据进行数据质控共得到133 662个Transcript和20 999个Unigene。差异表达分析结果表明,长白山猪苓与陕西猪苓菌丝体相比共有5 881个表达差异基因出现,其中在长白山猪苓菌丝体中上调表达的基因有2 616个,下调表达的基因有3 265个。

杨杨[25]对灰树花菌丝体进行高通量转录组测序,拼接共得到14 347条Unigene。其中,共有7 366个Unigene注释到GO 数据库的54个类别中;有4 347个Unigene在 KOG中获得具体蛋白功能注释;2 799个Unigene与KO库有同源信息,注释到255个代谢通路。本研究中,对差异表达基因进行GO注释分类,结果表明长白山猪苓与陕西猪苓菌丝体的差异表达基因一共涉及到3大类56个分支。在细胞组分中,差异表达基因主要分布在膜、膜部分、细胞、细胞部分和细胞器;分子功能中,差异表达基因主要与催化活性、结合有关;而在生物学过程中,主要与代谢过程和细胞过程有关。差异表达基因KOG注释分类表明,长白山猪苓与陕西猪苓菌丝体的差异表达基因主要与一般功能基因预测、蛋白质翻译后修饰与转运、伴侣蛋白,次生代谢产物的生物合成、转运和分解代谢,信号转导机制,脂质运输和新陈代谢,氨基酸转运和代谢翻译,核糖体结构和生物发生,能源生产和转换,碳水化合物的运输和新陈代谢,细胞内运输,分泌和囊泡运输有关。差异表达基因KEGG分类表明,长白山猪苓与陕西猪苓菌丝体的差异表达基因主要涉及到碳水化合物代谢,翻译,氨基酸代谢,脂质代谢,运输和分解代谢,信号转导,折叠、分拣和降解等。相对于陕西猪苓菌丝体,长白山猪苓菌丝体上调表达的转录本在KEGG中显著富集的是氨基酸代谢,翻译,碳水化合物代谢,脂质代谢,能量代谢;而在陕西猪苓菌丝体中上调表达的转录本在KEGG中显著富集的是碳水化合物代谢,运输和分解代谢,翻译,信号转导,细胞生长和死亡。

猜你喜欢

猪苓菌丝体差异基因
Effectiveness of Zhuling decoction (猪苓汤) on diuretic resistance in patients with heart failure:a randomized,controlled trial
猪苓菌核共生营养优势蜜环菌初步筛选
响应面法优化鸡腿菇菌丝体多糖的提取工艺
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
猪苓的利水渗湿作用及其药理活性研究
紫檀芪处理对酿酒酵母基因组表达变化的影响
新型环保吸声材料——菌丝体胶合秸秆
杂交选育品种‘吉香一号’在吉林地区栽培品比试验
猪苓栽培中易发生的技术问题
SSH技术在丝状真菌功能基因筛选中的应用