基于转录组挖掘不同碳源条件下解淀粉芽孢杆菌TF28 脂肽合成相关基因
2023-06-04闫更轩王向向刘治廷张淑梅夏海华
闫更轩,王向向,田 缘,3,刘治廷,张淑梅,夏海华
(1.黑龙江省科学院微生物研究所,哈尔滨 150010;2.东北林业大学生命科学学院,哈尔滨 150040;3.东北农业大学食品学院,哈尔滨 150030)
解淀粉芽孢杆菌(Bacillus amyloliquefaciens)是一种革兰氏阳性兼性厌氧菌,在28~37 ℃、pH 6.5~7.0 的条件下适宜生长。解淀粉芽孢杆菌生长速度快、产量高、安全无致病性,可以合成多种具有抑菌活性的次级代谢产物,包括脂肽、抑菌蛋白及聚酮化合物等,是发酵工业的重要宿主菌株[1]。脂肽作为一类由亲水性肽链和亲脂性脂肪烃链组成的两亲性表面活性剂,主要包括表面活性素(Surfactin)、丰原素(Fengycin)以及伊枯草菌素(Iturin)三大类[2]。多数脂肽具有抗菌活性,在细菌或真菌病害防治中发挥重要作用。表面活性素对藤黄微球菌具有强烈的抑制作用;丰原素可有效抑制灰霉病菌、稻瘟病菌的生长;伊枯草菌素可对分布于多种环境中的白色念珠菌起到抑制生长作用,为果实保鲜中念珠菌的污染防治提供了新策略[3-6]。
解淀粉芽孢杆菌是生产脂肽的重要菌株,但受菌种本身基因表达限制,目前脂肽的发酵产量十分有限,应用基因工程技术进行菌种创制有望成为提高脂肽产量的重要策略。研究发现,解淀粉芽孢杆菌TF28 在脂肽产量上具备优势,TF28 菌株的脂肽合成水平受碳源类型的影响较大[7],探究脂肽合成途径和碳源利用及碳代谢过程的关联对提高脂肽的产量有重要意义。本研究分别对在以葡萄糖、果糖和木糖为主要碳源条件下培养的菌株转录组进行比较研究,为揭示碳源代谢与脂肽合成调控途径间的关联性提供有力依据。
1 材料与方法
1.1 材料
1.1.1 试剂和仪器 葡萄糖、果糖、木糖、酵母膏、硫酸铵、硫酸镁、氯化钙、硫酸锰、磷酸二氢钾、磷酸氢二钠均为市售分析纯。细菌总RNA 提取试剂盒购自Tiangen 公司,反转录试剂盒PrimeScript RT reagent Kit 及荧光定量PCR 试剂盒TB Green®Premix Ex Taq™(Tli RNaseH Plus)购自Takara 公司,-80 ℃超低温冰箱购自Thermo 公司,ABI StepOne 荧光定量PCR 仪购自美国应用生物系统公司。
1.1.2 菌株 解淀粉芽孢杆菌TF28 由(此处隐去单位)保藏。
1.1.3 培养基 复苏培养基:牛肉膏8.0 g/L,酵母膏5.0 g/L,根据接种类型分别额外添加10.0 g/L 的葡萄糖、果糖和木糖。
葡萄糖培养基:葡萄糖40 g/L,酵母膏2 g/L,硫酸铵2 g/L,硫酸镁2.11 g/L,氯化钙0.1 g/L,硫酸锰0.1 g/L,磷酸二氢钾1.5 g/L,磷酸氢二钠3 g/L。
果糖培养基:将葡萄糖培养基中的葡萄糖替换为等量的果糖。
木糖培养基:将葡萄糖培养基中的葡萄糖替换为等量的木糖。
1.2 方法
1.2.1 样品处理 以葡萄糖、果糖和木糖为碳源(以下分别简称为葡萄糖组、果糖组及木糖组),将保藏的解淀粉芽孢杆菌TF28 纯化后接种于复苏培养基中,振荡培养至对数期(约10 h),按1%的接种量分别转接至葡萄糖培养基、果糖培养基和木糖培养基中,继续培养至对数期,培养条件为30 ℃,180 r/min。培养后的菌体离心(4 000 r/min,5 min),去除上清液,液氮速冻后利用干冰运输至上海生工生物有限公司,采用Total RNA Extractor 试剂盒提取各样品总RNA,并通过Qubit2.0 RNA 检测试剂盒进行RNA 质量检测,构建文库并完成转录组测序。测序平台为Illumina,每组样品进行3 次生物学重复。以葡萄糖为碳源生长的解淀粉芽孢杆菌TF28 为对照组(葡萄糖组),以果糖、木糖为碳源生长的解淀粉芽孢杆菌TF28 为试验组(分别为果糖组、木糖组)。
1.2.2 转录组测序数据处理 原始序列(Raw reads)需完成数据质控,通过Trimmomatic 软件对双端序列进行过滤,以获得相对纯净的测序有效数据[8]。应用Bowtie2 软件将有效数据映射至解淀粉芽孢杆菌TF28 参考基因组上(https://www.ncbi.nlm.nih.gov/genome/848?genome_assembly_id=217758),利用BEDTools 完成基因覆盖率统计分析[9]。
1.2.3 基因表达差异分析 基因表达水平的计算通过FPKM(Fragments per kilobase of exon per million fragments mapped)方法完成。以葡萄糖组解淀粉芽孢杆菌TF28 基因为对照,使用DESeq2 进行基因表达差异分析,分别计算果糖组、木糖组解淀粉芽孢杆菌TF28 基因转录丰度,挖掘差异基因,基因表达量差异倍数Log2(FC)>1,P<0.05[10]。
1.2.4 基因聚类分析 通过WEGO(http://wego.genomics.org.cn)将全部差异基因映射至Gene ontology(GO)数据库的各个条目,统计在不同条目下差异基因富集数量。应用Cluster profiler 完成Kyoto encyclopedia of genes and genomes(KEGG)通路富集分析,计算KEGG pathway 各层级上富集的差异基因数量[11]。富集分析均覆盖全部基因组,通过超几何分布计算差异基因显著富集的条目或通路。
1.2.5 实时荧光定量PCR 验证 基于实时荧光定量PCR(Real-time quantitative PCR,RT-qPCR)技术检测葡萄糖组、果糖组和木糖组的解淀粉芽孢杆菌TF28 差异基因表达水平,与转录组测序结果进行对比,验证转录组测序结果的准确性。根据解淀粉芽孢杆菌TF28 的全基因组设计RT-qPCR 检测引物(表1),引物委托苏州金唯智有限公司合成。解淀粉芽孢杆菌TF28 的总RNA 提取参考Tiangen 总RNA 提取试剂盒说明文档,总RNA 经检测合格并定量后,应用PrimeScript RT reagent Kit 将RNA 逆转录为cDNA,以cDNA 为模板进行RT-qPCR 检测。RT-qPCR 反应体系为:TB Green Premix Ex Taq 10 μL,cDNA 模板2 μL,上、下游引物(10 μmol/L)各0.4 μL,ROX Reference Dye 0.4 μL,灭菌去离子水6.8 μL。PCR 反应条件为:预变性95 ℃30 s;95 ℃5 s、60 ℃30 s,40 个循环;72 ℃10 min。TF28 菌株的16S rRNA 作为内参基因,采用2(-ΔΔCT)方法统计各基因的相对表达水平。
表1 RT-qPCR 引物序列
2 结果与分析
2.1 测序质量统计
测序碱基质量主要受试剂、仪器及菌体RNA 质量的影响,直接反应出测序结果的可信度。碱基质量值的计算公式为:
式中,Q表示碱基质量值,e表示碱基识别出错的概率。
分别对葡萄糖组、果糖组和木糖组的菌体转录组过滤前后测序数据质量进行统计,结果见表2、表3。
表2 测序原始数据质量统计
表3 测序后过滤数据质量统计
葡萄糖组样品的转录组共包含35 711 663 条reads,过滤后得到34 889 479 条reads;果糖组样品的转录组共包含27 418 183 条reads,过滤后得到26 783 949 条reads;木糖组样品的转录组共包含22 327 617 条reads,过滤后得到21 777 502 条reads;葡萄糖组、果糖组、木糖组样品的转录组中有效reads 数量占总reads 数量的比重分别为97.70%、97.69%、97.54%,均大于97.00%;过滤后,各组样品Q20均大于98.00%,Q30均大于94.00%,GC 含量均大于48.00%。综上,此次测序数据质量可用于后续相关研究。
2.2 参考基因组比对分析
应用Bowtie2 软件将过滤后的数据与解淀粉芽孢杆菌TF28 基因组进行比对,结果见表4。3 组样品的转录本定位至解淀粉芽孢杆菌TF28 基因组上的reads 数、多重比对reads 数占总reads 数量的比例分别超过98.00%、1.00%,表明本研究的所有样品均未受到其他外源生物转录本的污染。
表4 过滤后的数据与TF28 基因组的比对结果
2.3 基因表达量分析
本研究共分析了解淀粉芽孢杆菌TF28 参考基因组上3 948 个基因的表达水平。基因表达水平通过FPKM(Fragments per kilobase of exon per million fragments mapped)来衡量,FPKM同时考虑了测序深度和基因长度对读长数量的影响,是目前常用的基因表达水平估算方法。各样品基因表达水平的情况如表5 所示。碳源改变将对解淀粉芽孢杆菌TF28 的基因表达水平分布趋势造成影响。与对照相比,以果糖、木糖为碳源的样品组检测到的高水平表达基因(FPKM>100)数量较多,具备研究价值。
表5 不同表达水平分布区间的基因数统计
2.4 差异基因筛选
通过统计各基因表达量,筛选差异基因,绘制火山图,结果如图1 所示。以葡萄糖为碳源的样品为对照,果糖作为碳源的样品可获得差异基因688 个,其中上调基因522 个,下调基因166 个,差异基因占全部检测基因的17.43%;木糖作为碳源的样品可获得差异基因855 个,其中上调基因691 个,下调基因164 个,差异基因占全部检测基因的21.65%;果糖和木糖作为碳源的样品共有的差异基因为594 个,其中表达量增加的基因383 个,表达量下降的基因125个,表达趋势不同的基因86 个。
图1 差异基因火山图
2.5 差异基因的GO 注释
对差异基因进行GO 注释分析,图2 显示了包含以果糖、木糖为碳源的样品组全部差异基因的注释结果。相对于以葡萄糖为碳源的对照组,差异基因属于生物过程(Biological process)分类的主要包括代谢过程(Metabolic process)、细胞进程(Cellular process)、定位(Localization)等;属于细胞组分(Cellular component)分类的主要包括细胞(Cell)、细胞器(Cell part)以及细胞膜(Membrane)等;属于分子功能(Molecular function)分类的主要包括催化活性(Catalytic activity)、结合(Binding)以及转运活性(Transporter activity)等。上述GO 注释分析结果显示,碳源种类的改变影响了许多解淀粉芽孢杆菌TF28 中参与代谢合成、酶的表达、胞内代谢物转运等进程的功能基因表达量,可能会对该菌能够合成的次级代谢产物类别及水平产生影响。
图2 差异基因的GO 注释结果
2.6 差异代谢途径KEGG 富集分析
对差异基因进行KEGG 富集分析,以明确差异基因参与的主要生化代谢途径及信号转导途径。对差异基因在各个代谢途径的富集情况进行统计,结果如图3 所示。以果糖为碳源的样品组差异基因富集于115 个代谢途径中,富集程度较高的代谢途径主要包括ABC 转运子(ABC transporters)、缬氨酸、亮氨酸和异亮氨酸的生物合成(Valine,leucine and isoleucine biosynthesis)、果糖和甘露糖代谢(Fructose and mannose metabolism)、生物素代谢(Biotin metabolism)等,而包含了最多差异基因的代谢途径主要包括ABC 转运子(ABC transporters)、氨基酸生物合成(Biosynthesis of amino acids)等;以木糖为碳源的样品组差异基因富集情况略有差别,富集程度较高的生物素代谢(Biotin metabolism)被半胱氨酸和蛋氨酸代谢(Cysteine and methionine metabolism)及脂肪酸生物合成(Fatty acid biosynthesis)所取代,此外,差异基因分布于双组分系统(Two-component system)、群体感应(Quorum sensing)等代谢途径中的数量较多。
图3 差异基因KEGG 富集散点图
双组分系统直接调控细菌绝大多数生理过程,包括细菌的趋化性、感知渗透压、孢子的形成、营养元素的代谢以及次级代谢产物的合成等,在芽孢杆菌中,对脂肽的合成有重要影响,因此该途径中的差异基因类型值得关注[12]。通过统计差异基因数量,发现木糖组分布于双组分系统的差异基因有21个,而果糖组只有10 个。基于2 组共有的差异基因所表达的蛋白类型进行COG 注释,发现差异基因主要编码脂肪酸去饱和酶(Fatty acid desaturase,TH57_RS14500)、信号转导组氨酸激酶(Signal transduction histidine kinase,TH57_RS14505)等,表明上述基因可能在脂肽合成过程中起调控作用。
2.7 实时荧光定量PCR 验证
为评估RNA-Seq 结果的可靠性,随机筛选6 个差异基因,通过RT-qPCR 对基因的相对表达水平进行检测,并和转录组测序结果进行对比(图4)。结果表明,各差异基因在果糖组及木糖组中的表达水平变化趋势与转录组测序结果一致,说明本研究RNA-Seq 检测数据的可信度较高。
3 小结与讨论
脂肽的两亲性结构赋予了其高效的抗菌生物活性,在农作物病害防治领域具有广阔的应用前景。脂肽的生物安全性高,既可应用于生物防治,也可应用于蔬菜和水果的运输保藏,且保藏效果相较一些常见的保鲜剂更具优势[13]。然而,现有脂肽发酵技术仍然难以实现较高的产率,其原因在于野生菌种次级代谢产物类型多样、合成调控网络复杂、受菌体生理活性限制等。脂肽的合成同时包含侧链脂肪酸合成、脂肪酸活化及氨基酸配位等过程,其中有大量基因发挥各自的调控作用[14]。为提高菌种合成脂肽效率,可应用合成生物学技术,明确调控基因的类别和功能,通过定向改造优势底盘菌株的代谢通路来增强脂肽的合成调控系统,包括群体感应系统、双组分系统等,为脂肽生产菌株的改良提供遗传资源。
有研究表明,芽孢杆菌的脂肽产率受培养碳源类型的影响,例如果糖作为碳源时,枯草芽孢杆菌中丰原素及表面活性素的合成量更高[15]。为挖掘调控脂肽合成的关键基因,本研究以解淀粉芽孢杆菌TF28 为样品,通过转录组测序分析该菌株在葡萄糖、果糖和木糖3 种碳源条件下基因表达水平差异情况。与葡萄糖组相比,在果糖组、木糖组中筛选到较多的差异基因,但果糖组和木糖组间的差异基因数量较少,表明解淀粉芽孢杆菌TF28 在不同碳源条件下,其碳代谢途径和效率存在差异。
脂肽为脂质与氨基酸的化合物或复合体,KEGG 富集结果显示,在替换为能够提高脂肽产率的碳源(果糖、木糖)后,部分氨基酸合成途径相关基因表达水平发生显著变化,如用于合成表面活性素及丰原素的苏氨酸(ko00260,16 个差异基因)、缬氨酸(ko00290,11 个差异基因)等;脂肪酸合成途径(ko00061,14 个差异基因)、脂肪酸降解途径(ko00071,6 个差异基因)同样发生了变化,结合各种脂肽产量的发酵检测结果推测,脂肽的上游途径可能得到了增强。下游脂肽合成途径中,未筛选到表面活性素合成相关的差异基因,但在丰原素(TH57_RS04740,TH57_RS04715,TH57_RS04720)、伊枯草菌素(TH57_RS04875,TH57_RS20350,TH57_RS20340)中均检测到表达量上调的基因,表明培养碳源类型的不同可能影响了脂肽合成相关基因表达。
在芽孢杆菌中,群体感应系统在脂肽操纵子表达的过程中起到重要调节作用[16]。在本研究发现phrC、aprE、lepB、oppABCDF、rapK、degU、spo0F、spo0B等群体感应调控基因均发生了上调,其中phrC、degU已被证实和脂肽的合成调控有关[17,18]。rapK是表面活性素的负调控因子,但本研究的测序结果显示,rapK在果糖组和木糖组的表达量皆发生了上调,其对脂肽合成的调控作用可能需要进一步验证[19]。此外,双组分系统中许多基因的表达发生了改变,碳贮藏调控因子csrA的表达发生上调,表明碳代谢过程受到影响;PhoR/PhoP 双组分系统被证实和表面活性素及丰原素的合成有关,而其下游的调控因子phoA的表达在果糖组和木糖组中均下调,意味着phoA可能和脂肽的合成存在关联;spo0F的上游环境相关因子kapB的表达量增加,其全局调控作用同样值得关注。本研究通过转录组测序技术,筛选到了一批可能与脂肽合成相关的调控因子,后续将依托本研究结果继续对基因功能进行解析,为脂肽的生产和应用提供支持。