基于全基因组预测和分析花生果腐病原菌分泌蛋白
2024-03-09王辉灵韩会玲王晓晗焦镇李步阳何弯弯孙伟明
王辉灵,韩会玲*,王晓晗,焦镇,李步阳,何弯弯,2,孙伟明,2*
(1.河北科技师范学院海洋资源与环境学院/农学与生物科技学院/河北省作物逆境生物学重点实验室(筹),河北 秦皇岛 066000;2.河北长生果肥料研究院有限公司,河北 衡水 053000)
花生是我国主要油料作物和经济作物之一,花生产业强势有力的发展对我国油料产业安全具有重要意义。花生果腐病是近年来广泛突发于我国北方花生主要种植区的一种土传病害,循环侵染。该病害具有分布范围广、危害重、难防治等特点,可造成15%以上的减产甚至绝收,日益加重的病害已成为花生生产的巨大威胁。土传病害严重影响作物健康,例如土生真菌尖孢镰刀菌已报道的可侵染100多种不同作物,导致植物的维管束枯萎和死亡[1]。水稻恶苗病相关的真菌为镰刀菌,能引起黄化症状,导致种子萌发率降低,植株异常高大虚弱,从而导致植物死亡[2]。不同的植株上的轮纹病菌会引起不同的症状,例如大豆红冠腐病和花生黑腐病[3]。本课题组前期对河北省花生主产区花生果腐病的病原菌进行了分离鉴定,结果表明,新孢镰刀菌(F.neocosmosporiellum)是河北省花生的主要产区发生花生果腐病的主要致病菌[4]。
分泌蛋白(secreted proteins)是蛋白组的一个重要组成部分。在细胞内合成,由信号肽引导分泌到胞外行使功能,通过位于分泌蛋白N端的信号肽,在相应前体蛋白的胞外转运中发挥作用[5]。近年来在病原与寄主互作研究中,关于病原菌分泌蛋白功能的研究越来越受到重视,病原菌的分泌蛋白在与寄主抗性蛋白的互作已有研究表明[6]、细胞信号转导及凋亡、个体发育等生理生化过程中占有关键位置,尤其是在病原菌致病性等方面起重要作用[7]。分泌蛋白很多研究表明其是多种真菌通过操纵宿主进行有效定殖而致病的关键[8]。病原真菌与寄主互作的毒力因子多为其分泌的多种分类为细胞壁降解酶的酶类,例如多聚半乳糖醛酸酶、酯酶、果胶裂解酶和木聚糖酶等,这些毒力因子可攻击植物细胞的细胞壁、抑制或者阻碍植株的抗性反应、降解植物细胞内复杂的碳氮化合物以获取植物营养及参与病原菌的定殖等[7]。
效应子是病原菌在侵染植物过程中会分泌的一类具有抑制寄主的先天免疫反应、增强病原菌在寄主的体内寄生感染能力的一类蛋白质[9],在植物与其病原菌的互作过程中有重要作用[10]。研究表明,多种植物病原菌均能将效应子输出到宿主细胞内部[11]。病原菌成功定殖需要效应子首先对宿主进行有效的操控[12]。大部分植物病原体效应子为分泌蛋白[13],其可被分泌到质外体、植物质膜外或者宿主细胞内[14]。在尖孢镰刀菌的研究中,寄主专一性可以部分地由效应子决定[15]。效应子以多种方式作用于不同的靶标,抑制植物免疫、操纵植物生理并被寄主防御机制识别,从而促进病原菌的侵染、扩张与定殖[16]。
随着更多的病原真菌全基因组测序的完成,利用生物信息学的方法和手段从基因组的水平上对病原菌的基因组进行分泌蛋白的预测与分析,已成为利用高通量技术手段筛选真菌的致病因子的极其重要的方法与技术手段。目前,已有学者进行了病原真菌完整基因组分泌蛋白的预测和分析。邢启凯等[5]预测并分析了可可毛色二孢基因组范围内的分泌蛋白,并明确其基本特征,为该病菌分泌蛋白致病机理的研究打下了基础。董章勇等[17]对玫烟色棒束孢候选效应因子进行了全基因组的预测分析,最终从10 061个蛋白序列中筛选得到19个候选致病效应因子。鉴于新孢镰刀菌的致病机理目前还未见报道,本研究利用生物信息学手段对新孢镰刀菌全基因组测序数据进行挖掘,结合SignalP、TMHMM、WoLF PSORT、NetGPI、CalMolWt、eggnogmapper和EffectorP等软件对其分泌蛋白进行预测及分析,为揭示该病原菌的侵染机制奠定基础。
1 材料和方法
1.1 供试材料采集
花生果腐病的样品于2018年9月17日采集自河北省黄河故道花生产区(河北南部邯郸市大名县)、沙河流域花生产区(河北中部新乐市)以及滦河流域花生产区(河北北部秦皇岛市昌黎县)。供试材料整株采集,取具有典型症状的发病荚果进行病原菌分离。
1.2 花生果腐病病原菌分离和纯化
在实验室内对病原菌进行分离纯化,按照常规组织分离法处理采集的样品。取具有典型症状的发病荚果,75%乙醇消毒60 s,灭菌水冲洗并吸干表面水分,0.1%升汞消毒30 s,灭菌水冲洗4次并吸干表面水分。进行表面消毒后,用灭菌后的手术刀切取花生的病健交界处的组织10~15 mm2,接于含100 μg/mL链霉素的PDA平板上,于培养箱中28 ℃培养,长出菌落后,挑取菌落尖端的少量菌丝接种于新的含100 μg/mL链霉素的PDA培养基上进行纯化培养,获得单一菌株。分离出的菌种结合形态学特征和分子鉴定结果,依据最新的分类学研究成果[18],确定本次分离的花生果腐病的优势病原菌为F.neocosmosporiellum(曾用名N.vasinfecta)。新孢镰刀菌菌株XL-3-5由河北科技师范学院微生物与食用菌实验室分离和保存。
1.3 生物信息学分析
将菌株进行全基因组测序,基因组序列及推测蛋白的氨基酸组成序列。由武汉希望组生物科技有限公司测序,质量完好的菌株XL-3-5基因组分别通过Pacbio Sequel系列测序仪进行单分子实时荧光三代测序和Illumina NovaSeq6000平台进行二代高通量测序,同时利用高通量测序平台进行转录组测序。
采用全基因组鸟枪法(WGS)的策略,首先利用第二代测序技术去构建二代小片段的DNA文库,再在MGI上对片段两端进行双末端(paired-end)测序、然后通过组装得到初始基因组,结合相关数据(三代、二代)进行基因组碱基校正获得高准确率的基因组。基于前期对基因组背景的了解进行去污染和去冗余分析,最后对基因组进行相关质量评估。
1.3.1 新孢镰刀菌全基因组蛋白N-端信号肽预测
利用SignalP-5.0(https://services.healthtech.dtu.dk/services/SignalP-5.0/)对全基因组氨基酸序列中是否存在信号肽切割位点及其具体位置进行预测。应分泌蛋白具有能引导穿过细胞膜被运输到达胞外的信号肽且其位于分泌蛋白的N端,所以对蛋白质是否具有N-端信号肽进行预测。当D-score≥0.5时,蛋白质具有N-端信号肽[19]。
1.3.2 新孢镰刀菌分泌型蛋白的跨膜结构预测
将含有信号肽的新孢镰刀菌全蛋白序列,利用蛋白跨膜结构预测软件TMHMM-2.0(https://services.healthtech.dtu.dk/services/TMHMM-2.0/)预测其跨膜结构。结果显示膜内氨基酸螺旋的预期数量大于18,则很大概率是跨膜蛋白(或者具有信号肽)。含有跨膜区的分泌型信号肽蛋白可能是膜上的锚定蛋白或者离子通道蛋白,也可能为膜受体。
1.3.3 新孢镰刀菌蛋白的亚细胞定位预测
在线预测软件WoLF PSORT(https://wolfpsort.hgc.jp/)预测蛋白的亚细胞定位,对含有信号肽且无跨膜结构的蛋白进行亚细胞定位预测。进而对真核蛋白序列在亚细胞结构中的分布与位置进行预测。
1.3.4 新孢镰刀菌分泌型蛋白的锚定位点预测
对新孢镰刀菌全蛋白序列中通过以上预测并符合其特征蛋白序列,用NetGPI-1.1(https://services.healthtech.dtu.dk/services/NetGPI-1.1/)进行结构预测。NetGPI-1.1用于鉴定蛋白质的GPI-锚定位点,预测其是否会锚定在细胞膜上,而分泌蛋白无GPI-锚定位点,不能锚定在细胞膜上。
1.3.5 新孢镰刀菌分泌蛋白氨基酸数量统计
对新孢镰刀菌全蛋白组序列中,经过分泌蛋白预测的序列进行氨基酸数量统计。使用CalMolWt(http://www.tofms.org/CalMW/MYMWele.asp)分析蛋白序列的数量特点及氨基酸组成特点。
1.3.6 新孢镰刀菌分泌蛋白组的功能注释
利用数据库eggnog-mapper(http://eggnogmapper.embl.de/job_status?jobname=MM_5yteeznr)对新孢镰刀菌中预测的分泌蛋白组进行功能分析,经过比对预测其功能。并通过COG(蛋白质直系同源簇数据库)数据库比对并对功能进行功能注释及分类。
1.3.7 新孢镰刀菌分泌蛋白组中效应蛋白的预测和功能分析
对潜在的效应蛋白进行预测需要使用效应蛋白的预测网页EffectorP 3.0(https://effectorp.csiro.au/index.html)进行预测和功能分析。
2 结果与分析
2.1 新孢镰刀菌蛋白的N-端信号肽的预测
利用网页SignalP 5.0服务器预测信号肽及其在真核蛋白质中的切割位点。新孢镰刀菌的全基因组共编码12 756条蛋白序列,SignalP 5.0服务器分析结果表明该菌含有N-端信号肽的蛋白共1 169条序列,其在总蛋白序列占比达9.15%。信号肽可引导这些蛋白进入到内质网腔中[20]。
2.2 新孢镰刀菌分泌型蛋白的跨膜结构预测
利用跨膜结构域预测软件TMHMM-2.0分析上述具有信号肽序列的蛋白,结果表明:在上述1 169条有信号肽的蛋白中,共预测出250条蛋白序列具跨膜区。推测出这些蛋白属于细胞膜锚定蛋白、细胞膜受体蛋白或细胞离子通道蛋白,不会分泌到膜外。其余的919条蛋白没有该跨膜结构域,这一特征属于分泌蛋白的典型特征[21]。
2.3 新孢镰刀菌全基因组具有信号肽的蛋白亚细胞定位
将新孢镰刀菌全基因蛋白序列中含有信号肽且无跨膜结构域的919条蛋白序列,使用WoLF PSORT (https://wolfpsort.hgc.jp/)分析发现:其中属于细胞外分泌型的有808条蛋白序列,而其余111条(图1)蛋白分别被转运到线粒体(41条)、细胞质(31条)、过氧物酶体(14条)、细胞核(12条)、质膜(11条)、高尔基体(1条)和细胞骨架(1条)。
图1 蛋白亚细胞定位Figure 1 Protein subcellular localization
2.4 新孢镰刀菌分泌型蛋白的锚定位点预测
能够通过GPI锚定位点而在质膜上锚定的这部分蛋白需要在预测分泌蛋白时筛选掉。利用Net-GPI-1.1(https://services.healthtech.dtu.dk/services/NetGPI-1.1/)对可进入内质网中,将分类为胞外分泌型的并且预测为无跨膜结构域的808条蛋白序列进行预测,结果表明含有GPI锚定位点的有107条蛋白序列不符合经典的分泌蛋白特征,其余701条分泌型蛋白序列符合经典的分泌蛋白特征,故将其认定为新孢镰刀菌的分泌蛋白组。
2.5 新孢镰刀菌分泌蛋白组的特征分析
2.5.1 新孢镰刀菌分泌蛋白组的氨基酸长度分析
分析新孢镰刀菌分泌蛋白组的序列长度,结果表明新孢镰刀菌分泌蛋白长度分布跨度较大,其中蛋白的氨基酸长度主要分布在101~700个范围内,共有623条序列,在序列总数的占比为88.87%。数量排前三名的分别是氨基酸长度为301~400的蛋白序列,占预测到的经典分泌蛋白总数的20.11%;201~300个氨基酸长度18.83%;和101~200个氨基酸长度,占15.70%(图2)。
图2 氨基酸长度分析Figure 2 Amino acid length analysis
2.5.2 新孢镰刀菌分泌蛋白组的氨基酸组成分析
对该菌预测分泌蛋白的氨基酸组成成分进行含量分析,结果显示,常见20种氨基酸在新孢镰刀菌分泌蛋白中的含量差异显著。由高到低依次为:A(丙氨酸)、G(甘氨酸)、S(丝氨酸)、L(亮氨酸)、T(苏氨酸)、V(缬氨酸)、D(天冬氨酸)、P(脯氨酸)、E(谷氨酸)、K(赖氨酸)、N(天冬酰胺)、I(异亮氨酸)、F(苯丙氨酸)、R(精氨酸)、Y(酪氨酸)、Q(谷氨酰胺)、H(组氨酸)、W(色氨酸)、C(半胱氨酸)和M(甲硫氨酸),其中疏水非极性的氨基酸(A、G、L、V、P和I)含量(41.93%)明显高于亲水极性的氨基酸(S、T、N、Q、M和C)含量(26.82%)。酸性氨基酸(A和E)的含量为14.12%,碱性氨基酸(K、R、H)的含量为10.55%,芳香族氨基酸(F、Y和W)的含量仅为9.38%(图3)。
图3 氨基酸组成分析Figure 3 Amino acid composition analysis
2.6 新孢镰刀菌分泌蛋白组信号肽切割位点分析
通过对新孢镰刀菌分泌蛋白组信号肽切割位点-3到+2的位点进行统计分析,结果显示在-3、-2、-1、+1和+2位点出现的频率最高的氨基酸分别为A、S、A、A和P,其所占的百分率分别为51.2%、20.4%、80.9%、25.0%和32.8%(表1)。在-3位,除A之外出现较多的氨基酸残基为V(25.1%)和S(9.1%),而氨基酸D、E、K、F、R、Q、H、W和M未发现被使用。在切割位点(-1位),除A之外出现较多的氨基酸为G(10.5%)和S(4.1%),氨基酸L、D、E、N、F、R、Y、H、W和M则未见出现。在-2位点,所有的氨基酸均有使用。在+1位点,除P外的所有氨基酸均有使用。在+2位点所有种类的氨基酸均被使用。以上结果表明,新孢镰刀菌预测到的分泌蛋白信号肽切割位点-3和-1位置上的氨基酸相对保守,是信号肽酶的关键识别位点。预测到的分泌蛋白组信号肽的切割位点-3到-1的氨基酸为A-S-A,属于A-X-A型,为真核生物中典型SP Ⅰ型信号肽酶所识别的信号肽切割位点。
表1 信号肽切割位点Table 1 The signal peptidase cleavage sites position
2.7 新孢镰刀菌分泌蛋白组的COG功能注释
利用eggnog-mapper数据库对新孢镰刀菌预测到的分泌蛋白组中的701条序列进行功能分析,共有656条序列可以注释到完整的功能。通过COG数据库对其功能进行分类,除去未分类的143条未知蛋白序列,将新孢镰刀菌的分泌蛋白分为:第1种S类,即功能未知类,共有序列162个,如:芳基硫酸酯(Arylsulfotran 2)、S1-P1核酸酶(S1-P1 nuclease)、β-内酰胺酶(beta-lactamase)等功能未知蛋白;第2种G类,碳水化合物的运输和代谢蛋白,序列数为140个,如:硫酸酯酶(sulfatase)、果胶酸裂解酶(pectate lyase)、β-半乳糖苷酶(beta-galactosidase)、纤维素酶(cellulase)等;第3种O类,即蛋白翻译后修饰和分子伴侣,序列数为102个,如:肽酶二聚结构域(peptidase dimerisation domain)、肽酶S10(peptidase S10)等;第4种E类为26个;第5种C类(22个);第6种Q类(预测到15个)。分泌蛋白在其余的功能分类数目则相对较少(图4)。
图4 分泌蛋白功能分类Figure 4 Functional classification of secretory proteins
2.8 新孢镰刀菌分泌蛋白组中效应蛋白的预测和功能分析
将符合条件的序列进行下一步筛选。筛选分泌蛋白的蛋白序列长度,去除大于300个氨基酸的蛋白序列[22],继而通过EffectorP 3.0预测潜在效应蛋白,结果表明预测到的效应蛋白序列为162条,占分泌蛋白总数的23.10%。其中质外体效应蛋白有89条,细胞质效应蛋白有40条,另外33条既是质外体效应蛋白也是细胞质效应蛋白。质外体效应蛋白为胞间效应蛋白,积累于植物细胞间隙,被分泌到胞外空间,并通过与胞间靶蛋白或细胞膜受体相结合来发生作用[23]。细胞质效应蛋白被已知或未知的转运机制到植物细胞质内位于植物的不同亚细胞区域[23]。也就是说,它们要么留在细胞内,要么在分泌后重新进入胞浆[24]。
上述被预测为效应蛋白的162条序列中的69条序列可以在eggnog-map数据库中比对出结果,并有54条序列注释到具体功能。在COG分类中,有4条序列分别为U(1条)、C(1条)和E(2条)。其余的50条序列中13条序列属于G类(carbohydrate transport and metabolism),11条序列属于O类(posttranslational modification,protein turnover,chaperones),26条序列则属于S类(function unknown)。S类蛋白结构域和功能未知的蛋白有真菌疏水蛋白(fungal hydrophobin)、坏死诱导蛋白(necrosis inducing protein,NPP1)和成束蛋白(fasciclin)等。
细胞壁的成分主要是纤维素和果胶,因此当病原菌分泌果胶裂解酶时有利于其侵染荚果。选取部分预测为果胶裂解酶的蛋白序列进行进一步分析,在NCBI进行Blastp比对,预测为果胶裂解酶的序列均与其他果胶裂解酶序列高度相似。通过构建系统发育树(图5),发现contig000001.146和contig000004.533均为果胶裂解酶。和Candidatus Bathyarchaeota果胶裂解酶亲缘关系最近。同样的方法对contig000001.1756和contig000004.1110进行序列比对及构建系统发育树。发现contig000001.1756和contig000004.1110均为β-半乳糖苷酶,和Ktedonobacteraceae bacteriumβ-半乳糖苷酶的相似度最高,亲缘关系最近(图6)。
图5 contig000001.146 与contig000004.533系统发育树Figure 5 contigo00001.146 and contigo000004.533 phylogenetic trees
图6 contig000001.1756与contig000004.1110系统发育树Figure 6 contig000001.1756与contig000004.1110 phylogenetic trees
3 讨论
花生果腐病对花生产业的健康具有较严重的威胁,所以利用生物信息学系统分析基因组,筛选相应分泌蛋白对花生产业健康具有重要意义。随着众多植物病原真菌全基因组测序工作的完成,大量分泌蛋白和效应蛋白报道为植物病原真菌的致病蛋白,因此开展基因组规模的分泌蛋白和效应蛋白的预测和功能分析,对了解新孢镰刀菌的侵染机制提供了坚实的理论基础。
通过SignalP、TMHMM、WoLF PSORT和NetGPI等软件的分析,本文首次对新孢镰刀菌全基因组共12 756条蛋白序列进行分析,预测到了新孢镰刀菌分泌蛋白组的701条蛋白序列为经典分泌蛋白,占其蛋白序列总条数的5.49%,与于钦亮等[25]预测到的禾谷镰刀菌分泌蛋白(F.graminearum)(5.40%)、NIE Y.等[26]预测到的尖孢镰刀菌甜瓜专化型分泌蛋白(F.oxysporum f.sp melonis)(5.40%)和何艳秋等[7]预测到的尖孢镰刀菌古巴专化型1号小种分泌蛋白(Fusarium oxysporumm f.sp.cubense race 1,Foc1)(6.40%)在全基因组蛋白序列中所占比例相似。植物病原真菌中分泌蛋白的数量占总蛋白质数量的比例约为3.65%~9.58%[27]。分泌蛋白多以101~600个氨基酸的中小分子蛋白质为主,中小分子的分泌蛋白结构相对简单,有利于其在病原菌与寄主植物的互作中发挥功能。
新孢镰刀菌分泌蛋白的氨基酸组成中氨基酸残基最多的为丙氨酸,非极性的疏水氨基酸含量(41.93%)明显高于极性的亲水氨基酸含量(26.82%),信号肽切割位点处氨基酸种类组成为A-S-A,属于A-X-A型。以上结果与已报道的稻瘟菌[28]、镰刀菌古巴专化型[7]、核桃细菌性黑斑病菌[29]等类似,进一步印证了其分泌蛋白的属性,更利于其穿透质膜,运输到胞外实现对寄主植物的侵染。
G类分泌蛋白能破坏植物-病原菌间的屏障——降解植物细胞壁,加快菌丝侵染[3]。对新孢镰刀菌的701条经典分泌蛋白的功能进行预测分析表明,有140条蛋白为参与碳水化合物运输与代谢的酶类,在功能明确的蛋白中占21.3%。进一步的效应蛋白分析也表明,75.30%的效应蛋白为质外体效应蛋白,有50条蛋白为GOS类蛋白,在功能明确的蛋白中占92.59%。表明新孢镰刀菌作为土壤习居菌,拥有大量降解细胞壁的酶类,如纤维素酶、半乳糖苷酶、果胶裂解酶和UDP-葡萄糖醛酸基转移酶等,有较强的寄生和腐生在寄主植物上的能力。
利用生物信息学相关软件对全基因组进行分析可以预测分泌蛋白,但相同的分泌蛋白在不同病原菌中是否具有同样的功能,仍需进一步的试验分析和验证。本研究通过与数据库进行比较,筛选的分泌蛋白均为生命活动中的重要蛋白,为今后利用分子生物学试验开展该菌种的分泌蛋白组研究提供依据。为深入研究其致病方式以及其病源危害,接下来可对病原菌不同侵染时期的分泌蛋白进行组学分析,同时对主要分泌蛋白进行基因功能研究,也为进一步研究新孢镰刀菌对寄主植物致病机制的研究奠定基础。
4 结论
本研究通过完成新孢镰刀菌全基因组测序,利用生物信息学技术从基因组规模进行了分泌蛋白的分析预测,得到了701个经典分泌蛋白,其长度主要为101~700个氨基酸,主要由A、G、S和L等氨基酸组成。信号肽切割位点处氨基酸种类组成为A-S-A,属于保守的A-X-A型。进一步的功能和效应蛋白预测表明,新孢镰刀菌拥有大量的降解细胞壁的酶类,为致病蛋白的试验分析奠定了基础,为研究花生果腐病致病菌新孢镰刀菌的分泌蛋白、致病因子、效应蛋白及其与植物间的互作提供了重要的数据基础。其中,预测到纤维素酶、果胶裂解酶、半乳糖苷酶和UDP-葡萄糖醛酸转移酶等与其致病性相关的基因数据进行后续的实验,例如分泌蛋白的原核表达、基因功能验证以及基因表达水平的检测等,为后续新孢镰刀菌致病机理研究提供进一步支持。