昆虫病原真菌基因组学及多组学研究进展
2021-12-12宋晓兵彭埃天凌金锋崔一平
宋晓兵,彭埃天,凌金锋,陈 霞,崔一平
(广东省农业科学院植物保护研究所/广东省植物保护新技术重点实验室,广东 广州 510640)
昆虫病原真菌广泛存在于自然界中,是害虫的自然天敌之一,由真菌侵染引起的昆虫疾病约占60%[1]。昆虫病原真菌种类资源丰富,已经发现了1 000多种昆虫病原真菌[2],是微生物杀虫剂的重要材料来源。生物控制是一种防治农业害虫的经济和生态友好方法[3-4],利用昆虫病原真菌防治害虫具有不易产生抗性、易造成昆虫病害流行、生态安全环保等优势[5-6],在今后的农业害虫防治中具有良好的应用前景[7-8]。
基因组学是研究生物基因组的组成、结构、相互关系、表达调控,以及对全基因进行集体表征、定量分析及不同基因组比较研究的一门交叉生物学学科,基因组学、转录组学、蛋白质组学以及代谢组学等共同构成系统生物学的组学基础。测序技术的快速发展促进了真菌基因组学的研究,通过基因组测序针对特定属种的多基因组测序比较分析,获得进化过程中与真菌次级代谢合成相关的重要基因、蛋白质家族等,进而为真菌的形态差异、致病性差异、环境适应性等提供遗传依据[9-10]。昆虫病原真菌是与宿主相互作用的真菌,不同真菌的寄主范围不同、致病力也存在显著差异。已完成的球孢白僵菌(Beauveria bassiana)、金龟子绿僵菌(Metarhizium anisopliae)、蝗绿僵菌(Metarhizium acridum)、冬虫夏草菌(Ophiocordyceps sinensis)和蛹虫草菌(Cordyceps militaris)等典型昆虫病原真菌的全基因组测序,加速了涉及关键基因功能、真菌致病机制、宿主与病原体互作以及涉及真菌繁殖的深入研究[11]。
本文综述了昆虫病原真菌基因组学的最新研究进展,涵盖利用基因组学及多组学联合揭示昆虫病原真菌的种内或物种间的进化,以及寄主范围改变、侵染机理、免疫机制、代谢产物等方面,期望能为今后农业害虫生物控制的应用提供理论依据。
1 基因测序技术
1.1 测序技术概述
目前,DNA测序已经从第一代测序技术发展到第三代测序技术。1977年Maxam和Gilbert发明了化学降解法[12],同年Sanger法即双脱氧终止法(Chain Termination Method)标志第一代测序技术的诞生[13]。Sanger测序技术因操作简便、准确率高和较长读长的优势而被广泛应用,基于该技术完成了人类的基因组测序[14]。
第一代测序技术速度快,但单次仅能测一条序列,测序读长在1 000~1 500 bp,测序成本高、通量低,不能够应用于大规模的基因测序[15]。20世纪90年代中后期,第二代测序(Nextgeneration sequencing,NGS)技术出现,主要解决了第一代测序通量低的问题,可以同时对多达几百万条的DNA序列进行测定,也被称为高通量测序技术[16]。二代测序平台主要有Roche公司的454、Illumina公司的Solexa和Hiseq、ABI公司的Solid、华大基因的BGISEQ等[17]。
二代测序技术通量高,但测序读长较短,测序片段限制在250~300 bp,某些序列可能无法被大量扩增,造成信息的丢失。目前第三代测序技术方兴未艾,通过单分子水平读取核苷酸序列,因此也被称为单分子测序技术。当前主流的第三代测序技术主要有HeliScope公司的SMS、PacBio公司的SMRT、Oxford公司的Nanopore、VisiGen公司的FRET。第三代测序技术无需PCR富集序列,直接测序的测序长度高达10 kb。三代测序技术直接对RNA分子测序,大幅度降低体外逆转录产生的系统误差;直接检测甲基化的DNA序列,为表观遗传学研究提供了有力手段;对特定序列的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)检测,测定稀有突变及其频率等[18]。
1.2 基因组测序
基于基因组测序技术的飞速发展,已有1 500种以上的真菌获得了全基因组序列[19]。以大规模测序为基础的群体基因组学,逐渐应用于解析真菌的物种形成、种群分化、群体结构和位点特异性效应。全基因组调查(Genome survey)提供了解决昆虫病原真菌的生物学问题及其与宿主相互作用的复杂机制的新策略[20]。许多昆虫致病真菌如球孢白僵菌、金龟子绿僵菌、蝗绿僵菌、冬虫夏草菌、蛹虫草菌等已成功完成基因组测序[21-24],本团队利用Nanopore和Illumina平台已完成了球孢白僵菌QB-28(GenBank登录号:JADBGJ000000000)和宛氏拟青霉WS-11(GenBank登录号:JACXGS000000000)两株对柑橘木虱高致病性真菌的全基因组测序和全基因组调查。基因组测序技术的发展推动了真菌鉴定、起源、进化、不同的生活方式和宿主选择、真菌病毒的鉴定等研究,促进了后续的功能基因组、系统发育基因组和比较基因组的研究,对研究真菌的生长发育、功能调控和致病机制提供了大量的生物信息和遗传信息数据。
利用Roche 454系统和Illumina双端测序球孢白僵菌ARSEF2860,获得了76.6倍覆盖度的基因组测序数据,组装的总基因组数据33.7 Mb,基因组预计编码10 366个蛋白质基因,通过基因注释从7 283个预测蛋白中分析鉴定出3 002个蛋白质家族;研究表明球孢白僵菌基因组中包含更多的细菌样毒素(Bacterial-like toxins),以及更多的物种特异毒力基因,例如编码一类小型富含半胱氨酸的分泌蛋白基因(SSCps);与植物病原真菌相比,球孢白僵菌具有特殊的表达转录因子(TFs),可用于调控和激活特定基因,以适应不同的昆虫宿主[23]。基于鸟枪法测序蛹虫草菌Cm01,获得了147倍覆盖度的基因组测序数据,组装的总基因组数据32.2 Mb,基因组预计编码9 684个蛋白质基因,InterproScan分析鉴定了2 736个保守蛋白家族(包含6 725个蛋白),大约16%的预测基因被推定参与病原体与宿主的相互作用;蛹虫草菌中蛋白酶、几丁质酶、脂肪酶和蛋白激酶的基因家族膨胀,而糖苷水解酶和果胶裂解酶则发生了基因家族收缩[22]。基因组测序还可用于真菌病毒研究,使用Illumina HiSeq 2500系统对球孢白僵菌RCEF5853进行宏基因组测序,发现了一种新的双链RNA病毒,球孢白僵 菌Partitivirus 3(BbPV-3),BbPV-3的CP、RdRp序列同源性以及RdRp结构域系统发育分析显示其是Epsilonpartitivirus属的新成员[25]。
2 基因组学研究
2.1 系统发育基因组学
系统发育基因组学是系统发育学与基因组学相融合的交叉学科,通过分析基因组水平的大规模分子数据来阐释真菌谱系及其性状进化、系统进化关系。简化基因组测序(Reducedrepresentation sequencing)和目标序列捕获技术(Target sequence capture)是系统发育基因组学研究获取数据的两个主要技术手段[26],而超级矩阵法(Supermatrix approach)和物种树分析(Species-tree approach)是系统发育分析进行进化树重建的两类主要方法[27-28]。
基于蛹虫草菌Cm01子实体发育的基因组测序,发现该菌的有性生殖是异宗配合的,是第一个被报道的无需不同交配型的配对也能产生有性子实体的子囊菌[22]。球孢白僵菌种系基因组分析证实,子囊菌对昆虫的致病性是多元化的,而且具有趋同进化的趋势,伴随多个物种专化性的毒力基因以及与寄主范围和致病策略相关的基因家族的扩张和收缩[23]。系统发育基因组学分析球孢白僵菌和蛹虫草菌,表明真菌昆虫致病性是在距今2亿年的三叠纪-侏罗纪界线时期演化而来的,而虫草谱系的出现早于绿僵菌谱系1.3亿年[22-23]。基因组测序分析表明,冬虫夏草菌Co18基因组中包含两个亲和性交配型基因,并且具有自我繁殖力,可以独立完成性循环;基因结构的变化表明,冬虫夏草菌具有早期潜伏侵染寄主幼虫以及后期致死成熟幼虫的双重致病机制;假定蛋白分析表明,冬虫夏草菌可能通过抗冻蛋白和增加脂质积累和脂肪酸不饱和度的机制使其适应极端寒冷[24]。
2.2 比较基因组学
比较基因组学以基因组图谱和测序为基础,对已知的基因和基因组结构进行分析比较,从而全面了解基因的功能、表达机制和物种进化。比较基因组学可以更好地解析病原真菌的起源进化、物种形成、寄主追踪以及寄主跳转[29]。通过近缘真菌或同种真菌不同生理小种之间的基因组对比研究,解析近缘真菌的细微区别,包括致病性、次级代谢模式或其他特性,阐释真菌在基因进化过程中的分离、内含子的获得或丢失以及不同生境对基因进化的影响。
基于金龟子绿僵菌和蝗绿僵菌的全基因组比较分析表明,两者的基因组结构高度同源,前者基因组编码有更多的不同蛋白基因,含有大量的转座子基因以及丢失重复引起点突变的防御功能基因,加快基因组进化以适应感染不同种类的昆虫宿主;推测绿僵菌由植物内生真菌或病原真菌进化而来,与植物病原真菌及其他丝状真菌相比,昆虫病原真菌基因组中的蛋白酶、几丁质酶及脂酶等用于昆虫体壁降解的基因家族存在显著的扩张现象;相比其他真菌,两者具有更大比例的编码分泌蛋白的基因,其中高达30%的同源物功能尚未鉴定,昆虫与病原菌的互作机制需要进一步研究[21]。通过比较分析7种绿僵菌的基因组信息,表明绿僵菌由专化性菌经由中间型过渡物种向广谱菌方向演化,与宿主表现协同进化的特性,期间伴随着基因及蛋白家族扩张、基因组结构及生殖类型变化等;研究表明绿僵菌的泛基因组是开放式的,预测不断会有新的物种形成[30-31]。
球孢白僵菌JEF-007与其他分离株基因组的比较分析表明,JEF-007与ARSEF2860具有高度同源性,共有232个基因具有100%的同源性,3 362个基因具有90%~100%的同源性;而参与致病过程的基因,如几丁质酶(Chitinases)和胰蛋白酶样蛋白(Trypsin-like protease)基因,在JEF-007中是高度保守的,而其他基因在同一物种中出现明显的序列变异,基因组的差异可能导致不同的形态表型和生物学功能[32]。淡紫拟青霉菌株PLBJ-1和PLFJ-1的基因组比较分析表明,PLBJ-1基因组中88.12%的序列与PLFJ-1基因组中88.60%的序列具有很好的共线性关系,与其他真菌的重复序列分别为6.07%和6.00%;对淡紫拟青霉两个菌株的主要蛋白家族进行预测,发现两者均具有较多的水解酶类、蛋白酶类和致病相关蛋白等家族的合成基因;单拷贝同源蛋白重建的系统发育分析表明,昆虫致病菌与线虫致病菌可能具有共同的祖先[33]。比较冬虫夏草菌与肉座菌目其他真菌线粒体基因组发现,PcG(polycomb group)基因和rRNA基因排列顺序、数目基本一致;基于线粒体基因系谱的分析,传统的虫草类真菌可划分成不同的科属[34]。
3 多组学研究
3.1 转录组学
转录组学是在特定环境下,或者在不同细胞类型、器官中研究所有基因转录水平的方法。转录组分析是研究基因功能及结构的基础,也是发掘功能基因的重要途径之一,对昆虫病原真菌关键时期中重要的基因进行筛选研究,能更快的找出新的生长基因、致病基因、调控基因等相关信息,揭示其生长发育、侵染、定殖等作用机制。
本团队利用Illumina Miseq测序技术对感染球孢白僵菌24、48、72 h以及健康的柑橘木虱进行转录组测序,在CK vs.S24h、CK vs.S48h和CK vs.S72h三个转录组里分别获得了971、1 671、752个显著差异表达基因(DEGs),差异表达基因主要富集在能量代谢、离子运输、转录和翻译调控、生殖和发育调控以及免疫防御反应等相关通路;通过基因序列比对、结构域分析、系统进化树构建等生物信息学方法,共筛选鉴定出柑橘木虱80个免疫相关基因,为筛选球孢白僵菌侵染昆虫的重要靶标基因以及柑橘木虱生物学途径的关键基因提供了丰富的数据基础[35]。基于转录组测序技术解析健康小菜蛾及感染球孢白僵菌48 h小菜蛾的基因表达差异,获得15 542个表达差异基因,其中显著差异表达基因2 434个;KEGG pathway分析表明差异基因主要富集在核糖体、内质网蛋白质加工以及半乳糖、酪氨酸代谢等免疫相关通路,而肽聚糖识别蛋白、酚氧化酶、丝氨酸蛋白酶等基因在寄主的免疫应答过程中起了重要的作用[36]。通过转录组测序比较体外共生蓝变菌Sporothrixsp.1和球孢白僵菌感染松墨天牛蛹所产生的免疫反应,分析表明松墨天牛对两种真菌的免疫应答方式具有显著性差异,球孢白僵菌感染48 h后松墨天牛的差异表达基因数量是蓝变菌感染的2倍;蓝变菌感染松墨天牛过程中Toll和IMD信号通路起主导作用,而球孢白僵菌感染松墨天牛过程中,只有Toll信号通路上调表达[37]。
绿僵菌和蝗绿僵菌的高通量转录组学分析中,涉及宿主识别、附着胞分化和侵染性的基因和途径在早期感染过程中表现出差异表达,可能是影响真菌宿主特异性的因子;不同寄主体壁信号诱导下,两者表达不同信号识别蛋白,诱导下游的MAPK和PKA的信号强度不同,从而精确调控细胞分化,决定了不同绿僵菌的寄主范围[21]。利用RNA-seq技术对罗伯茨绿僵菌ARSEF23在生长发育、逆境胁迫、侵染定殖以及退化条件下的转录组测序,对比参考基因组中已有的转录本,共获得769个新转录本,其中77个为可编码的新转录本,并从注释的新转录本中筛选到抗逆相关基因—小泛素相关修饰基因(SUMO)[38]。统计学及生物信息学等多重方法分析罗伯茨绿僵菌ARSEF23中可变剪接基因的表达差异,鉴定出可变剪接事件数10 471个,相关参与基因5 005个;KEGG通路富集分析显示,拥有较多变体mRNA的基因显著富集于MAPK信号通路及泛素介导的蛋白水解酶通路[39]。
通过比较转录组的方法,对绿僵菌侵染东亚飞蝗的血细胞与脂肪体的免疫应答进行分析表明,脂肪体的免疫应答主要通过激活先天性免疫相关的基因、与能量代谢和发育相关的基因,血细胞的免疫应答主要通过调控与膜调控相关的基因、激活细胞免疫应答和释放体液免疫因子[40]。饲喂飞蝗含绿僵菌及胞外蛋白酶抑制剂(TPCK)的饵剂,对飞蝗中肠样本进行转录组测序分析显示,上调的差异基因主要与飞蝗的生长、发育相关,下调的基因富集到与飞蝗先天性免疫反应途径密切相关的PI3K/Akt信号途径;胞外蛋白酶诱导的免疫相关基因防御素(Defensin)、防御蛋白(Hdd11)、表面抗原蛋白、Takeout蛋白等上调表达,推测胞外蛋白酶在飞蝗免疫反应中起着关键作用[41]。通过比较对宿主的转录反应,发现G蛋白偶联受体(GPCR)是一个关键信号受体,在宿主识别阶段广泛地被昆虫病原菌所共有,并在罗伯茨绿僵菌、绿僵菌和球孢白僵菌中被上调[21,23]。通过调节3%~12%效应子基因在不同胁迫条件下的差异表达,分析与Hog1相关的转录因子Msn2的功能和转录组信息,明确其对球孢白僵菌和罗伯茨绿僵菌的分生孢子形成、渗透抗性、抗氧化能力、UV-B抗性、耐热性和毒力具有显著作用,同时揭示了两种真菌之间独特的热响应机制[42]。
3.2 蛋白组学
蛋白质组学是一种直接针对基因组图谱进行比对的技术,转录组学数据与蛋白质基因组学的结合可以用于发现并鉴定新的基因[43]。昆虫病原真菌通过侵染菌丝或者附着胞等结构将效应蛋白分泌到寄主细胞中或者细胞间质中[44],例如球孢白僵菌通过效应子LysM破坏昆虫的免疫反应而引起侵染[45]。
分析鉴定昆虫病原真菌在侵染过程中与寄主之间互作的效应蛋白质,对研究其在侵染致病过程中起到的关键作用具有重要意义。利用生物信息学和预测软件从球孢白僵菌10 364个蛋白序列中预测到940个分泌蛋白,其中185个为碳水化合物活性酶家族蛋白;将分泌蛋白与胞外酶数据库进行比对分析筛选,得到18个候选效应子,包括11个功能未知的推定蛋白,其余为胞外蛋白、几丁质酶蛋白、细胞壁蛋白等[46]。基于比较转录组学和孢外粘液蛋白表达谱的联合分析,从鹿儿岛被毛孢的野生型孢外粘液中鉴定出474个蛋白,包含7个与黏附相关蛋白、13个与寄主体壁降解相关酶类、9个直接参与防御相关的蛋白以及2个昆虫激素代谢相关酶,鹿儿岛被毛孢中分泌蛋白、昆虫激素代谢类基因和凝集素类蛋白共同参与应答过程[47]。
病原真菌侵染昆虫需要穿透富含几丁质的表皮,利用宿主组织作为营养资源,需要分泌大量降解酶作为致病因子。罗伯茨绿僵菌和蝗绿僵菌分泌较多的蛋白酶的基因,分别为132、104个[21]。罗伯茨绿僵菌、蝗绿僵菌和球孢白僵菌拥有的糖苷水解酶的数量接近植物病原性真菌的平均值150个[21,23],而冬虫夏草菌只有66个糖苷水解酶,并且缺少专门用于降解植物组织的酶[24]。
3.3 代谢组学
代谢组学是对一定条件下生物体内初级和次级代谢产物的定性及定量,从而揭示生命现象及其内在规律的学科,可以直接动态地反映出细胞的生理生化过程,从而有效地检测和发现特定的生化途径,准确地解释生理或者病理现象[48]。代谢组学可以有效阐释真菌生物生态系统中各种复杂的相互作用,以及真菌对环境和基因变化的响应。
次生代谢产物参与真菌与其宿主害虫之间的相互作用,可能是真菌致病的毒素,也可能是可以药用的多肽类物质[44,49]。真菌次级代谢产物的合成受到多种方式的调控,包括发育调控、转录因子调控、全局调控因子调控等,合成基因与调控基因通常成簇出现,有利于通过遗传操作对次级代谢产物的合成进行调控。代谢组学能快速鉴定不同菌株代谢物的区别找到标志代谢物,促使真菌次级代谢产物合成基因的鉴定快速发展,未来可能成为一种新型分类鉴定方法。
在丝状真菌中,代谢相关基因一般是以基因簇(Genes clusters)的形式分布,相对于绿僵菌和植物病原菌,蛹虫草菌的次生代谢产物相关的核心基因较少,相比绿僵菌,蛹虫草菌的萜类合成酶、聚酮化合物合酶(PKS)和非核糖体肽合酶(NRPS)基因较少;对冬虫夏草菌PKS和PKS样基因进行系统发育分析,发现蛹虫草菌的蛋白与已知真菌毒素的PKS分为不同的簇[50]。虫草素、白僵菌素、卵孢白僵菌素、白僵菌酮、卵孢霉素和绿僵菌素已经被鉴定出来,涉及其生物合成的基因簇在基因组测序之前鲜为人知[51-54]。真菌毒素的合成路径及其调控机制、产毒真菌与昆虫互作、侵染致病的机理提供了新的思路。真菌毒素合成主要通过聚酮化合物(PKS)代谢、非核糖体多肽(NRP)合成、PKS-NRP混合代谢、萜类化合物代谢、氨基酸相关代谢[55]。鉴定出罗伯茨绿僵菌43个与次生代谢产物相关的假定核心基因,而蝗绿僵菌有20个[21]。绿僵菌素基因簇的富足或缺失与宿主特异性密切相关[56]。基于HPLC-MS的代谢组学研究发现,对昆虫病原真菌、食用菌以及植物病原真菌菌丝体的甲醇和乙酸乙酯混合提取物进行代谢组学分析,发现白僵菌、绿僵菌和棒束孢特有的化合物可能是虫生真菌长期协同进化所产生的特有产物[57]。
4 展望
国际生物基因组学会议于2017年提出“地球生物基因组计划”,计划未来10年对地球上所有已知的真核生物进行基因组测序[26]。基因组测序推动昆虫病原真菌毒素基因鉴定、昆虫—真菌分子相互作用及遗传改造、提高真菌杀虫剂的应用效率等基础及应用研究。基于真菌基因组学,对昆虫致病性真菌的生物学有了更全面的了解,包括起源和进化、真菌与昆虫的相互作用机制、宿主特异性和次生代谢产物。基因的功能研究不仅促进了对真菌致病机理和多应激反应所涉及的分子机制的理解,而且还提供了进行遗传操作以提高性能的靶基因,有助于生物杀虫剂的改良和研发。
基于基因组学、转录组学、蛋白质组学、代谢组学和表型组学数据进行多组学的整合分析,能够更全面、深层次和精确地阐释复杂性状形成的分子机制和调控机理,对生物过程进行全面深入的解析。三维基因组学是以研究真核生物核内基因组空间构象,及其对不同基因转录调控的生物学效应为主要研究内容的新兴学科,也是后基因组学时代研究的热门领域之一[58-61]。基因组的三维空间结构对基因组的表达、调控等功能有着重要影响,全基因组的三维空间结构和功能研究将成为昆虫病原菌基因组学一个新的研究方向。