APP下载

自抗基因导向的微生物天然产物挖掘

2023-06-15明灯明

关键词:基因簇内酰胺酶靶标

董 华,明灯明

(1.南京工业大学 药学院,江苏 南京 211800;2.南京工业大学 生物与制药工程学院,江苏 南京 211800)

天然产物(natural products,NPs)是源自生物体次级代谢的有机小分子,其高活性及成药潜力一直备受人们关注,绝大多数抗癌、抗感染和抗菌药物都来源于天然产物及其衍生物。天然产物主要存在于微生物和植物中,而微生物相较于植物因其较小的基因组和易培养的特性,所以人们对微生物来源的天然产物的研究更多且更深入。对天然产物生物合成基因的广泛研究表明,编码合成天然产物所需酶的基因其在基因组中通常紧密相连地排列在一起,形成所谓的生物合成基因簇(biosynthetic gene clusters,BGCs)。这些基因编码天然产物合成过程所需要的不同的酶,共同负责特定天然产物的生物合成[1]。近年来,基因组测序技术的快速发展彻底改变了天然产物的发现模式。借助生物信息学工具[2-3],人们已从微生物基因组中鉴定出了数以万计的BGCs,其数目远远超过了实验表征的天然产物数量。在已鉴定的BGCs中,据估计只有不到10%与生物活性天然产物相关,另外90%以上的基因簇产物未知[4]。这些BGCs的共同特征是转录沉默,从而形成所谓的生物合成暗物质。现代微生物基因组学的快速发展,催生了数据驱动的天然产物挖掘方法,它使用模式识别技术在海量的基因组数据中寻找暗物质,挖掘新天然产物,从而加速基于天然产物的药物发现。

大多数天然产物是生物体产生的,通过抑制必需的管家酶来杀死或限制竞争性生物体生长。如果相同的酶靶标在生产者中是保守且必需的,那么天然产物对生产者也会有同样的毒性。因此,生产者必须存在自我保护机制,以赋予自身对该合成天然产物的抗性[5]。编码自抗性机制的基因是微生物生产者的特征性状,而自抗性的表达通常不利于生产者自身的生长与存活,因此自抗性的表达通常仅在天然产物生物合成时一同表达[6-7]。生产者的自抗性策略,一般包括其对天然产物本身的修饰和降解,对作用天然产物靶标的修饰、保护以及替换,以及广泛利用转运蛋白外排天然产物等[8]。在充分掌握天然产物与靶标相互作用的基础上,人们可以通过计算识别抗性基因及其作用机制来甄别新的BGCs。

综述了微生物生产者在天然产物生物合成过程中的自我抗性机制,整理了近年来文献报道的抗性基因数据库和相关计算工具。文章简述了通过识别自抗性基因从微生物中发现产生天然产物的潜在 BGCs的方法,并展望了开发结合基因组注释和蛋白质结构进行天然产物的挖掘方法。

1 自抗性机制

自抗性通常是基因编码的,可以通过多种机制表现,包括现有基因的过度表达、复制和由点突变获得全新基因。新的测序技术和计算方法,使得人们可以在海量的细菌和真菌基因组中快速地鉴定和表征天然产物生物合成基因簇,同时挖掘出越来越多的自抗性基因,从而对各种抗性作用机制获得比较深入的认识[9]。细菌(真菌)已经进化出多种复杂的机制,可以针对自身的活性小分子进行自我防御;很多时候它们同时拥有多种抗性机制,以确保完全抵御它们产生的生物活性分子伤害自身[10]。这些机制一般包括:外排天然产物、产物修饰、产物降解、天然产物靶标修饰等[11](图1)。本文重点介绍微生物在合成天然产物过程中激发的典型的自抗机制类型,并为每个类型提供了具体示例。

图1 自抗性机制[11]

1.1 外排泵

外排泵与所有原核或真核细胞对有毒化合物的抗性相关,它们存在于所有生物中,从人类(对抗癌药物的抗性)到细菌(对抗生素的抗性)[12]。对于产生天然产物的微生物生产者来说,天然产物的外排是一种普遍的自抗机制,通常会与其他机制一起发生,例如,天然产物或靶标的修饰[10]。细菌通常拥有多药外排泵,从细胞中主动输出活性小分子,已经发现了一些外排泵,它们基因的突变和过度表达会增加有毒物质从细胞内流出,使细胞内毒物浓度保持在较低水平,防止达到抑制浓度[13]。

研究发现,外排泵可分为5个结构家族(表1)。腺嘌呤核苷三磷酸结合盒(adenosine triphosphate binding cassette,ABC)转运蛋白,利用腺嘌呤核苷三磷酸(adenosine triphosphate,ATP)的结合和水解来转运底物,它们是一个广泛的蛋白质家族,承担原核生物和真核生物中物质的输入和输出[14]。主要协助转运蛋白超家族(the major facilitator superfamily,MFS)包括一组转运蛋白,使用质子动力作为运输底物的能源[15]。多药与有毒物质外排转运蛋白(the multidrug and toxic compound extrusion,MATE)分为3个亚家族,基于它们的氨基酸序列相似性,分为多药耐药蛋白NorM(multidrug resistance protein NorM)、DNA损伤诱导蛋白DinF(DNA damage-inducible protein F)和真核亚家族[16-17]。MATE转运蛋白在功能上更通用,可以使用 H+或 Na+电化学梯度输出药物[18]。葡萄球菌多药耐药转运蛋白(the staphylococcal multi-resistance,SMR)使用质子动力来排出有毒化合物[19]。抗性结瘤和细胞分裂超家族(the resistance nodulation and cell division superfamily,RND)外排泵广泛分布在革兰氏阴性微生物中,该复合物由3种不同的蛋白质形成,分别是可利用质子动力排出底物且嵌入细胞内膜中的二级主动外排泵蛋白、外膜蛋白和膜融合蛋白,将位于两个膜上的蛋白质跨周质空间连接起来[20]。

表1 5种外排泵

在抗药性外排泵系统中,研究得最多的系统之一是吖啶抗性蛋白A/B-外膜因子TolC(AcrAB-TolC)系统(图2),属于RND转运蛋白家族,该泵组件包括外膜通道TolC、位于内膜的二级转运蛋白AcrB和连接二者的周质膜融合蛋白AcrA[21]。RND 泵起到质子反向转运蛋白的作用,AcrAB-TolC能够以矢量方式运输各种化学相似性很小的化合物,因此对广谱抗生素具有抗性[22],能够运输多种底物,对四环素、氯霉素、某些β-内酰胺类、新生霉素、夫西地酸和氟喹诺酮类药物产生抗性[23]。它是少数已经获得复合物完整结构的外排泵之一,在许多的革兰氏阴性菌中都发现了RND的同源复合物,包括动物和植物的病原体中[20],是生物代谢物和抗菌化合物的输出者,在细菌抗性中发挥重要的作用。

图2 AcrAB-TolC系统的结构[24](PDB:5ng5)

1.2 天然产物的修饰

给天然产物小分子结构上添加修饰(例如,磷酸盐、乙酸盐)是一种较为普遍且灵活的自抗性机制。化学修饰包括O-酰化、N-酰化、O-磷酸化、O-核苷酸化、O-核糖基化、O-糖基化和硫醇转移等。这些共价修饰策略都需要活性的共底物,包括ATP、乙酰辅酶A、烟酰胺腺嘌呤二核苷酸(NAD+)、二磷酸尿苷葡萄糖(UDPG)或谷胱甘肽。因此,这些酶通常只有在细胞质中具有活性[25]。

博莱霉素BLM(bleomycin)是链霉菌(Streptomycesverticillus)产生的糖肽类衍生抗生素。基因blmB是在博莱霉素生物合成基因簇内发现的抗性元件,blmB编码一种N-乙酰转移酶[26],命名为BlmB,它通过将乙酰基团从乙酰辅酶A转移到β-氨基丙氨酸部分的伯胺,即BLM金属离子结合域的轴向配体,赋予宿主自抗性(图3)。虽然乙酰化不完全阻止金属与BLM结合,但可以抑制金属螯合配位物与分子氧配位和还原分子氧,从而防止形成活化的BLM。

图3 博莱霉素自抗性机制[26]

1.3 天然产物的降解

天然产物中经常包含酰胺键和酯键等易被分解的化学键,其完整性对生物活性至关重要。生物体中有些酶可以靶向切割这样的键,为生物体提供了一种新的自我抗性手段[25]。

β-内酰胺酶是其中最为典型的一种降解酶,它的作用是水解β-内酰胺类抗生素中的β-内酰胺键。多种微生物体中都有编码β-内酰胺酶的基因[27]。β-内酰胺酶本身并不是必需的细菌蛋白质,据推测它可能是从一些会产生β-内酰胺类代谢物的细菌,如链霉菌中的青霉素结合蛋白(penicillin-binding proteins,PBPs)进化而来的,因为这些细菌必须要有一些针对β-内酰胺类抗生素的自我保护策略[28-29]。基于氨基酸序列的相似性,β-内酰胺酶分为A、B、C、D四类[30],其中A 类(青霉素水解)、C 类(头孢菌素水解)和 D 类(苯唑西林水解)β-内酰胺酶的活性位点都是丝氨酸,称为丝氨酸-β-内酰胺酶,它们从β-内酰胺的细胞靶标PBPs进化而来,并在键裂解过程中使用催化丝氨酸[31](图4(a))。B 类β-内酰胺酶需要两个锌离子的活性,称为金属-β-内酰胺酶,它们利用活性位点锌离子来协调亲核氢氧化物以促进键断裂[32](图4(b))。因此,β-内酰胺酶采用两种主要的分子策略来水解裂解抗生素的β-内酰胺环:通过活性位点丝氨酸亲核试剂的作用以及通过Zn2+中心激活水[30, 33-34]。

图4 β-内酰胺酶作用机制[25]

1.4 分子靶标的修饰

自抗性还可以通过突变或修饰天然产物靶标蛋白来实现。一般情况下,这种自抗机制有很大的可能性是通过特定基因(管家酶)中的点突变产生的,从而使生产者获得相对快速和简单的抗性,而且这种抗性对生产者适应性的影响最小。生产者会重新编码出与管家酶功能等效的自抗酶,它属于管家酶的变体;自抗酶在序列上与管家酶高度相似、仍保持自身原有的活性,但突变使自抗酶对天然产物不敏感。

地霉素(dityromycin)是一种肽抗生素,从土壤微生物链霉菌Streptomycessp.AM-2504的培养液中分离出来。结构研究表明,地霉素以30S 核糖体亚基中的核糖体蛋白 S12为靶标,通过阻断tRNA来抑制蛋白质合成[35]。宿主菌株对次级代谢产物地霉素的自抗性源于核糖体的特定修饰:位于抗生素结合位点 S12 的蛋白高度保守区域有2个氨基酸替换,分别是Val36Thr和Arg59Lys[36],这些突变使地霉素对 30S 核糖体亚基的亲和力显著降低,从而保护宿主菌株免受抗生素的毒性作用。

2 抗生素抗性基因数据库

由于抗生素的广泛应用,所以抗生素耐药性机制研究最为普遍。目前,现有的抗生素抗性基因数据库通常是网络在线平台,提供耐药性相关的参考以及用于抗性基因序列分析和注释的网络工具。这些平台接收用户的核苷酸或蛋白质序列查询并返回抗性基因预测结果,包含带有置信度值的注释以及指向外部资源的链接[37]。下文描述了当前部分可用的抗生素抗性基因数据库(表2)。

表2 抗性基因数据库

在抗性基因相关的数据库中,抗生素抗性基因数据库(antibiotic resistance genes database,ARDB)是第一个建立的手动管理的抗性基因序列资源,其中每个基因都注释了抗性类型、机制和本体[38]。目前不再更新,但所有的ARDB序列都集成到了抗生素耐药性综合数据库(the comprehensive antibiotic resistance database,CARD)中。

CARD提供了与抗菌素耐药性分子基础相关的数据和模型,是抗性基因及其产物和相关表型的生物信息学数据库[39]。目前拥有4 834个抗性基因本体、3 339个参考序列、1 788个单核苷酸多态性、2 774个已报道的抗性基因、3 385个抗菌检测模型。CARD集成了许多预测和分析工具,包括用于分析和注释序列的局部序列比对基本检索工具(basic local alignment search tool,BLAST),用于预测抗性基因的抗性基因鉴定器(resistance gene identifier,RGI)。CARD 2020中最显著的更新是一个新的抗性突变体模块,它提供了对来自88个病原体、9 560条染色体、21 362个质粒、102 181个全基因组测序组装和222 011个计算机预测分析的全基因组耐药变体,RGI分析工具的存在也增强了CARD在预测基因组或宏基因组数据中抗生素耐药性方面的效用[40]。

Resfam数据库包含一系列精选的蛋白质家族,而定义每个蛋白质家族均使用了与某种抗性功能相关的蛋白质的序列。这些序列经一种叫隐马尔可夫模型(hidden markov model,HMM)的统计算法即生成了具有某种抗性功能的蛋白质代表模型。其使用抗性蛋白数据来自CARD、内酰胺酶工程数据库(lactamase engineering database,LacED)和其他精选的β-内酰胺酶Lahey等。相对于其他一些主要关注病原体相关抗性基因的平台,该数据库还提供了抗性基因所处的环境概况的描述。与基于BLAST的搜索结果相比,其检索结果对于土壤和人类肠道微生物群中的抗性基因鉴定率提高了64%[41-43]。另一方面,由于用户需要考虑到HMM方法可能会以较差的特异性为代价,因此可能会产生大量的假阳性预测,有时可能无法区分具有密切相关功能的抗性基因[37]。

ResFinder数据库是在ARDB数据库的基础上,附加收录通过水平转移获得的耐药基因数据而成的。此库分为15种耐药小库、3 097条耐药基因序列,分类全面,更新及时,目前已经更新到4.1版本,并且支持本地化安装使用。目前,除了可以查找分析已知的耐药基因序列外,该数据库可使用一种基于全基因组测序数据预测耐药性染色体突变的工具(PointFinder)来识别染色体上的靶基因的点突变。这些突变信息的识别,对于研究耐药突变的发生机制和新型抗生素的开发等方面具有重要的意义。

由于β-内酰胺酶的范围和临床重要性,绝大多数专业数据库都关注了该家族。β-内酰胺酶数据库(beta-lactamase database,BLDB)包含所有类别的β-内酰胺酶的信息,包括从文献、国际生物技术中心信息检索数据库(national center for biotechnology information,NCBI)和蛋白质数据库PDB中的蛋白质三维结构收集的抗性模式。该数据库结合了动力学和突变信息,为理解β-内酰胺酶的结构和功能之间的关系奠定了基础。除了能够访问结合配体的蛋白质结构和理化特性的信息外,该数据库还提供与外部蛋白质和核苷酸资源的链接[44]。

3 自抗基因导向的天然产物挖掘

产生天然产物的酶促途径会在连续的生物合成基因簇中编码。每个基因簇都编码至少一个与其同源天然产物相关的抗性基因[51]。抗性基因出现的位置通常与合成基因簇的位置非常靠近,存在于基因簇中或者出现在连续的基因簇附近,确保当天然产物开始在细胞内积累时,抗性基因能及时发挥作用进行防御[52]。出现在基因簇中的抗性基因,其发生的位置呈无规则分布,目前还没有研究揭示抗性基因出现的相对位置对天然产物有什么具体的影响。自 2017 年以来,抗生素抗性目标搜寻器(antibiotic resistant target seeker,ARTS)促进了靶向(自抗)基因组挖掘的方法,以便通过将管家酶和已知抗性基因与 BGC 邻近、复制和水平基因转移事件快速联系起来,优先考虑生产具有假定新作用模式的抗生素的菌株[53-54],体现了自抗基因对天然产物挖掘的重要作用。

基因组测序技术和生物信息分析方法的最新进展表明,人们使用传统方法仅仅发现了微生物的天然产物的一小部分,严重低估了微生物次级代谢的化学广度。将天然产物与其合成基因簇连接起来的研究方法,以及不断积累的关于生物合成过程的逻辑知识,催生了基于基因组的天然产物挖掘这一新领域[11]。Tang[55]等研究表明,事先预判生物合成基因簇中的抗性基因,可以在研究发现天然产物的结构和作用机制之前确定它们的分子靶标[55]。这种挖掘策略不仅可以识别已知的抗性基因,而且可以发现潜在地靶向尚未表征的天然产物的新抗性基因。

根据已知活性的天然产物及其靶标定位到生物合成基因簇。Tang等[55]最早使用了这种挖掘策略,他们发现了一组脂肪酸合酶Ⅱ(fatty acid synthase Ⅱ,FASⅡ)抑制剂。通过筛查 86 个盐孢菌属菌株的基因组,确定了管家基因的重复拷贝,其中一些与FASⅡ基因有关。特别是tlmE基因,编码饱和脂肪酸合成酶B/F(FabB/F)的同源物,它与合成FASⅡ抑制剂platensimycin和platencin的BGC的特征自抗蛋白PtmP3和PtnP3 有高度的序列相似性,所以tlmE被推定为自抗性基因。将该自抗基因相关联的BGC异源表达,证明该BGC与已知的FASⅡ抑制剂硫代乳霉素TLM(thiolactomycin)[56]以及3种类似化合物的产生有关。他们遵循类似的方法从Streptomycesafghaniensis中识别出相关的 BGC,编码两个FabB/F 同源物,TtmE和TtmJ,推定为自抗性基因。异源表达表明该基因簇可以产生一系列新的TLM类似物。Tang等[55]证实了推定的抗性基因TtmE和TtmJ发挥自我抗性。

针对选定的管家酶靶标,寻找特定功能的天然产物。Yan等[57]在最近的一项研究中发展了自抗基因导向的基因组挖掘技术,以新的作用模式在真菌基因组数据库中筛查新的除草剂先导化合物[57]。考虑到该化合物的作用靶标是管家酶乙酰羟酸脱水酶(dihydroxy-acid dehydratase,DHAD),通过寻找与已知植物的DHAD相匹配的真菌密切同源物,获得了含有编码DHAD重复拷贝的BGC,推定该重复拷贝是自抗性基因。研究确定了一个保守的基因簇,其中编码了一段DHAD的重复拷贝基因AstD,与所有真菌中存在的保守的管家酶DHAD具有 60% 的相似度。然后将来自土曲霉的生物合成核心基因在异源宿主中重组表达产生化合物,产生一种已知的倍半萜烯天然产物,生物学靶标未知。Yan等[57]证明了该化合物是DHAD的竞争性抑制剂,而重复拷贝的AstD确实对化合物具有抗性,是该化合物的自抗性基因。

通过自抗基因定位到生物合成基因簇进而确定天然产物的生物活性。Panter等[58]使用相似的方法,用五肽重复蛋白(pentapeptide repeat proteins,PRP)作为靶标从粘细菌中发现了新型拓扑异构酶抑制剂。Baumann等[59]先是使用人们以往表征的模板序列,在其粘细菌基因组数据库中搜索获得了相似蛋白PRP;有研究表明该蛋白赋予针对拓扑异构酶的化合物的自抗性。随后,他们在Pyxidicoccusfallax基因组中的聚酮生物合成基因簇中鉴定出了编码 PRP的基因,该基因簇编码合成两个新的天然产物,pyxidicycline A和B。Panter等[58]研究证实了pyxidicycline A和B都是拓扑异构酶的选择性抑制剂。尽管这里的抗性基因并不是靶向拓扑异构酶的直接重复拷贝,但该实验验证了使用自抗性基因发现具有所需生物活性的新天然产物的可能性[58]。

这些研究使用的共同策略是,使用所需的生物合成核心酶在基因组数据库中搜索携带编码推定的自抗性基因的BGC,然后注释每个基因的功能,从而识别抗性基因。研究表明,这种通过自抗基因引导挖掘发现天然产物的方法确实可以发现具有新作用模式的天然产物[60]。

4 展望

本文综述的自抗基因导向的天然产物挖掘策略,其原理是抗菌化合物的生产者必须具有某种形式的固有抗性机制,以确保自我保护免受活性化合物的伤害。这些自我抗性基因通常出现在BGC中与代谢产物组装的核心基因一起,这就使得这些抗性基因能够与代谢产物一起表达,为天然产物生产者提供立即免疫。正如本文第3节中所描述的例子,这些抗性基因(ttmE、astD等)的功能、在基因组中出现的位置,都可以作为一种潜在的BGC合成的天然产物的生物活性和作用机制的挖掘策略。

然而,目前自抗基因导向的天然产物挖掘还面临不少的挑战。现有的生物合成知识还比较有限,常常缺乏对于谢产物组装的核心基因功能的完整表征,这使得研究人员们对于BGCs的预测有时可能不准确,对于BGC中自抗基因的预判也不准确[5]。例如,实际的天然产物可能并不是按照预测的方式参与自我抗性作用,也可能预测的管家酶同源物不参与自抗机制,而是作为生物合成所必需的合成酶而存在。这就需要大规模的拓展现有的BGCs知识库,在比较基因组学的基础上系统地研究BGCs的进化规律,克服可能存在的基因组数据中BGCs元件碎片化和不完整性的认识问题。随着微生物基因组序列信息数量的指数增长和BGCs工作元件数量的不断积累,相信计算机识别BGCs 的能力和精确度也会不断增强。

准确地预测自抗基因,特别是对于那些可能在生物合成途径中发挥关键作用的酶,正确地解析其结构与功能,这无疑是自抗基因导向的天然产物挖掘所面临的一项挑战任务。随着生物合成酶学知识的积累、计算模拟工具的改进,对自抗基因的预测准确度也有望得到快速提升。特别是,近两年计算结构生物的重大突破,包括蛋白质结构预测工具AlphaFold2和RoseTTAFold的开源等,使得人们可以在更为准确的结构基础上解析自抗基因的功能,分析其与小分子和其他蛋白质相互作用。这为系统地研究自抗基因的功能提供了前所未有的机遇。有望基于自抗基因导向挖掘天然产物的方法,在不久的未来可能开发出集序列、结构和其他特性为一体的工具,应用于天然产物的生物合成挖掘,并为新药的研发储备资源。

猜你喜欢

基因簇内酰胺酶靶标
产β-内酰胺酶大肠杆菌研究现状
“百灵”一号超音速大机动靶标
纳米除草剂和靶标生物的相互作用
冬瓜高通量转录组测序及分析
复杂场景中航天器靶标的快速识别
β-内酰胺酶抑制剂合剂的最新研究进展
前列腺特异性膜抗原为靶标的放射免疫治疗进展
产β-内酰胺酶大肠埃希菌的临床分布及耐药性分析
肠球菌万古霉素耐药基因簇遗传特性
海洋稀有放线菌 Salinispora arenicola CNP193 基因组新颖PKS 和NRPS基因簇的发掘