非天然氨基酸及非天然蛋白合成的研究进展
2022-04-15刘玉美陈振娅霍毅欣
刘玉美,毋 彤,陈振娅,霍毅欣
(北京理工大学 生命学院 分子医学与生物诊疗工业和信息化部重点实验室,北京 100081)
蛋白质是生物体维持结构和功能的重要生物大分子。蛋白质翻译系统可读取64种三联体密码子,编码20种天然氨基酸(natural amino acids, nAAs),进而合成天然蛋白质(图1)[1-2]。虽然20种天然氨基酸的编码足以维持生物体的基本生长和代谢水平,但蛋白质需要额外的化学基团(如,磷酸基团、甲基、羟基和乙酰基等)来实现更复杂的生理功能。20种数量有限、结构保守的氨基酸极大限制了蛋白质的种类和功能应用,已经无法满足生物科学、化学以及医药等领域的研究需求[3]。
蓝色氨基酸是由6个同义密码子编码;橙色氨基酸是由3~4个同义密码子编码;黑色氨基酸是由1~2个密码子编码;红色是终止密码子。蛋白石终止密码子和琥珀终止密码子分别被天然编码为硒代半胱氨酸(SeC)和吡咯赖氨酸(Pyl)
随着蛋白质结构计算和生物正交化学反应的快速发展,具有新型结构特性或功能的蛋白质有望成为现实[4]。作为天然氨基酸的衍生物——非天然氨基酸(unnatural amino acids, unAAs),它们带有独特化学性质和结构多样的侧链基团,将其整合到天然蛋白质中可增强蛋白质的物理和化学性质,包括生物催化活性[5]、结构和热学稳定性[6]及底物特异性等[7],这些特性的改变可应用于新型生物高分子材料[8]和新型蛋白药物[9]等。尽管unAA有着巨大的潜力[10-12],但其合成仍是一个挑战。虽然有一系列化学合成方法用于制备unAAs,但化学合成的反应步骤复杂繁多、产率低且成本高。相比之下,代谢工程更易实现unAAs的绿色高产。基于此,本文综述了非天然氨基酸的生物合成方法,分析了非天然氨基酸生物合成目前存在的难点,提出了可能的解决方案,总结了非天然氨基酸插入蛋白质中的方法,并分析了不同方法的利弊。此外,本文总结了由非天然氨基酸合成的非天然蛋白的应用领域。
1 unAAs的生物合成
unAAs又称非标准氨基酸(nsAAs)、非典型氨基酸(ncAAs)或非蛋白原氨基酸(npAAs)等,它们广泛存在于动物、植物和微生物中,是天然氨基酸的前体物、类似物或代谢中间体[13-14],如L-高丝氨酸是生物合成中必需氨基酸如L-蛋氨酸、L-苏氨酸和L-异亮氨酸的前体[15]。瓜氨酸和鸟氨酸是尿素循环中的两种中间体,在临床上常用于修复肝细胞的损伤;羟基赖氨酸和羟基脯氨酸是胶原酸水解的副产物,分别来源于前体赖氨酸和脯氨酸,由于其结构特异性,在临床检测中作为组织和器官异常的指标[16]。目前,unAAs主要依赖于化学合成,但unAAs的化学合成步骤复杂且产物通常是混合L型和D型的外消旋体[13],这会影响实际应用。同时,一些由化学法合成的分子量大的unAAs,在细胞摄取时可能会受到天然氨基酸转运体的限制,不易被细胞吸收利用[17],这些问题都是化学合成方法的弊端。
代谢工程已经被广泛应用于unAAs合成,特别是随着对所涉及酶的遗传和生化信息的了解,一些关键异源酶可以在具有遗传优势的微生物宿主中重组、修饰和优化,从而使代谢工程建立unAAs生产平台成为可能。Lin等[18]在色氨酸高产的大肠杆菌底盘宿主中通过对来自黄单胞菌(Xanthomonascampestris)的苯丙氨酸-4-羟化酶(XcP4H)进行改造,并构建辅因子再生途径,通过分批补料发酵,最终使5-羟基色氨酸(5-HTP)产量达到1.1~1.2 g/L,实现了5-HTP在微生物中高效、快速、低成本生产。Mora-Villalobos等[19-20]借助序列分析、系统发育分析和功能差异分析等工具,对来自台湾的铜绿假单胞菌(Cupriavidustaiwanensis)的芳香族氨基酸羟化酶(CtAAAH)的底物特异性位点进行预测、筛选和点突变设计,将酶的底物偏好性从苯丙氨酸转移到色氨酸,从而以色氨酸为底物生产5-HTP。同时,Mora-Villalobos等[20]还在含有色氨酸脱羧酶的重组菌株中实现了5-HTP到5-羟色胺(5-HT)的生物转化,获得了154.3 mg/L 5-HT。除此之外,还可以通过敲除unAA合成的竞争和降解途径基因、过表达合成途径的关键酶基因及增强代谢通量等提高unAA的合成效率和产量,如高丝氨酸(L-Hse)[21-22]、γ-氨基丁酸(GABA)[23-24]及反式-4-羟基脯氨酸(trans-Hyp)[25-26]等的合成。表1总结了unAA生物合成的宿主、产量改造策略及发酵方式等。
表1 非天然氨基酸的生物合成
然而,目前只有少数unAAs的生物合成途径得到了验证(图2),大多数unAAs的生物合成途径仍不明晰。因此,构建完整的生物合成途径仍需进一步努力,可以借助先进的生物信息工具或生物合成模拟工具来设计、挖掘自然界中未发现的合成途径和人工酶,进一步拓展unAAs的生物合成途径。但有些unAAs的生物合成依赖于昂贵的辅因子[18-20],这会增加工艺成本,因此需要搭建有效的辅因子再循环利用途径。还有一些unAAs可能会抑制底盘宿主的生长,在扩大生物合成产量时会有困难,因此需要筛选或工程改造更多对特定unAA具有更强耐受性或易达到代谢平衡的底盘宿主。
蓝色代表天然氨基酸,橙色代表非天然氨基酸。(1)—卤化酶;(2)—色氨酸羟基化酶或芳香族氨基酸羟化酶;(3)—色氨酸脱羧酶;(4)—PapA,PapB and PapC;(5)—支链氨基酸转氨酶;(6)—酪氨酸酚裂解酶;(7)—苯丙氨酸氨基变位酶;(8)—ilvCD途径;(9)—leuABCD途径;(10)—谷氨酸脱氢酶;(11)—谷氨酸脱羧酶;(12)—鸟氨酸氨甲酰基转移酶;(13)—茶氨酸合成酶;(14)—脯氨酸-4-羟化酶;(15)—天冬氨酸氨基转移酶;(16)—天冬氨酸激酶;(17)—天冬氨酸半醛脱氢酶;(18)—高丝氨酸脱氢酶;(19)—高丝氨酸O-乙酰转移酶。p-AF—对氨基苯丙氨酸;L-DOPA—多巴(3,4-二羟基苯丙氨酸);Nva—正缬氨酸;Nle—正亮氨酸;Orn—鸟氨酸;Cit—瓜氨酸;L-Hcy—同型半胱氨酸
2 unAAs插入蛋白方法
2.1 固相肽合成插入法
固相肽合成(SPPS)自首次报道以来[45],已经发展成为一种强大的肽合成方法。固相肽合成类似于天然合成蛋白质的生物学过程,通过肽键将多个氨基酸连接起来生产多肽。在SPPS中,第一个氨基酸的氨基被保护基团保护后,其C末端通过共价键连接到高分子树脂上,随后除去保护基团,产生一个自由的氨基,准备与下一个氨基被保护且羧基被活化的氨基酸耦合(图3),以此延伸肽链长度。因此,SPPS的一般原理包括耦合—冲洗—去保护—冲洗—耦合的重复循环。多肽被固定在固相表面上,并且可以在整个过程中被保留,待完全组装后,用三氟乙酸(TFA)将多肽从树脂上分离下来,同时可除去保护基团。常用的氨基保护基团是9-芴甲氧羰基(Fmoc)和叔丁氧羰基(tBoc)[46-47]。目前,unAAs通过SPPS化学合成重组蛋白已有实际应用,如催化酶[7]和抗菌肽[46,48]等。
图3 固相肽合成法
虽然,SPPS可合成细胞难以表达的多肽,如由D型氨基酸组成的多肽,并且还可对肽或蛋白质进行主链修饰,尤其适用于掺入对细胞有毒或翻译机制不相容的氨基酸类似物,但是多肽的化学合成会受到合成长度和速度的限制,当合成较大的多肽时,化学合成过程会变得繁琐、成本偏高及耦合效率低,合成的多肽有低产量、低纯度等缺点[49]。通常SPPS合成不超过50个氨基酸残基的多肽。
2.2 选择性压力插入法
选择性压力插入法(SPI)依赖于一种或多种特定nAAs的营养缺陷型宿主,并利用天然氨基酸的内源氨酰tRNA合成酶(endogenous aaRS)的错氨酰化,为内源tRNA(endogenous tRNA)提供与缺陷氨基酸结构和电荷特性相似的unAAs[49-51](图4)。营养缺陷型菌株首先在含有特定量的nAAs培养基中培养,当相应的nAAs耗尽后,细胞达到适当生长状态并开始表达重组蛋白时,开始补加外源nAAs类似物,同时通过诱导型启动子调控靶蛋白基因的表达,使得蛋白质翻译依赖于培养基中unAAs的可用性[52]。迄今为止,已有约50种unAAs(大多是蛋氨酸、色氨酸、酪氨酸、苯丙氨酸、脯氨酸、精氨酸和赖氨酸的类似物)使用该方法整合到蛋白质中[2]。当天然翻译机制不支持与unAAs结合时,可以过表达特定内源aaRS[53]或定向进化改造内源aaRS的氨基酸结合口袋[54],提高aaRS对unAAs的亲和力。
NNN表示天然密码子
SPI能够在整个蛋白质组范围内掺入多个位点的unAAs,这种多重取代可能会导致unAAs的累积或协同效应,因此对某些蛋白质性能的改变要比单一取代的效果更明显。但是该方法的特点是一把“双刃剑”,一方面,它有利于得到全新高度改性的蛋白,另一方面它无法保证单个位点特异性掺入,这对精细改造蛋白位点的研究并不友好。同时,若在特定营养缺陷型菌株表达大量非天然蛋白,则需要供应大量成本昂贵的unAAs,因此无法实现该方法的工业化应用。
2.3 遗传密码扩展方法
遗传密码扩展(GCE)方法,又称遗传密码工程[55]。类似于天然翻译过程,该策略将unAAs整合到蛋白质中需要高效和严谨的翻译机制,每个氨基酸都有对应的“密码子”。该方法是通过正交翻译系统(OTS)实现的,其关键成分包含具有严格正交性的外源tRNA(exogenous tRNA)和外源aaRS(exogenous aaRS)(图5),氨酰化的tRNA携带着unAAs与重新分配的密码子互补配对,从而将unAAs传递到延长的肽链中。该正交系统不能与内源性翻译系统发生交叉反应,否则就会失去正交性,导致翻译系统紊乱(图5灰色虚线)。为了防止这些错误交叉反应的发生,每个正交翻译系统都要经过几轮正筛和反筛过程。表2汇总了常用正交对的来源及应用。
黑色实线代表严格正交,灰色虚线代表非严格正交
表2 正交对在遗传密码扩展中的应用
2.3.1 基于终止密码子抑制的遗传密码扩展
终止密码子抑制(SCS)是利用抑制型tRNA识别终止密码子,从而翻译为unAAs的过程(图6)。在天然翻译体系中,有3种终止密码子,分别是琥珀密码子(UAG)、赭石密码子(UAA)和蛋白石密码子(UGA),它们通常不编码任何氨基酸,而是与释放因子(RF)识别,终止翻译过程。20世纪80年代末,Schultz团队的Noren等[55]在大肠杆菌宿主的体外试验中发现,unAA可以插入终止密码子UAG替换的有义密码子位置。这就利用了3种终止密码子的简并性。在原核生物中,终止翻译过程需要两种释放因子RF1和RF2,对应的终止密码子具有交叉识别性,即RF1可以识别UAA和UAG,RF2可以识别UAA和UGA,因此遗传密码子中至少存在1个“冗余”密码子,可以扩展为“有义密码子”,进而翻译unAAs。
XYZ表示重分配密码子
由于释放因子和抑制型tRNA都可以识别终止密码子,而释放因子的竞争识别会导致翻译过早终止,从而产生截短的蛋白,使得unAA的插入效率降低且蛋白产量和纯度降低。2013年,Lajoie等[87]利用多重可自动化基因组工程(MAGE)和共轭组装基因组工程(CAGE)将大肠杆菌基因组上所有321个UAG密码子全部替换为同义的UAA密码子,同时在不影响菌株生长的情况下删除了编码释放因子RF1的基因prfA,构建了一个基因组重新编码的大肠杆菌生物体(GRO)——E.coliC321.ΔA,从而完全消除UAG密码子被RF1识别而终止蛋白合成的功能。结果证明,与野生型菌株相比,基因重新编码的菌株显示出更高的unAA掺入效率[88-90]。到目前为止,基因组重编码的生物体只有以大肠杆菌为底盘宿主的改造例子,因此需要开发新的适用于基因组改造的底盘宿主,从而扩大unAA掺入蛋白,基于这一原理优化底盘宿主的可应用范围,如谷氨酸棒状杆菌、枯草芽孢杆菌等。
2.3.2 基于有义密码子再分配的遗传密码扩展
20种天然氨基酸中的18个氨基酸都由不少于1个的密码子编码,如丝氨酸、亮氨酸和精氨酸最多由6个同义密码子编码,蛋氨酸和色氨酸最少由1个密码子编码(图1)。有义密码子再分配是利用密码子的简并性,在全基因组范围内用同义密码子替换为同一个密码子,减少编码天然氨基酸的同义密码子数量,就可以产生可再编码的密码子,重新分配被“释放”的密码子以指导细胞将unAA纳入氨基酸链中。这种将有义密码子重新分配其他nAA或unAA的方法又称为有义密码子压缩[91](图5)。Mukai等[92]利用大肠杆菌内精氨酸的稀有密码子AGG实现了体内精氨酸到高精氨酸的重新分配。Fredens等[93]使用CRISPR/Cas9基因编辑技术构建了一株名为Syn61的大肠杆菌菌株,该菌株具有61个密码子,包括59个密码子编码20种天然氨基酸和2个密码子终止翻译。Robertson等[94]将丝氨酸密码子UCG、UCA和终止密码子UAG分别替换为它们的同义密码子AGC、AGU和UAA,并删除对应的tRNA和编码RF1的prfA基因,从而使UCG、UCA和UAG这3个密码子可重新编码,并成功在该菌株中将3种unAAs同时整合到单个蛋白质中。然而,在基因组水平上重新分配有义密码子仍然是一个重大技术挑战,从基因组上完全“消除”数量众多的密码子并不容易,并且同义密码子的选择会影响基因表达和细胞适应度[95]、翻译速度[96-97]等。更重要的是,并非所有的同义密码子都能压缩。
2.3.3 基于新密码子库的遗传密码扩展
除了将有义密码子扩展为unAAs的密码子外,四联体密码子也可以编码氨基酸,以响应反密码子环中有额外核苷酸的tRNA突变体(有8个核苷酸,而非7个核苷酸的标准反密码子环),这样就可以将44=256个四联体密码子分配给unAAs,四联体密码子的使用更加灵活,可以不通过大规模改造基因组就实现unAAs的插入[61,98-100]。虽然四联体密码子翻译过程是自然发生的,但天然核糖体解码四联体密码子的效率很低,甚至会导致蛋白质错误合成,产生毒性。因此Neumann等[101]开发了新的正交核糖体,使其更有效地解码四联体密码子。
非天然碱基对(UBP)的出现也扩充了密码子库。2014年,Malyshev等[69]首次报道人工合成的碱基对X-Y(X表示NaM,Y表示d5SICS)后,又将dNam-d5SICS碱基对改造为dNam-dTPT3碱基对,并将绿色荧光蛋白非关键区域上的酪氨酸密码子TAC替换为AXC,构建了含有反密码子GYT的MmtRNAPyl(GYT)/MmtRNAPyl(GYT)正交系统,成功将N6-[(2-propynyloxy)carbonyl]-L-lysine(PrK)掺入靶蛋白中[70]。
3 非天然蛋白质的应用
3.1 非天然蛋白质探针
蛋白质组学一直面临着一个挑战,即分析细胞中任何给定的蛋白质与其他分子之间的相互作用。目前的方法都依赖于蛋白质的亲和纯化,但从细胞中分离纯化出完整的蛋白质及其复合物又是一大难点。即使一些蛋白可以在细胞裂解或亲和纯化过程中被解离出来,但其蛋白质的相互作用图像仍可能是不完整的,所以位点特异性的蛋白质光交联探针已经成为研究细胞内蛋白质-蛋白质相互作用的关键工具[76,102-104]。Chin等[105]利用进化的MjTyrRS/MjtRNA这一正交对响应琥珀密码子TAG,将光交联氨基酸对苯甲酰基-L-苯丙氨酸(pBpa)插入蛋白中;在350~365 nm的紫外光激发下,pBpa的二苯甲酮基团会与附近的C—H键发生交联,这样就可以得到该氨基酸附近相互作用的伴侣蛋白信息。
另一类非天然蛋白质探针是在蛋白质中引入具有荧光特性的unAAs,这类荧光探针已经成为探究蛋白质构象变化、定位和分子相互作用的强有力工具。Curnew等[106]利用特定的正交系统将荧光性unAA——Anap掺入丙型肝炎病毒(HCV)的核心蛋白中,实现蛋白可视化,这种荧光性unAA标记病毒蛋白的方法可消除蛋白质可视化对抗体或标签的需求。还有一些荧光性unAAs的掺入可作为蛋白质动力学探针,如吖啶酮-2-基丙氨酸(Acd)和氨基吖啶丙氨酸(Aad)[107-108]等。
3.2 非天然蛋白质药物
现代药物的开发主要是从化合物库中进行筛选,缺乏对蛋白质药物的精准设计和改造,并且一些蛋白质药物难以化学合成。因此,基于非天然蛋白质药物的研究已经成为新兴的热点,unAAs特殊的化学功能基团极大地拓展了蛋白质药物的设计空间,为生物医药领域带来了新的机遇[109-111]。Wang团队的Li等[112]利用一种临近反应疗法(PERx)来开发共价蛋白药物,通过GCE方法将具有活性的unAA——氟硫酸盐-L-酪氨酸(FSY)引入人程序性细胞死亡蛋白-1(PD-1)中,在免疫人源化小鼠中,共价的PD-1(FSY)表现出比非共价的野生型PD-1更强的抗肿瘤作用,有更好的治疗效果。此外,抗体偶联药物(ADC)已经成为治疗肿瘤的有效策略,目前已有超过40种抗体偶联药物处于临床开发阶段[113]。遗传编码的unAAs为位点特异性偶联开辟了新途径,也使抗体偶联药物具有良好的药代动力学、效价和抗原结合特性,解决了常规依赖于半胱氨酸残基修饰所带来的位置局限性问题[114],已被广泛应用[109,113,115]。
3.3 非天然蛋白质材料
非天然蛋白在高分子材料领域也具有广阔的应用前景。海洋贻贝富含3,4-二羟基苯丙氨酸(L-DOPA)的贻贝黏附蛋白,可以在恶劣条件下表现出强大的水下黏附能力。贻贝黏附蛋白是天然的抗水生物黏合剂,在生物医疗和工业领域的潜在应用引起了极大关注[116-118],但因为其黏附特性依赖于氨基酸的翻译后羟基化,而这种羟基化修饰只能在真核细胞中完成,所以其重组生产仍是一个重大的生物技术挑战。Hauf等[119]使用GCE新策略,通过工程高效的aaRS/tRNA正交系统增强光笼型非天然氨基酸邻硝基苄基多巴(ONB-DOPA)的掺入,就可以在体内实现贻贝黏附蛋白的生产。这种策略提供了一种无需翻译后修饰就能生产生物黏合剂的直接方法,使它们的生产更具成本效益和时间效益。
4 结论与展望
目前已知的代谢途径仅涵盖数量有限的unAAs,并且一些已知途径缺乏关键酶信息,因此需要进一步研究来挖掘和阐明一些典型unAAs的代谢途径和关键酶。随着合成生物学技术和平台技术的快速发展,预计可以构建更多unAAs生物合成途径。假如unAAs的生成是“基石”,那么实现靶蛋白的unAAs插入则是“点石成金”,尤其是遗传密码扩展的多种策略,完全打破了遗传密码的“冰冻”理论,显示了标准遗传密码的可塑性和可进化性,为设计更高级的生命形式开辟了一条道路。但是该策略涉及的正交翻译系统的数量和改造有限,因此需要工程改造或技术手段激发其他新的正交翻译系统的出现。
非天然蛋白的应用则更进一步体现了前两者的意义,并且其应用领域的广泛性超出了预期。已有完全自主型宿主系统,即该宿主可同时实现unAAs生物合成和unAAs特异性位点插入蛋白中,从而改变蛋白功能的一体化过程。这实现了代谢工程和遗传密码工程的结合,将会促进新方法及新扩展技术的开发,如升级的计算机辅助蛋白/酶分子预测以及生物合成途径模拟工具等,最大限度去开发unAAs的生物合成途径及其提高插入蛋白改造的潜力和效率,以实现更多自主型细胞的出现和应用,使其能够更好地应用于基础研究及工业生产研究。