青杨4CL基因的克隆及生物信息学分析
2016-12-21胡尚连卢学琴龙治坚
姜 勇,胡尚连 *,曹 颖,卢学琴,徐 刚, 龙治坚, 黄 艳
(1.西南科技大学 植物细胞工程实验室,四川 绵阳 621010;2. 四川省生物质资源利用与改性工程技术研究中心,四川 绵阳 621010)
青杨4CL基因的克隆及生物信息学分析
姜 勇1,2,胡尚连1,2 *,曹 颖1,2,卢学琴1,2,徐 刚1,2, 龙治坚1,2, 黄 艳1,2
(1.西南科技大学 植物细胞工程实验室,四川 绵阳 621010;2. 四川省生物质资源利用与改性工程技术研究中心,四川 绵阳 621010)
4CL是木质素合成途径中的关键酶,对其进行生物信息学分析,为深入研究4CL的作用奠定基础并为进一步改良青杨提供理论支撑。以青杨嫩茎为试材,采用RT-PCR方法克隆青杨4CL基因,使用NCBI、DNAMAN及ExPASy等一系列在线软件及工具,对青杨4CL基因的编码区、氨基酸序列及蛋白质的结构和功能进行生物信息学分析。克隆了青杨4CL基因,命名为Pc4CL(GenBank注册号: KJ490636)。该基因全长1623 bp,开放阅读框为1~1611 bp,编码536个氨基酸,含有4CL的保守域SSGTTGLPKGV和GEICIRG及催化活性残基His-234。Pc4CL与PtC4CL同源性最高达97.95 %。
青杨;4CL基因;克隆;生物信息学分析
4-香豆酸:辅酶A连接酶(4-coumarate:coenzyme A ligase, 4CL, EC6.2.1.12)是苯丙烷类代谢途径的最后一个酶,能以不同结构的羟基苯乙烯酸为底物,即4CL同工酶可能控制不同分支途径的碳流量, 进而形成不同的木质素单体(松柏醇、芥子醇和香豆醇)[1-2]。木质素是植物体正常生长所必须的有机物大分子,根据组成单体的不同分为紫丁香基木质素(S-木质素)、愈创木基木质素(G-木质素)和对-羟基苯基木质素(H-木质素)[1],具有增强植物体的机械强度,抵抗不良外界环境侵袭之功能[3]。然而,木质素的存在却阻碍了植物资源在纸浆制造业的有效应用[4]。通过抑制4CL的表达,最终调控植株木质素的含量或单体组成,从而有利于木质素的脱除[5]。
青杨(PopuluscathayanaRehd)原产我国,自然分布广泛,隶属于杨柳科(Salicaceae)杨属(PopulusL.)落叶乔木,是造纸及胶合板材极好的原料[6-8]。然而,林木中的木质素含量高,占木材干重的15 %~36 %[9]。因此,通过基因工程手段降低青杨木质素含量或单体组成具有重要的意义。研究表明,4CL具有不同催化特性和底物利用特性[10],抑制毛白杨中4CL基因的表达可显著降低转基因株系的木质素含量,最高可达41.73 %[5]。但是,有关青杨4CL基因克隆的研究目前尚未见报道。鉴于此,本研究以青杨嫩茎为试材,采用同源克隆技术获得青杨4CL编码序列,并对其进行生物信息学分析,为进一步青杨遗传改良奠定基础。
1 材料与方法
1.1 材料
供试材料采自于“西南科技大学生命科学与工程学院杨树资源圃”,将青杨嫩茎切成2 cm左右,并迅速置于液氮中保存,后置于-80 ℃备用。
试验所使用的大肠杆菌DH5α来自生命科学与工程学院植物细胞工程实验室;而RNA提取试剂盒购自于成都博瑞克公司;LA-Taq聚合酶、X-Gal、IPTG、PMD19-T Vctor、反转录试剂盒、EcoRⅠ以及HindⅢ限制性内切酶等试剂均购自大连TaKaRa公司。
1.2 方法
1.2.1 总RNA的提取及cDNA链的合成 参照RNA提取试剂盒说明书,提取青杨嫩茎总RNA。0.8 %琼脂糖凝胶电泳检测RNA质量。参照反转录试剂盒说明书,选取质优量高的RNA用于cDNA的合成。
1.2.2 青杨4CL基因克隆 根据其他杨树4CL的核苷酸序列,使用Primer Premier 5.0软件设计青杨4CL基因的全长克隆引物。引物序列为:上游引物(P1):5′-ATGAATCCACAAGAAGAATTCA-3′;下游引物(P2):5′-TAACGTCTTCCATTATATGCCTG -3′。
以反转录合成的cDNA为模板,采用LA-TaqDNA高保真聚合酶进行4CL全长序列扩增。PCR反应条件:95 ℃预变性3 min;95 ℃变性30 s,56.5 ℃复性30 s,72 ℃延伸2 min,30个循环;72 ℃延伸10 min;4 ℃保存[11]。PCR扩增产物与pMD19-T Vector进行连接,转化后进行蓝白斑筛选,提质粒酶切验证,并送至生工生物工程(上海)股份有限公司进行测序。
1.3 青杨4CL基因全长序列的生物信息学分析
1.3.1 4种杨树4CL基因编码氨基酸多序列比对 使用DNAMAN和Clustal W软件分析青杨4CL基因的全长序列,并将其编码的氨基酸序列与GenBank数据库中获得的毛果杨(PopulustrichocarpaTorr, XM-002324441)、毛白杨(PopulustomentosaCarrière, AF314180)、钻天柳(Choseniaarbutifolia, KC818108)的全长4CL基因编码的氨基酸序列进行比对分析
1.3.2 4CL基因系统发育树的构建 利用MEGA 5.05软件分析青杨、毛白杨、毛果杨、钻天柳、芒果(MangiferaindicaL., KF929405)、覆盆子4CL1(Rubusidaeus, AF239687)、覆盆子4CL2(Rubusidaeus4CL2, AF239686)、大豆4CL2(Glycinemax, AF002259)、大豆4CL1(Glycinemax,AF279267)、拟南芥4CL1(Arabidopsisthaliana, AY376729)、拟南芥4CL2(Arabidopsisthaliana, AY376728)、拟南芥4CL5(Arabidopsisthaliana, AY376732)、赤桉(EucalyptuscamaldulensisDehnh., GQ916947)、红麻(Hibiscuscannabinus, HM151379)及大麻(CannabissativaL., KC970301)的编码氨基酸序列。采用最大似然法(Maximum Likelihood, ML)构建系统进化树,采用随机逐步比较的方式搜索最佳系统进化树,对生成的系统进化树进行Bootstrap校正,生成最终的系统进化树。
1.3.3 4CL蛋白保守域分析 为确定4CL酶存在不同底物特异性的原因,利用MEME version 4.9.1软件(http://meme.nbcr.net/meme/cgi-bin/meme.cgi)在线分析上述15种植物4CL蛋白的保守结构域。参数设置,motifs数量最大值为20,motifs宽度设置为10~80。
1.3.4 4CL基因编码蛋白质的结构及理化性质分析 利用ORF-finder(http://www. ncbi.nlm. nih. gov/gorf/gorf.html)在线程序分析其4CL基因的开放阅读框,再用ExPaSy工具中提供的Prot-Param软件(http://web.expasy.org/pro-tparam/)在线分析该基因编码的氨基酸的物理化学参数、组成、理论等电点、亲水性以及消光系数,用ExPaSy工具提供的SOPMA软件(https://npsa-prabi.ibcp.fr/cgi-bin/-npsa_automat.pl?page=npsa_Sopma.html)在线预测4CL酶的二级结构,最后用CPHmodels软件(http://www.cbs.dtu.dk/-services/CPHmodels/)在线预测4CL酶的三级结构,并利用RasMol软件对青杨、毛白杨、钻天柳及毛果杨的4CL基因编码蛋白的三维结构进行分析。
1.3.5 4CL基因编码蛋白的功能预测 用PSORTⅡ软件(http://psort.hgc.jp/form2.html)分析Pc4CL蛋白的亚细胞定位,用ProtScale 软件(http://web.expasy.org/protscale/)对Pc4CL疏水性进行分析,再用TMpred软件http://www.ch.embnet.org/software/TMPRED_form.html)预测Pc4CL蛋白序列跨膜区。
2 结果与分析
2.1 青杨4CL基因全长克隆及其编码的氨基酸序列分析
通过RT-PCR技术,获得了青杨的4CL基因编码序列(图1-A),全长为1623 bp,开放阅读框为1~1611 bp,利用ORF-finder软件分析青杨4CL基因编码蛋白质的氨基酸序列,获得1个含536个氨基酸残基的多肽链,将其命名为Pc4CL。使用NCBI的Blastp软件分析其保守区,获得序列的保守域。使用DNAMAN程序,并与GenBank数据库中搜索得到的毛白杨、钻天柳和毛果杨4CL基因氨基酸编码序列分别进行比对分析,并利用Clustalw2.0对Pc4CL、毛白杨(PtC4CL)、钻天柳(Ca4CL)及毛果杨(Pt4CL)的氨基酸序列进行多序列比对(图1-B)。
A:青杨4CL基因克隆(泳道1:marker;泳道2:目标基因DNA片段);B:Pc4CL与其它植物4CL的氨基酸序列比对(实线框表示氨基酸保守域;虚线框表示酶催化活性残基;* 氨基酸一致;: 氨基酸强相似;·氨基酸弱相似;-氨基酸缺失);C:Pc4CL保守区结构域;D:Pc4CL基因序列及对应氨基酸编码序列(阴影区为氨基酸保守序列;*为终止密码子)A: Cloning of 4CL gene (Lane 1:marker; Lane 2: target gene); B: Amino acid sequence alignment of Pc4CL with other 4CL(The solid line boxes indicate amino acids conserved domain; dashed box represent His-234 residues with the catalytic activity; * The same amino acid;: Strong similar of amino acid; ·Weak similar of amino acid; -amino acid missing);C: The conserved domain of Pc4CL; D:The sequence of Pc4CL gene and encoding amino acid sequence(Grey boxes contain the conserved amino acid motif; * means terminal code)图1 青杨4CL基因克隆及其编码氨基酸序列分析Fig.1 Cloning of 4CL gene and its encoding amino acid sequence analysis in Populus cathayana Rehd
Pc4CL氨基酸序列的15~510 bp处存在4CL的保守域,并且含有腺苷酸形成酶超家族保守域(图1-C)。同时,通过对Pc4CL、PtC4CL、Ca4CL及Pt4CL的氨基酸序列比对得知,4条氨基酸序列均存在SSGTTGLPKGV和GEICIRG 2个保守序列(图1-B),前者被认为是4CL催化反应中与AMP结合的功能域[12],其附近第234位点存在组氨酸(H)(图1 B,虚线框),研究表明His-234 与ATP的α-磷酸基团形成氢键,降低磷酸基团的负电荷,促进反应的进行,它的侧链位置阻止CoA 过早进入PtC4CL1 的活性中心;在第二步反应中His-234通过侧链的构象变化开放CoA进入活性中心的通路,同时夺取CoA巯基的质子,增强CoA亲核攻击香豆酰-AMP 的能力,催化最终产物的形成[13];而后者也是4CL中绝对保守域[14]。通过序列比对发现,Pc4CL蛋白与毛白杨、钻天柳和毛果杨4CL基因编码蛋白具有高度的同源性,与毛白杨的相似性为97.95 %,与钻天柳的为94.44 %,与毛果杨的为72.53 %,推测Pc4CL与PtC4CL具有相同的功能,是合成木质素的关键酶[5]。
2.2 4CL基因系统发育树的构建
根据系统进化树推测(图2-A),Pc4CL、At4CL1及PtC4CL聚为一个类群,表明这些物种的4CL蛋白之间的亲缘性较近,其中青杨和毛白杨的4CL蛋白亲缘性最近,有研究表明PtC4CL对香豆酸的比活力最强,但对芥子酸没有活性[15],而Pc4CL是否具有类似功能还有待进一步研究。
1条蛋白质链由多个结构域(domain)组成,每个结构域具有独立的结构折叠(fold)和功能,并且这种折叠是独立的[16-17]。使用MEME对Pc4CL及其它物种4CL氨基酸序列进行保守序列分析,共获得20个保守基序(motif)(图2-B),在不同4CL蛋白序列中,基序种类、排序及位置都非常保守。Pc4CL和PtC4CL中出现的motif种类、排序及位置完全一致,与进化树分析结果一致。有些motif只特异性的存在于4CL中,如motif114只存在于At4CL1和At4CL5,而motif12只在Ri4CL1和Cs4CL中出现,推测这种差异可能导致不同4CL具有不同的功能及底物特异性[10]。有研究表明,Gm4CL1能够特异性转化芥子酸,而Gm4CL2不能转化芥子酸[19],通过比较Pc4CL、PtC4CL、Gm4CL1及Gm4CL2的motif发现,Gm4CL1中在147~156 bp存在motif13,而其它3种蛋白在此处均不存在motif13,表明147~156 bp处的motif13可能参与芥子酸的识别或结合,此推测还有待进一步研究。
2.3 Pc4CL基因编码蛋白理化性质分析
Pc4CL与PtC4CL具有相同的氨基酸残基数,均为536个(表1),但分别较Ca4CL和Pt4CL少4和10个氨基酸残基。4种植物的4CL基因编码蛋白分子量介于58.5~61.1kD,其中最大的是Pt4CL,而最小的是PtC4CL。4种4CL蛋白带负电的残基数与带正电的残基数之差等于10,而它们的理论等电点大致相同(都小于7),在植物体内带负电,难以与带负电的ATP相结合,而在降低ATP负电荷的过程中,His-234可能起到关键性作用。蛋白质的总亲水性平均系数正值越大,表示疏水性越强,负值越大表示亲水性越好[20]。ProtScale 软件分析结果表明,4种蛋白质的总亲水性系数均为负值,其中绝对值最大的是Ca4CL,最小的是Pt4CL,表明4种蛋白质均有较弱的亲水性。
A:4CL蛋白家族系统进化树;B:4CL保守结构域分析A: The clustering analysis of 4CL protein family; B: The conservative structure domain analysis of 4CL图2 Pc4CL与其它物种4CL的聚类分析及保守结构域分析Fig.2 The clustering analysis and conservative structure domain analysis between Pc4CL and other species 4CL
表1 Pc4CL、PtC4CL、Ca4CL及 Pt4CL 编码蛋白理化性质
表2 不同4CL基因编码蛋白的二级结构
2.4 Pc4CL基因编码蛋白二级和三级结构分析
利用SOPMA软件预测青杨、毛白杨、钻天柳以及毛果杨4CL基因编码蛋白的二级结构。结果表明(表2),在4种植物4CL基因编码的蛋白中,二级结构主要是α-螺旋和无规卷曲,这2种二级结构的氨基酸残基约占70 %左右;而在这2种结构中,参与形成无规卷曲的氨基酸较α-螺旋多10 %,构成β-转角的氨基酸数较少,所占比例为6.85 %~8.02 %。在4种蛋白中,构成各种二级结构的氨基酸数量基本一致。有研究表明生物体内的跨膜蛋白主要以α-螺旋形式跨膜[21],而4CL中大约有30 %的氨基酸残基参与形成α-螺旋,推测4CL为膜蛋白,疏水性残基构成跨膜区域,而亲水性残基裸露在水环境,从而形成4CL蛋白的稳定结构。
蛋白质的结构与功能密切相关,利用CPHmodels程序预测Pc4CL、PtC4CL、Ca4CL及Pt4CL蛋白的三级结构(图3)。发现4种植物的4CL蛋白质具有相似的三级结构,均含有大量的α-螺旋和无规卷曲。同时,也存在少量的β-转角和延伸链,与上述二级结构分析结果一致。
2.5 Pc4CL功能预测
通过PSORTⅡ软件分析Pc4CL蛋白的亚细胞定位,分布在内质网中的Pc4CL占44.4 %,在分泌系统的小囊泡中占11.1 %,表明4CL蛋白可能主要分布在质膜上,属于膜蛋白,在细胞膜上行使其功能。
ProtScale 软件分析结果表明,大约在Pc4CL蛋白的77-81区域、88-92区域、224-257区域、274-285区域、335-346区域、448-453区域以及475-481区域具有很强的疏水性,其中疏水性最强的在229,亲水性系数高达2.9(图4-A)。结合TMpred软件预测Pc4CL蛋白质序列跨膜区,预测结果表明Pc4CL可能在以80、235、246为中心位置形成由膜内到膜外的跨膜区域;在以81、97、245、336为中心位置形成由膜外到膜内的跨膜区域(图4-B)。
图3 Pc4CL编码蛋白三级结构预测Fig.3 The encoding protein tertiary structure prediction of Pc4CL
A:Pc4CL疏水性分析;B:Pc4CL蛋白序列跨膜区预测(得分在500以上显著)A: Hydrophobicity analysis of Pc4CL; B: The transmembrane region prediction of Pc4CL protein sequence (score above 500 significantly)图4 Pc4CL跨膜区域预测Fig.4 Transmembrane region prediction of Pc4CL
3 讨论与结论
本研究采用RT-PCR技术从青杨中获得一条全长为1623 bp的基因序列,其开放阅读框为1~1611,编码536个氨基酸。大约在该氨基酸序列15~510处存在4CL的保守域及具有保守序列SSGTTGLPKGV和GEICIRG,将其命名为Pc4CL,Genbank 注册号为KJ490636。
序列比对及系统进化分析结果表明,Pc4CL与PtC4CL同源性高达97.95 %,表明Pc4CL可能是木质素合成过程中的关键酶,并且其作用底物可能是香豆酸而非芥子酸,为了进一步确认Pc4CL的底物是香豆酸及参与底物识别或结合的基序,使用MEME对Pc4CL及其它物种4CL氨基酸序列进行保守序列分析,共获得20个保守基序(motif)(图2-B)。研究表明,Gm4CL1能够特异性转化芥子酸,而Gm4CL2不能转化芥子酸[19],通过比较Pc4CL、PtC4CL、Gm4CL1及Gm4CL2的motif发现,Gm4CL1中在147~156 bp存在motif13,而其它3种蛋白在此处均不存在motif13,表明147~156 bp处的motif13可能参与芥子酸的识别或结合,此推测还有待进一步研究。PSORTⅡ软件分析Pc4CL蛋白的亚细胞定位,分布在内质网中的Pc4CL占44.4 %,在分泌系统的小囊泡中占11.1 %,表明Pc4CL蛋白可能主要分布在质膜上,属于膜蛋白,在细胞膜上行使其功能。与该分析结果一致,TMpred软件预测Pc4CL可能在以80、235、246为中心位置形成由膜内到膜外的跨膜区域;在以81、97、245、336为中心位置形成由膜外到膜内的跨膜区域(图4-B)。
[1]杨冬梅. 东方山羊豆4-香豆酸:辅酶A连接酶(4CL)基因的克隆与表达研究[D]. 中国农业科学院, 2010.
[2]李金花, 张绮纹, 牛正田, 等. 木质素生物合成及其基因调控的研究进展[J]. 世界林业研究, 2007,20(1): 29-37.
[3]Lewis N G, Yamamoto E. Lignin: occurrence, biogenesis and biodegradation[J]. Annual Review of Plant Physiology and Plant Molecular Biology, 1990,41: 455-496
[4]耿 飒, 徐存拴, 李玉昌. 木质素的生物合成及其调控研究进展[J]. 西北植物学报, 2003, 23(1): 171-81.
[5]贾彩虹, 赵华燕, 王宏芝, 等. 抑制4CL基因表达获得低木质素含量的转基因毛白杨[J].科学通报, 2004, 49(7): 662-666.
[6]贺俊东, 胥 晓, 郇慧慧, 等. 青杨雌雄扦插苗光合作用日变化与叶绿素荧光参数特征[J].植物研究, 2014, 34(2): 219-225.
[7]中国科学院中国植物志编辑委员会.中国植物志第二十卷第二分册[M]. 北京: 科学出版社, 1984.
[8]苏晓华, 黄秦军, 张香华, 等. 中国大青杨基因资源研究[J]. 林业科学研究, 2001, 14(5): 472-478.
[9]Higuchi T. Biosynthesis of lignin. In: Higuchi T (eds) Biosynthesis and Biodegradation of Wood Components[M]. New York: Academic Press, 1985: 141-160.
[10]Allina S M, Pri-Hadash A, Theilmann D A, et al. 4-Coumarate: Coenzyme A Ligase in Hybrid Poplar. Properties of Native Enzymes, cDNA Cloning, and Analysis of Recombinant Enzymes[J]. Plant Physiol, 1998, 116(2): 743-754.
[11]刘红梅, 胡尚连, 卢学琴, 等. 青杨CCoAOMT基因的克隆及其生物信息学分析[J]. 湖北农业科学, 2014, 53(11): 2670-2674.
[12]Challis G L, Ravel J, Townsend C A. Predictive, structure-based model of Amino acid recognition by nonribosomal peptide synthetase adenylation domains[J]. Chem Biol, 2000(7): 211-224.
[13]任百光, 李德峰, 郑彩霞, 等. His-234是毛白杨对香豆酸:CoA连接酶的重要酶催化活性残基[J]. 生物化学与生物物理进展, 2013, 40(11):1165-1172.
[14]Fulda M, Heinz E, Wolter F P. The fad D gene of Escheri chia coli K12 is located close to rnd at 39.6 min of the chromosomal map and is a new member of the AMP-binding protein family[J]. Mol Gen Genet, 1994, 242(3): 241-249.
[15]饶国栋, 张永卓. 毛白杨4-香豆酸:辅酶A连接酶(4CL3)的酶学特征研究[J]. 林业科学研究, 2013, 26(5): 542-547.
[16]Murzin A G, Brenner S E, Hubbard T, et al. SCOP: a structural classification of proteins database for the investigation of sequence and structures[J]. J. Mol. Biol., 1995, 247: 536-540.
[17]Orengo C A, Michie A D, Jones S, et al. CATH-A hierarchic classification of protein domain structures[J]. Structure, 1997(5): 1093-1108.
[19]Lindermayr C, Mollers B, Fliegmann J, et al. Divergent Members of a Soybean (GlycinemaxL.)4-coumarate:Coenzyme A Ligase Gene Family[J]. Eur J Biochem, 2002, 269(4):1304-1315.
[20]刘雪梅, 陈 肃. 白桦4CL蛋白结构分析及同源建模[J]. 生物信息学分析, 2010, 8(1): 38-42.
[21]Wallin E, von Heijne G. Genome-wide analysis of integral membrane proteins from eubacterial, archaean, and eukaryotic organisms[J]. Protein Sci, 1998(7):1029-1038.
(责任编辑 李 洁)
Cloning and Bioinformatics Analysis of 4CLGene inPopuluscathayanaRehd
JIANG Yong1,2, HU Shang-lian1,2*, CAO Ying1,2, LU Xue-qin1,2, XU Gang1,2, LONG Zhi-jian1,2, HUANG Yan1,2
(1. Lab of Plant Cell Engineering, Southwest University of Science and Technology, Sichuan Mianyang 621010, China; 2. Engineering Research Center for Biomass Resource Utilization and Modification of Sichuan Province, Sichuan Mianyang 621010, China)
4CL (4-coumarate:CoA ligase) is an important biosynthase in the lignin biosynthesis, and its biological information was analyzed to lay the foundation for the further research on the role of 4CLgene and to provide theoretical support for further improvement ofPopuluscathayanaRehd. The young stem ofPuluscathayanaRehd was used to clone the 4CLgene with RT-PCR. The encoding region and amino acid sequence of 4CLgene, and the structure and function of protein encoded by 4CLgene were analyzed by NCBI, DNAMAN, ExPASy and some other online tools. The 4CLgene was cloned inPopuluscathayanaRehd. It was namedPc4CL(GenBank number: KJ490636). The full-length of nucleotide sequence is 1623 bp, the sequence of 1-1611 bp is the open reading frame encoding 536 amino acids. The conserved SSGTTGLPKGV and GEICIRG domain and His-234 residues with the catalytic activity were found inPc4CL. Phylogenetic analysis showed thatPc4CLhad 97.95 % similarity with PtC4CL.
PopuluscathayanaRehd; 4CLgene; Cloning; Bio-information analysis
1001-4829(2016)07-1547-07
10.16213/j.cnki.scjas.2016.07.009
2015-06-12
国家自然科学基金青年基金项目(31400257,31400 333);四川省“十二五”重点公关资助项目(2011YZGG-10);四川省应用基础研究基金资助项目(2013JY0182);四川省生物质资源利用与改性工程技术研究中心基金资助(12zxsk07,13zxsk01)
姜 勇(1991-),男,四川眉山人,硕士研究生,从事植物遗传与品种改良研究,E-mail:yongjiang59@126.com,Tel:15982962782,*为通讯作者:胡尚连, E-mail:hushanglian@126.com。
S792.113
A