湿地松左旋β-蒎烯合成酶基因PeTPS-(-)BPin的同源克隆及生物信息学分析
2015-05-28潘显强黄少伟
雷 蕾,潘显强,4,张 露*,黄少伟,赵 衡,易 敏,赖 猛
(1.江西农业大学 林学院,江西 南昌 330045;2.华南农业大学 林学院,广东 广州 510642;3.广东省森林植物种质创新与利用重点实验室,广东 广州 510642;4.南昌市林业局,江西 南昌 330000)
松脂主要由单萜、倍半萜烯、二萜组成,其生物合成是以类戊二烯(C5)为底物,经由磷酸甲基赤藓糖(methyl-erythritol 4-phosphate,MEP)途径形成萜类化合物的各类前体,再在萜稀合成酶(terpene synthases,TPS)的参与下合成松脂[1]。TPS 基因有 6 大类(Tpsa、Tpsb、Tpsc、Tpsd、Tpse、Tpsf),其中 Tpsd 是裸子植物特有的相对独立的基因家族,Tps-d1、Tps-d2、Tps-d3分别是单萜合成酶、倍半萜稀合成酶和二萜合成酶,这3个亚家族的基因序列高度相关[2]。α-蒎烯(α-pinene)和β-蒎烯(β-pinene)是松脂中含量最多的两种成分,与松树抗虫、抗机械创伤关系密切[3]。β-蒎烯因其在合成工业中步骤少的特点备受育种家的关注,有两种同分异构体:(+)β-蒎烯和(-)β-蒎烯,它们分别在两种不同的TPS作用下合成,松脂中的β-蒎烯以左旋居多。
湿地松(Pinus elliottii)原产美国东南部潮湿地区,我国于20世纪30年代开始引种栽培。近10年来,随着松脂产业的迅速发展,高产脂湿地松种子园纷纷建立,产脂性状的研究也成为热点[4]。湿地松产脂量高、松脂品质极好,因其β-蒎烯含量高,成为最受关注的采脂树种[5-6]。本研究同源克隆了湿地松的(-)β-蒎烯合成酶基因,分别命名为PeTPS-(+)Apin、PeTPS-(-)Apin和PeTPS-(-)BPin,分析了其序列同源性,并预测了其蛋白质结构和功能,旨在为更深入的研究湿地松产脂性状提供重要的候选基因。
1 材料与方法
1.1 材料来源与引物设计
湿地松嫩叶样品于2013年3月采集自江西省吉安县白云山林场,位于东经26°51′,北纬115°11′,海拔90m,亚热带气候,年均气温18.6℃,极端高温38.3℃,极端低温-4.4℃,年均降雨1 646mm,无霜期308 d。
下载GeneBank数据库中已有的松属物种(主要是火炬松、北美短叶松和北美扭叶松)的(-)-β-蒎烯合成酶((-)-beta-pinene synthase)的cDNA序列,与火炬松全基因组比对,在其上下游1 kb以内设计巢式引物,引物序列见表1。
表1 用于同源克隆的引物序列Tab.1 Primer sequences used for homology cloning
1.2 基因组DNA的提取与PCR扩增
采用CTAB+吸附柱法提取DNA,药品配置及具体操作参照李义良[8]针对湿地松的CTAB快速提取法,沉淀DNA后,用CB3吸附柱(天根公司试剂盒)吸附,用TE洗脱,稀释至50 ng/μL,4℃保存。
PCR 扩增反应体系:1×PrimeSTAR buffer、0.2 mmol/L dNTPs、0.2 μmol/L primes、2 ng/μL DNA、0.02 U/μL PrimeSTAR HSDNA Ploymerase。第一轮扩增(outer primes)用10 μL 体系,第二轮扩增(inner primes)用50μL体系,产物直接测序。
PCR扩增程序:94℃预变性5min,94℃预变性10 s,55~65℃退火10 s,72℃延伸45 s~4 min 30 s,72℃延伸7min,10℃保温,循环34次。
1.3 主要试剂与仪器设备
主要试剂:PrimeSTAR HSDNA Ploymerase、dNTPMixture、DL5000 DNA Marker、DL10000 DNA Marker购自TAKARA公司,DNAsecure Plant Kit购自天根生化科技(北京)有限公司,CTAB、琼脂糖、EDTA、Tris购自上海生物工程有限公司,引物合成及测序由上海生工完成。
仪器设备:MM301磨样仪(Qiagen公司)、Thermo SCIENTIFIC NanoDrop 1000核酸分析仪、PTC-200 PCR扩增仪、DYC Z-30电泳槽、DYY-12电泳仪、EPPENDORF CENTRIFUGE 5810R高速低温离心机、Bio RAD Gel Doc XR凝胶图像采集与分析系统、Grant XB70制冰机、H.H.S2电热恒温水浴锅、New Brunswick Scientific 410超低温冰箱。
1.4 数据分析
测序结果拼接完成后,用 BLAST 在线程序(http://blast.ncbi.nlm.nih.gov)同源比对,用 WEBGENE在线程序(http://www.itb.cnr.it/sun/webgene/)分析内含子。用 ORF finder在线程序(http://www.ncbi.nlm.nih.gov/gorf/)翻译成氨基酸序列。氨基酸的基本理化性质用Expasy Protparam在线程序(http://web.expasy.org/cgi-bin/protparam/)预测。蛋白质亲/疏水性用 ProtScale 在线程序(http://www.expasy.org/cgi-bin/protscale.pl)预测。前导肽用 TargetP 1.1 Server在线程序(http://www.cbs.dtu.dk/services/TargetP/)预测。磷酸化位点用 NetPhos 2.0 Server在线程序(http://www.cbs.dtu.dk/services/NetPhos/)分析。蛋白质保守结构域用 NCBI的 CDD 程序(http://www.ncbi.nlm.nih.gov/Structure/cdd/)预测。用PSIPRED软件分析蛋白质的二级结构。用SWISS-MODEL软件分析蛋白质的三级结构。蛋白质功能性位点用ELM在线程序(http://elm.eu.org/)预测。
2 结果与分析
2.1 DNA提取与PCR扩增
DNA提取效果较好,核酸检测 OD260/280均在1.7~1.9,OD260/230均为2.0左右。PCR 扩增效果较好,条带清晰、单一。图1为DNA及PCR产物的电泳图。
2.2 序列同源性与进化分析
序列分析结果显示:PeTPS-(-)BPin基因全长3 574 bp,有9个外显子10个内含子,共编码627个氨基酸。同源性分析结果表明:PeTPS-(-)BPin基因与其他松属植物之间的序列同源性达90%~93%,氨基酸序列具有2个长的保守区(>50a.a.)。与松科其他属之间的同源性为89%,氨基酸序列具有5个短的保守区(>15a.a.)。与裸子植物其他 TPS基因的同源性为73%~76%,氨基酸序列具有1~2个短的保守区(>15a.a.)。
研究表明,各种TPS基因序列的外显子和内含子位置分布几乎一致,其蛋白质同源性较高,由一个共同的祖先进化而来,参与初生代谢和次生代谢的TPS的分支,发生在被子植物与裸子植物分离之前[9]。裸子植物的TPS基因是TPS基因家族中较独立的成员Tpsd,Tpsd又可以进行亚分类:Tpsd1(单萜合成酶)、Tpsd2(倍半萜烯合成酶)、Tpsd3(二萜合成酶)[2]。本研究下载了NCBI中已发表的3种萜烯合成酶基因序列,与湿地松的序列比对,构建了系统进化树,结果如下:被子植物和裸子植物的TPS基因被聚为两大类,关系较远,两大分支的置信度均为100,可靠性高(图2);裸子植物的TPS分为3个亚支,分别对应3种TPS基因,3大分支的置信度为98~100,可靠性较高;湿地松与火炬松、扭叶松、班克松等松属物种亲缘关系较近,聚为一类,而与松科的云杉属(Picea)、黄杉属(Pseudotsuga)距离逐渐疏远(图3),这与国外文献报道结果一致[10-11]。
图1 左:DNA电泳图(DL10 000 Mark);右:PCR产物电泳图(DL5 000 Mark)Fig.1 DNA electrophoresis figure(DL10 000 Mark)on left,PCR product electrophoretogram(DL5 000 Mark)on right
图2 不同物种的TPS基因序列的进化树Fig.2 Phylogenetic tree of TPS gene in difference species
2.3 蛋白质理化性质预测
PeTPS-(-)BPin的蛋白质分子式为 C3197H4972N862O957S32,分子量为71.74 ku,等电点为5.73,含20种基本氨基酸,含量最高的是L(9.4%)和S(8.8%),带负电荷残基89个(14.15%,包括Asp和Glu),带正电荷的残基92个(14.63%,包括Arg、Lys和His),水溶液吸光系数为91 970,不稳定系数为43.38,脂肪系数为82.80,平均总亲水性为-0.398,疏水氨基酸占 35.1%,亲水氨基酸占 65.1%,定位在叶绿体,包含37个磷酸化位点(包括20个丝氨酸(Ser),9个苏氨酸(Thr),8个酪氨酸(Tyr)。
图3 裸子植物TPS基因序列的进化树Fig.3 Phylogenetic tree of TPS gene in gymnospermae
2.4 蛋白质结构预测
左旋β-蒎烯合成酶蛋白质二级结构中含有4个不规则卷曲,24个 α-螺旋。蛋白质三级结构同源建模结果显示:左旋β-蒎烯合成酶与紫杉二烯合成酶、冷杉二烯合成酶和某倍半萜烯合成酶有着相似的三级结构,比对得分分别为 428、395、438。
保守结构域分析表明,左旋β-蒎烯合成酶含有一个cd00684保守域,属于类异戊二烯生物合成酶基因家族,主要参与次级代谢的生物合成途径。根据已知该家族成员的蛋白质结构,可知萜烯合成酶定位在真核生物的细胞质或叶绿体中,最多可以结合3个镁/钾离子,催化位点由两个富含天冬氨酸(Asp-rich)的区域和一个大的反向α-螺旋构成的中央腔组成,该位点高度保守。其蛋白质三级结构及其保守结构域如图4。
图4 蛋白质的三级结构和保守结构域Fig.4 Protein tertiary structure and CDD predicted for candidate genes
2.5 蛋白质功能预测
ELM工具和NCBI的CDD工具相结合,共搜索出7个可能的功能域(图5)。第1个功能域为CLV_NDR_NDR_1,是一个NDR切割位点(NDR cleavage site),由两个精氨酸组成,出现在第68、69位氨基酸。第2个功能域为LIG_FHA_1,是一个FHA磷酸肽配体(FHA phosphopeptide ligands),由7个氨基酸组成,出现在第611~617位氨基酸。第3个功能域为LIG_FHA_2,出现在第622~627位氨基酸。第4个功能域为LIG_PDZ_Class_2,是一个PDZ配体(PDZ ligands),由6个氨基酸组成,出现在第622~627位氨基酸。第5个功能域为LIG_SH2_PTP2、LIG_SH2_SRC、LIG_SH2_STAT5,是一个SH2配体(SH2 ligand),由4个氨基酸组成,出现在第283~286位氨基酸。第6个功能域为MOD_GSK3_1,是一个GSK3磷酸化位点(GSK3 phosphorylation site),由8个氨基酸组成,出现在第293~300和606~613位氨基酸。第7个功能域为MOD_PKA_2,是一个PKA磷酸化位点(PKA Phosphorylation site),由7个氨基酸组成,出现在第43~49位氨基酸。
图5 蛋白质的功能结构域预测Fig.5 Protein function structure domain predicted
3 结论与讨论
3.1 湿地松PeTPS-(-)BPin基因的结构和功能分析
萜烯合成酶(TPS)一般由550~850个氨基酸组成,丝氨酸和苏氨酸含量高,酸性氨基酸含量低,相对分子质量为50~100 ku[12]。TPS在三维结构上有很高的相似度,由α-螺旋、连接环、拐角等结构组成。酶的活性中心是6个α-螺旋组成的C-末端疏水区,N-末端没有特殊的功能元件[13]。这些研究与本研究结果相符。
国外报道,所有单萜合成酶序列靠前段都存在连续的2个精氨酸,功能未知,可能与GPP异构化有关[9]。湿地松PeTPS-(-)BPin基因的在第68、69位出现了这个保守结构,并在该区搜索到一个NDR切割位点,该位点被发现于小鼠大脑和睾丸的金属内肽酶(metalloendopeptidase),它能够断裂Arg的N末端残基[14]。因此猜测,裸子植物单萜合成酶的RR保守结构能够在第二个R的N末端断裂并与底物结合,从而参与底物异构化。
几乎所有的TPS都含有一个Asp富集基序(DDxxD),这个基序被认为起到结合金属离子的作用,它定位在活性位点的入口处,若基序发生突变则导致酶催化活性下降,因此推测是二磷酸脂的结合部位[12],本研究在第380~384位出现了这个保守域,但未能在该区搜到相关的功能位点。本研究预测的两个磷酸化位点分别位于第302位和623位,可见,基于生物信息学的功能预测只能作为后期实验的理论依据,并不是完全可靠,要更准确的了解TPS的功能还需更多的生物化学实验研究。
3.2 火炬松全基因组序列的公开可直接用于其他松属植物
对有亲缘关系的松属树种来说,不仅是叶绿体DNA(cpDNA)序列,核DNA(nDNA)序列的保守程度也很高,其基因的同源克隆和比较作图比被子植物容易得多[15]。火炬松的ESTP标记已被用于湿地松[16]、海岸松[17]、欧洲赤松[18],甚至被用于黄杉属的花旗松[19]。本研究比较了不同松属植物的 3 个TPS基因cDNA序列,相似度极高,同源性达到90%以上。湿地松TPS基因与松科其他属之间的同源性在80%以上。裸子植物不同TPS基因之间的同源性在70%以上。将3个基因与火炬松全基因组比对,并在湿地松基因组上扩增成功,再次证明松属植物基因序列的高保守性,火炬松全基因序列的公开给其他研究相对滞后的松树提供了极为有利的条件。
对于基因的同源克隆来说,最常用的方法是利用植物特定时空的材料提取RNA,反转录成cDNA,然后用同源引物(有时需设计简并引物)扩增得到同源的cDNA序列。本研究直接在火炬松基因组上设计巣式引物,直接用于湿地松的基因组,并获得成功。生物信息学上的验证思路类似于人类基因组的未知基因的发掘[20],对拼接结果进行内含子分析,去除内含子翻译成氨基酸序列,进行一级、二级、三级结构的预测,通过同源建模找到功能结构域,预测其蛋白质功能。结果证明所克隆的基因正是目的基因,这种方法只需提取基因组DNA,大大简化了克隆的过程。
[1]Lange BM,Ghassemian M.Genome organization in Arabidopsis thaliana:A survey for genes involved in isoprenoid and chloro-phyllmetabolism[J].Plant Mol Biol,2003,58,925-948.
[2]Keeling C I,Bohlmann J.Genes,enzymes and chemicals of terpenoid diversity in the constitutive and induced defence of conifers against insects and pathogens[J].New Phytol,2006,170:657-675.
[3]Byun-McKay A,Godard K A,Toudefallah M,et al.Wound-induced terpene synthase gene expression in Sitka spruce that exhibit resistance or susceptibility to attack by the White pine weevil[J].Plant Physiol,2006,140:1009-1021.
[4]潘志刚,游应天.湿地松、火炬松、加勒比松引种栽培[M].北京:北京科学技术出版社,1991:79-92.
[5]庄伟瑛,张玉英,邹元熹.高产脂湿地松选择和相关因子的分析[J].江西农业大学学报,2007,29(1):55-65.
[6]李彦杰,姜景民,栾启福.湿地松家系产脂力、树脂密度和松节油含量的测定与遗传分析[J].北京林业大学学报,2012,34(4):48-51.
[7]Hall D E,Yuen M M,Jancsik S,et al.Transcriptome resources and functional characterization ofmonoterpene synthases for two host species of themountain pine beetle,lodgepole pine(Pinus contorta)and jack pine(Pinus banksiana)[J].BMC Plant Biol,2013,13(80):1-14.
[8]李义良,赵奋成,张应中,等.适用于微卫星标记的湿地松、加勒比松DNA快速提取法[J].生物技术通报,2010(1):83-86.
[9]Bohlmann JR,Martin D,Oldham N J,et al.Terpenoid secondarymetabolism in Arabidopsis thaliana:cDNA cloning,characterization,and functional expression of a Myrcene/(E)-B-Ocimene synthase[J].Arch Biochem Biophys,2000,375(2):261-269.
[10]Christopher IK,SabrinaW,Steven GR,etal.Transcriptomemining,functional characterization,and phylogeny of a large terpene synthase gene family in spruce(Picea spp.)[J].Plant Biology,2011,11:43-57.
[11]Dawn EH,Macaire M S,Sharon J,etal.Transcriptome resources and functional characterization ofmonoterpene synthases for two host species of themountain pine beetle,lodgepole pine(Pinus contorta)and jack pine(Pinus banksiana)[J].Plant Biology 2013,13:80-94.
[12]岳跃冲,范燕萍.植物萜类合成酶及其代谢调控的研究进展[J].园艺学报,2011,38(2):379-388.
[13]Degenhardt J,Kollner TG,Gershenzon J.Monoterpene and sesquiterpene synthases and the origin of terpene skeletal diversity in plants[J].Phytochemistry,2009,70(15-16):1621-1637.
[14]Pierotti A R,Prat A,Chesneau V,et al.N-Arginine dibasic convertase,ametalloendopeptidase as a prototype of a class of processing enzymes.[J].Proc Natl Acad,1994,91:6078-6082.
[15]Christopher I.Keeling,Jörg Bohlmann.Diterpene resin acids in conifers[J].Phytochemistry,2006,67:2415-2423.
[16]Brown G R,Kadel EE,BassoniD L,etal.Anchored reference loci in loblolly pine(Pinus taeda L.)for integrating pine genomics[J].Genetics,2001,159(2):799-809.
[17]ChagnéD,Brown G,Lalanne C,etal.Comparative genome and QTLmapping betweenmaritime and loblolly pines[J].Molecular Breeding,2003,12(3):185-195.
[18]Komulainen P,Brown G R,Mikkonen M,et al.Comparing EST-based genetic maps between Pinus sylvestris and Pinus taeda[J].Theoretical and Applied Genetics,2003,107(4):667-678.
[19]Krutovsky K V,Troggio M,Brown G R,et al.Comparativemapping in the Pinaceae[J].Genetics,2004,168(1):447-461.
[20]马大龙.我国人类功能基因研究策略探讨[J].中华医学杂志,2004,84(18):1497-1498.