APP下载

谷子类甜蛋白基因家族的鉴定与密码子偏性分析

2018-01-31韩利红王海波唐利洲

西北农业学报 2018年1期
关键词:偏性密码子谷子

刘 潮,韩利红,王海波,唐利洲

(曲靖师范学院 云南高原生物资源保护与利用研究中心,生物资源与食品工程学院,云南省高校云贵高原动植物多样性及生态适应性进化重点实验室,云南曲靖 655011)

病程相关蛋白(Pathogenesis related protein,PR)是植物受病原物侵染或非生物因子刺激后产生的一类水溶性蛋白。目前,发现至少17个PR家族[1]。类甜蛋白(Thaumatin like protein,TLP)属于PR5家族,因与热带植物西非竹竽(ThaumatococcusdanielliBenth.)果实中分离到的甜蛋白(Thaumatin)氨基酸序列有很高的同源性而得名,广泛分布于多种植物、动物及微生物中[2-3]。典型的TLP由16个半胱氨酸残基对形成8个二硫键,不仅稳定了分子结构,也保证蛋白的正确折叠,能够抵抗热变性、酸、碱和蛋白酶降解作用[4-5]。大多数TLP均具有索玛甜家族标签和5个保守的氨基酸残基[6],后者参与蛋白维持适当的拓扑结构和酸裂周围的表面静电势,对TLPs抗真菌活性必不可少[7]。TLP家族蛋白进化分析发现,动物TLP单独分在一支,并以单一祖先序列的形式来自于植物[3],陆生植物进化过程中TLP基因含量和多样性显著增加[8],而水稻和拟南芥TLP分布于多个支系,并存在染色体内和染色体间的复制[3]。单子叶和双子叶植物进化上发生分离后,TLP基因在进化枝上发生不对称的增加[3]。Liu等[9]认为TLP基因来自于大约10亿年前的植物、动物和真菌的共同祖先。在有些植物中,同一染色体上甚至同一位点存在TLP基因簇,说明串联重复是TLP超家族不对称扩张的重要机制[9]。研究表明,TLP具有抗真菌活性[10-11]、葡聚糖酶活性[12]、致敏原活性[13]等,在植物的生长发育和抵御胁迫过程中发挥作用。

密码子具有简并性,在物种的稳定上起着重要的作用。同义密码子在不同物种不同基因间的使用频率不同,特定物种或基因家族在长期进化中形成了适应自身基因组环境的密码子使用偏性。研究表明,同义密码子的选择使用对基因的表达起着重要的调节作用,有利于翻译的准确性和效率[14]。密码子偏性分析有助于预测基因的表达水平[15]、基因功能分析[16]、选择基因异源表达最适宿主和优化密码子以提高异源表达水平等[17]。

谷子(Setariaitalica)为禾本科粮食作物,富含蛋白质、脂肪和维生素,广泛栽培于欧亚大陆的温带和热带地区,其主产区多为干旱少雨地区[18],中国主要集中在黄河中上游地区,是北方地区的主要粮食之一。栽培过程中,谷瘟病、干旱等生物和非生物胁迫是谷子高产的严重障碍,抗病和抗胁迫相关基因的研究将为谷子品种的选育提供借鉴。目前,谷子全基因组数据已公布[18],这为基因功能和进化研究提供了条件。本试验从蛋白氨基酸和基因的碱基组成出发,对谷子TLP家族蛋白聚类关系、基因选择性、编码序列(Coding sequence,CDS)密码子的组成及使用偏性进行分析,旨在阐明TLP家族基因特征,为进一步利用TLP家族基因培育优良谷子品种奠定基础。

1 材料与方法

1.1 谷子TLP基因的鉴定与分析

以拟南芥TLP序列为探针,搜索谷子基因组数据库(http:∥www.plantgdb.org/SiGDB/)和GenBank谷子蛋白数据库,候选蛋白序列在SMART数据库(http:∥smart.embl-heidelberg.de/)中对蛋白功能域进行确认。所有蛋白序列生理生化特征通过Expasy(http:∥www.expasy.org/tools/)预测。

1.2 基因结构分析

谷子TLP对应的基因序列和CDS序列从GenBank数据库中下载。使用基因结构显示系统(http:∥gsds.cbi.pku.edu.cn/index.php)绘制基因结构示意图。

1.3 蛋白基因本体和聚类分析

利用基因本体(Gene ontology)数据库(http:∥amigo1.geneontology.org/cgi-bin/amigo/blast.cgi)查询TLP功能分类。利用WEGO在线软件(http:∥wego.genomics.org.cn/)对蛋白Gene ontology(GO)富集度进行计算。应用MEGA 5.0软件,采用邻接法(Neighbor-Joining,NJ)构建系统发育树。NJ进化树分析步长值为1 000,采用泊松校验(Poisson correction)的方法计算距离,其余参数取默认值。

1.4 启动子特征分析

通过GenBank数据库获取谷子TLP基因转录起始位点上游1 kb序列,通过PlantCARE(http:∥bioinformatics.psb.ugent.be/webtools/plantcare/html/)数据库进行基因启动子区顺式作用元件分析。

1.5 密码子偏性分析

使用软件CodonW对谷子TLP基因CDS序列密码子使用性参数进行分析。参数包括:密码子适应指数(Codon adaptation index,CAI)、有效密码子数(Effective number of codons,ENC)、密码子的第3位的G+C含量(GC3s)。以GC3s为横坐标,ENC为纵坐标,绘制ENC与GC3s的关联分布图[19]。图中曲线为密码子偏性仅受碱基突变影响时的ENC预期值的位置,计算公式为:ENC=2+GC3s+29/[GC3s2+(1-GC3s)2]。使用EMBOSS explorer网站(http:∥emboss.toulouse.inra.fr/)在线软件对同义密码子相对使用度(Relative synonymous codon usage,RSCU)进行分析。根据ENC偏性对最优密码子(Optimal codon)进行分析,选择ENC值前后各10%作为低表达和高表达基因,分别计算2组基因中TLP基因密码子的RSCU。当△RSCU>0.3,且在高表达组中RSCU>1,在低表达组中RSCU<1,可确定该密码子为最优密码子[20]。

2 结果与分析

2.1 谷子TLP基因家族的鉴定

以拟南芥TLP序列为探针,从谷子基因组数据库中共搜索并鉴定到43个TLP家族成员(表1)。通过SMART在线数据库对谷子TLP进行结构分析发现,均含有典型索玛甜(Thaumatin,THN)结构域。谷子TLP基因在所有9条染色体上均有分布,其中Ⅸ和Ⅲ号染色体上基因成员较多(基因数均为9),其次为Ⅱ、Ⅰ和Ⅴ号染色体(基因数分别为7、5和5),Ⅳ、Ⅵ、Ⅶ和Ⅷ号染色体较少(基因数分别为2、3、1和2)。生理生化分析显示,蛋白氨基酸数为160~666,其中氨基酸数较多的Si003953m和Si004228m均含有蛋白激酶功能域,可能在蛋白的磷酸化过程中发挥作用。蛋白等电点为4.42~9.17,其中酸性蛋白占76.7%。疏水性与蛋白结构域形成和高级结构的稳定性有重要关系,谷子TLP中疏水性蛋白占60.5%,具有较强亲水和疏水活性的蛋白均为酸性蛋白。

表1 谷子中TLP家族信息Table 1 Information of TLP family in foxtail millet

2.2 基因和蛋白结构及聚类分析

通过基因结构显示系统对谷子TLP基因结构、内含子组成与相位进行分析(图1)。43个谷子TLP基因分为3种结构类型,其中含有1、2和3个外显子的基因数目分别为16、12和15个。1-2型内含子相位类型的基因数目最多(14个),其次为1型和2型相位类型(均为5个),同一聚类组中的多数基因外显子数和内含子相位类型一致(图1)。

参考拟南芥和水稻等的研究[3,21]对谷子TLP家族进行聚类分析。谷子TLP家族归为12个聚类组,各聚类组中基因数不一致,聚类组5和6中基因数较多(分别为12和11),其他聚类组中基因数相对较少(图1)。聚类组5中的基因Si023305m、Si023379m、Si024779m、Si023433m均来自Ⅲ号染色体,基因Si037366m、Si039423m来自Ⅸ号染色体并且均只有1个外显子,聚类组6中的基因Si017836m、Si017932m、Si017852m、Si019513m、Si020024m均位于Ⅰ号染色体,并且其位置临近,内含子相位均为1-2型。

TLP进化组编号参考Shatters等[3],Zhao等[21]Evolution group numbers according to the results of the evolutionary analysis Shatters,etal.[3],Zhao,etal[21]

图1谷子TLP家族进化及基因结构
Fig.1EvolutionandgenestructureofTLPfamilyinfoxtailmillet

2.3 蛋白GO功能分析

分析TLP的GO组成和功能分类,对了解其在植物生命进程中的功能具有重要意义。在43条谷子TLPs中,发现12条不同的GO注释子条目(图2)。4类为细胞结构组分,其中参与细胞(cell,GO:0005623)和细胞组分(cell part,GO:0044464)结构组成的均占58.1%,参与胞外区作用的(extracellular region,GO:0005576)占86.0%,参与共质体构成的(symplast,GO:0055044)占16.3%。3类在分子功能中起作用,具有结合功能(binding,GO:0005488)和催化活性(catalytic activity,GO:0003824)的蛋白均占4.7%,分子转导活性(molecular transducer activity,GO:0060089)的蛋白占2.3%。5类参与了生物学过程,其中参与胞内进程(cellular process,GO:0009987)和代谢进程(metabolic process,GO:0008152)的只占4.7%,参与多器官进程(multi-organism process,GO:0051704)和响应应激(response to stimulus,GO:0050896)的均占88.4%,参与免疫系统进程(immune system process,GO:0002376)的占20.9%。

图2 谷子TLP蛋白GO功能分类Fig.2 GO classification of TLP in foxtail millet

2.4 启动子特征

通过PLACE数据库对谷子TLP基因上游1 kb启动子区顺式作用元件进行分析(表2),发现所有基因启动子区均含有多个TATA-box和CAAT-box,部分基因含有Py-rich;所有基因启动子区均含有1个到多个激素响应元件,包括脱落酸响应元件ABRE,茉莉酸响应元件CGTCA-motif,赤霉素响应元件GARE-motif和P-box,水杨酸响应元件TCA-element等;每个基因启动子区均含有多个胁迫响应元件,包括热激响应元件HSE,低温反应顺式作用元件LTR,干旱响应MYB结合位点MBS,防御和胁迫相关响应元件TC-rich,受伤和真菌激发子响应元件W-box。基因含有的激素或胁迫响应元件数量和类型不同,可能是不同的基因在不同的信号通路中发挥作用,也说明该家族基因功能的多样性和复杂性。

2.5 密码子使用偏性

利用CodonW软件和EMBOSS explorer数据库对基因密码子使用偏性进行分析(表3),发现谷子TLP基因的CAI值平均为0.282,60.5%的基因ENC值为28.12~35.00,ENC值反映基因编码对密码子选择性强弱,一般ENC值低于35表示基因表达对密码子的使用偏性较强。93.0%的基因GC3s为0.834~0.973,分布较集中,GC3s分布反映了植物所受的选择压力,GC3s分布范围越小,表明密码子使用偏性受自然选择压力影响越大[22]。以上结果表明,谷子TLP家族基因密码子使用偏性较强,多数基因具有较高的表达潜力,基因在进化过程中主要受到自然选择压力影响。

ENC与GC3s关联分析显示,谷子TLP基因分布在标准曲线下方,多数ENC较小,ENC和GC3s分布相对集中(图3),说明不同的基因密码子偏性较强,多数基因进化过程中主要受到自然选择压力影响。

谷子TLP基因密码子RSCU分析显示(表4),RSCU>1的密码子均以G或C结尾,发现10个最优密码子,△RSCU>1的分别为编码丙氨酸(Ala,GCG)、谷氨酸(Glu,GAG)、异亮氨酸(Leu,CTG)、脯胺酸(Pro,CCG)、精氨酸(Arg,CGC)、苏氨酸(Thr,ACG)(表4),表明谷子TLP家族基因偏好使用G或C结尾的密码子。

表2 谷子TLP基因启动子区顺式作用元件信息Table 2 Information about putative cis-acting elements in the 1 kb upstream promoter region of TLP genes in foxtail millet

注:TATA-box转录起始区-30 bp核心启动子元件; Py-rich高转录水平相关顺式作用元件;CAAT-box启动增强元件;ABRE脱落酸响应元件;CGTCA-motif茉莉酸响应元件;GARE-motif赤霉素响应元件;P-box赤霉素响应元件;TCA-element水杨酸响应元件;HSE热激响应元件;LTR参与低温反应的顺式作用元件;MBS干旱响应MYB结合位点;TC-rich防御和胁迫相关响应元件;W-box受伤和真菌激发子响应元件。

Note:TATA-box core promoter element around -30 of transcription start;Py-rich cis-acting element conferring high transcription levels;CAAT-box common cis-acting element in promoter and enhancer regions;ABRE cis-acting element involved in the abscisic acid responsiveness;CGTCA-motif cis-acting regulatory element involved in the MeJA-responsiveness;GARE-motif gibberellin-responsive element;P-box gibberellin-responsive element;TCA-element cis-acting element involved in salicylic acid responsiveness;HSE cis-acting element involved in heat stress responsiveness;LTR cis-acting element involved in low-temperature responsiveness;MBS MYB binding site involved in drought-inducibility;TC-rich cis-acting element involved in defense and stress responsiveness;W-box fungal elicitor responsive element.

表3 谷子TLP家族基因密码子使用特性Table 3 Characterization of codon usage of TLP genes in foxtail millet

图3 谷子TLP家族基因ENC与GC3s的关系Fig.3 Correlative analysis of ENC and GC3s of TLP genes in foxtail millet

3 讨 论

谷子是目前种植第二广泛的粟类作物,属于典型的C4植物,比C3植物具有更高的水分利用效率和光合效率,特别能适应干旱环境条件,是非生物胁迫抗性,特别是抗旱研究的模式植物[23]。Zhang等[18]研究发现,谷子在进化过程中发生了3次染色体重组事件,其中2次发生在谷子从水稻分化之后,1次发生在谷子从高粱分化之后。这些事件导致部分基因家族大量扩张,并为谷子具有强的抗旱能力奠定了基础。TLP属于多基因家族,不同物种基因组中TLP数量有很大差异,胡萝卜(Daucuscarota)、黄瓜(Cucumissativus)等蔬菜中大约30个,水稻(Oryzasativa)、高粱(Sorghumbicolor)等作物中50~60个,火炬松(Pinustaeda)中大于80个[24]。研究表明,植物TLP家族蛋白在植物的生长发育和抵御胁迫过程中发挥作用[6-7]。

本研究通过生物信息学方法从谷子基因组中共发现43个TLP基因,多数为酸性蛋白。有3种基因结构类型,其中仅有1个外显子的基因有16个,1-2型内含子相位的基因有14个,主要来自聚类组5和6中。这些基因多数位于同一染色体上,说明这些基因可能来源于同一祖先基因,是染色体内和染色体间复制的结果。蛋白GO分类分析显示86.0%的蛋白参与胞外作用,88.4%的蛋白参与多器官发育进程和响应应激反应,说明该家族蛋白在信号肽的引导下在胞外空间参与器官发育和应对胁迫等进程,在植物的生长发育和抵御环境胁迫过程中发挥重要作用。启动子是基因表达调控的重要元件,通过分析和预测启动子区顺式作用元件可以为基因表达和功能研究奠定基础。谷子TLP家族启动子区富含植物激素和病原响应元件,表明这些基因参与植物多种生命进程。

表4 谷子TLP基因同义密码子使用情况Table 4 Usage of synonymous codon of TLP genes in foxtail millet

注:最优密码子标注如下*.△RSCU>0.3;** △RSCU>0.6;*** △RSCU>1。

Note:Optimal codon marked as * △RSCU>0.3;** △RSCU>0.6;*** △RSCU>1.

在进化过程中,植物基因组密码子偏性主要受碱基突变和自然选择压力的影响,不同物种以及同一物种的不同基因受到的两种压力强度也不同。密码子偏性与物种进化和生存环境有关,密码子偏性越强,基因在进化过程中受到的选择压力越强。谷子TLP家族多数基因ENC低于35,GC3s分布集中,表明基因密码子偏性强,基因具有较高的表达潜力,进化过程中主要受自然选择压力影响。单子叶植物植物偏好G或C结尾的密码子[25]。基因RSCU>1的密码子均为G或C结尾,10个最优密码子,其中7个以G结尾,3个以C结尾,表明谷子偏好使用G或C结尾的密码子,与玉米[25]、水稻和高粱[26]等密码子使用偏性一致。物种受到正向选择时会形成大量最优密码子[27],进一步说明谷子TLP基因在进化过程中受到较强的正向选择。进行基因工程操作时,基因表达往往受到宿主密码子偏性影响,通过修改外源基因密码子,使之与宿主密码子偏性一致,可实现外源基因的高效表达[17,28]。本研究为谷子TLP基因的开发利用和转基因研究提供了借鉴。

Reference:

[1] VAN LOON L C,REP M,PIETERSE C M.Significance of inducible defense-related proteins in infected plants[J].AnnualReviewofPhytopathology,2006,44:135-162.

[2] ABAD L R,D'URZO M P,LIU D,etal.Antifungal activity of tobacco osmotin has specificity and involves plasma membrane permeabilization[J].PlantScience,1996,118(1):11-23.

[3] SHATTERS RG,BOYKIN L M,LAPOINTE S L,etal.Phylogenetic and structural relationships of thePR5 gene family reveal an ancient multigene family conserved in plants and select animal taxa[J].JournalofMolecularEvolution,2006,63(1):12-29.

[4] SMOLE U,BUBLIN M,RADAUER C,etal.Mal d 2,the thaumatin-like allergen from apple,is highly resistant to gastrointestinal digestion and thermal processing[J].InternationalArchivesofAllergyandImmunology,2008,147(4):289-298.

[5] FIERENS E,ROMBOUTS S,GEBRUERS K,etal.TLXI,a novel type of xylanase inhibitor from wheat (Triticumaestivum) belonging to the thaumatin family[J].BiochemicalJournal,2007,403(3):583-591.

[6] JAMI S K, ANURADHA T S,GURUPRASAD L,etal.Molecular,biochemical and structural characterization of os-motin-like protein from black nightshade (Solanumnigrum)[J].JournalofPlantPhysiology,2007,164(3),238-252.

[7] LIU D,HE X,LI W,etal.Molecular cloning of a thaumatin-like protein gene fromPyruspyrifoliaand overexpression of this gene in tobacco increased resistance to pathogenic fungi[J].PlantCell,TissueandOrganCulture(PCTOC),2012,111(1):29-39.

[8] PETRE B,MAJOR I,ROUHIER N,etal.Genome-wide analysis of eukaryote thaumatin-like proteins (PR5s) with an emphasis on poplar[J].PlantBiology,2011,11(1):33.

[9] LIU J J,STURROCK R,EKRAMODDOULLAH A K M.The superfamily of thaumatin-like proteins:its origin,evolution,and expression towards biological function[J].PlantCellReports,2010,29(5):419-436.

[10] RAMOS M V,DE OLIVEIRA R S B,PEREIRA H M,etal.Crystal structure of an antifungal osmotin-like protein fromCalotropisproceraand its effects onFusariumsolanispores,as revealed by atomic force microscopy:insights into the mechanism of action[J].Phytochemistry,2015,119:5-18.

[11] LIU C,CHENG F,SUN Y,etal.Structure-function relationship of a novel PR-5 protein with antimicrobial activity from soy hulls[J].JournalofAgriculturalandFoodChemistry,2016,64(4):948-959.

[12] VAN DAMME E J,CHARELS D,MENU-BOUAOU ICHE L,etal.Biochemical,molecular and structural analysis of multiple thaumatin-like proteins from the elderberry tree (SambucusnigraL.)[J].Planta,2002,214(6):853-862.

[13] BREITENEDER H.Thaumatin-like proteins-a new family of pollen and fruit allergens[J].Allergy,2004,59(5):479-481.

[14] CARLINI D B,CHEN Y,STEPHAN W.The relationship between third-codon position nucleotide content,codon bias,mRNA secondary structure and gene expression in the drosophilid alcohol dehydrogenase genes Adh and Adhr[J].Genetics,2001,159(2):623-633.

[15] PEK H B,KLEMENT M,ANG K S,etal.Exploring codon context bias for synthetic gene design of a thermostable invertase inEscherichiacoli[J].EnzymeandMicrobialTechnology,2015,75:57-63.

[16] PAN L L,WANG Y,HU J H,etal.Analysis of codon use features of stearoyl-acyl carrier protein desaturase gene inCamelliasinensis[J].JournalofTheoreticalBiology,2013,334:80-86.

[17] ZHOU M,WANG T,FU J,etal.Nonoptimal codon usage influences protein structure in intrinsically disordered regions[J].MolecularMicrobiology,2015,97(5):974-987.

[18] ZHANG G,LIU X,QUAN Z,etal.Genome sequence of foxtail millet (Setariaitalica) provides insights into grass evolution and biofuel potential[J].NatureBiotechnology,2012,30(6):549-554.

[19] WRIGHT F.The ‘effective number of codons’ used in a gene[J].Gene,1990,87(1):23-29.

[20] DURET L,MOUCHIROUD D.Expression pattern and,surprisingly,gene length shape codon usage inCaenorhabditis,Drosophila, andArabidopsis[J].ProceedingsoftheNationalAcademyofSciences,1999,96(8):4482-4487.

[21] ZHAO J P,SU X H.Patterns of molecular evolution and predicted function in thaumatin-like proteins ofPopulustrichocarpa[J].Planta,2010,232(4):949-962.

[22] KAWABE A,MIYASHITA N T.Patterns of codon usage bias in three dicot and four monocot plant species[J].Genes&GeneticSystems,2003,78(5):343-352.

[23] LI P,BRUTNELL T P.Setaria viridis andSetariaitalica,model genetic systems for the Panicoid grasses[J].JournalofExperimentalBotany,2011,62(9),3031-3037.

[24] 刘 潮,韩利红,王海波,等.胡萝卜类甜蛋白家族鉴定与生物信息学分析[J].中国蔬菜,2017(2):38-44.

LIU CH,HAN L H,WANG H B,etal.Identification and bioinformatics analysis of thaumatin-like protein family inDaucuscarota[J].ChinaVegetables,2017(2):38-44.

[25] LIU H,HE R,ZHANG H,etal.Analysis of synonymous codon usage inZeamays[J].MolecularBiologyReports,2010,37(2):677.

[26] TATARINOVA T V,ALEXANDROV N N,BOUCK J B,etal.GC 3 biology in corn,rice,sorghum and other grasses[J].BMCGenomics,2010,11(1):308.

[27] HERSHBERG R,PETROV D A.Selection on codon bias[J].AnnualReviewofGenetics,2008,42:287-299.

[28] ZELASKO S,PALARIA A,DAS A.Optimizations to achieve high-level expression of cytochrome P450 proteins usingEscherichiacoliexpression systems[J].ProteinExpressionandPurification,2013,92(1):77-87.

猜你喜欢

偏性密码子谷子
银杏叶绿体基因组密码子使用偏性分析
打谷子
密码子与反密码子的本质与拓展
新型密码子、反密码子、氨基酸对应盘
云南新现蝙蝠SARS样冠状病毒密码子偏性及其聚类分析
10种藏药材ccmFN基因片段密码子偏好性分析
晒谷子(外一首)
看待中药毒性 厘清三大误区
II/III期无缝设计二分类变量效应的估计*
烟草叶绿体密码子的偏好性及聚类分析