玉米Cel基因家族的鉴定和生物信息学分析
2019-01-25王丽珊
王丽珊
玉米基因家族的鉴定和生物信息学分析
王丽珊
(闽西职业技术学院 医学护理学院,福建 龙岩 364021)
旨在为今后研究单子叶植物基因家族进化和功能奠定基础。运用生物信息学方法从玉米基因组数据中鉴定出27个基因,分析其系统进化、基因结构和蛋白质结构。结果表明,27个属于糖苷水解酶家族9,分为3个亚家族(GH9A、GH9B、GH9C),GH9B是进化的祖先。均有保守GH9催化结构域,GH9A有跨膜结构域和胞质结构域,GH9B有信号肽,GH9C有跨膜结构域、纤维素结合结构域和信号肽;为两性稳定蛋白,二级结构主要是无规则卷曲和α-螺旋。亚细胞定位于细胞膜或细胞壁,大部分是分泌蛋白,有1个跨膜螺旋。
玉米;纤维素酶基因;GH9家族;生物信息学
玉米是世界重要的饲料和工业原料,是中国第二大粮食作物。玉米秸秆又是全球数量最多的木质纤维素生物质原料之一。纤维素的酶解是将生物质原料转化为乙醇的一条高效的、无污染的关键途径。植物合成的纤维素酶(),也称为内切-1,4-β-葡聚糖酶(endo-1,4-β-D-glucanases,EGases,EC 3.2.1.4),属于糖苷水解酶家族9(glycoside hydrolase family 9,GH9),在纤维素的合成和分解过程中具有重要作用。研究玉米纤维素酶对世界粮食短缺、秸秆资源开发、环境污染等问题具有重要意义。
目前,已报道多种植物基因的研究,但对单子叶植物玉米基因家族的生物信息学分析报道较少。本研究在玉米基因组测序已经完成的基础上,利用生物信息学的方法,对玉米基因家族的系统发育进化、基因结构、蛋白质的一级结构、二级结构、跨膜结构、信号肽(signal peptide,SP)、亚细胞定位、结构域、保守基序和三级结构进行预测和分析,为将来深入探究单子叶植物酶解秸秆资源的途径和基因家族多样性的功能奠定一些理论基础。
1 材料与方法
1.1 材料
本研究玉米、拟南芥和水稻基因家族成员的核苷酸序列和编码的氨基酸序列等数据来源于植物信息资源网Phytozome、拟南芥数据库TAIR、水稻数据库RAP、碳水化合物活性酶数据库CAZY、美国国立生物信息中心NCBI。
1.2 方法
1.2.1玉米基因家族成员的鉴定和基因结构分析
首先以“纤维素酶”或“内切-1,4-β-葡聚糖酶”为关键词,物种选择玉米(18),在Phytozome上搜索;其次,以水稻氨基酸序列为检索序列,利用BLAST进行同源搜索,获得核苷酸序列和编码的氨基酸序列。去除氨基酸同源性小于35%、氨基酸个数少于50、重复的序列。利用在线分析系统SMART、Pfam、CDD预测获得的氨基酸序列的结构域,具有GH9家族催化结构域(catalytic domain, CD)的氨基酸序列则属于。利用在线基因结构显示系统GSDS 2.0预测和分析玉米基因家族成员的染色体位置、内含子和外显子数量、基因结构。
1.2.2玉米基因家族成员系统进化树构建和分类
利用软件BioEdit、Clustal W和MEGA7.0,运用邻接法(NJ method),校验参数为Bootstrap 1 000次重复,其它参数为默认值,对玉米、水稻和拟南芥基因家族成员的氨基酸序列进行多重比对,聚类分析,构建系统发育进化树。利用在线分析系统SMART、Pfam、CDD等预测和分析玉米基因家族成员的蛋白质序列的保守功能域,再与水稻同源比对后进行分类和命名。
1.2.3玉米基因家族成员蛋白质的一级、二级和三级结构特性分析
利用在线分析系统Protscale、Protparam预测和分析玉米基因家族成员的蛋白质的理化性质(氨基酸个数、蛋白质分子量、理论等电点(PI)、蛋白质稳定性、亲/疏水性等)。利用在线分析系统Sopma预测和分析玉米基因家族成员的蛋白质的二级结构,如α-螺旋、β-转角、延伸链(反向平行的β-折叠片)和无规则卷曲等。利用在线分析系统Swiss-Model对玉米基因家族成员的蛋白质进行同源建模。模板选择与目标序列相似度大于30%的序列。再利用Swiss-PdbViever分析建模的结果,构建拉氏图,图中二面角位于允许区和最大允许区的比例大于90%,表明建模的结果是合理的。
1.2.4玉米基因家族成员蛋白质的跨膜结构、信号肽及亚细胞定位分析
利用在线分析系统TMHMM、Signalp、Plant-PLo预测和分析玉米基因家族成员的蛋白质的SP、跨膜结构及亚细胞定位。
1.2.5玉米基因家族成员蛋白质的结构域、保守基序和多序列比对分析
利用在线分析系统SMART、Pfam、CDD、Prosite预测和分析玉米基因家族成员的蛋白质的保守结构域。利用在线分析系统MEME预测和分析玉米基因家族成员的蛋白质的保守基序。设置最大基序检索值为25。利用Clustal W对玉米基因家族成员的氨基酸序列比对分析。
2 结果与分析
2.1 玉米Cel基因家族成员的鉴定和分类
从玉米全基因组数据中鉴定出27个基因家族成员。Urbanowicz依据结构域的不同,将GH9家族分为3个亚家族:GH9A、GH9B、GH9C[1]。GH9A成员的蛋白质C端具有CD,N端具有胞质结构域(cytosolic domain,CT)和跨膜结构域(transmembrane domain,TM);GH9B成员的蛋白质C端具有CD,N端具有SP;GH9C成员的蛋白质C端具有纤维素结合结构域(Carbohydrate binding module,CBM)和连接肽,N端具有SP和CD。参照此分类方法,对玉米基因家族成员进行分类和命名(表1)。玉米GH9A有5个成员,GH9B有19个成员,GH9C有3个成员。
2.2 玉米Cel基因家族成员的系统进化树和基因结构分析
系统进化树(图1)分析显示,单子叶植物和双子叶植物相互交叉,没有单独聚类形成分支,玉米与水稻常聚成一支,3个亚家族没有显著地分为3大支。GH9B既能与GH9A聚成一支,又能与GH9C聚成一支。基因家族成员中出现许多的旁系同源蛋白,其中GH9B的旁系同源蛋白数量明显最多。
基因结构(表1和图2)分析显示,27个基因在染色体上分布不均匀。第5号染色体上分布最多(10个)。基因长度在1.5~13.0 kb,基因转录产物长度在0.6~3.0 kb,编码基因长度在0.5~2.9 kb,编码的肽链长度约为166~956个氨基酸。基因结构差异较大,具有多样性特征。除93没有内含子和916有9个内含子外,大部分含有2~5个内含子(85%)。GH9A和GH9C成员的内含子数量多于GH9B成员。GH9A成员中,除94和95外,其余基因结构相似,推测94和95发生了内含子丢失[2,3]。GH9B成员基因结构具有显著的多样性。GH9C中,除93外,其余基因结构相似,推测93发生了内含子丢失。
表1 玉米纤维素酶基因家族成员信息
(注:GH9:糖苷水解酶9家族催化结构域;TM: 跨膜结构域;CT: 胞质结构域;CBM: 纤维素结合结构域;)
2.3 玉米Cel基因家族成员蛋白质一级和二级结构分析
蛋白质结构(表1)分析显示,Cel蛋白质分子量在20.2~76.6 kDa之间。PI大小不等,最高为9.33(92),最低为5.17(913)。根据不稳定系数大于40为不稳定蛋白,除91、93、915,3个成员为不稳定蛋白,其余均为稳定蛋白(89%)。根据亲水性指数介于-0.5~0.5为两性蛋白的原则,Cel蛋白质均为两性蛋白。Cel蛋白质二级结构相似,主要结构元件是无规则卷曲和α-螺旋,特征为无规则卷曲>α-螺旋>延伸链>β-转角。
2.4 玉米Cel基因家族成员蛋白质跨膜结构、信号肽及亚细胞定位分析
蛋白质跨膜螺旋(transmembrane helix)、SP和亚细胞定位分析(表1)显示,GH9A和GH9C成员均具有1个跨膜螺旋(93除外);GH9B大部分成员不具有跨膜螺旋(58%)。GH9A成员均不具有SP;GH9B大部分成员具有SP(68%);GH9C成员均具有SP。15个Cel蛋白质亚细胞定位于细胞膜(56%);11个定位于细胞膜或细胞壁(41%);1个定位于细胞壁(3%)。
2.5 玉米Cel基因家族成员蛋白质的结构域、保守基序和多序列比对分析
蛋白质结构域(表1)分析显示,Cel蛋白质均含有CD,大部分成员在CD内有1个DAGD氨基酸模块(78%),其中918没有DAGD氨基酸模块,95为DGGD氨基酸模块,98、910为GAMD氨基酸模块,99为GAK氨基酸模块,91为DSGD氨基酸模块。GH9A成员蛋白质N端均不具有SP,但均有TM(位于72~96氨基酸残基片段上);C端有脯氨酸富集区域(最后16个氨基酸中有8-10个脯氨酸)。GH9B,只有少部分成员具有TM,且位置不一样。GH9C成员蛋白质N端均有SP和TM(位于2~35的氨基酸残基片段上,93除外);C端均有CBM。GH9家族具有2个催化活性位点特征(active sites signature)。其中91~2、4~5、1~2、95~8、910,11个成员同时有催化活性位点特征1和2(41%)。93、96-7、911~14、95、91,9个成员具有RGD氨基酸模块(33%),该模块与细胞附着有关[4,5]。
蛋白质保守基序分析(图3),共鉴定出25个保守基序(motif 1~25),这些保守基序组成模式具有多样性和复杂性的特征。其中最大基序长度为50个氨基酸,最小基序仅为8个氨基酸。motif 1~13、motif 15出现在多数基因成员中,且出现在CD内。GH9A成员具有特有基序motif14、motif17、motif18、motif21、motif22、motif24、motif25;GH9C成员具有特有基序motif23;GH9B具有显著多样性的组成模式。motif14、motif17、motif18、motif21、motif22、motif23、motif24、motif25属于稀少基序,呈现出不同亚家族特异性。
图1 玉米、拟南芥和水稻Cel基因家族的无根进化树
图3 玉米Cel基因家族保守模块预测
将结构域与保守基序结合,并利用SMART和Pfam进行功能注释分析发现:motif 2在微生物有发现,且较保守,一般第1个酪氨酸(tyrosine,Y)被色氨酸(tryptophan,W)取代,其中DAGD氨基酸模块可能与金属结合有关[6];motif 3和motif 11,只存在于植物的葡聚糖酶中,微生物中没有[6];motif 7在植物和微生物中均有[6];motif 1和motif 5分别是GH9家族两个催化活性位点所在区域,且相对保守;motif 4是RGD氨基酸模块所在区域;motif 14是脯氨酸富集区所在区域;motif 23是CBM所在区域;motif 18是CT所在区域;motif 17、motif 21、motif 22、motif 24、motif 25的功能有待进一步研究分析。
将保守结构域(DAGD模块、催化活性位点特征1和2、脯氨酸富集区域、CBM、CT)进行多序列比对(图4),发现序列相对保守区域与模块预测的相对位置基本一致。
2.5 玉米Cel基因家族成员蛋白质的三级结构特性分析
本研究挑选3个代表性氨基酸序列(91、91、92)进行同源建模(图5)。拉氏图显示,3个模型的二面角位于允许区和最大允许区比例均高于90%,说明建模空间构象合理。对余下成员进行建模,结果显示,三级结构非常相似,拉氏图二面角均大于90%。对比分析,α-螺旋和无规则卷曲是蛋白的主要结构。
图5 玉米3个Cel蛋白的三维结构模型和拉氏图
(注:白色:无规则卷曲;紫色:α-螺旋;绿色:延伸链;)
3 讨论
利用现有的玉米生物信息资源,鉴定出27个基因。从系统进化分析,单子叶和双子叶植物基因家族成员相互交叉,没有单独聚类,表明在单双子叶植物分化前,基因曾发生过大幅度扩张。玉米和水稻常聚为一支,表明玉米与水稻亲缘关系较近,基因进化关系密切。基因家族成员具有较多的旁系同源蛋白,表明在单双子叶植物分化后,基因家族众多成员获得了新功能,或出现假基因。3个亚家族没有显著地分为3大支,预测与糖苷水解酶结构域的保守性有关。GH9B能与GH9A和GH9C各聚成一支,表明在结构上GH9B与GH9A和GH9C具有相同点(CD, SP),与结构域特征相吻合。
从基因结构分析,玉米基因家族成员在染色体上的分布较散。基因内含子数量0~9个,基因结构差异大,表明基因具有明显的多样性特征,具有复杂的起源和进化历史。GH9A和GH9C成员的内含子数量多于GH9B,表明GH9A和GH9C在进化过程中插入不少内含子,使其功能更为特化,产生的时间较晚。由此推测,GH9B是GH9A或GH9C的祖先,GH9A或GH9C属于进化过程中较新的亚家族。GH9A和GH9C成员中,基因结构相似,表明在单子叶植物中GH9A和GH9C功能进化较保守。94和95是GH9A中较早出现的成员。93是GH9C成员中较早出现的成员。GH9B基因结构差异最大,具有显著的多样性特征。
从蛋白质结构分析,玉米蛋白质分子量相似,PI大小不等,均为两性蛋白,大部分成员为稳定蛋白质(74%),二级结构相似,主要结构元件是无规则卷曲和α-螺旋,特征为无规则卷曲>α-螺旋>延伸链>β-转角。GH9A和GH9C成员均具有1个跨膜螺旋,表明这两个亚家族成员,需经跨膜转运锚定于生物膜,发挥重要作用。GH9A均不具有信号肽,GH9C均具有信号肽,GH9B大部分成员具有信号肽(68%),表明GH9A成员均为非分泌蛋白,GH9C成员和大部分GH9B成员为分泌蛋白。亚细胞定位显示位于细胞膜或细胞壁,表明蛋白合成后,需要经过转运到达细胞膜或细胞壁发挥重要作用。
从蛋白质结构域和保守基序分析,玉米蛋白质的结构域与保守基序位置一致。蛋白质均具有CD。大部分Cel蛋白的CD内含有1个DAGD氨基酸模块(78%,motif 2)。大多数DAGD氨基酸模块较保守,少数发生变异,95为DGGD模块,98、910为GAMD模块,99为GAK模块,91为DSGD模块。这个位点上的基因突变是否对其功能造成的影响,有待进一步研究。GH9A成员蛋白质N端有TM和CT(motif 18),C端有脯氨酸富集区(motif 14)。脯氨酸富集区与微生物的连接肽结构相似,具有连接不同结构域的作用。GH9C成员蛋白质N端均有TM和SP,C端均有CBM(motif 23)。GH9B少部分成员蛋白质具有跨膜结构域,且位置不一样。基因家族部分成员蛋白质同时具有催化活性位点特征1和2(41%)。少部分成员具有RGD氨基酸模块(33%,motif 4),推测该成员的功能与细胞附着有关,有待进一步研究。
GH9A成员具有特有基序motif14、motif17、motif18、motif21、motif22、motif24、motif25;GH9C成员具有特有基序motif23;GH9B具有显著多样化的组成模式。motif14、motif17、motif18、motif21、motif22、motif23、motif24、motif25属于稀少基序,呈现出不同亚家族特异性。表明这些保守基序可能参与亚家族蛋白功能的形成,是决定亚家族功能的关键保守基序。
同源建模获得玉米蛋白质高级结构模型,拉氏图表明所建模型是合理的。蛋白的主要结构是无规则卷曲和α-螺旋。
[1] Urbanowicz B R, Bennett A B, Del Campillo E,et al. Structural organization and a standardized nomenclature for plant endo-1,4-beta-glucanases() of glycosyl hydrolase family 9 [J]. Plant Physiology, 2007,144(4):1693-1696.
[2] Lin H, Zhu W, Silva C J, et al. Intron gain and loss in segmentally duplicated genes in rice [J]. Genome Biol, 2006, 7:41-42.
[3] Roy S W, Penny D. Patterns of intron loss and gain in plants: Intron loss-dominated evolution and genomewide comparison of O.sativa and A.thaliana [J]. Mol Biol Evol, 2006, 24:171-181.
[4] D’Souza S, Ginsberg M H, Plow E F. Arginyl-glycyl-aspartic acid (RGD): a cell adhesion motif [J]. Trends Biochem Sci, 1991, 16:246-250.
[5] Ruoslahti E , Pierschbacher M D. Arg-Gly-Asp: A versatile cell recognition signal [J]. Cell, 1986, 44:517-518.
[6] Hayashi T, Yoshida K, Woo P, et al. Cellulose metabolism in plants[J]. International Review of Cytology, 2005, 247:8-20.
Identification and Bioinformatic Analysis ofGene Family in
WANG Li-shan
(Faculty of Nursing, MinXi Vocational and Technial College, Longyan, Fujian, 364000, China)
The article aims to lay the foundation for future studies about phylogenesis and physiological function of the cellulase gene family in monocotyledon. This article adopts bioinformatics methods to identity 27genes from the genome date ofand analyzed their phylogenesis, gene structure, protein structure. The results showed that those 27genes are members of Glycoside hydrolase family 9(GH9), which had been classified into three sub-families(GH9A, GH9B, GH9C). Among those three sub-families, the CH9B sub-family plays an ancestral role in the evolutionary history of GH9. Allgenes have conserved GH9 catalytic domain. Among them, the GH9A sub-family contains the transmembrane domain, and the cytosolic domain; the GH9B sub-family contains the signal peptide; the GH9C sub-family contains the transmembrane domain, the cellulose-binding domain, and the signal peptide. Cels are amphoteric and stable proteins, whose secondary structure are mainly random coil and α-helix and subcellular located in cytomembrane or cytoderm. Most Cels are the secretory protein with one transmembrane helix.
gene(); GH9 family; bioinformatics
2018-10-17
王丽珊(1990—),女,福建龙岩人,助教,硕士,研究方向:生物化学与分子生物学。
1673-1417(2018)04-0090-07
10.13908/j.cnki.issn1673-1417.2018.04.0018
S513
A