大豆FLAs蛋白理化性质和结构特征的生物信息学分析
2017-04-06吴小明
钟 静,吴小明,胡 颖
(1.湖北第二师范学院/植物抗癌活性物质提纯与应用湖北省重点实验室,湖北 武汉430205;2.武汉大学/杂交水稻国家重点实验室,湖北 武汉 430072)
大豆FLAs蛋白理化性质和结构特征的生物信息学分析
钟 静1,2,吴小明1,胡 颖2
(1.湖北第二师范学院/植物抗癌活性物质提纯与应用湖北省重点实验室,湖北 武汉430205;2.武汉大学/杂交水稻国家重点实验室,湖北 武汉 430072)
基于已公布的大豆基因组数据库,鉴定大豆类成束阿拉伯半乳糖蛋白(fasciclin-like arabinogalactan proteins,FLAs)基因,并对其基本理化性质、保守基序、功能域、系统发生树、蛋白质二级结构等进行综合分析。结果显示,从大豆基因组中共鉴定出33个FLAs,其编码的蛋白质氨基酸长度在237~455 aa,分子质量在25.483 0~50.578 5 ku,理论等电点在4.33~9.56。亚细胞定位分析显示,GmFLAs均定位在质膜上(其中GmFLA4/25也可定位在叶绿体中)。GmFLAs含有1~2个该家族的保守成束蛋白质结构域(fasciclin domains,FAS)。系统进化分析显示,大豆和拟南芥FLAs的同源性不高。GmFLAs二级结构均由α螺旋、无规则卷曲和延伸链等元件组成,其中,延伸链的比例最低,无规则卷曲比例最高。
大豆; 类成束阿拉伯半乳糖蛋白; 理化性质; 结构特征; 生物信息学分析
类成束阿拉伯半乳糖蛋白(Fasciclin-like arabinogalactan proteins,FLAs)家族是阿拉伯半乳糖蛋白(arabinogalactan proteins,AGPs)家族的一个亚类[1]。FLAs广泛分布在植物体中,并在植物生长发育的各阶段中起着重要作用[2]。例如,FLAs功能的缺失会影响植株侧根的发育、幼苗的生长,造成茎强度和弹性减弱,还能引起花粉败育从而严重影响植株种子形成[3-7]。因此,对作物中FLAs基因家族进行研究,对深入了解该基因家族成员的生物学功能以及促进作物生产等也具有重要意义。目前,对FLAs的研究目前主要集中在模式植物拟南芥中,其作用机制可能涉及细胞壁中纤维素的分布和沉积,进而影响植物细胞壁的形成[5-6]。从水稻、小麦等农作物中也分别鉴定出了33、34个FLAs[8-9],但对其研究并不深入。大豆是我国传统的粮食和油料作物,在人们的日常膳食结构中占有重要比重[10]。随着大豆全基因组测序的完成,对大豆基因的分子生物学研究越来越深入[11]。但是,对大豆FLAs基因家族的研究目前尚未见报道。鉴于此,采用生物信息学的方法对大豆基因组中FLAs基因家族成员进行全面鉴定,并对其蛋白质产物的基本理化性质、系统进化、结构域、亚细胞定位、二级结构等进行综合分析,旨在揭示大豆FLAs基因家族成员的结构和进化特点,为该家族成员的进一步功能研究提供理论依据。
1 材料和方法
1.1 大豆FLA蛋白序列的获取
分别从Pfam(http://pfam.sanger.ac.uk/)和Interpro(http://www.ebi.ac.uk/interpro/)数据库中下载大豆中含有FAS结构域的蛋白质序列[12-13]。将获得的序列提交到植物基因组数据库Phytozome(https://phytozome.jgi.doe.gov/pz/portal.html)中进行比对,获得目标蛋白质的全长序列[14]。从拟南芥官方网站TAIR(http://www.arabidopsis.org/)数据库中下载获得拟南芥FLAs基因和蛋白质序列数据。
1.2 大豆FLA蛋白信号肽预测
利用SignalP 4.0(http://www.cbs.dtu.dk/services/SignalP/)在线分析大豆FLAs蛋白信号肽[15]。
1.3 大豆FLA蛋白基本理化性质分析
利用ProtParam (http://web.expasy.org/protparam/)分析蛋白质的主要理化性质。利用ProtScale(http://web. expasy.org/cgi-bin/protscale/protscale.pl)软件进行蛋白质亲水性/疏水性分析。利用Plant-mPLoc(http://www.csbio.sjtu.edu.cn/bioinf/plant-multi/)分析蛋白质亚细胞定位。
1.4 多序列比对和系统进化树的构建
利用ClustalX 1.83和DNAMAN(http://www.lynnon.com)软件对大豆FLA蛋白的FAS结构域进行多序列比对。应用多序列比对工具ClustalX 1.83对大豆和拟南芥FLAs氨基酸全序列进行比对[16]。采用MEGA 7.0软件中的邻接法(neighbor-joining,NJ)构建系统进化树[17]。通过随机逐步比较的方法搜索最佳系统进化树,对生成的系统进化树进行Bootstrap校正。
1.5 大豆FLA蛋白基序分析
利用MEME program3(http://meme-suite.org/)软件分析大豆FLA蛋白的motif类型和排列顺序,并对相关参数进行修改,将可找到的模体最大值调整为15,其他均为默认值[18]。
1.6 大豆FLA蛋白二级结构预测
利用NPS(http://npsa-pbil.ibcp.fr/cgi-bin/ npsa_automat.plpage=/NPSA/npsa_hnn.html)对大豆FLAs蛋白的二级结构进行预测分析[19]。
2 结果与分析
2.1 大豆FLAs基因家族成员鉴定
将从Pfam和Interpro数据库获得的大豆中含有FAS结构域的蛋白质序列提交到Phytozome数据库中进行比对,确定其全长序列。去除重复序列后,将剩余蛋白质序列提交到SignalP 4.0检测N端信号肽。并进一步手动查找蛋白质序列中富含脯氨酸(Pro)、丙氨酸(Ala)、丝氨酸(Ser)和苏氨酸(Thr)(PAST)的AGPs结构域[2]。序列中含有N端信号肽、FAS结构域和AGPs结构域的蛋白质被认为是FLA蛋白[8]。最终共鉴定获得了33个大豆FLAs基因,并依据其在染色体上的位置依次命名为GmFLA1—33。
2.2 大豆FLAs基本理化性质分析
对33个GmFLAs基因编码蛋白质序列基本理化性质的分析结果见表1。大豆中各FLA蛋白氨基酸数目、分子质量和理论等电点存在明显差异。GmFLA30含有的氨基酸数目最少,为237个;含氨基酸数目最多的是GmFLA26和GmFLA32,均为455个。尽管GmFLAs蛋白的氨基酸数目差异较大,但是其氨基酸组成却较为相似。GmFLAs蛋白序列中Ser、Leu和Ala比例都很高,而Cys和Trp比例都很低(表2)。GmFLAs的分子质量在25.483 0~50.578 5 ku,理论等电点在4.33~9.56。其中,GmFLA5/6/9/10/11/12/13/14/15/16/17/18/19/21/22/23/24/27/29等19个蛋白质的理论等电点大于7,说明这些蛋白质属于碱性蛋白质;其余14个GmFLAs的等电点小于7,属于酸性蛋白质。亚细胞定位分析显示,所有GmFLAs都可定位在质膜上;此外,GmFLA4和GmFLA25还可定位在叶绿体中。除GmFLA2/4/8/14/20/25/26/32外,其余25个GmFLAs的平均疏水指数均为正值,说明这些蛋白质属于疏水性蛋白质。GmFLA2/3/12/17/19/21/27/31的不稳定系数小于40,属于不稳定蛋白质;其余GmFLAs的不稳定系数均大于40,属于稳定蛋白质。此外,GmFLAs的脂肪族系数均大于85。
表1 大豆FLAs理化性质分析
表2 大豆FLAs氨基酸比例 %
续表2 大豆FLAs氨基酸比例 %
2.3 大豆FLAs基因家族系统进化分析
为研究大豆FLAs基因家族的进化情况,利用MEGA 7.0软件,采用邻接法构建了包含21个拟南芥FLAs和33个大豆FLAs蛋白的系统进化树(图1)。根据大豆和拟南芥FLAs蛋白同源关系,所有54个FLAs蛋白被聚类在5个独立的进化分支中。分支Ⅰ中仅包括16个GmFLAs;分支Ⅱ中包括5个GmFLAs和2个AtFLAs;分支Ⅲ中包括2个GmFLAs和4个AtFLAs;分支Ⅳ中包括8个GmFLAs和6个AtFLAs;分支Ⅴ中则包括2个GmFLAs和9个AtFLAs。整体上来看,大豆和拟南芥FLAs的分布并不均匀。多数GmFLAs聚类在分支Ⅰ和Ⅳ中,而AtFLAs则多数聚类在分支Ⅳ和Ⅴ中。即使在同一分支中的GmFLAs和AtFLAs也并不呈现明显的交叉分布,来源于2个物种的FLAs通常分别聚类在更小的分支中。
图1 大豆FLAs与拟南芥FLAs蛋白的系统发生树
2.4 大豆FLAs蛋白基序和FAS结构域多序列比对分析
对33个GmFLAs保守基序的分析结果表明,GmFLAs具有15个保守基序。进一步分析保守基序的分布情况显示,所有蛋白质均存在不同程度的保守基序缺失,无一蛋白质包含所有15个保守基序(图2)。GmFLA8/20/25/26和GmFLA15/16/18/22/24含有的基序数目最多,都包含9个保守基序,但是其基序类型并不相同。除GmFLA7/30/33之外,其余30个GmFLAs蛋白中都存在基序12。此外,基序2出现的频率也较高,该基序在除Gm-FLA2/7/30/33之外的29个蛋白质中都存在。这暗示着基序2和基序12在GmFLAs家族成员中可能是十分保守的。
对GmFLAs蛋白中的FAS结构域进行多序列比对分析,结果显示,所有FAS结构域都含有2个保守区H1和H2(图3)。H1保守区的Thr(T)在所有GmFLAs蛋白中都十分保守,Thr后第6位氨基酸通常是Asp(D)或者Asn(N)。H2保守区内富含Val(V)、 Leu(L)和Ile(I)等3种疏水氨基酸。在H1和H2之间还存在一段较为保守的[Y/F]-H序列,其中His在所有GmFLAs中都十分保守(图3)。
2.5 大豆FLAs蛋白二级结构分析
利用NPS程序对GmFLAs蛋白序列进行二级结构分析,结果显示,GmFLAs蛋白均由α螺旋、无规则卷曲和延伸链等结构元件组成。但是3种元件的比例和分布存在明显差异,其中,延伸链的比例最低,在11.99%~23.13%;无规则卷曲比例最高,在43.27%~58.15%;α螺旋的比例介于延伸链和无规则卷曲之间(表3)。对于大多数GmFLAs而言,α螺旋和延伸链比例差异在10个百分点以上。但在GmFLA6/9/10/14/17等5个蛋白质中,其α螺旋和延伸链比例十分相近(表3)。
图2 大豆FLAs的保守基序分析
3 结论与讨论
FLAs可能通过影响植物细胞壁的形成,从而在植物生长发育过程中发挥重要作用。近年来,对模式植物拟南芥中FLAs基因的研究取得了一定的成绩,但对很多粮食作物和经济作物中该基因家族的研究还不清楚。通过生物信息学的方法对FLAs进行鉴定和预测分析,对于深入研究该类基因的生物学功能具有良好的指导意义。
本研究中共获得了33个大豆FLAs基因,尽管其编码的蛋白质产物中氨基酸数目差异较大,但是氨基酸组成却较为相似。其中Ser、Leu和Ala的含量较其他氨基酸高。33个GmFLAs中,19个蛋白质属于碱性蛋白质,14个属于酸性蛋白质。并且大多数GmFLAs是疏水性稳定蛋白质。FLAs是一种糖蛋白,研究表明,糖蛋白中糖基侧链能够伸出细胞外接受胞外信号,并将信号传递至胞内[2]。亚细胞定位预测结果表明,所有GmFLAs都能够定位在质膜上,GmFLA4和GmFLA25还可定位在叶绿体中。此结果暗示,大豆GmFLAs不仅涉及细胞外信号转导,在叶绿体的信息传递过程中可能也发挥着一定作用。
系统进化分析结果显示,大豆和拟南芥的FLAs往往分别聚类在不同进化分支中。少数聚类在同一分支中的GmFLAs和AtFLAs也并不呈现明显的交叉分布。此结果说明,尽管该基因家族的祖先基因可能起源于2个物种分化之前,但是在单子叶和双子叶植物进化之后才分别进行大规模扩张。对GmFLAs蛋白的保守基序分析发现,所有GmFLAs均存在不同程度的保守基序缺失现象,并且不同GmFLAs间保守基序的分布和排列模式也并不一致,这意味着其功能可能并不相同。对GmFLAs中FAS结构域进行的多序列比对结果表明,所有FAS结构域都包含典型的H1和H2保守区结构,而且保守区中氨基酸类型也较为一致。这些保守氨基酸可能在维持蛋白质结构和功能方面起着重要作用[20]。进一步的结构预测分析结果显示,GmFLAs蛋白二级结构均包括α螺旋、无规则卷曲和延伸链等3种结构元件。其中,无规则卷曲所占比例最高,α螺旋次之,延伸链比例最少。在不同GmFLAs之间,这3种结构元件的比例也存在较大差异。以往的研究表明,含有FAS结构域的蛋白质通常参与细胞与细胞、细胞与基质间的黏附作用[21],GmFLAs可能也具有类似作用。但是不同GmFLAs的保守基序和二级结构存在明显差异,这暗示着GmFLAs功能具有多样性。该基因家族成员如何参与调控植物生长过程还需进一步研究。
[1] 马浩力,余礼,梁荣洪,等.高等植物阿拉伯半乳糖蛋白的功能研究[J].中国科学(生命科学),2015,45:113-123.
[2] Ellis M,Egelund J,Schultz C,etal.Arabinogalactan-proteins:Key regulators at the cell surface[J].Plant Physiology,2010,153(2):403-419.
[3] Shi H,Kim Y,Guo Y,etal.TheArabidopsisSOS5 locus encodes a putative cell surface adhesion protein and is required for normal cell expansion[J].The Plant Cell,2003,15(1):19-32.
[4] Li J,Yu M,Geng L L,etal.The fasciclin-like arabinogalactan protein gene,FLA3,is involved in microspore development ofArabidopsis[J].The Plant Journal,2010,64(3):482-497.
[5] Macmillan C,Mansfield S,Stachurski Z,etal.Fasciclin-like arabinogalactan proteins:Specialization for stem biomechanics and cell wall architecture inArabidopsisandEucalyptus[J].The Plant Journal,2010,62(4):689-703.
[6] Johnson K,Kibble N,Bacic A,etal.A fasciclin-like arabinogalactan-protein(FLA) mutant ofArabidopsisthaliana,fla1,shows defects in shoot regeneration[J].PLoS One,2011,6(9):e25154.
[7] Seifert G,Xue H,Acet T.TheArabidopsisthalianaFASCICLINLIKEARABINOGALACTANPROTEIN4 gene acts synergistically with abscisic acid signalling to control root growth[J].Annals of Botany,2014,114(6):1125-1133.
[8] Ma H,Zhao J.Genome-wide identification,classification, and expression analysis of the arabinogalactan protein gene family in rice(OryzasativaL.)[J].Journal of Experimental Botany,2010,61(10):2647-2668.
[9] Faik A,Abouzouhair J,Sarhan F.Putative fasciclin-like arabinogalactan-proteins(FLA) in wheat(Triticumaestivum) and rice(Oryzasativa):Identification and bioinformatic analyses[J].Molecular Genetics and Genomics,2006,276(5):478-494.
[10] 陈红梅.大豆XHS基因家族生物信息学分析[J].大豆科学,2015,34(3):384-388.
[11] Schmutz J,Cannon S,Schlueter J,etal.Genome sequence of the palaeopolyploid soybean[J].Nature,2010,463(7278):178-183.
[12] Finn R,Mistry J,Schuster-Böckler B,etal.Pfam:Clans,web tools and services[J].Nucleic Acids Research,2006,34:D247-D251.
[13] Quevillon E,Silventoinen V,Pillai S,etal.InterProScan:Protein domains identifier[J].Nucleic Acids Research,2005,33:W116-W120.
[14] Goodstein D M,Shu S,Howson R,etal.Phytozome:A comparative platform for green plant genomics[J].Nucleic Acids Research,2012,40:D1178-D1186.
[15] Petersen T N,Brunak S,Von Heijne G,etal.SignalP 4.0:Discriminating signal peptides from transmembrane regions[J].Nature Methods,2011,8(10):785-786.
[16] Thompson J D,Gibson T J,Plewniak F,etal.The CLUSTAL_X windows interface: Flexible strategies for multiple sequence alignment aided by quality analysis tools[J].Nucleic Acids Research,1997,25(24):4876-4882.
[17] Kumar S,Stecher G,Tamura K.MEGA7:Molecular evolutionary genetics analysis version 7.0 for bigger datasets[J].Molecular Biology and Evolution,2016,33(7):1870-1874.
[18] Bailey T L,Williams N,Misleh C,etal.MEME:Discovering and analyzing DNA and protein sequence motifs[J].Nucleic Acids Research,2006,34:W369-W373.
[19] Biasini M,Bienert S,Waterhouse A,etal.SWISS-MODEL:Modelling protein tertiary and quaternary structure using evolutionary information[J].Nucleic Acids Research,2014,42(W1):W252-W258.
[20] Johnson K L,Jones B J,Bacic A,etal.The fasciclin-like arabinogalactan proteins ofArabidopsis.A multigene family of putative cell adhesion molecules[J].Plant Physiology,2003,133:1911-1925.
[21] Moody R G,Williamson M P.Structure and function of a bacterial fasciclin I domain protein elucidates function of related cell adhesion proteins such as TGFBIp and periostin[J].FEBS Open Bio,2013,3:71-77.
Bioinformatics Analysis of Physichemical Properties and Stucture Characteristic of Fasciclin-like Arabinogalactan Proteins in Soybean
ZHONG Jing1,2,WU Xiaoming1,HU Ying2
(1.Hubei University of Education/Hubei Key Laboratory of Purification and Application of Plant Anti-cancer Active Ingredients,Wuhan 430205,China; 2.Wuhan University/State Key Laboratory of Hybrid Rice,Wuhan 430072,China)
Based on the published soybean genome database,fasciclin-like arabinogalactan proteins(FLAs) were identified,and the basic physical and chemical properties,conserved motifs,functional domains,phylogenetic trees,secondary structure were analyzed.The results showed that 33GmFLAswere identified in soybean genome.The length of GmFLAs were 237—455 amino acids,the molecular weight were 25.483 0—50.578 5 ku,the oretical isoelectric point were 4.33—9.56.The subcellular location showed that the GmFLAs were all located on the plasma membrane(GmFLA4/25 were also located on chloroplast).GmFLAs generally contained 1—2 conserved fasciclin(FAS) domains.Phylogenetic analysis showed that the homology of FLAs between soybean andArabidopsiswas not high.The secondary structure of GmFLAs were mainly composed of α-helix,extended strand and random coil.The proportion of extended strand was the lowest,while that of random coil was the highest.
soybean; FLAs protein; physichemical properties; structure characteristic; bioinformatics analysis
2016-08-23
Trans助研梦想基金项目(Trans-RasDF-019)
钟 静(1979-),女,湖北荆州人,讲师,博士,主要从事发育生物学研究。E-mail:jjing2003_1@163.com
S565.1
A
1004-3268(2017)03-0034-07