APP下载

汉麻GATA转录因子基因家族鉴定及生物信息学分析

2023-11-14李文敏吴稳刘聪颖任忠敏邵佳鑫李美慧李珊珊

高师理科学刊 2023年10期
关键词:汉麻染色体家族

李文敏,吴稳,刘聪颖,任忠敏,邵佳鑫,李美慧,李珊珊,2

汉麻GATA转录因子基因家族鉴定及生物信息学分析

李文敏1,吴稳1,刘聪颖1,任忠敏1,邵佳鑫1,李美慧1,李珊珊1,2

(齐齐哈尔大学 1. 生命科学与农林学院,2. 寒区麻及制品教育部工程研究中心,黑龙江 齐齐哈尔 161006)

GATA转录因子广泛存在于植物中,如拟南芥、水稻、菠菜等.该家族成员在植物生长发育和细胞分化中发挥重要的作用.汉麻(L.)作为一种经济作物,具有广泛的用途.但是,目前尚无汉麻GATA转录因子的报道.参考拟南芥GATA转录因子家族基因,采用NCBI,MEME,TBtools等软件,使用汉麻全基因组数据,通过对CsGATAs转录因子家族基因成员的分析,预测其理化性质、基序分析、系统发育树构建和蛋白质预测分析.结果表明,汉麻含有21个GATA转录因子,命名为CsGATA1~CsGATA21,分布在6条不同的染色体上;motif 1,motif 2,motif 3是CsGATAs家族中较为保守的基序;21个CsGATAs蛋白均具有亲水性,亚细胞定位主要分布于细胞核中;二级结构以无规则卷曲为主,系统进化分析表明,CsGATA转录因子家族基因可以被划分为3个亚组.研究结果为进一步开展汉麻生长发育相关转录因子功能的研究提供了依据.

汉麻;GATA转录因子;生物信息学分析

转录因子也称为反式作用因子,是一种具有特定结构的蛋白质分子,通过高度复杂的调控网络来调节基因表达[1].转录因子通过识别和结合顺式元件来调控目的基因启动子表达,在生物体的成长和发展中起到重要的作用[2-3].GATA家族是生物体内重要的转录调节因子,在动物和真菌中广泛表达[4].GATA因与W-GATA-R基因序列的特异结合而命名,其能与目标基因启动子A/T、A/G序列特异结合,参与细胞的增殖及器官的生成[5].在动物体内,首次报告了GATA参与鸡造血的过程[6].其中,GATA4和GATA6可以激活介导性腺细胞类固醇生成的基因;在垂体和胎盘细胞中的GATA2和GATA3可以调节-糖蛋白亚基基因的表达[7].随后,GATA陆续在植物和真菌中被发现.GATA转录因子不仅参与了细胞的分化,而且参与了信号传导与代谢[8].在植物中GATA转录因子首次在烟草中被提出,命名为NTL1,并发现其作用参与氮代谢通路[9].目前有研究表明,GATA25是一种新型转录因子,可在长日照下加速开花时间[10]5.GATA25编码锌指结构域和CCT结构域的C-X2-C-X20-C-X2-C保守半胱氨酸残基,其处理光周期开花并调节昼夜节律,GATA25在拟南芥中的过度表达促进了植物开花[10-11].此外,GATA转录因子通过整合光和油菜素内酯信号通路,从而调节油菜素内酯介导生长调控[12-13].目前,关于GATA基因家族在拟南芥等模式植物中研究广泛,而在其他作物中的研究罕见.

汉麻(L.)是汉麻科(Cannabinaceae)一年生草本植物,也称为“火麻”[14-15],具有悠久的药用历史.根据历史记录,古埃及人曾使用汉麻治疗眼疾和炎症[16].汉麻籽也用于中药,研究人员发现,汉麻籽富含不饱和脂肪酸,有助于降低血压、血脂和葡萄糖水平,并具有抗炎和止痛的特性[17].由于汉麻的价值颇多[18],近年来,我国对汉麻及其产物进行了深入地开发和研究,并将其作为一种新的发展趋势.迄今为止,有关汉麻GATA转录因子(CsGATA)基因家族基本特性的研究尚未报道.因此,通过对基因全基因组的鉴定,对CsGATA蛋白的理化性质、结构、进化和结构进行了全面分析,为进一步了解CsGATA的功能奠定基础.

1 材料与方法

1.1 汉麻GATA转录因子家族基因鉴定及基本信息

在模式植物拟南芥TAIR数据库(https://www.arabidopsis.ors/)中,检索到29个GATA转录因子家族基因蛋白的序列,,,,,,,,,,,,,,,,,,,,,,,,,,,,,作为参考序列来筛选汉麻的目的基因.使用Ensemble(https://asia.ensembl.org/index.html)数据库中下载汉麻基因组序列(GCA_900 626175.2)和基因组结构注释文件[19].使用TBtools软件进行比对,提取候选基因序列并将候选序列提交到Pfam(http://pfam.xfam.org/)数据库进行验证[20-21],剔除冗余蛋白质序列,得到汉麻GATA转录因子家族基因蛋白序列.

1.2 汉麻GATA转录因子理化性质及亚细胞定位预测

使用在线工具WoLFPSORT II(https://www.genscript.com/wolf-psort.html?src=leftbar)对汉麻GATA家族亚细胞定位预测.利用Expasy(https://web.expasy.org/protparam/)在线软件对汉麻GATA转录因子家族成员蛋白结构理化性质进行分析[22],包括氨基酸数量、等电点(pI)、分子量、不稳定指数、脂肪系数及总的平均吸水性.

1.3 汉麻GATA转录因子家族保守基序预测及基因结构分析

使用NCBI-CDD(https://www.ncbi.nlm.nih.gov/cdd/)软件预测(Evaule<0.01)蛋白质结构.汉麻GATA转录因子保守基序(motif)利用在线软件MEME(http://meme-suite.org/)分析,将预测值设置为10[23].采用TBtools软件,对汉麻GATA转录因子的基因编码序列(CDS)和非翻译区(UTR)进行基因结构分析.

1.4 汉麻GATA转录因子家族染色体定位及系统进化分析

使用TBtools软件,通过汉麻基因组注释文件和基因ID号可视化基因在染色体上的位置.通过MEGA7.0软件的NJ连接法构建拟南芥和汉麻GATA蛋白的系统进化树,并使用Evolview软件美化进化树[24].

1.5 汉麻GATA转录因子家族蛋白结构预测

使用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)对汉麻GATA蛋白二级结构进行预测分析[25].鉴定出的汉麻GATA蛋白序列分别导入至SWISS-MODEL(https://swissmodel.expasy.org/)在线软件预测三级结构[26].

2 结果分析

2.1 汉麻GATA转录因子家族基因的鉴定、理化性质及亚细胞定位分析

通过对汉麻基因组的基因家族分析,共筛选出21个GATA转录因子家族基因,分别命名为,,,,,,,,,,,,,,,,,,,,.编码基因含有151~538个氨基酸,平均每条序列包含177个氨基酸,其等电点为4.76~9.89,蛋白质的分子量为16 168.18~59 423.27 Da.其中不稳定指数高达65.41,是一种非常不稳定的蛋白质,总平均疏水指数均小于0,表明是一种亲水性蛋白,21个汉麻基因亚细胞定位分布于细胞核、细胞质、叶绿体和线粒体中,其主要分布于细胞核(见表1).

表1 汉麻GATA转录因子理化性质分析

2.2 汉麻GATA转录因子基因家族motif预测及基因结构分析

由MEME进行汉麻GATA转录因子motif预测,其结构由TBtools可视化(见图1).由图1可见,汉麻,,,,,,基因均含有motif 1~3,并且以相同的顺序排列,说明这7个汉麻基因在某些方面是保守的.其他基因之间的主要区别在于蛋白质N端基序的类型不同,,,,均含有motif 1~2,,,,,,,,,,均含有motif 1,推测motif 1在汉麻GATA氨基酸序列较为保守.

图1 汉麻GATA转录因子motif预测

21个汉麻内含子和外显子见图2.由图2可见,所有被筛选出的基因都包含了内含子,除,,,,,,,,外,其他的基因都包含2个外显子.此外,,,,,,,,,,,,,,,,,均存在上下游编码区,而剩下的4个转录因子均不存在上下游编码区域.

图2 汉麻GATA转录因子结构

2.3 汉麻GATA转录因子家族染色体定位及系统进化分析

汉麻GATA转录因子染色体定位见图3.由图3可见,汉麻基因主要位于6条染色体上,分别为染色体1,2,4,5,6,7,且分布不均.有7个汉麻基因在2号染色体上;1号染色体与6号染色体上均含有4个汉麻基因;3个汉麻基因在5号染色体上.4号染色体上包含2个汉麻基因,7号染色体上仅含有1个汉麻基因.

图3 汉麻GATA转录因子染色体定位

汉麻、拟南芥的GATA系统进化树见图4.由图4可见,21个汉麻基因家族成员可以分为3个亚群,,,,,,,为一个亚群;,,,,为一个亚群;,,,,,,,,为一个亚群.

图4 汉麻、拟南芥的GATA系统进化树

2.4 汉麻GATA转录因子家族蛋白二级结构预测

应用SOPMA网络软件对21种汉麻CsGATAs蛋白进行二级结构预测(见表2).由表2可见,其二级结构中存在-螺旋、-折叠、延伸链和无规则卷曲.其中,无规卷曲为汉麻CsGATAs蛋白二级结构中的主要构成元件,占比高达68.23%,这对蛋白构象具有一定的作用.而在整个蛋白中,-折叠的比例相对较低.此外,汉麻中的21个CsGATAs蛋白的二级结构无显著差别.

表2 汉麻GATA二级结构分析 (%)

2.5 汉麻GATA转录因子家族蛋白三级结构预测

采用SWISS-MODEL(http://swissmodel.expasy.org/)软件对汉麻GATAs蛋白三级结构预测(见图5).由图5可见,其与蛋白二级结构的预测结果基本一致,该蛋白的三级结构主要由无规则卷曲组成.

3 讨论与结论

GATA是真核生物中常见的转录因子,具有特殊的锌指结构[27].本文对汉麻转录因子基因家族21个成员进行了生物信息学系统分析.染色体定位结果表明,汉麻GATA转录因子家族成员在6条染色体上分布不均.其编码基因含有151~538个氨基酸,平均每条序列包含177个氨基酸,其等电点为4.76~9.89,蛋白质的分子量为16 168.18~59 423.27 Da,21个GATA蛋白均为亲水性蛋白.21个汉麻基因亚细胞定位分布于细胞核、细胞质、叶绿体和线粒体中,其主要分布于细胞核中.motif 1为汉麻基因组较为保守的基序,二级结构和三级结构主要以无规则卷曲为主,通过对的系统进化树分析发现,家族成员可分成3个亚家族.该方法与其他种类的分类方法一样,可以从亚家族中的基因功能中推测出的对应功能.

通过预测CsGATA的二级结构发现,CsGATA的家族成员多为无规则卷曲.从三级结构预测结果来看,CsGATA蛋白质的总体结构有很大的差别,而相同的亚群结构相似度很高,说明相同的基因在进化过程中具有更高的同源性.以往的研究表明,拟南芥、水稻、蓖麻等植物的锌指结构的大部分氨基酸位点在大部分成员中高度保守[28],与本文中汉麻GATA转录因子家族成员的保守性基本相符.此外,锌指蛋白在植物中普遍表达,在细胞的发育分化、生长增殖、分解凋亡等许多重要的生长发育过程中发挥重要作用[29-30].

本文通过对汉麻GATAs蛋白的全基因组鉴定,对基因家族进行生物信息学分析,包括序列的理化性质、保守基序、基因结构、系统进化分析、结构预测等.研究结果将为基因家族调控汉麻的生长发育奠定基础.

[1]王宙,王宏伟,王亚,等.蓖麻CeSA转录因子基因家族的鉴定与表达分析[J].激光生物学报,2023,32(2):160-169.

[2]杨玲.烟草ABF转录因子基因的克隆及功能分析[D].重庆:重庆大学,2014.

[3]刘芳,肖钢,官春云.GT和GATA转录因子对甘蓝型油菜BnA5.FAD2和BnC5.FAD2启动子功能的调控[J].中国农业科学,2018,51(24):4603-4614.

[4]NAITO T,KIBA T,KOIZUMI N,et al.Characterization of a Unique GATA Family Gene That Responds to Both Light and Cytokinin in Arabidopsis thaliana[J].Journal of the Agricultural Chemical Society of Japan,2007,71(6):1557-1560.

[5]PATIENT R K,MCGHEE J D.The GATA family(vertebrates and invertebrates)[J].Current Opinion in Genetics and Development,2002,12(4):416-422.

[6]Omichinski J G,Clore G M,Schaad O,et al.NMR structure of a specific DNA complex of Zn-containing DNA binding domain of GATA-1[J].Science,1993,261(5120):438-446.

[7]LAVOIE H A.The Role of GATA in Mammalian Reproduction[J].Experimental Biology and Medicine,2003,228(11):1282-1290.

[8]AN Y,ZHOU Y,HAN X,et al.The GATA transcription factor GNC plays an important role in photosynthesis and growth in poplar[J].Journal of Experimental Botany,2019(6):1969-1984.

[9]姚茂星,周光怡,丁延庆,等.高粱GATA转录因子家族的鉴定和表达模式分析[J].分子植物育种,2022,20(10):3178-3187.

[10]Kim K,Lee J,Kim B,et al.GATA25,a novel regulator,accelerates the flowering time of Arabidopsis thaliana[J].Applied Biological Chemistry,2022,65(1):1-8.

[11]Kim M,Xi H,Park S,et al.Genome-wide comparative analyses of GATA transcription factors among seven Populus genomes[J].Scientific Reports,2021,11(1):16578.

[12]罗小敏.GATA类转录因子介导光和油菜素甾醇对光形态建成的调控[D].北京:中国科学院大学,2010.

[13]李元元,曹清河.油菜素内酯参与调控植物生长发育与抗逆性的机制及其育种应用研究[J].中国农业科技导报,2015(2):25-32.

[14]Deng G,Yang M,Zhao K,et al.The complete chloroplast genome of Cannabis sativa variety Yunma 7[J].Mitochondrial DNA Part B,2021,6(2):531-532.

[15]闫博巍.工业汉麻种子的营养品质及潜在功能[J].中国麻业科学,2022,44(5):304-312.

[16]RUSSO E B.History of Cannabis and Its Preparations in Saga,Science,and Sobriquet[J].Chemistry & Biodiversity,2007,4(8):1614-1648.

[17]张汉文,张文君,张国锋,等.基于中药配伍的火麻仁药理作用研究进展[J].中国医院药学杂志,2022(6):659-664.

[18]殷莎,唐双奇,陆阳.汉麻二酚神经保护作用机制研究进展[J].中草药,2014(3):432-436.

[19]王可.关于工业汉麻提取物汉麻二酚的价值概述及其提取和纯化工艺的探讨[J].医药工程设计,2021,42(5):1-6.

[20]温东,王梦月,米要磊,等.中药火麻仁基原植物汉麻的TIFY基因家族鉴定及功能分析[J].中国实验方剂学杂志,2020,26(24):134-143.

[21]钱兰华,孙小芹,邹鑫,等.芫荽基因组中NBS-LRR家族基因的鉴定及系统演化分析[J].植物资源与环境学报,2021(6):1-9,66.

[22]黄俊,江羽宸,张云川,等.橡胶草SRPP/REF家族基因的鉴定及表达分析[J].植物生理学报,2020,56(7):1541−1552.

[23]LAFARGA T,O’CONNOR P,HAYES M.Identification of novel dipeptidyl peptidase-IV and angiotensin-I-converting enzyme inhibitory peptides from meat proteins using in silico analysis[J].Peptides,2014,59:53-62.

[24]王震,米要磊,孟祥霄,等.中药火麻仁基原植物汉麻LBD基因家族成员的鉴定与表达分析[J].中国中药杂志,2020,45(22):5477-5486.

[25]陈平,喻春明,王延周,等.苎麻与汉麻CesA1基因的生物信息学分析[J].中国麻业科学,2013,35(3):118-121,154.

[26]王艳,张东军,张国清.布鲁菌丝氨酸/苏氨酸-蛋白激酶RIO1的生物信息学分析[J].寄生虫病与感染性疾病,2022,20(3):159-165.

[27]KIEFER,FLORIAN,ARNOLD,et al.The SWISS-MODEL Repository and associated resources[J].Nucleic Acids Research,2009(1):387-392.

[28]剧建芳.南极丝瓜藓GATA转录因子PnGATA1的功能研究[D].济南:山东大学,2014.

[29]袁岐,张春利,赵婷婷,等.辣椒GATA转录因子的生物信息学分析[J].中国农学通报,2017,33(17):24-31.

[30]段敏杰,李怡斐,杨小苗,等.辣椒锌指蛋白DnaJ-Like基因家族鉴定及对高温胁迫的表达响应[J].生物技术通报,2023,39(1):187-198.

Identification and bioinformatics analysis of GATA transcription factor genes family inL.

LI Wenmin1,WU Wen1,LIU Congying1,REN Zhongmin1,SHAO Jiaxin1,LI Meihui1,LI Shanshan1,2

(1. School of Life Science,Agriculture and Forestry,2. Engineering Research Center of Hemp and Hemp Products in Cold Regions,Ministry of Education,Qiqihar University,Qiqihar 161006,China)

GATA transcription factors are commonly found in plants such as Arabidopsis thaliana,rice,spinach and so on.Members of this family play a very important role in the growth,development and differentiation of plant cells.Hemp(L.)as a kind of economic crop,it has a wide range of uses.However,there are no reports of GATA transcription factors in hemp.Referring to Arabidopsis GATA transcription factor family genes,using NCBI,MEME,TBtools and other software,using the whole genome data of,the members of CsGATAs family genes were analyzed to predict their physical and chemical properties,motif analysis,phylogenetic tree construction and prediction of protein structure.The results indicated thatcontained 21 GATA transcription factors,named CsGATA1~CsGATA21,which were distributed on 6 different chromosomes.motif 1,motif 2,motif 3 were conservative motifs in the CsGATAs family.21 CsGATAs proteins were hydrophilic and mainly distributed in the nucleus.The secondary structure was mainly irregular curl,and phylogenetic analysis showed that the CsGATA transcription factor family genes could be divided into three subgroups.The results provide a basis for further development on the function of transcription factors related to the growth and development ofL..

L.;GATA transcription factor;bioinformatics analysis

1007-9831(2023)10-0072-07

Q75

A

10.3969/j.issn.1007-9831.2023.10.014

2023-05-24

黑龙江省省属高等学校基本科研业务费科研项目(135509501);大学生创新创业项目(x202310232030,x202310232037)

李文敏(1999-)女,黑龙江佳木斯人,在读硕士研究生,从事分子生物学研究.E-mail:lwm274623@163.com

李珊珊(1983-),女,黑龙江泰来人,教授,博士,从事生物化学研究.E-mail:lishanshan83@163.com

猜你喜欢

汉麻染色体家族
黑龙江省汉麻产业现状与发展对策*
HK家族崛起
汉麻亟待全产业链协同发展
《小偷家族》
多一条X染色体,寿命会更长
为什么男性要有一条X染色体?
皿字家族
家族中的十大至尊宝
高品质汉麻产业化的实现
能忍的人寿命长