APP下载

鸡GATA 基因家族鉴定及生物信息学分析

2021-02-16李可强张传生耿立英李祥龙

河南农业科学 2021年12期
关键词:亚群结构域蛋白质

孟 婕,王 闯,杨 晴,张 贝,李可强,张传生,耿立英,李祥龙

(河北科技师范学院 河北省特色动物种质资源挖掘与创新重点实验室,河北 秦皇岛066004)

为提高经济效益,家禽养殖中非常关注肌肉的快速生长,却忽视了心脏、肝脏等内脏器官发育缓慢的问题,这可能导致家禽免疫系统发育不良[1-3]。目前,关于禽类体质量增长及肌肉发育方面的研究较多,但是对于内脏器官的发育研究较少[4-5]。研究禽类内脏器官发育调控基因对家禽的健康养殖具有重要意义。GATA 是广泛存在于真核生物中的含锌指结构的转录因子家族,在细胞增殖和器官形成中起重要作用,其可与靶基因启动子的A/T(GATA)A/G序列特异性结合[6]。

转录因子通过识别并结合靶基因启动子的顺式元件来调控基因的表达,在生物的生长发育过程中,转录因子通过参与信号转导从而发挥关键作用。目前,GATA 转录因子家族在脊椎动物中已广泛研究,一般有6 个GATA 转录因子家族成员(GATA1—6)。脊椎动物的GATA 都有2 个高度保守的锌指结构区域(Cys-X2-Cys-X17-Cys-X2-Cys),这个区域以外的序列差异较大[7]。研究表明,GATA1、GATA2 和GATA3 主要在造血细胞系和神经系统发挥作用[8-9];GATA4、GATA5 和GATA6 主要与心脏、肺脏、泌尿生殖系统等分化有关[10-11];TRPS1可以调控下游多种基因转录,在肾脏、乳腺、卵巢等组织广泛表达[12-13]。最新研究发现,GATA1 的CF 结构域改变能够引起贫血、血小板减少和巨核细胞增生伴随轻度骨髓纤维化,从而诱发骨髓疾病[14]。

鸡是禽类性状形成分子机制、基因功能解析、基因组学与分子遗传学研究中的关键物种[15]。迄今为止,尚未见有鸡GATA(ChGATA)基因家族基本特性的研究报道。为此,从全基因组水平对ChGATA基因家族进行鉴定,对其进行理化性质、结构和进化、蛋白质互作等方面的分析,为研究ChGATA 基因家族生物学功能奠定基础。

1 材料和方法

1.1 ChGATA基因家族成员的检索及理化性质分析

从Ensembl(https://asia.ensembl.org/index.html)数据库中下载鸡基因组序列和基因组结构注释文件,利用NCBI(https://www.ncbi.nlm.nih.gov/)BLAST搜索已报道的GATA 蛋白序列并与Pfam 数据库比对,获得GATA 基因家族的Pfam ID(PF00320)。用TBtools 软件[16]BLAST 搜索ChGATA 基因家族的同源蛋白质,采用NCBI Batch 工具的CD-Search 程序进一步验证,剔除冗余蛋白质序列,得到ChGATA基因家族序列,并将其定位到染色体上。采用ProtParam 程序(https://web.expasy.org/protparam/)在线预测ChGATA 基因家族成员的理化性质(氨基酸数目、分子质量、理论等电点、疏水性、不稳定性)。

1.2 ChGATA基因家族保守结构域分析

利用SMART 分析ChGATA 基因家族的保守结构域,并用TBtools对结果进行可视化分析。

1.3 ChGATA 基因家族成员基因结构和Motif分析

利用MEGA-X 软件[17]分析ChGATA 基因家族成员进化关系;用TBtools从基因组结构注释文件中提取对应基因结构信息,预测ChGATA 基因家族的内含子和外显子组成;用MEME 在线软件(https://meme-suite.org/meme/tools/meme)对保守Motif 进行分析,搜索Motif值设定为10,并用TBtools 软件可视化分析。

1.4 ChGATA基因家族系统进化树构建

利用MEGA-X 软件中的Clustal W 程序对11 个物种的GATA 蛋白序列进行多序列比对分析,分析结果用邻接法(Neighbor-Joining,NJ)构建系统进化树,Bootstrap 值设定为1 000 次,其他参数默认不变[18]。构建的系统进化树用iTOL 在线程序(https://itol.embl.de/)[19]修饰。

1.5 ChGATA基因家族的蛋白质结构预测

蛋白质二级结构用SOPMA 在线程序(https://npsa-prabi. ibcp. fr/cgi-bin/npsa_automat. pl? page=npsa_sopma.html)预测。将鉴定出的ChGATA 蛋白序列逐一提交SWISS-MODEL 网站(https://swissmodel.expasy.org/),预测蛋白质三级结构。

1.6 ChGATA的蛋白质互作分析

利用STRING 在线平台[20](https://string-db.org/)构建蛋白质互作网络,分析ChGATA 蛋白与其他蛋白质的相互作用。蛋白质来源设置为鸡(Gallus_gallus),其他参数默认。

2 结果与分析

2.1 ChGATA基因家族成员的鉴定及其在染色体上的分布

共鉴定到6 个ChGATA 基因,根据其蛋白质保守结构域分别命名为ChGATA2、ChGATA3、ChGATA4、ChGATA5、ChGATA6、ChTRPS1。由图1 可知,6 个ChGATA 基因不均匀地分布在5 条染色体上,ChGATA3在1 号染色体上,ChGATA6和ChTRPS1在2号染色体上,ChGATA4在3 号染色体上,ChGATA2在12号染色体上,ChGATA5在20号染色体上。

ChGATA 蛋白序列的分析结果显示,6 个ChGATA蛋白的氨基酸序列长度介于387~1 061个,其中ChTRPS1 的氨基酸数目最多(1 061 个),而ChGATA6 最少(387 个);蛋白质相对分子质量分析结果显示,ChTRPS1 相对分子质量最大(117 443.89),而ChGATA6 最小(40 249.12)。等电点分析结果显示,预测的ChGATA3 等电点最高(9.47),而ChTRPS1 的等电点最低(6.44)。不稳定系数分析结果表明,6 个蛋白质不稳定系数均大于40,说明它们都是不稳定蛋白质。疏水性分析结果显示,6 个ChGATA 蛋白的疏水性值均为负数,归为亲水蛋白质(表1)。

表1 ChGATA基因家族成员信息Tab.1 The information of ChGATA gene family members

2.2 ChGATA基因家族保守结构域分析

由图2可知,6个ChGATA 基因靠近3′端区域都含有ZnF_GATA 结构,从而构成一个特异性的转录因子家族,该位置可能是GATA基因的主要功能区,是该基因家族同源性所在。

2.3 ChGATA家族成员基因结构及Motif预测

ChGATA 基因的结构分析结果表明(图3),ChGATA2、ChGATA3、ChGATA4、ChGATA5、 和ChGATA6基因均含有6个外显子和7个内含子,但位置、长度均不同,表明基因间具有差异性;ChTRPS1含有7 个外显子和6 个内含子。利用MEME 在线软件预测了6 个ChGATA 基因的保守基序(图3),ChGATA5、ChGATA4、ChGATA6具有相似的保守基序;ChGATA3和ChGATA2具有相似的保守基序。同时,同一分支保守基序的个数及排列顺序都相同。

2.4 ChGATA基因的系统进化分析

为了研究ChGATA 基因家族的进化关系,选取6 种进化关系不同的物种,即人(Homo sapiens)、家鼠(Mus musculus)、火鸡(Meleagris gallopavo)、斑马鱼(Danio rerio)、非洲爪蟾蜍(Xenopus tropicalis)、锦龟(Chrysemys picta)的GATA 蛋白序列。系统进化树分析结果(图4)表明,6个ChGATA 基因可以分为3 个亚群。ChGATA6、ChGATA5和ChGATA4为1 个亚群;ChGATA2与ChGATA3为1 个亚群,ChTRPS1单独为1个亚群。

2.5 ChGATA家族蛋白质二级结构预测分析

用SOPMA 对ChGATA 蛋白序列的二级结构预测结果见表2,ChGATA 家族大部分成员包含α-螺旋、β-转角、延伸链及无规则卷曲,各部分所占比例明 显 不 同。 ChGATA2、ChGATA3、ChGATA4、ChGATA5、ChGATA6 和ChTRPS1 无规则卷曲占比例最大,其次是α-螺旋,延伸链次之,β-转角所占比例最少。利用SWISS-MODEL 在线软件对ChGATA 蛋白家族三级结构进行预测(图5),结果显示,同一亚群的成员三级结构高度相似,表明蛋白质结构与物种进化存在关联性。

表2 ChGATA家族蛋白质二级结构预测结果Tab.2 Secondary prediction results of ChGATA family proteins%

2.6 ChGATA蛋白的相互作用分析

利用STRING 软件预测ChGATA 蛋白的相互作用,构建蛋白质相互作用网络(图6),其中ChGATA2 和ChGATA3 共有的互作蛋白质是T 细胞因子3(T cell factor 3,TCF3)、LMO2 转录因子、LIM结构域结合蛋白(LDB1);ChGATA4、ChGATA5 和ChGATA6 共有的互作蛋白质是锌指蛋白FOG 家族蛋 白1(Zinc finger protein FOG family member 1,ZFPM1)、锌 指 蛋 白FOG 家 族 蛋 白2(Zinc finger protein FOG family member 2,ZFPM2)、FOXA1 转录因子(Fork head box A1,FOXA1)、NKX2-5转录因子、胰岛素基因增强子蛋白1(Insulin gene enhancer binding protein 1,ISL1);与TPRS1 有相互作用的蛋白质包括真核起始因子3h(Eukaryotic initiation factor 3h,EIF3H)、CSMD3(CUB and Sushi multiple domains 3)、Runx2(Runt-related transcription factor 2)等。

3 结论与讨论

GATA 转录因子是一种广泛存在于真核生物体内的转录因子,具有特异的锌指结构。本研究对ChGATA 基因家族6 个成员进行了系统的生物信息学分析。染色体定位结果显示,ChGATA 基因家族成员不均匀地分布在5条染色体上。系统进化树分析结果显示,ChGATA 家族成员被分为3 个亚群。这与其他物种的分类相同,可根据亚群代表物种的GATA 基因功能来推断ChGATA 相应的功能。GATA1、GATA2和GATA3与红细胞、淋巴和性腺发育有关;GATA4、GATA5和GATA6等基因亚群与心脏、肠、外胚组织等的分化相关;TRPS1在多种癌细胞因子转录的调控中发挥作用[13,21-24]。基因结构分析结果表明,同一亚群的GATA 含有相同个数和顺序的保守基序,且基因结构相似,推测其有相似的基因功能,而不同亚群间的差异可能是因为进化过程中发生改变而产生的。保守结构域分析结果表明,6 个ChGATA 均含有ZnF_GATA 结构域,差异在于ChGATA2—6 在 靠 近3′端 含 有2 个ZnF_GATA 结构,而ChTRPS1含有1个ZnF_GATA 结构,这可能是ChTRPS1与其他GATA转录因子家族成员结构与功能差异较大的原因。

二级结构预测结果显示,ChGATA 基因家族成员主要由无规则卷曲组成。与吴玉莲等[25]的研究结果比较发现,ChGATA3的α-螺旋占15.77%,高于山羊的12.61%;ChGATA3 的无规则卷曲占65.99%,低于山羊的69.37%;ChGATA3 的延伸链占11.94%,与山羊的11.49%基本一致;ChGATA3 的β-转角占6.31%,与山羊的6.53%基本保持一致。这可能是哺乳动物与禽类物种的分化导致的二级结构差异。三级结构预测结果显示,ChGATA 蛋白整体结构存在较大差异性,但是同一亚群结构相似性较高,表明同一亚群成员在进化过程中结构上同源性较高。

前人研究发现,N 端锌指结构影响GATA 蛋白与DNA 结合的特异性及稳定性[26]。此外,锌指结构还介导GATA 与其他转录因子的相互作用,如C 端锌指结构介导与NKX2-5、MEF2、p300、dHAND 和NFAT3 等转录因子的相互作用,而N 端锌指结构负责与FOG-2 结合[27-33]。ChGATA 家族成员都具有C端锌指结构域,这是蛋白质与相关转录因子结合的高级结构基础。蛋白质相互作用结果显示,ChGATA 基因家族成员与较多转录因子相互作用,从而调控不同内脏器官的发育。

本研究利用生物信息学的方法对ChGATA 基因家族成员进行了较为全面的系统性分析,研究结果可为深入分析ChGATA 家族基因的功能提供理论参考。

猜你喜欢

亚群结构域蛋白质
细菌四类胞外感觉结构域的概述
蛋白质自由
甲状腺切除术后T淋巴细胞亚群的变化与术后感染的相关性
人工智能与蛋白质结构
UBR5突变与淋巴瘤B细胞成熟
多发性硬化症的单核细胞致病亚群
入侵云南草地贪夜蛾的分子鉴定
T淋巴细胞亚群在儿童疾病中的研究进展
DEP结构域的功能研究进展
水稻DnaJ蛋白的生物信息学分析