山羊原癌基因c-fos电子克隆与生物信息学分析
2022-03-03宋兴超赵园园孟金柱吴震洋安清明
宋兴超, 赵园园, 孟金柱, 吴震洋, 安清明
(铜仁学院农林工程与规划学院/贵州省梵净山地区生物多样性保护与利用重点实验室,贵州铜仁 554300)
原癌基因(-)是即刻早期基因(immediately early genes,简称IEGs)家族成员之一,也称快速反应基因,即细胞受到外部刺激和损伤后最先表达-基因。-基因最早于1966年作为FBJ和FBR小鼠成骨肉瘤病毒(HSVs)中-癌基因的同源序列而被鉴定。作为一种特定环境下表达的转录因子,-基因及其蛋白质表达产物不仅参与细胞的正常生长与分化,而且在细胞内信息传递和能量代谢过程中也起着极为重要的作用,特别是能够参与神经细胞的生长、发育和分化等过程。研究表明,-基因的表达与骨骼肌细胞和脂肪的形成存在关联,并且-基因的变异与表达对畜禽肌纤维性状及马鹿茸生长可能产生一定的影响。郭云雁等的研究表明,猪-基因外显子4中检测到2个多态位点(G2650A与A2910G),产生3种基因型(AA、AB、BB),并且提高G2650A位点等位基因B的频率,从而增加肌纤维密度与红肌纤维的比例。Reiner等利用聚合酶链式反应-单链构象多态性(PCR-SSCP)方法分析皮特兰与梅山猪F代群体-基因多态性,表明外显子4中A2910G位点产生的不同基因型可以显著影响总肌纤维和白肌纤维数以及白肌纤维、中间型肌纤维和红肌纤维的比例与直径。Francis等采用逆转录聚合酶链式反应(RT-PCR)法检测到-基因在马鹿茸真皮层的表达量高于间充质、前软骨和软骨组织。韩春梅等的研究表明,-基因在塔里木马鹿茸快速生长期参与了茸皮干细胞的增殖与分化,并可调节成骨细胞的分化。近年来,国内外对牛、绵羊、猪和鸡-基因的研究报道较多,然而未见山羊该基因资料。因此,获得山羊-基因全序列是进一步研究其与肌纤维性状是否相关的基础。本研究利用电子克隆(in silico cloning)法对山羊-基因进行分离,进一步预测分析该基因结构特征及其在山羊染色体上的定位,旨在为深入开展山羊-基因的表达特性与生理功能等研究提供基础资料。
1 材料与方法
1.1 主要数据库
美国国立生物技术信息中心(NCBI)的GenBank数据库;欧洲生物信息学研究所(EBI)的EMBL核酸序列数据库;日本国家遗传研究所(NIG)的DDBJ数据库;山羊表达序列标签EST(http://www.ncbi.nlm.nih.gov/nucest/?term=goat)和基因组Genome(http://goat.kiz.ac.cn/GGD/)数据库。
1.2 生物信息学软件
用BLAST(http://blast.ncbi.nlm.nih.gov/Blast.cgi)进行基本局域相似性比对;用CAP 3.0软件(http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::cap3)进行重叠群序列组装;利用ORF finder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)查询开放阅读框(ORF);用BioEdit 7.0分析核苷酸序列碱基组成;用ProtParam(http://web.expasy.org/protparam/)进行蛋白质理化特性分析;蛋白质二级结构预测:PHD、DSC、MLRC(http://npsa-pbil.ibcp.fr);基因染色体定位(http://goat.kiz.ac.cn/blast/blast.php);用DNAStar 7.0进行多序列比对;用MEGA 5.05进行系统进化树构建。
1.3 山羊c-fos基因电子克隆
首先,将牛-基因cDNA序列(GenBank登录号为AY322482)在NCBI中进行BLASTn分析,确定山羊的-基因尚未公布;其次,以牛该基因cDNA序列作为探针,利用NCBI网站中BLAST工具检索山羊表达序列标签(expressed sequence tag,简称EST)数据库(图1),筛选出同源性较高的基因簇,将基因簇中的山羊EST序列(EV439830、EV442817、EV440759、EV448345)下载到本地,保存为“Fasta”格式的txt文件,通过CAP 3.0软件进行拼接得到重叠群(conting),以此重叠群为种子序列重复上述检索步骤直至序列不能再延伸为止。
1.4 山羊c-fos基因生物信息学分析
将电子克隆获取的山羊-基因cDNA序列利用ORF Finder程序预测开放阅读框;利用BioEdit 7.0软件分析-基因编码序列的碱基组成;通过ProtParam在线程序预测-基因编码氨基酸序列的理化特性;山羊c-fos蛋白的二级结构由PHD、DSC和MLRC等3种方法共同完成;采用DNAStar 7.0软件包中MegAlign程序对获取的山羊等15个物种的-基因编码区核苷酸及氨基酸序列进行相似性比对;山羊等物种-基因系统进化树通过MEGA 5.05软件邻接(NJ)法构建。
2 结果与分析
2.1 山羊c-fos基因全长cDNA序列鉴定与开放阅读框分析
基于山羊EST数据库电子延伸获得1条 1 513 bp 的核苷酸序列,将该序列经过BLASTn检索,与GenBank中已公布的绵羊(NM_001166182)、牛(AY322482)和猪(JX861095)-基因的同源性分别为99%、98%、94%,初步判定其为山羊的-基因序列。利用ORF finder程序预测该段序列的开放阅读框,由图2可知,山羊-基因cDNA序列包括一段从122~1 264位点共计 1 143 bp 的开放阅读框,共编码380个氨基酸(aa)。
2.2 山羊c-fos基因cDNA序列结构特征
经过CAP 3.0软件拼接的山羊-基因包括1 143 bp的完整cDNA序列,编码区5′UTR为 121 bp,3′UTR长度为249 bp。“ATG”为起始密码子,终止密码子为“TGA”。山羊-基因中起始密码子的-3位和+4位均为A,符合Kozak规则:第1个ATG侧翼序列的碱基分布所满足的统计规律。BioEdit 7.0软件统计山羊-基因碱基组成(图3)为:A(21.08%)、C(33.16%)、G(26.77%)和T(18.99%),G+C(59.93%)含量高于A+T(40.07%)。
2.3 山羊c-fos基因编码蛋白理化特性预测
ProtParam在线程序预测结果表明,山羊-基因编码的380个氨基酸中包括:51个酸性氨基酸,占13.42%;33个碱性氨基酸,占8.68%;113个极性氨基酸,占29.74%;110个疏水性氨基酸,占28.95%,可见山羊c-fos蛋白中极性氨基酸的比例最高,含量最少的为碱性氨基酸。山羊c-fos蛋白化学分子式为CHNOS,由5 620个原子组成,分子质量为40.749 4 ku,理论等电点()为4.77,属于酸性蛋白;其水溶液在280 nm处的消光系数约为24 910,推测半衰期为30 h,不稳定指数为75.88,为不稳定蛋白(计算指数<40:稳定,计算指数>40:不稳定);脂肪系数为62.74,总平均亲水性系数为-0.414。山羊c-fos蛋白的20种基本氨基酸组成中,含量最高的是丝氨酸(Ser,54个,14.2%),色氨酸(Trp,2个,0.5%)含量最少,带正电荷的氨基酸残基[精氨酸(Arg)+赖氨酸(Lys)]为51个,带负电荷的氨基酸残基[天冬氨酸(Asp)+谷氨酸(Glu)]为33个。
通过PHD、DSC、MLRC等3种方法分别预测蛋白二级结构,然后综合3种方法得到最终结果发现,山羊-基因编码蛋白主要以无规则卷曲为主,其他为α-螺旋,延伸直链较少(表1)。
表1 山羊c-fos基因编码蛋白二级结构预测 %
2.4 山羊c-fos基因编码蛋白的疏/亲水性预测和分析
利用ProtScale在线程序的“Kyte and Doolittle”算法预测蛋白亲疏水性(图4)。依据“氨基酸正分值越高疏水性越强和负分值越低亲水性越强”的规律,结果表明,山羊-基因的编码蛋白多肽链第64位缬氨酸(Val)具有最高的正分值(1.556),表现为该位点疏水性最强,第137位谷氨酸(Glu)具有最低的负分值(-3.256),表现最强的亲水性,整个多肽链呈现亲水性。
2.5 山羊与其他物种c-fos基因序列相似性比较及分子进化分析
从GenBank中检索并下载11个物种的-基因同源序列,包括绵羊()、牛()、马鹿()、猪()、猫()、人()、黑猩猩()、猕猴()、小家鼠()、褐家鼠()、原鸡(),与本研究获取的山羊()该基因序列一起录入DNAStar 7.0软件包,利用MegAlign程序基于Clustal W方法进行12个物种-基因核苷酸及氨基酸序列的相似性分析(表2),进一步利用MEGA 5.05软件的邻接法和Poisson Correction模型基于氨基酸序列比对结果构建-基因分子进化树(图5)。
由表2可知,山羊与同属反刍动物的绵羊、牛和马鹿-基因核苷酸序列相似性为95.4%~99.5%,与偶蹄目猪相似性达94.0%,与小家鼠等物种的相似性在86.4%~92.7%之间,而与原鸡的相似性最低;编码氨基酸序列的相似性具有相同的变化规律,初步判定-基因在物种间保守性较强,特别是山羊与绵羊该基因氨基酸序列相似性达到100%。
表2 山羊与其他物种c-fos基因核苷酸及氨基酸序列相似性分析
由图5可知,12个物种被划分为界限清晰的5个类群,其中山羊、绵羊、马鹿、牛和猪聚合为偶蹄目(Artiodactyla),表明它们之间具有更近的亲缘关系,人、黑猩猩和猕猴同在灵长目(Primates)分支上,小家鼠和褐家鼠为啮齿目(Rodentia),猫为食肉目(Carnivora),另外属鸡形目(Galliformes)的原鸡单独为一支,这种分子进化结果与NCBI中已知的生物分类基本一致,可以初步推断,-基因可用于物种进化研究。
2.6 山羊c-fos基因染色体定位
经过查询NCBI上的Gene数据库,牛和绵羊-基因分别定位于10号染色体(86 883 739~86 887 170)和7号染色体(83 397 749~83 400 947)上,但是未公布该基因在山羊染色体的定位信息。山羊、绵羊和牛在动物分类学中同属牛科动物,牛和山羊具有60条染色体,而绵羊由于“罗伯逊易位”存在54条染色体,沈祖楠等的研究表明,山羊与牛常染色体的同源性较山羊和绵羊高,由此初步推测-基因也定位于山羊10号染色体上。本研究利用电子克隆获取的山羊-基因cDNA序列在山羊基因组数据库中进行BLASTn检索,发现该基因501~1 143位点与山羊基因组(登录号为JACWUT010000010.1)10号染色体82 537 963~82 538 605 位核苷酸相似性达到100%(图6),但是与其他染色体中的序列相似性却很低,表明山羊-基因很有可能定位于10号染色体上。上述-基因在山羊染色体中的位置只是电子定位和预测,尚需利用荧光原位杂交等相关分子生物学试验进一步确认。
3 讨论与结论
电子克隆别称虚拟克隆或电子cDNA文库筛选,该方法是以生物信息数据库中的表达序列标签(expressed sequence tag,简称EST)、核苷酸及蛋白序列作为基础资料,选择相关生物信息软件,对EST序列进行同源检索、聚类、拼接及延伸,进而能够快速获取新的功能基因。与传统克隆全长新基因的方法相比,电子克隆具有成本低、效率高、针对性强及技术要求低等优点。目前,山羊EST数据库已经非常丰富且更新较为迅速,近年来,随着大规模生物基因组测序与生物信息学技术的飞速发展,利用电子克隆获得动植物新基因的报道日益增多,通过电子克隆分离山羊基因有助于鉴定和探索新的功能基因及其生物学功能。然而,数据库中的EST数据最高精确度为97%以及某些基因存在多种剪切体,因此电子克隆获得的基因序列与真实序列之间可能稍有差别,仍需要通过实验室克隆进行验证。目前,有关山羊-基因的克隆及其功能研究报道较少,本研究对山羊该基因研究的目的在于为其分子克隆及后续研究奠定理论基础。
本研究利用山羊EST数据库,通过电子克隆技术获得了山羊-基因的cDNA全长序列,进一步采用生物信息学方法对该基因的结构及其编码蛋白的理化特性进行预测和分析,解析了山羊-基因的染色体定位,为将来进行山羊-基因的分子克隆、表达调控及生物学功能等研究奠定基础。研究结果表明,电子克隆获得的山羊-基因ORF为1 143 bp,共编码380个氨基酸,这与在绵羊上的研究结果相符。Fujiwara等通过DNA探针分离鉴定了鸡的-基因,包括4个外显子,编码367个氨基酸,可能不同物种该基因具有不同的进化模式而导致基因组结构存在差异,但-基因在鸡、小鼠和人之间具有较高的相似性,并且编码序列中G+C含量高于A+T,这与本研究结果基本一致。其次,基于-基因编码氨基酸序列构建的12个物种的系统进化树及其相似性分析结果也与偶蹄目、食肉目、灵长目、鸡形目等4类动物的传统形态及生物学分类地位一致。本研究推测山羊-基因可能定位于10号染色体上,尚需进一步利用荧光原位杂交技术对-基因进行物理定位。
本研究将-基因作为影响山羊肌纤维性状的候选基因进行分析,基于NCBI和EST等数据库,运用生物信息学方法初步获得了1条山羊-基因的全长cDNA序列并应用相关分子生物学软件预测了该基因在山羊中的结构特征,这为山羊肉质性状形成机理的深入分析提供了相应的理论基础,同时也为进一步研究-基因的表达规律及生物学功能奠定了科学依据。