不同物种Dock7基因编码区生物信息学分析
2013-11-30刘小辉李祥龙周荣艳李兰会王建涛
刘小辉,李祥龙,2* ,周荣艳,李兰会,张 天,王建涛
(1.河北农业大学 动物科技学院,河北 保定 071001;2. 河北科技师范学院 动物科技学院,河北 秦皇岛 066000;3.唐山市畜牧工作站,河北 唐山 063004)
Dock7是毛色相关基因,已经被克隆,具有色素减退作用且对发育具有重要作用,在小鼠的腹部、爪子、尾部缺少色素而使局部出现白色,但是在体外培养的黑色素细胞出现色素沉着过度[1]。Dock7基因在多种组织中表达,作为一种鸟苷酸交换因子,通过催化结合GDP与自由GTP之间的交换特异激活Rac1和Rac3,鸟嘌呤核苷酸交换因子参与将跨膜受体和细胞内GTPase家族成员联系起来的信号通路,从而调控许多细胞作用,如细胞增殖分化黏附凋亡等[2],研究证实,Rac1在细胞的迁移黏附等方面发挥重要作用[3]。由于替换与剪切使得Dock基因存在多种亚型,本文利用比较基因组学和生物信息学方法研究了Dock7 基因编码区种间和种内变异,从而探明该基因在不同种间及种内的遗传分化,进而为相关黑色素基因的遗传学和进化分析奠定基础。
1 材料与方法
1.1 序列来源
从NCBI 网站http://www.ncbi.nlm.nih.gov/的GenBank 中下载人、倭黑猩猩、大猩猩、毛猩猩、东非狒狒、玻利维亚的灰鼠猴子、虎鲸、家马、白犀牛、雪貂、家牛、大熊猫、佛罗里达海牛、海象、欧洲兔、家猫、家绵羊、星鼻鼹鼠、北美鼠兔、裸鼢鼠、非洲跳鼠、八齿鼠、褐家鼠、小家鼠、袋獾、原鸡、爪蟾27个物种68条Dock7 基因的CDS序列,68个基因序列的登录号见表1。
1.2 方 法
将序列下载后,首先利用BioEdit软件对下载的27个物种的68条Dock7 基因CDS 序列进行比对分析,选取所有序列共有片段(长度为4 551 bp )进行比较,然后利用DnaSP 5.10软件对其进行遗传多态性分析,生成单倍型,得出平均核苷酸差异数(k)、核苷酸歧异度(Dxy)、遗传分化指数(Gst)、净遗传距离(Da)、密码子偏爱性和同义替换位点数(SS)、非同义替换位点数(NSS)、G+C含量。利用MEGA4.0软件的UPGMA方法构建聚类图,进行聚类分析。再利用SignalP 4.1 Server, TMHMM 2.0 Server, ProtScale,ProtParam在线工具对 Dock7 氨基酸序列进行预测与分析。
表1 不同物种的Dock7 基因序列来源Table 1 The source of sequences for Dock7 gene in different species
2 结果与分析
2.1 不同物种Dock7基因核苷酸分析
2.1.1 多态位点、单倍型及核苷酸多样性分析 所研究的27个物种中,人包含6条序列,虎鲸7条,白犀牛4条,雪貂6条,佛罗里达海牛7条,星鼻鼹鼠5条,裸鼢鼠3条,非洲跳鼠3条,八齿鼠2条,原鸡2条,爪蟾7条,其他各为一条,共68条序列。
所分析片段长度为4 551 bp,发现1855个多态位点,百分率为40.76% ,其中单一多态位点163个,百分率为3.58%,简约多态位点1692 个, 百分率为37.18%,27个物种平均核苷酸差异数(k)为472.076,核苷酸多样性为0.10373。27个物种中共发现28种单倍型,单倍型的多样性为0.949,说明Dock7基因种间变异程度较大。Dock7基因在种内变异很小,只在原鸡中发现一个多态位点。
2.1.2 核苷酸歧异度、遗传分化和净遗传距离 27个物种Dock7基因遗传分化(Gst)在0.333~1.000之间(表2),核苷酸歧异度(Dxy)和净遗传距离(Da)都在0.042~0.223之间。不同物种间核苷酸歧异度和净遗传距离的变化范围均很大,原鸡、爪蟾与其他26个物种间遗传分化明显。虎鲸和白犀牛、雪貂、人的核苷酸歧异度、净遗传距离最小,爪蟾与其它物种间的核苷酸歧异度、净遗传距离最大,根据不同物种间的核苷酸歧异度(Dxy),用MEGA4.0软件的UPGMA方法进行聚类分析,构建不同物种分子聚类图(图1),由聚类图与表中数据(表2)说明,虎鲸和白犀牛、雪貂、人之间Dock7基因遗传分化较小,爪蟾与本研究中其他物种间遗传分化较大。
2.2 不同物种Dock7 基因氨基酸分析
2.2.1 密码子偏爱性 有效密码子数(Effective Number of Codon, ENC)是一个基因密码子的使用频率与同义密码子的平均使用频率偏差的量化值,其范围在20(每个氨基酸只使用一个密码子的极端情况)到61(各个密码子均被平均使用)之间, 该数值越靠近20表明偏好性越强,表达水平也越高,越靠近61表示偏好性越弱,表达程度越低[4]。密码子偏好性指数CBI 值反映了基因中高表达偏好密码子的组成情况, 也能反映偏好性和表达水平的程度[5]。Bennetzen等[6]和Comeron等[7]报道,密码子偏爱指数的值在0~1间变动, 如果密码子偏爱指数的值为0 ,则说明同义密码子被均匀使用, 这个值越大, 则说明密码子使用偏爱情况越严重。所选不同物种Dock7 基因序列编码区中密码子有效值(ENC)为50.496,靠近各个密码子均被平均使用的最大值61,偏爱指标(CBI)为0.220,表明Dock7基因密码子偏爱性较均一, 各密码子在编码氨基酸时出现的频率较一致。
图1 根据物种间的核苷酸歧异度构建的聚类图Fig.1 Phylogenetic tree based on genetic differentiation of species
表2 不同物种核苷酸歧异度和遗传分化Table 2 Nucleotides diversity and genetic differentiation in different species
注:上三角为遗传分化(Gst);下三角为核苷酸歧异度(Dxy)和净遗传距离(Da) (括号内)。
Note: Upper triangular is genetic differentiation(Gst); Lower triangular is nucleotide divergence(Dxy)and net genetic distance(Da) (in brackets).
2.2.2 同义替换和非同义替换 27个物种68条Dock7基因序列编码区中同义替换平均位点数为963.73个,非同义替换平均位点数为3584.27个。不同物种同义替换位点数(SS)为945.17~1013.83 (表3),同义替换核苷酸多样性均值(π(s))为0.02612;非同义替换位点数(NSS)为3534.17~3602.83,非同义替换核苷酸多样性均值(π(a))为0.12473。本研究中发现,27个物种Dock7基因的非同义替换位点数均明显高于同义替换位点数,佛罗里达海牛的非同义替换位点数较其它物种多,其次是星鼻鼹鼠、虎鲸,说明佛罗里达海牛Dock7基因编码区的非同义替换较其它物种高,星鼻鼹鼠、虎鲸分别为第二、第三。由于达尔文的正向选择有些基因中非同义替代速率远远高于同义替代[8],因此推测本研究27个物种Dock7基因在进化过程中可能受到了正向选择的影响。
表3 不同物种Dock7基因同义替换和非同义替换Table 3 Synonymous and nonsynonymous substitution of Dock7 gene in different species
2.2.3 氨基酸序列的组成成分及理化性质分析 用ProtParam在线工具分析27个物种Dock7基因编码的氨基酸序列,对蛋白质的各种理化性质进行预测,结果表明,大约含有2100个氨基酸残基,分子量约为238 kD,理论等电点均低于7.00,说明该蛋白呈酸性,27个物种Dock7蛋白的不稳定系数在49.73~54.17之间,表明这种蛋白质不稳定[9],脂肪系数在84.23~87.32之间,疏水性评估系数在-0.383 ~-0.305之间,在所有分析的物种中相对含量较多的氨基酸为Leu,含量在10.7%~11.3%之间;其次是Ser,含量在8.8%~10.0%之间;再次是Glu,含量在6.8%~7.3%之间,其中27个物种总氨基酸中负电荷残基总数约为262和正电荷残基总数约为244。
2.2.4 信号肽的预测与分析 一般认为,每一个需要运输的多肽都含有一段氨基酸序列,称为信号肽序列(signal peptide,SP),引导多肽至不同的转运系统[10]。信号肽帮助蛋白质穿膜,与蛋白质的细胞定位有关,通过分析蛋白序列N端信号肽的有无,可以初步判断某个蛋白是否为分泌蛋白[11,16]。利用蛋白分析专家EXPASY工具里的SignalP 4.1 Server[12]对27个物种Dock7氨基酸序列进行预测,结果只在原鸡Dock7氨基酸序列中发现一段信号肽信号,位于原鸡氨基酸序列第1~23位氨基酸位置,其存在的可能性为0.475,在第23和24位氨基酸之间存在一个信号肽切割位点(图2),剪切位点(C-score)最高在第24个氨基酸位置,分值为0.206,综合剪切点分值(Y-score)在第24个氨基酸处最大,分值为0.344,信号肽分值(S-score)最大在第1个氨基酸位置,为0.808,第1~23个氨基酸的平均S-score为0.585,其他26个物种的Dock7基因的氨基酸序列均无信号肽。
家鸡是人类驯化较早的家禽,人类重要的食物来源,与人类文化生活密切相关,原鸡与家鸡有一定的亲缘关系,有学者认为家鸡极有可能起源于红色原鸡中的部分亚种[13],王文等人[14]和Liu等人[15]对原鸡和家鸡线粒体DNA部分序列进行多态分析, 认为家鸡可能起源于不同的原鸡亚群体,原鸡的Dock7基因的氨基酸序列有信号肽,因此通过对家鸡的氨基酸是否具有信号肽及信号肽的具体功能的进一步研究,为家鸡的遗传育种和开发利用提供参考。
图2 原鸡Dock7蛋白信号肽分析Fig.2 Signal peptide analysis of Dock7 protein in Gallus
2.2.5 跨膜结构域的预测和分析 跨膜结构域常常是由跨膜蛋白的效应区域所展现,一般由20个左右的疏水性氨基酸残基组成,主要形成α-螺旋[16]。分泌蛋白和膜蛋白都含有信号肽序列, 所不同的是分泌蛋白在信号肽之外不再有疏水的跨膜区,而膜蛋白在信号肽之外还有一个以上的疏水跨膜区[17]。利用在线工具TMHMM 2.0 Server[18]对27个物种Dock7 氨基酸序列的跨膜结构域进行预测,结果显示本研究中27个物种的 Dock7 氨基酸序列均不存在跨膜结构域,整条肽链位于细胞外,结合信号肽的预测,说明原鸡的Dock7蛋白属于分泌蛋白,其他26个物种的Dock7蛋白不属于膜蛋白或分泌蛋白,可以推测出,原鸡的Dock7蛋白可能存在转运,其他26个物种的Dock7基因在游离核糖体上起始合成后可能不存在转运,而是继续留在细胞质中行使功能。
2.2.6 疏水性/亲水性的预测和分析 疏水性和亲水性分析对于预测蛋白质的二级结构和功能域具有重要的生物学意义。疏水性的氨基酸倾向于远离周围水分子,亲水氨基酸通常处于蛋白质分子的表面[19]。利用在线工具 ProtScale[20]对27个物种Dock7 氨基酸序列的疏水性/亲水性进行预测,结果显示本研究27个物种的Dock7氨基酸序列最低分值为-4.500,亲水性最强;最高分值为4.500,疏水性最强。总体上看,亲水区域大于疏水区域,故整条多肽链表现为亲水性,因此认为Dock7蛋白是亲水性蛋白,处于蛋白质分子的表面。
2.2.7 二级结构的预测和分析 蛋白质二级结构是指蛋白质分子中多肽链本身的折叠方式,蛋白质分子的多肽链一般是部分卷曲盘旋成螺旋状(α-螺旋结构),或折叠成片层状(β-折叠结构),或以不规则卷曲结构存在于生物体内[21]。用 PBIL LYON-GERLAND 信息库对27个物种Dock7 氨基酸序列的二级结构进行预测,结果显示本研究中27个物种的Dock7 蛋白质二级结构的主要结构元件是自由卷曲(42.16%~46.50%),其次是α-螺旋(41.35%~45.37%)、伸展片段(11.26%~13.17%)。
3 小 结
对27个物种Dock7基因核苷酸分析,说明Dock7基因种间变异程度较大,种内变异很小,只在原鸡中发现一个多态位点;对27个物种Dock7基因氨基酸分析,结果只在原鸡Dock7基因的氨基酸序列中发现一段信号肽信号,其他26个物种的Dock7基因的氨基酸序列无信号肽。27个物种均无跨膜结构域,整条肽链位于细胞外,说明原鸡的Dock7蛋白属于分泌蛋白,其他26个物种的Dock7蛋白不属于膜蛋白或分泌蛋白。
参考文献:
[1] Montoliu L, Oetting W S, Bennett D C. European Society for Pigment Cell Research[J]. World Wide Web,2012,25(1):37-46.
[2] 高一萌, 张 瑜, 李文燕,等.C3G/Rap1和Dock180/Rac1信号通路在卵巢癌浸润中的作用[J].第三军医大学学报,2012,34(11):1 031-1 034.
[3] Wittchen E S, van-Buul J D, Burridge K, et al. Trading spaces: Rap, Rac, and Rho as architects of transendothelial migration[J].Curr Opin Hematol ,2005,12(1):14-21.
[4] Wright F. The effective number of codon s' used in a gene[J].Gene,1990,87: 23-29.
[5] Morton B R. Chloroplast DNA codon use: evidence for selection at the psb A locus based on tRNA availability[J].J Mol Evol,1993, 37: 273-280.
[6] Bennetzen J L , Hall B D . Codon selection in yeast [J].J Biol Chem,1982,257(6): 3 026-3 031.
[7] Comeron J M, Aguadm. An evaluation of measures of synonymous codon usage bias[J].J Mol Evol,1998, 47(3): 268-274.
[8] 李 易.基因进化的同义与非同义替代计算及统计检验的比较分析[J].曲靖师范学院学报,2006,25(6):1-8.
[9] 张雨良,张智俊,杨峰山,等.新疆盐生植物车前PmNHXl 基因的克隆及生物信息学分析[J].中国生物工程,2009,29(1):27-33.
[10] 彭佳师, 龚继明. 信号肽与蛋白质的分选转运[J].植物生理学报,2011, 47 (1): 9-17.
[11] 孙翰昌,杨 帆,徐敬明,等.草鱼含信号肽分泌蛋白的预测分析[J].水产科学,2001,30(3):164-167.
[12] Bendtsen J D,Nielsen H, Heijne G V, et al. Improved prediction of signal peptides: SingalP 3.0[J].Mol Biol, 2004,340(4):783-795.
[13] 刘长国, 张先福,陈良青,等.家鸡起源研究进展[J].中国家禽,2008,30(3):31-34.
[14] Liu Y P, Wu G S, Yao Y G, et al. Multiple maternal origins of chickens: out of the Asian jungles[J]. Mol Phylogenet Evol, 2006, 38:12-19.
[15] 王 文,兰 宏, 刘爱华,等. 家鸡和原鸡的线粒体 DNA 多态性比较[J].动物学研究, 1994, 15(4): 45-61.
[16] 董 娇,周 军,辛培尧,等.不同植物LDOX/ANS基因的生物信息学分析[J].基因组学与应用生物学,2010,29(5):815-822.
[17] 王 亮,胡建平. 结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法[J].第四军医大学学报,2006,27(1):86-89.
[18] Ikeda M, Arai M, Lao D M, et al. Transmembrane prediction methods: a reassessment and improvement by a consensus method using a dataset of experimentally-characterized transmembrane topologies[J].In Silico Biol,2002, 2(1):19-33.
[19] 胡秀珍.蛋白质规则二级结构中亲疏水氨基酸紧邻关联特性[J].内蒙古大学学报,2002,4(33):395-400.
[20] Kyce J, Doolittle R F. A simple method for displaying the hydropathic character of a protein [J].Mol Biol,1982,157(6):105-132.
[21] 王菲露,宋 杨. 基于广义回归神经网络的蛋白质二级结构预测[J].计算机仿真,2012,29(2):184-187.