乌苏里貉KIT基因及编码蛋白生物信息学分析
2020-08-04白秀娟姜恩泽朱宇航徐逸男韩志强
白秀娟,姜恩泽,苏 杭,朱宇航,许 愿,徐逸男,李 雪,韩志强,徐 超
(1.东北农业大学动物科学技术学院,哈尔滨,150030;2.中国农业科学院特产研究所,长春 130112)
KIT基因,又名c-KIT基因,编码的肥大/干细胞生长因子受体(Mast/stem cell growth factor receptors)最初于猫肉瘤病毒中被发现[1]。在色素沉着方面,KIT基因主要调控黑色素细胞前体沿特定路径迁移到真皮、表皮、内耳和眼脉络膜的过程[2]。KIT基因非正常编码或表达量较少时,黑色素细胞不会正常增殖和迁移,机体产生不同程度白化[3]。白癜风患者KIT基因表达量极显著低于正常人[4]。目前,KIT基因在动物中已发现多种突变体。狐狸白色被毛与KIT基因外显子12缺失有关[5]。KIT基因易位使牛表现不同程度白斑[6]。阿拉伯骆驼白色斑点与KIT基因突变有关[7]。研究表明KIT基因在毛色调控中发挥重要作用。
乌苏里貉(Nyctereutes procyonoides)属于犬科(Canidae),经济价值较高的毛皮动物。研究表明野猪KIT基因与毛色表型不相关[8],乌苏里貉KIT基因编码区未发现与毛色相关单核苷酸位点[9-10],乌苏里貉KIT基因与毛色关系未见报道,为了解乌苏里貉KIT基因及编码蛋白结构特性,基于机器学习和人工神经网络等在线软件对其编码蛋白一级、二级、三级结构作全面生物信息学分析。研究结果旨在比较乌苏里貉与其他动物KIT基因提供参考,为了解KIT基因潜在功能提供新思路。
1 材料与方法
1.1 KIT基因转录本定量
根据中国农业科学院特产研究所上传到SRA数据库的乌苏里貉皮肤转录组数据:野生貉(SRS1620675,SRS1620679,SRS1620678),白貉(SRR4158185,SRR4158184,SRR4158183),红棕貉(SRR4034955, SRR4034954,SRR4034953)各3只,原始数据均由Illumina HiSeqTM 2000双端测序获得,按文献[11]方法分析转录本数据。为获得clean reads便于后续分析,将接头、低质量序列和未知核苷酸序列过滤,使用Trinity软件序列组装,获得尽可能长非冗余unigenes。通过Bowtie软件比对unigenes。使用RSEM工具精确量化每个样本转录丰度。使用FPKM方法计算每个转录产物基因表达水平。最后,分别提取不同毛色乌苏里貉KIT基因表达量方差分析。
1.2mRNA序列收集
从GenBank数据库检索已公布的乌苏里貉KIT基因mRNA序列,登录号:KM083121,保存完整CDS序列,以便进一步生物信息学分析。
1.3 乌苏里貉KIT基因序列分析
使用DNAMAN软件中display sequence程序分析CDS序列总长度及4种碱基含量。通过在线软件ORF finder(https://www.ncbi.nlm.nih.gov/orffinder/)分析CDS区开放阅读框。
1.4 乌苏里貉KIT基因编码蛋白一级结构预测
为了解乌苏里貉KIT基因编码蛋白一级结构特征,运用Protparam(https://web.expasy.org/protparam/)在线软件预测KIT基因编码蛋白理化性质。运用基于Hphob./Kyte&Doolittle模型在线软件Protscale(https://web.expasy.org/protscale/)预测KIT蛋白亲水性和疏水性。运用在线软件NetOGly 4.0 Server(http://www.cbs.dtu.dk/services/NetOGlyc/)和 NetNG-ly 1.0 Server(http://www.cbs.dtu.dk/services/NetNG-lyc/)分别预测KIT蛋白O-糖基位点和N-糖基位点。最后,使用在线软件NetPhos(http://www.cbs.dtu.dk/services/NetPhos/)预测乌苏里貉KIT蛋白磷酸化位点[12]。
1.5 乌苏里貉KIT基因编码蛋白二级结构及定位分析
使用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)在线软件预测乌苏里貉KIT蛋白二级结构[12]。运用在线软件SingalP(http://www.cbs.dtu.dk/services/SignalP/)定 位分析KIT蛋白信号肽[13]。通过TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)在线工具预测分析KIT蛋白质跨膜区位置[14]。通过在线软件PSORT(https://www.genscript.com/psort.html)和 Softberry(http://linux1.softberry.com/)网站预测KIT蛋白亚细胞定位。通过NCBI Conserved Domain(https://www.ncbi.nlm.nih.gov/cdd/)寻找KIT蛋白保守结构域[13]。
1.6 乌苏里貉KIT基因编码蛋白三级结构及蛋白互作分析
通过SWISS-MODEL(https://swissmodel.expasy.org/interactive)网站构建KIT蛋白三级结构模型。运用 STRING(https://string-db.org/cgi/input.pl)交互数据库分析与KIT蛋白密切作用的蛋白质。
1.7 不同物种KIT基因编码蛋白序列进化分析
根据乌苏里貉KIT蛋白序列,运行BLAST,获得家犬(AAD28369.1,Canis lupus familiaris)、家猫(NP_001009837.3,Felis catus)、野猪(AFK92989.1,Sus scrofa)、牦牛(XP_005905988.1,Bos mutus)、藏羚羊(XP_005961702.1,Pantholops hodgsonii)、家 马(NP_001157338.2,Equus caballus)、 家 牛(XP_005207994.2,Bos taurus)7个物种KIT蛋白序列,运用在线软件Clustal Omeaga(https://www.ebi.ac.uk/Tools/msa/clustalo/)对8个物种KIT蛋白序列比对分析,通过MEGA5.1软件中邻近法构建系统发育树。
2 结果与分析
2.1 3种毛色KIT基因定量表达
在3种毛色乌苏里貉转录本定量表达中,白貉KIT基因表达量最高,为1.4746,其次为红棕貉(0.0748),野生貉KIT基因表达量最低(0.0246),且白貉KIT基因表达量显著高于红棕貉和野生貉(P<0.05)。
2.2 乌苏里貉KIT基因序列
DNAMAN序列分析结果显示,乌苏里貉KIT基因CDS区长度为2 919 bp,4种碱基含量依次为A(27.4%,800)>T(25.6%,748)>G(24.6%,719)>C(22.4%,652),其中A+T含量(53%)略高于G+C含量(47%),说明该基因稳定性较差,ssDNA分子质量为902.77,dsDNA分子质量为1 799.47。ORF finder开放阅读框预测结果显示,起始密码子ATG编码Met,终止密码子TGA不编码氨基酸,该序列共编码972个氨基酸。
2.3 乌苏里貉KIT基因编码蛋白一级结构特性
2.3.1 理化特性
在线工具Protparam分析理化性质结果表明,乌苏里貉KIT基因编码蛋白分子式为C4863H7546N1294O1451S52,由15 206个原子组成,分子质量为109 022.33,消光系数在280 nm处测量值为135 120,推测乌苏里貉体内半衰期为30 h,不稳定指数为37.79(<40),为稳定氨基酸,脂肪族氨基酸指数为81.39,该蛋白质序列等电点为6.15,属于酸性蛋白质。
2.3.2 亲水性和疏水性
在线工具Proscal分析亲水性和疏水性结果表明,乌苏里貉KIT基因编码蛋白中疏水性氨基酸(Ala、Val、Leu、Ile、Phe、Trp、Met、Pro)399个,亲水性氨基酸(Gly、Thr、Ser、Cys、Asn、Gln、Tyr、Lys、Arg、His、Asp、Glu)573个,其中,第14位氨基酸为最大疏水性氨基酸(3.589),第364位氨基酸为最大亲水性氨基酸(-2.789),且亲水性氨基酸(<0)多于疏水性氨基酸(>0),平均亲水系数为负值(-0.224),因此该蛋白质是亲水性蛋白质,结果见图1。
2.3.3 乌苏里貉KIT蛋白的糖基位点和磷酸化位点预测
在线软件NetOGly 4.0 Server分析结果显示,乌苏里貉KIT蛋白共存在12个O-糖基位点,分别在第 28、 30、 38、 709、 939、 950、 955、 958、959、961、962、963位氨基酸。NetNGly 1.0 Server分析结果表明,乌苏里貉KIT蛋白共存在9个N-糖基位点,位置分别在第94、130、145、283、300、352、367、400、486位氨基酸。通过Net-Phos分析磷酸化位点结果发现,乌苏里貉KIT蛋白共60个磷酸化位点分值高于0.5,其中包括35个丝氨酸(Ser)、10个苏氨酸(Thr)、15个酪氨酸(Tyr),具体位置如表1所示。
2.4 乌苏里貉KIT蛋白二级结构分析
通过SOPMA在线软件预测乌苏里貉KIT蛋白二级结构。预测结果显示,该蛋白有247个(25.41%)氨基酸形成α螺旋;220个(22.63%)氨基酸形成延伸直链;50个(5.14%)氨基酸形成β-转角;455个(46.81%)氨基酸形成无规卷曲,因此无规卷曲为乌苏里貉KIT蛋白主要二级结构。
2.5 预测乌苏里貉KIT蛋白结构及定位
2.5.1 信号肽和跨膜区
在线分析软件TMHMM预测该蛋白存在两个跨膜区结构,分别在第517~539、649~671位氨基酸,其余第1~516、672~972位氨基酸位于细胞膜外侧,第540~648位氨基酸位于细胞膜内侧(见图2)。
在线SignalP软件预测该蛋白质信号肽结果显示,该蛋白在第1~25位氨基酸为信号肽序列,因此推测该蛋白为分泌型蛋白(见图3)。
2.5.2 保守结构域
NCBI Conserved Domain预测结果表明,乌苏里貉KIT蛋白共有4个保守结构域,包括2个免疫球蛋白结构域(Ig),分别位于第216~305、426~505位氨基酸残基,1个干细胞因子受体第四免疫球蛋白样域(Ig4_SCFR),位于第311~411位氨基酸残基,1个蛋白激酶C(PKc-like),位于第549~924位氨基酸残基(见图4)。
2.5.3 亚细胞定位
在线软件PSORT预测乌苏里貉KIT基因编码蛋白亚细胞定位结果显示,该蛋白存在于内质网(21.7%)、高尔基体(13.0%)、细胞膜(34.8%)、细胞外(30.4%),Softberry网站分析该蛋白定位在细胞膜上评分为10.0(满分)。
2.6 乌苏里貉KIT蛋白同源建模
通过SWISS-MODEL对乌苏里貉KIT蛋白同源建模,系统根据蛋白质结构域将乌苏里貉KIT蛋白分为两大板块。根据乌苏里貉KIT蛋白第33~507位氨基酸同源建模获得三级结构,如图5a所示,包含KIT蛋白2个Ig和1个Ig4_SCFR。根据乌苏里貉KIT蛋白第547~927位氨基酸同源建模获得三级结构,如图5b所示,包含1个PKc-like。
2.7 KIT蛋白互作网络
运用STRING预测与KIT蛋白相互作用蛋白质,如图6所示,其中共有5个蛋白相关系数在0.950以上,包括KIT配体(KITLG),相关系数0.998;磷酸肌苷-3激酶(PIK3R1),相关系数0.962;磷脂酰肌醇4,5-二磷酸3激酶(PIK3CA),相关系数0.961;还有两个RAS家族原癌基因NRAS、HRAS,相关系数分别为0.960、0.957。
2.8 系统发育树构建
通过邻近法构建系统发育树,其中重复参数为1 000,采用邻近法计算距离,从系统发育树中可见,如图7所示,乌苏里貉和家犬进化距离较近,与家猫聚合为1支,家牛、牦牛、藏羚羊、野猪、家马聚合为另1支。
3 讨论
3.1 乌苏里貉KIT基因表达量与黑色素含量关系
黑色素细胞起源于胚胎发育时神经嵴细胞,KIT基因可调控神经嵴细胞分化、存活和迁移[15-16],是黑色素细胞成熟关键。理论上,KIT基因表达量较多利于黑色素细胞成熟,可产生较多黑色素,机体颜色加深。斑嘴野鸭KIT基因在褐羽和黄白羽中表达量均显著高于白羽(P<0.05)[17],骝色蒙古马KIT基因表达量极显著高于白色蒙古马(P<0.01)[3],Du等研究结果表明,白貉被毛中黑色素含量显著低于野生貉[11]。3种毛色乌苏里貉转录本定量结果表示,KIT基因在白貉中表达量最高,其次是红棕貉,而野生貉KIT基因表达量最低,与乌苏里貉KIT基因表达量和毛色表型关系不符,可能是乌苏里貉KIT基因及其编码蛋白结构与其他动物不同所致。
3.2 乌苏里貉KIT蛋白结构分析
文章从全球最大基因数据库GenBank中检索到乌苏里貉KIT基因CDS序列作生物信息学分析,结果表明,KIT基因CDS序列全长2 919 bp,共编码972个氨基酸。使用TMHMM和SignalP在线网站,基于神经网络算法分别精准预测蛋白质跨膜区和信号肽,根据分析结果推测该信号肽位于氨基酸序列N端且分布在细胞膜外侧,信号肽可调控大多数蛋白质分泌[18-19]。根据跨膜区和结构域分析结果,2个Ig和1个Ig4_SCFR位于氨基酸序列N端且分布在细胞膜外侧,1个PKc-like位于氨基酸序列C端且分布在细胞膜外侧。根据跨膜区和糖基化分析结果预测,O-糖基和N-糖基全部在细胞膜外侧,且O-糖基主要分布在氨基酸序列C端,少数分布在N端。N-糖基分布在氨基酸序列N端。乌苏里貉KIT蛋白首先在内质网中作N端糖基化修饰,再转运到高尔基体中作复杂的糖基化修饰,最后到细胞膜表面表现生物学功能[20-21]。Softberry和PSORT为预测蛋白质亚细胞定位常用在线网站,Softberry网站功能全面,预测结果以评分表示,内容较详细。PSORT网站功能较单一,预测结果百分比表示。通过PSORT网站对乌苏里貉KIT蛋白亚细胞定位预测分析结果显示,该蛋白质主要在细胞膜上发挥功能,与Softberry预测结果一致。根据跨膜区和磷酸化分析结果,KIT蛋白磷酸化位点有7个在细胞膜内侧,53个在细胞膜外侧,其中氨基酸序列N端存在30个,氨基酸序列C端存在23个,两个跨膜区均不存在磷酸化位点。因此,研究结果阐明乌苏里貉KIT基因编码蛋白的性质,可为进一步研究提供参考数据。
3.3 KIT基因及蛋白序列比较分析
根据BLAST分析结果构建系统发育树,发现乌苏里貉、家犬和家猫聚合为一大支,表明乌苏里貉KIT蛋白结构与家犬、家猫相似。红褐貉第二外显子长为276 bp,与家犬、家猫同源性分别为97%、92%,且对野生貉、白貉、红褐貉第二外显子分析未发现突变位点[9],张巧灵等分析羊驼KIT基因exon10-19表明,其酪氨酸激酶活性位点仅横跨12个氨基酸,而乌苏里貉酪氨酸激酶549~924位于氨基酸残基之间[22],约占KIT蛋白总长度一半。不同动物KIT蛋白结构不同,酪氨酸激酶结构域活性可影响KIT蛋白磷酸化,磷酸化转化调控对干细胞迁移和下游信号转导具有关键作用[23]。在具有白色斑点的冰岛马皮肤中发现,KIT基因17号外显子中缺失一个碱基,证实该缺失可阻碍黑色素细胞内酪氨酸激酶结构域功能。狐狸KIT基因17号外显子缺失导致酪氨酸激酶域结构和功能发生改变,赤狐被毛表现为铂金色[24]。蓝狐KIT基因12号外显子缺失导致酪氨酸激酶活性发生改变,被毛表现为白色[5]。而在乌苏里貉KIT基因中并未发现与毛色相关的单核苷酸位点[10],Frischknecht报道全长7 125 bp的FERV1插入KIT基因内含子1中,导致猫产生白色斑点[25]。目前,对于各物种KIT基因结构研究较少,乌苏里貉KIT蛋白研究结果可为进一步比较分析提供参考。乌苏里貉KIT基因转录及翻译调控研究仍较少,是否存在miRNA调控仍未知,由于抗体有限,测定不同毛色乌苏里貉KIT蛋白表达量仍有难度。推测乌苏里貉毛色也可能受KIT基因非编码区调控,或是通过一种负反馈调节黑色素形成。