SRSF2基因的生物信息学分析与蛋白质预测
2017-10-24李明阳马春霞吴翰欣吴小海杨渊俞建昆
李明阳,马春霞,吴翰欣,吴小海,,杨渊,,俞建昆
1.中国医学科学院&北京协和医学院 医学生物学研究所 中心实验室,云南 昆明 650118;2.昆明医科大学 附属第二医院,云南 昆明 650118
SRSF2基因的生物信息学分析与蛋白质预测
李明阳1,马春霞1,吴翰欣2,吴小海1,2,杨渊1,2,俞建昆1
1.中国医学科学院&北京协和医学院 医学生物学研究所 中心实验室,云南 昆明 650118;2.昆明医科大学 附属第二医院,云南 昆明 650118
目的:分析富含丝氨酸和精氨酸的剪接因子2(SRSF2)基因序列和表达产物的特征。方法:运用生物信息学相关软件分析和预测人类和小鼠SRSF2基因的同源区段、开放读框、启动子区域、转录因子结合位点、CpG岛分布情况,分析预测小鼠SRSF2基因蛋白产物的功能结构域以及与其他蛋白的相互作用。结果:人类和小鼠SRSF2基因共有3个同源区段、19个开放读框、4个相同的转录因子结合位点,2个基因的CpG岛各项参数基本一致;小鼠SRSF2蛋白会与至少10种其他蛋白因子发生相互作用。结论:SRSF2基因及其蛋白产物的生物信息学分析,为相关研究提供了重要的信息基础。
富含丝氨酸和精氨酸的剪接因子2(SRSF2);生物信息学;蛋白质相互作用
真核生物的结构基因由多个编码和非编码序列互相间隔但又连续镶嵌形成,绝大部分基因转录出前体mRNA(pre-mRNA)后需要通过剪除非编码序列后再连接成为成熟的mRNA,方可翻译出由连续氨基酸组成的完整蛋白质,这些基因我们称之为断裂基因(split gene)。
可变剪接是真核生物中普遍存在的一种分子加工过程,人类95%以上的基因都受到可变剪接的调控[1-2],可变剪接调控过程异常将会导致多种疾病,如Frasier综合征、脊髓性肌肉萎缩等[3]。完成mRNA剪接的工具是剪接体(spliceosome),其包含多个亚单位,共同完成剪接工作[4]。可变剪接的调控因子包括顺式元件和反式调节因子。利用高通量测序技术发现可变剪接的调控因子具有双向功能,既能促进、也能抑制外显子的接入,何时发挥何种功能与其他调控蛋白与前体mRNA的结合位置有关[5]。
真核生物外显子的上游一般存在一段外显子剪接增强子(exonic splicing enhancer,ESE),它与SR蛋白家族结合,促进剪接体对特异剪接位点的识别,保证基因的准确剪接。SR蛋白家族具有特定的RNA识别结构域(RNA recognition mo⁃tif,RRM)和RS结构域,至今已发现几十种SR蛋白家族成员和相关蛋白。1992年分离鉴定的富含丝氨酸和精氨酸的剪接因子2(serine and argi⁃nine rich splicing factor 2,SRSF2)是SR蛋白家族的一员,在剪接体组装过程中发挥重要作用[6]。
通过生物信息学方法探讨SRSF2基因及其蛋白产物,有利于了解其在疾病发生中的生物学作用,为研究SRSF2的基因调控奠定了基础。
1 材料与方法
1.1 材料
登录GenBank数据库(https://www.ncbi.nlm.nih.gov/gene/)检索人类(HOMO)和小鼠(MUS)的SRSF2基因,获得全长基因序列及氨基酸序列(HOMO ID:6427,NC_000017.11;MUS ID:20382,NC_000077.6),保存为FASTA格式用于本研究。
1.2 方法
用在线序列比对工具BLASTN(http://blast.nc⁃bi.nlm.nih.gov/)对人类和小鼠的SRSF2基因进行比对,获得同源区段。用NCBI ORFfinder(https://www.ncbi.nlm.nih.gov/orffinder/)在线分析2个基因的开放读框,并采用3种在线启动子预测软件[Network Promoter Prediction(http://www.fruitfly.org/seq_tools/promoter.html)、Promoter SCAN(http://www-bimas.cit.nih.gov/molbio/prosca)、Promoter 2.0(http://www.cbs.dtu.dk/services/Promoter)]和在线转录因子预测软件P-Match1.0(http://gene-regulation.com/cgi-bin/pub/programs/patch/bin/patch.cgi)分析人类和小鼠的SRSF2基因启动子所在位置及转录因子结合位点。用MerhPrimer CpG Island Pre⁃diction(http://www.urogene.org/cgi-bin/methpeimer./methprimer.cgi)预测人类和小鼠SRSF2基因中的CpG岛分布情况。登录ExPASy网站,用Protparam(http://web.expasy.org/protparam/)、SWISS-MODEL(https://swissmodel.expasy.org/) 和 SMART(http://smart.embl-heidelberg.de/)工具对小鼠SRSF2基因的蛋白产物进行分析。
2 结果
2.1 SRSF2基因定位与序列比对
人类SRSF2基因定位于染色体17q25.1,共有5个外显子,全长3317 bp。小鼠SRSF2基因定位于染色体11E2;1181.49cM,共有2个外显子,全长3218 bp。序列比对显示,人类与小鼠的SRSF2基因有3个高度同源区段(图1)。
2.2 SRSF2基因开放读框分析结果
ORFfinder分析显示,人类和小鼠SRSF2基因均有19个开放读框(ORF)。人类SRSF2基因ORFs中-6 ORF最长,跨越822 bp;小鼠SRSF2基因中则为+8 ORF最长,跨越429 bp(表1)。
2.3 SRSF2基因启动子预测结果
3种在线启动子软件最终分析结果有一定差异,其中Promoter Prediction 2.0并未检测到小鼠SRSF2基因的启动子;Promoter Scan结果显示人类SRSF2基因的反向启动子得分较高,而小鼠SRSF2基因正向启动子得分较高,显示了物种间的差异。见表2、3、4。
2.4 SRSF2基因启动子区转录因子结合位点预测结果
图1 人类与小鼠SRSF2基因的同源区段
表1 人类和小鼠SRSF2基因ORF预测结果
表2 Promoter Scan分析结果
表3 Promoter Prediction 2.0分析结果
表4 Network Promoter Prediction分析结果
设置P-Match1.0程序的核心序列相似性为0.70,矩阵相似性为0.75,输入人与小鼠的SRSF2基因序列,搜索脊椎动物转录因子结合部位数据库,获得启动子区转录因子结合位点总数4个,全部为共有的转录因子(表5)。
表5 P-Match 1.0分析结果
2.5 SRSF2基因CpG岛预测结果
MerhPrimer CpG Island Prediction分析结果显示人类SRSF2基因共有一个CpG岛,序列长度为11163 bp(48~1210 bp),岛大小>100,GC含量>50.0%,Obs/Exp>0.6;小鼠SRSF2基因CpG岛数目也为1,序列长度为11 011 bp(48~1058 bp), 岛大小>100、GC含量>50.0%、Obs/Exp>0.6等指标与人类SRSF2基因CpG岛基本一致(图2、3)。
2.6 SRSF2基因蛋白产物预测结果
2.6.1SRSF2蛋白产物相关指数测定 人类SRSF2蛋白分子式为C892H1377N225O264S12,相对分子质量19 861.81;共有179个氨基酸残基,其中异亮氨酸残基含量最高,为12.8%;带有23个负电残基和10个正电残基,等电点4.69;在哺乳动物体外,该蛋白的半衰期为30 h,不稳定指数为54.68,因此判定为不稳定蛋白;溶脂系数为99.72,亲水性的总平均值为0.148。
小鼠SRSF2蛋白分子式为C1054H1760N400O330S5,相对分子质量25 476.35;共有221个氨基酸残基,其中精氨酸含量最高为84.5%;带有21个负电残基和65个正电残基,等电点11.86;在哺乳动物体外,该蛋白的半衰期为30 h,不稳定指数为133.678,也为不稳定蛋白;溶脂系数为28.64,亲水性的总平均值为-1.624。
图2 人类SRSF2基因CpG岛分布
图3 小鼠SRSF2基因CpG岛分布
2.6.2 SRSF2蛋白产物功能域预测 SMART程序分析结果显示,小鼠SRSF2蛋白也具有SR蛋白家族的经典结构域RRM,会与其他多种蛋白相互作用,形成一个复杂的网状体系。目前已知SRSF2蛋白作为一种细胞调控因子,不仅参与调控可变剪接,还与某些基因的转录过程,维持胸腺、骨髓等造血系统的正常发育有重要关系。见图4、5。
图4 小鼠SRSF2蛋白功能结构域
图5 小鼠SRSF2蛋白与其他因子的相互作用
3 讨论
研究显示,剪接因子SRSF2基因突变将可能导致骨髓增生异常综合征(myelodysplastic syn⁃dromes,MDS)[7-9]、慢性粒单核细胞白血病(chron⁃ic myelomonocytic leukemia,CMML)[10-11]、骨髓增殖性肿瘤(myeloproliferative neoplasm,MPN)[12]等多种血液疾病。分析结果指出,超过一半的突变发生在SRSF2的第95位密码子上,以P95H、P95R、P95L这3种突变形式最为常见,该位点位于N端RRM结构域和C端RS结构域之间[13]。此外,多种遗传性疾病的发病原因是其他基因的突变导致了SRSF2蛋白的异常调控。早年衰老综合征(Hutchinson-Gilford progeria syndrome,HGPS)是由其LMNA基因突变后导致,LMNA基因中存在SRSF2蛋白结合序列,SRSF2蛋白可调控LMNA与LMNC的比例,从而在一定程度上治疗HGPS[14]。
我们采用生物信息学方法与技术,分析了人类与小鼠SRSF2基因及其蛋白产物的结构特征和功能结构域。但仅仅依靠生物信息学分析并不十分严谨,须将软件预测分析和实验验证结合起来方能得到可信度最高的结果,为进一步探讨SRSF2基因调控奠定基础。
[1]Pan Q,Shai O,Lee L J,et al.Deep surveying of al⁃ternative splicing complexity in the human transcrip⁃tome by high-throughput sequencing[J].Nat Genet,2008,40(12):1413-1415.
[2]Kahles A,Ong C S,Zhong Y,et al.SplAdder:identi⁃fication,quantification and testing of alternative splic⁃ing events from RNA-Seq data[J].Bioinformatics,2016,32(12):1840-1847.
[3]Chabot B,Shkreta L.Defective control of pre-messen⁃ger RNA splicing in human disease[J].J Cell Biol,2016,212(1):13-27.
[4]Will C L,Lührmann R.Spliceosome structure and function[J].Cold Spring Harb Perspect Biol,2011,3(7):322-330.
[5]Kahles A,Ong C S,Zhong Y,et al.SplAdder:identi⁃fication,quantification and testing of alternative splic⁃ing events from RNA-Seq data[J].Bioinformatics,2016,32(12):1840-1847.
[6]Fu X D,Maniatis T.The 35-kDa mammalian splicing factor SC35 mediates specific interactions between U1 and U2 small nuclear ribonucleoprotein particles at the 3'splice site[J].Proc Natl Acad Sci USA,1992,89(5):1725-1729.
[7]Wu S J,Kuo Y Y,Hou H A,et al.The clinical im⁃plication of SRSF2 mutation in patients with myelodys⁃plastic syndrome and its stability during disease evolu⁃tion[J].Blood,2012,120(15):3106-3111.
[8]Kim E,Ilagan J O,Liang Y,et al.SRSF2 mutations contribute to myelodysplasia by mutant-specific effects on exon recognition[J].Cancer Cell,2015,27(5):617-630.
[9]Komeno Y,Huang Y J,Qiu J,et al.SRSF2 is essen⁃tialforhematopoiesis,and its myelodysplastic syn⁃drome-related mutations dysregulate alternative prem RNA splicing[J].Mol Cell Biol,2015,35(17):3071-3082.
[10]Meggendorfer M,Roller A,Haferlach T,et al.SRSF2 mutations in 275 cases with chronic myelomonocytic leukemia(CMML)[J].Blood,2012,120(15):3080-3088.
[11]Itzykson R,Itzkson R,Fenaux P,et al.Chronic myelo⁃monocytic leukemia:myelodysplastic or myeloprolifera⁃tive[J]?Best Pract Res Clin Haematol,2013,26(4):387-400.
[12]Cazzola M,Porta M G D,Malcovati L.The genetic ba⁃sis of myelodysplasia and its clinical relevance[J].Blood,2013,122(25):4021-4034.
[13]Hahn C N,Venugopal P,Scott H S,et al.Splice fac⁃tor mutations and alternative splicing as drivers of he⁃matopoietic malignancy[J].Immunol Rev,2015,263(1):257-278.
[14]Lee J M,Nobumori C,Tu Y,et al.Modulation of LM⁃NA splicing as a strategy to treat prelamin A diseases[J].J Clin Invest,2016,126(4):1592-1602.
Bioinformatics Analysis and Prediction ofSRSF2Gene and Protein
LI Ming-Yang1,MA Chun-Xia1,WU Han-Xin2,WU Xiao-Hai1,2,YANG Yuan1,2,YU Jian-Kun1*
1.Central Laboratory,Institute of Medical Biology,Chinese Academy of Medical Sciences & Peking Union Medi⁃cal College,Kunming 650118;2.Second Affiliated Hospital of Kunming Medical University,Kunming 650118;China
Objective:To analyze the character of serine and arginine rich splicing factor 2(SRSF2) gene se⁃quence and protein.Methods:The homologous sequences,open reading frame(ORF),promoter region,transcrip⁃tion factor binding site,distribution of CpG islands of human and mouse'sSRSF2gene,and the functional struc⁃ture and interact with other proteins of mouse SRSF2 protein were analyzed and predicted by bioinformatics-relat⁃ed software.Results:There were three homologous fragments,19 ORFs and four same identical transcription fac⁃tor binding sites in the human and mouse'sSRSF2genes;the parameters of the CpG islands of the two genes were similar.The mouse SRSF2 protein interacted with at least ten protein factors.Conclusion:The bioinformatics analysis of SRSF2geneand its protein provides an important information for related research.
serine and arginine rich splicing factor 2(SRSF2);bioinformatics;protein interactions
Q811.4
A
1009-0002(2017)05-0590-05
10.3969/j.issn.1009-
*Corresponding author,E-mail:yjk@imbcams.com.cn
2017-03-20
高等学校博士学科点专项科研基金(20111106120056);中国医学科学院重大协同创新项目(2016-12M-001)
李明阳(1993- ),男,硕士研究生,(E-mail)403124921@qq.com
俞建昆,(E-mail)yjk@imbcams.com.cn