APP下载

G蛋白偶联受体突变分析的生物信息学方法及其资源研究

2015-01-20管翠萍石晶周学章

湖北农业科学 2014年22期
关键词:突变

管翠萍 石晶 周学章

摘要:G蛋白偶联受体(GPCR)参与调节人体各种生理过程,它的突变及基因多态性与多种人类遗传性疾病相关,其中50%以上的疾病突变是由功能性单核苷酸多态性构成的。因此,建立基因多态性与疾病的相关性研究成为主要热点之一。随着生物信息技术的发展,各种机器学习方法、特征提取和数据库资源的综合利用,极大地方便了GPCR的突变研究。介绍了GPCR上以功能性单核苷酸多态性突变为主的生物信息学研究方法和数据资源。

关键词:G蛋白偶联受体(GPCR);突变;功能性单核苷酸多态性;生物信息

中图分类号:Q51;Q-332 文献标识码:A 文章编号:0439-8114(2014)22-5342-04

G蛋白偶联受体(GPCR)是人体内最大的膜受体蛋白家族,参与调节各种生理过程,在信号识别和转导中起着重要作用,同时它也是药物开发史上最有价值的药物靶标。GPCR的突变及其基因多态性将会引起功能失调导致各种疾病的产生, 例如视紫红质受体突变会引发夜盲症和色素性视网膜炎[1];钙敏感受体突变会引发遗传性钙代谢紊乱,导致家族性低钙血症和低钙尿高血钙症的产生[2];GPR56受体N末端突变会导致大脑皮质畸形(BFPP)[3]等。在GPCRs突变体与疾病的相关性研究中,值得一提的是,大多数与疾病相关的突变只发生在少数的几类GPCRs中,例如加压素类受体、钙敏感受体、视紫红质类受体、促黄体生成素受体、促甲状腺素受体和黑皮素受体MC2和MC4,在这几类受体上包含了大多数的疾病突变位点[4]。另外,与GPCR相互偶联的G蛋白发生突变后,同样会引起信号通路异常,导致疾病的产生,例如低甲状旁腺激素症和青春期早熟等遗传性疾病都与G蛋白α亚基的突变有关,β、γ亚基暂无疾病相关性报道。

1 GPCR突变及多态性研究

1.1 GPCR突变类型

编码GPCR与G蛋白的基因发生突变后都有可能影响蛋白质的功能,导致功能的失活或是激活,据此,相应的突变也分为功能失活性突变和功能激活性突变两种类型。GPCR的失活性突变主要包括各种错义、无义、移码突变等,它们使得正常的受体蛋白结构发生改变(截短),阻止了激动剂绑定后所应发生的信号反应;与失活性突变不同,大多数激活性突变都是错义突变,它使得维持受体处于非活化状态的正常约束力受到破坏,在没有激动剂的情况下受体仍然保持着与激动剂绑定的状态,改变平衡向着受体激活状态发展,最终导致不依赖于激动剂的信号反应的产生[4,5]。与疾病相关的突变往往发生在蛋白质结构的保守区域或是功能位点上,在GPCR结构中,跨膜螺旋区控制着受体激活状态与非激活状态之间的平衡,是相对保守的区域,因此突变位点也以跨膜螺旋区较为常见[6-8]。

1.2 GPCR与功能性单核苷酸多态性

单核苷酸多态性是基因组中存在的一种数量非常丰富的变异形式,占人类基因组中遗传多态性的90%以上,其中的非同义单核苷酸多态性(Non-synonymous SNPs,nsSNPs),也称为错义SNP,会引起氨基酸序列的改变,有些改变直接影响到了蛋白质的结构或功能,从而增加了疾病的易感性[9]。这些nsSNPs往往都与蛋白质结构形成中的重要残基和功能位点紧密相关[10,11],因此也被称为功能性SNP,或者是有害nsSNP。据报道,每个人身上大约存在24 000~40 000个nsSNPs位点[12],其中引起人类遗传性疾病的突变中, 50%以上都是由nsSNPs构成的[13]。例如,β2-AR肾上腺素基因发现有17个SNPs位点,其中的一些功能性SNPs分别与心脏病、心血管疾病以及哮喘的发生有关[14,15];GPR10受体启动子区域的多态性与肥胖和糖尿病有关[16];GPCR40基因多态性与胰岛素分泌和β细胞功能下降有关[17,18]。所以,在GPCRs的突变位点研究中,又以具有功能作用的nsSNPs备受药物设计者的关注。这些SNPs可能是人类基因组中疾病易感基因的遗传标记,甚至是直接影响癌症、心脏病、糖尿病与其他常见病的易感性基因位点。

1.3 生物信息学方法预测功能性SNPs

目前,利用生物信息学方法对GPCR进行的突变分析还是以其中的功能性SNPs预测为主,由于已知的GPCRs的三维结构特征有限,所以一些根据氨基酸变异影响蛋白质结构来预测nsSNP致病性的方法是不适用于GPCRs研究的,因此,各种基于序列的分类特征逐渐被应用到GPCRs上致病性SNPs的预测。Miller等[19]指出,疾病相关的SNP与中性SNP相比,在保守性、替换类型及频率、化学性质变化等存在显著差异。Balasubramanian等[6]结合氨基酸的理化性质、进化信息和替代矩阵值3个方面的序列特征,建立logistic回归模型对GPCR上的SNPs与疾病潜在的相关性进行分析,预测准确率为89%,最后得到了115个可能与疾病相关的SNPs位点。Xue等[20]在此基础上,进一步考虑了GPCRs序列和结构的特征,并优化特征属性集,确定了6个特征:保守性、BLoSUM62矩阵值、疏水性变化、突变位置、相对溶剂可及性和掩埋电荷,利用决策树方法对功能性SNPs进行预测,准确率为91%,并总结出30条规则来区分功能性突变和非功能性突变。

现已报道的关于GPCRs上功能性SNPs的预测研究还很有限,而研究比较多的关于功能性与非功能性SNPs的区分方法其实也可以借鉴到GPCRs的研究上,例如张青青[21]通过随机森林的方法结合变异位点的保守性、野生型氨基酸与突变后氨基酸理化性质的差异、氨基酸替换频率在致病组与中性组之间的差异、 突变位点周围的残基组成和突变位点之间的协同作用来预测nsSNPs的致病性。 Jiang等[22]在3个理化性质(分子量、PI值、疏水性)的基础上提取了26组特征,利用MSRV(Multiple selection rule voting)方法预测nsSNPs的有害性等。此外,也有根据不同算法开发的分析软件用来预测SNPs与疾病的相关性,例如SIFT[23]、PolyPhen[24]、SNAP[25]、MSRV[22]、LRT[26]、PolyPhen-2[27]、MutationTaster[28]、KGGSeq[29]、SInBaD[30]、GERP[31]、 PhyloP[32]和SNPranker 2.0[33]等。这些软件基本都具备友好的使用界面,使用者一般需要提交蛋白质序列或是蛋白质ID号,替换的氨基酸、替换位置、染色体或者序列比对信息等,按正确格式提交后,软件就可自行运行然后显示预测结果,一般都会以分值形式给出,分值范围基本在0~1之间,分值越接近1的,表明该SNP与疾病的相关性越大,反之越小。

2 GPCR突变及多态性研究的数据库资源

随着GPCR研究的发展,相应的数据资源也在不断地补充和完善中,从最早的GPCRDB,到后来各种专业数据库的出现,例如gpDB、tGRAP、GPCRNaVa等,为GPCR各个方面的研究提供了数据资源,有关GPCR突变及多态性研究的相关数据资源,如表1所示。

2.1 GPCRDB

GPCRDB(G Protein-Coupled Receptors Database)仍是目前最被广泛使用的G蛋白偶联受体数据库,它包含了多个物种的GPCR序列、配体结合、结构和突变信息,以及一些通过多序列比对或是同源建模等计算方法得到的结果。其中还整合了tinyGRAP、GPCR-OKB和GPCRNaVa中的数据资源。目前最新版本2012.03.26包括来自2 098个物种的40 185条GPCR序列信息和8 235个突变信息,另外还提供了在线分析工具MutationPredicter来预测点突变的影响效果。

2.2 tGRAP

tGRAP(G Protein-Coupled Receptors Mutant Database)早期叫tinyGRAP,是专门关于GPCR突变信息的数据库。里面所有的数据均取自于研究文献并进行人工注释, 最新版本包含来自26个物种的1 940条蛋白序列的突变信息,每条序列上都含有多个突变位点,并有相关的文献注释。可以通过物种、突变位置或突变类型(插入、替换、删除)等信息进行搜索,同时也可以查找一些关于试验方面的信息(例如受体修饰位点、第二信使、G蛋白、质粒等)和相应的文献报道。

2.3 GPCRNaVaDB

GPCRNaVa(Natural Variants in Human G Protein-Coupled Receptors)是关于人类GPCR自然多变体信息的数据库,这些多变体包括罕见的突变和常见的多态性,它们对人类表型有不同的影响,从中性到与疾病相关。GPCRNaVa整合了UniProt/SwissProt、IUPHAR、GPCRDB、dbSNP、OMIM、HGMD、tGRAP等一些在线数据库、研究文献以及病人信息来注释人类GPCRs上的自然多变体,每一条多变体信息包括其在DNA和蛋白质序列上的定位,涉及到的核苷酸和相应的氨基酸、等位基因频率,与疾病的关联性以及相关公共数据库和研究文献的链接。

2.4 SNPdb

单核苷酸多态性数据库(Database of Single Nuleotide Polymorphisms)收集的遗传多态性数据包括单核苷酸多态性(SNPs)、删除/插入多态性(DIPs)、短串联重复序列(STRs)和后移的元素插入4种类型的数据信息。每条记录都包括有突变点附近的DNA序列信息、检测该突变点的试验条件、出现该突变群体的特征描述, 以及群体或个人基因分型得到的频率信息。该数据最新版本(2012年6月)里面收录了人类GPCR上的snp数据共5 313个,其中nsSNP有508个。

2.5 SNPdbe

SNPdbe(SNP Database of Effects)数据库是以预测为主的关于错义SNP(nsSNP)功能注释的数据库。目前, 大多数的多态性都缺少关于功能方面影响的试验注释。SNPdbe数据库包含了dbSNP和

1 000个基因组当中的nsSNP信息以及Uniprot和PMD中的多变体信息,利用SNAP和SIFT算法进一步整合PMD,OMIM和UniProt数据库中关于功能、结构以及与疾病关联性的信息来预测nsSNP,即单氨基酸替换(SAAS)对蛋白质功能的影响。该数据库包括130多万个可引起单氨基酸替换的非同义SNP信息。研究人员可以通过组织名称、序列以及突变ID号来进行搜索,根据预测结果来进一步设计和优化试验方案。

3 展望

G蛋白偶联受体作为近几年的“明星分子”一直是国内外研究的热点,利用生物信息学技术进行的相关研究主要集中在对受体的识别、分类、结构预测、 功能域分析、配体结合、与G蛋白的特异性偶联等方面,在GPCR的突变研究中,仍以试验为主,通过点突变或是SNP检测技术进行疾病相关性分析。目前,随着各类突变信息数据库的出现以及分析软件的开发应用,借助生物信息学手段进行GPCR上功能性SNPs的研究可以为GPCR突变与疾病易感性研究开拓新的思路,同时也可有效地提高试验效率。另外,随着结构测定技术的发展,GPCR结构信息的加入,可以更好地提高预测准确率。通过预测与试验相结合的方法才能有效深入地了解GPCR突变的致病机理。

参考文献:

[1] NEIDHARDT J, BARTHELMES D, FARAHMAND F, et al. Different amino acid substitutions at the same position in rhodopsin lead to distinct phenotypes[J]. Invest Ophthaimol Vis Sci, 2006, 47(4):1630-1635.

[2] EGBUNA O I, BROWN E M. Hypercalcaemic and hypocalcaemic conditions due to calcium-sensing receptor mutations[J]. Best Pract Res Clin Rheumatol, 2008, 22(1):129-148.

[3] LUO R, JIN Z H, DENG Y Y, et al. Disease-associated mutations prevent GPR56-collagen III interaction[J]. Plos One, 2012, 7(1):e29818.

[4] SPIEGEL A M, WEINSTEIN L S. Inherited diseases involving G proteins and G protein-coupled receptors[J]. Annu Rev Med, 2004, 55:27-39.

[5] WAHLESTEDT C, BROOKES A J, MOTTAGUI-TABAR S. Lower rate of genomic variation identified in the trans-membrane domain of monoamine sub-class of Human G-protein coupled receptors: the Human GPCR-DB database[J]. Bmc Genomics, 2004, 5:91.

[6] BALASUBRAMANIAN S, XIA Y, FREINKMAN E, et al. Sequence variation in G-protein-coupled receptors: analysis of single nucleotide polymorphisms[J]. Nucleic Acids Res,2005,33:1710-1721.

[7] TAO Y X. Inactivating mutations of G protein-coupled receptors and diseases: structure-function insights and therapeutic implications[J]. Pharmacol Ther, 2006,111:949-973.

[8] LEE A, RANA B K, SCHIFFER H H, et al. Distribution analysis of non-synonymous polymorphisms within the G - protein-coupled receptor gene family[J]. Genomics, 2003,81:245-248.

[9] SCHAEFER C, BROMBERG Y, ACHTEN D, et al. Disease-related mutations predicted to impact protein function[J]. Bmc Genomics,2012,13(S4):S11.

[10] GONG S, BLUNDELL T L. Structural and functional restraints on the occurrence of single amino acid variations in human proteins[J]. Plos One,2010, 5(2):e9186.

[11] SUNYAEV S, RAMENSKY V, BORK P. Towards a structural basis of human non- synonymous single nucleotide polymorphisms[J].Trends Genet, 2000,16(5):198-200.

[12] KRAWCZAK M, BALL E, FENTON I, et al. Human gene mutation database-a biomedical information and research resource[J]. Human Mutation, 2000,15(1): 45-51.

[13] NG P C, HENIKOFF S. Predicting the effects of amino acid substitutions on protein function[J]. Annual Revew of Genomicxs and Human Genetics, 2006, 7:61-80.

[14] FORLEO C, RESTA N, SORRENTINO S, et al. Association of beta-adrenergic receptor polymorphisms and progression to heart failure in patients with idiopathic dilated cardiomyopathy[J]. Am J Med, 2004,117(7):451-458.

[15] RHONDALYN C M, GLENN A H, LEWIS C B, et al. Polymorphisms of the beta adrenergic receptor predict left ventricular remodeling following acute myocardial infarction[J]. Cardiovascular Drugs and Therapy, 2011, 25(3):251-258.

[16] 郑 升,骆天红,赵 萸,等.G-蛋白偶联受体10多态性与肥胖和2型糖尿病相关性的研究[A].全国首届代谢综合征的基础与临床专题学术会议.全国首届代谢综合征的基础与临床专题学术会议论文汇编[C].北京:中华医学会内分泌学会,2004.

[17] OGAWA T, HIROSE H, MIYASHITA K, et al. GPR40 gene Arg211His polymorphism may contribute to the variation of insulin secretory capacity in Japanese men[J]. Metabolism, 2005,54(3):296-299.

[18] WALKER C G, GOFF L, BLUCK L J, et al. Variation in the FFAR1 gene modifies BMI body composition and beta-cell function in overweight subjects: an exploratory analysis[J]. Plos One, 2011, 6(4):e19146.

[19] MILLER M P, KUMAR S. Understanding human disease mutations through the use of interspecific genetic variation[J]. Hum Mol Genet, 2001,10(21):2319-2328.

[20] XUE D, YIN J, TAN M, et al. Prediction of functional nonsynonymous single nucleotide polymorphisms in human G-protein-coupled receptors[J].J Hum Genet,2008,53(5):379-389.

[21] 张青青.nsSNP位点表型预测的生物信息学研究[D]. 南京:东南大学,2008.

[22] JIANG R, YANG H, ZHOU L, et al. Sequence-based prioritization of nonsynonymous single nucleotide polymorphisms for the study of disease mutations[J]. American Journal of Human Genetics, 2007,81(2):346-360.

[23] NG P C, HENIKOFF S. SIFT: Predicting amino acid changes that affect protein function[J]. Nucleic Acids Res, 2003,31(13):3812-3814.

[24] RAMENSKY V, BORK P, SUNYAEV S. Human non-synonymous SNPs: server and survey[J]. Nucleic Acids Res, 2002, 30(17):3894-3900.

[25] BROMBERG Y, ROST B. SNAP: predict effect of non-synonymous polymorphisms on function[J]. Nucleic Acids Research, 2007,35(11):3823-3835.

[26] CHUN S, FAY J C. Identification of deleterious mutations within three human genomes[J]. Genome Research, 2009, 19(9):1553-1561.

[27] ADZHUBEI I A, SCHMIDT S, PESHKIN L, et al. A method and server for predicting damaging missense mutations[J]. Nature Methods, 2010,7(4):248-249.

[28] SCHWARZ J M, R?魻DELSPERGER C, SCHUELKE M, et al. Mutation taster evaluates disease-causing potential of sequence alterations[J]. Nature Methods, 2010, 7(8):575-576.

[29] LI M X, GUI H S, KWAN J S H, et al. A comprehensive frame work for prioritizing variants in exome sequencing studies of Mendelian diseases[J]. Nucleic Acids Research, 2012, 40(7):e53.

[30] KJONG-VAN L, TING C. Exploring functional variant discovery in non-coding regions with SInBaD[J]. Nucleic Acids Research, 2013, 41(1):e7.

[31] COOPER G M, GOODE D L, NG S B, et al. Single-nucleotide evolutionary constraint scores highlight disease-causing mutations[J]. Nature Methods, 2010, 7(4):250-251.

[32] SIEPEL A, POLLARD K, HAUSSLER D. New methods for detecting lineage-specific selection[A]. Proceedings of the 10th International Conference on Research in Computational Molecular Biology[C]. 2006, 190-205.

[33] MERELLI I, CALABRIA A, COZZI P, et al. SNPranker 2.0: a gene-centric data mining tool for diseases associated SNP prioritization in GWAS[J]. BMC Bioinformatics, 2013, 14(1):S9.

[34] HORN F, BETTLER E, OLIVEIRA L, et al. GPCRDB: an information system for G-protein coupled receptors[J]. Nucleic Acids Res, 2003, 31(1): 294-297.

[35] BEUKERS M W,KRISTIANSEN I,IJZERMAN A P, et al. TinyGRAP database: a bioinformatics tool to mine G protein-coupled receptor mutant data[J]. Trends Pharmacol Sci, 1999, 20(12):475-477.

[36] KAZIUS J, WURDINGER K, ITERSON M V, et al. GPCR NaVa database: natural variants in human g protein-coupled receptors[J]. Human Mutation, 2008, 29(1):39-44.

[37] HARMAR A J,HILLS R A,ROSSER E M, et al. IUPHAR-DB: the IUPHAR database of G protein-coupled receptors and ion channels[J].Nucleic Acids Res,2009,1(37):680-685.

[38] SHERRY S T, WARD M H, KHOLODOV M,et al. DbSNP: the NCBI database of genetic variation[J]. Nucleic Acids Research, 2001, 29(1):308-311.

[39] SCHAEFER C, MEIER A, ROST B, et al. SNPdbe: constructing an nsSNP functional impacts database[J]. Bioinformatics, 2012, 28(4):601-602.

[40] LIU X, JIAN X, BOERWINKLE E. dbNSFP: a lightweight database of human nonsynonymous SNPs and their functional predictions[J]. Human Mutation, 2011, 32(8):894-899.

[41] HAMOSH A, SCOTT A F, AMBERGER J S, et al. Online mendelian inheritance in man (OMIM), a knowledgebase of human genes and genetic disorders[J]. Nucleic Acids Research, 2005, 33:514-517.

[42] STENSON P D, BALL E V, MORT M, et al. Human gene mutation database (HGMD): 2003 update[J]. Human Mutation, 2003, 21(6):577-581.

[43] FREDMAN D, SIEGFRIED M, YUAN Y P, et al. HGVbase:a human sequence variation database emphasizing data quality and a broad spectrum of data sources[J]. Nucleic Acids Research, 2002, 30(1):387-391.

[44] CLARKE L,ZHENG-BRADLEY X,SMITH R,et al.1000 Genomes project consortium. The 1000 genomes project: data management and community access[J]. Nat Methods,2012,9(5):459-462.

猜你喜欢

突变
精子线粒体与男性不育的相关性研究进展
两种检测方法对71例非综合征型耳聋患者基因检测结果的对比分析
例析应对体育教学环境突变的教学策略
关于分析皮带传送中的摩擦力突变问题
抑癌基因p16在燃煤型砷中毒患者中突变及甲基化的情况与意义
北约防长开会应对东欧“突变”
国际油价突变识别及分析