阿尔茨海默病相关的生物信息学分析
2015-12-30高慧丽,王笑寒,李燕飞等
·心脑血管及代谢性疾病·
阿尔茨海默病相关的生物信息学分析
高慧丽王笑寒李燕飞段冉冉滕军放彭涛贾延劼
(郑州大学第一附属医院神经内科,河南郑州450052)
摘要〔〕目的探讨阿尔茨海默病(AD)发生发展相关的基因。方法①利用生物信息学方法挖掘现有文献,NLP分析方法进行关于AD文献挖掘。②Gene Ontology(GO)分析方法进行相关基因功能分类。③Pathway分析方法统计基因在每个Pathway中的富集程度。④基因网络分析方法将上述三种结果整合为基因间的相互关系网络,并筛选出AD相关信号转导通路中的枢纽基因(Hub基因)。 结果与AD发生发展相关的文献和基因分别为8 900篇和898个,绘制与AD发生发展有关的相关基因的生物信号网络,发现AD相关基因的表达参与到14种生物学过程、12种细胞的组成和25个不同的信号转导通路(P<0.01),执行9种生物分子功能,并与24种疾病(P<0.01)的发生发展有关。研究基因/蛋白质相互作用发现,PIK3CG等21个为AD相关基因网络中连接程度最高的21个基因(P<0.05),即Hub基因。结论文献挖掘得到的相关信号通路(Cytokine-cytokine receptor interaction信号通路)及Hub基因(PIK3CG、CBL)与AD的发生发展密切相关。
关键词〔〕阿尔茨海默病;生物信息学;信号通路;Hub基因
Related bioinformatics analysis of Alzheimer's disease
GAO Hui-Li,WANG Xiao-Han,LI Yan-Fei,etal.
Department of Neurology,the First Affiliated Hospital of Zhengzhou University,Zhengzhou 450052,Henan,China
Abstract【】ObjectiveTo discuss the genes that related with the development of Alzheimer's disease(AD) on the basis of the existing literature by bioinformatics methods.Methods①NLP analysis was used to gather genes related with AD.②All of these genes obtained from NLP analysis were classified in 3 functional groups by gene ontology(GO)analysis.③The enrichment P-value of genes was calculated for each pathway by pathway analysis.④Gene network analysis method was used to integrate the results of these three into the relationship network of genes and Filter out the Hub genes in the AD-related signal transduction pathway.ResultsGet 8 900 literatures and 898 genes that related with the development of AD were gotten,the expression of genes related to AD were involved in 14 kinds of biological processes,12 kinds of cellular components and 25 different signal transduction pathways(P<0.01),performed 9 biomolecular function,related to the development 24 kinds of diseases(P<0.01) by drawing the biological signaling network of these genes.Connectivity analysis was carried out and found that the connectivity of 21 genes(P<0.05) were the highest.ConclusionsSignaling pathway like cytokine-cytokine receptor interaction and genes such as PIK3CG,CBL which obtained through literature mining are closely associated with the development of AD.
【Key words】Alzheimer's disease;Bioinformatics;Signal pathway;Hub gene
第一作者:高慧丽(1988-),女,在读硕士,主要从事脑血管疾病研究。
2013年美国阿尔茨海默病(AD)患者约有520万,其中大于65岁的患者约有500万〔1〕。随着人类寿命的延长,每年约有100万新发病例,到2050年,预计AD患者将达到1 380万,是目前患病人数的3倍〔1〕。虽然在过去的30年有大量针对AD的症状、发病原因、危险因素和治疗的研究,但是AD的发病原因、发病机制尚不十分明确。现有研究表明,Aβ、Tau、PS和ApoE等均在AD的发病过程中起到重要作用〔2〕,但上述几个方面作为靶点的治疗未取得良好效果。本研究利用生物信息学方法采集与AD发生发展相关的基因,并整合成为相关基因间的关系网络,筛选相关信号通路及枢纽基因(Hub 基因)。
1材料与方法
1.1数据信息分析内容利用上海敏芯文献挖掘分析系统(软件著作权登记号:2009SR045504),以“Alzheimer’s Disease”进行文献挖掘及生物信息学分析找到近十年的human的信息。挖掘出与关键词相关的所有基因形成列表;进行gene ontology、pathway和network分析。
1.2数据信息分析方法
1.2.1NLP 分析NLP的具体步骤是:①Document searching & formating:即文档搜索和格式化,首先利用关键词进行文档搜索,然后将搜索到的文档整理成XML格式。②Gene mention tagging using ABNER:基因的描述的定位是利用ABNER软件进行的。③Conjunction resolution:关于提取的基因的描述中,如将“STAT3/5 gene”解析成为STAT3 gene和STAT5 gene。④Gene name normalization based on Entrez database:由于基因的名字在自由文本中比较混乱,为了方便分析和比较,将统一应用官方基因符号对文章中的基因进行描述。以NCBI的entrez gene数据库中的基因符号为准。⑤Statistical analysis:统计每个基因出现的频率。一个基因出现的频率越高,则该基因与本疾病相关的可能性越大。将PubMed数据库文献总数记作N,在PubMed文献数据库中基因和相应疾病分别独立出现的频率,分别记作m,n。假设实际中基因-疾病同时出现的次数为k,那么利用超几何分布,可以计算出在完全随机的条件下出现大于k次co-citation的概率
其中
1.2.2Gene ontology (GO)分析GO数据库包括三方面功能信息,分别是基因参与的生物过程,所处的细胞位置,发挥的分子功能,并将各种功能概念组织成DAG(有向无环图)的结构。GO是一个使用有控制的词汇表和严格定义的概念关系,将各物种的基因功能分类体系以有向无环图的形式进行统一表示,从而将基因的功能信息进行较全面地概括,对传统功能分类体系中常见的维度混淆问题进行纠正。在基因表达谱分析中,基因功能分类标签和基因功能研究的背景知识常由GO提供。利用GO的知识体系和结构特点能够发掘与基因差异表达现象关联的单个特征基因功能类或多个特征功能类的组合。在本实验中,将靶基因向GO数据库的各节点映射。计算每个节点的基因数目。软件使用R(http://www.r-project.org/)统计平台下的GSEABase软件包。按照生物学过程(biological process),细胞组成(cellular component),分子功能(molecular function)三种独立的方式对差异表达的基因进行分类。
1.2.3基因通路及网络分析使用GenMAPP v2.1将基因向KEGG pathway数据库映射,进而统计基因在每个pathway中的富集程度(enrichment p-value)。同时整合 3 种不同的相互作用关系:1)KEGG数据库中基因之间的蛋白互做、基因调控、蛋白修饰等关系;2)已有的高通量实验,如酵母双杂交等证实的蛋白-蛋白相互作用;3)已有文献报道的中提到的基因之间的相互作用。具体来讲,下载KEGG数据库中pathway数据,通过R(http://www.r-project.org/)下的KEGGSOAP (http://www.bioconductor.org/packages/2.4/bioc/html/KEGGSOAP.html)软件包,分析基因组范围内的基因之间的相互作用,包括3种关系(表1)。蛋白-蛋白相互作用数据下载自MIPS数据库(http://mips.helmholtz-muenchen.de/proj/ppi/)。co-cition算法被应用于已有文献报道的基因之间的相互作用。基本方法是:将PubMed数据库的文献摘要下载到本地,将每个摘要分解为句子,然后分析每个句子中共同存在的基因名称,即co-citation的基因。对于每对co-citation的基因,统计该基因对出现的频率。基因对出现的频率越高,则基因间存在相互作用的可能性越大。将PubMed数据库文献总数记作N,在PubMed文献数据库中基因对中的两个基因分别独立出现的频率,分别记作m,n。假设实际中基因对同时出现的次数为k,k么利用超几何分布,可以计算出在完全随机的条件下出现大于 次co-citation的概率:
其中
最后,将以上三种数据结果进行综合考虑,并将其整合为基因间的相互关系网络。通过medusa软件对该网络进行图形展示。通过构建基因网络,可以使基因之间的相互关系在全局的水平上得到直观的反应,同时也能反映基因调控网络的稳定性。Hub基因即是在网络中连接度高的基因。这些基因往往对网络的稳定性起到重要作用。一般认为Hub基因的重要性要高于普通基因,因为Hub会影响大部分基因,是基因调控的核心。一般来讲,大部分Hub基因都是转录因子,有的时候,也可能是激酶,如MAPK系统。
2结果
关键词2.1文本挖掘程序分析结果利用搜索,共找到AD相关基因的文献8 900篇。利用文本挖掘程序分析后共获取相关gene 898个(表2)。目前,文本挖掘在生物医学领域发挥着重要的作用,主要是从文献中抽取基因、蛋白、药物、疾病等生物实体之间的关系。因此,可以进一步分析得到的 898个相关基因以筛选出本研究感兴趣的基因。
中图分类号〔〕R741〔文献标识码〕A〔
基金项目:国家自然科学基金资助项目(81071114)
通讯作者:贾延劼(1971-),男,博士生导师,主任医师,教授,主要从事脑血管疾病基础及临床研究。
2.2AD 相关基因的生物学功能采用GO分析,将所有AD相关基因归类到①生物学过程(表 3),②细胞组成(表4),③分子功能(表5)三种生物学关系中。结果显示:AD相关基因主要参与细胞发展过程、细胞信号转导、物质运输等生物学过程;AD相关基因的产物主要参与细胞膜、胞核及胞外非组织的构造等细胞组分;最后,AD相关基因主要发挥调节细胞信号转导、核酸结合、激酶活性和转录调控活动等分子功能。
2.3基因信号通路和网路分析通过pathway分析,得到生物信号通路共62条,其中有具有统计学意义的信号通路有25条(P<0.01)(表6),并且发现Cytokine-cytokine receptor interaction信号通路、MAPK信号通路、趋化因子信号通路等与AD相关程度最高;同时找出与这些基因相关的24种疾病(P<0.01,表7)包括前列腺癌、肌萎缩侧索硬化症、慢性粒细胞白血病、结直肠癌、胶质瘤等。最后通过整合ECrel、PPrel 和GErel三种关系,绘制出AD相关基因的信号转导网络图(图1),发现PIK3CG、CBL、GNAI1、JAK2、JUN、PIK3R3、CCND1、CCR1、CCR2、CCR3、CCR5、CX3CR1、CXCR4、EGFR、IL8RB、MAPK1、MAPK3、CTNNB1、MYC、FGFR2和GRB2这21个基因在信号通路中的链接程度最高(P<0.05),被定义为Hub基因。并进行连接度分析,通过连接度分析发现连接度最高的为PIK3CG(P=0.000 373),其中有意义的互作基因共有17个:CBL,CD28,DNM1L,DNM2,EGFR,ERBB4,FGFR2,GAB2,GNAI1,GNB4,IRS1,JAK2,MAP2K1,MAP2K2,NGFR,PDPK1,PTPN11。
表1 基因网络分析基因组范围内的基因之间的相互作用
表2 检测AD相关基因部分列表
表3 AD相关基因功能分类之生物学过程
表4 AD相关基因功能分类之细胞组成
表5 AD相关基因功能分类之分子功能
表6 AD相关基因相关的信号通路
图1 AD相关基因间的相互关系网络 (连接边:粉红色=活化,蓝色=抑制,黄色=结合)
名称数目P值1 2型糖尿病120.0037749272 1型糖尿病140.0001165073 AD469.31×10-104 肌萎缩侧索硬化症(ALS)2805 朊蛋白病152.02×10-66 幽门螺杆菌感染150.005771717 肿瘤通路721.84×10-98 结直肠癌246.13×10-69 肾细胞癌160.00303672710 胰腺癌205.71×10-511 子宫内膜癌225.64×10-912 神经胶质瘤231.40×10-713 前列腺癌311.38×10-914 甲状腺癌122.38×10-515 黑色素瘤204.58×10-516 膀胱癌222.11×10-1117 慢性粒细胞白血病251.53×10-718 急性髓细胞性白血病177.74×10-519 小细胞肺癌200.00076554620 非小细胞肺癌191.92×10-621 哮喘123.58×10-522 自身免疫性甲状腺疾病130.00319214723 同种异体移植物排斥138.41×10-524 移植物抗宿主反应130.000274878
3讨论
AD是全球痴呆最常见的类型,其主要的组织病理学特征为:在人脑中,细胞内神经原纤维缠结以及细胞外淀粉样斑块沉积。细胞内神经原纤维缠结主要是由微管相关蛋白-Tau蛋白过度磷酸化形成。在正常组织中,Tau蛋白是微管蛋白的重要成分,对细胞内神经营养物质运输、囊泡、线粒体和常染色体的结构起到重要的支持作用,也是神经轴突生长发展的必要物质〔3〕。AD患者脑组织中Tau蛋白异常过度磷酸化,形成不溶性纤维并沉积在细胞内。Aβ肽的纤维聚集物是淀粉样斑块的重要组成成分,Aβ肽是过表达的淀粉样前体蛋白(APP)的代谢产物,Aβ的生成是AD的重要病理过程。许多研究表明,Tau蛋白和Aβ的生成异常都可能会引起神经元突出功能和线粒体功能紊乱,并导致AD的神经退行性变。很多其他的病理机制也与神经元纤维缠结和淀粉样斑块沉积相关,比如炎症反应〔4〕、氧化损伤〔5〕、线粒体功能障碍〔6〕等。
基因和环境因素在AD的发病过程起到重要作用。研究表明,具有阳性家族史者多呈常染色显性遗传和多基因遗传,目前发现的突变基因主要是APP、PSEN1、PSEN2和APOE,且前三个基因多与早发性AD相关,而第四个基因多与迟发性AD相关,与散发性AD也有一定的相关性。可以看到,本次文献挖掘得到了与AD发生、发展相关的898个基因,除了目前研究较多的APP、PSEN1、PSEN2、APOE、Tau蛋白编码基因(MAPT)、裂解酶编码基因(BACE)等基因外,还包括一些其他的基因,有待于进一步深入研究。
绘制与AD发生发展相关基因的生物信号网络,发现AD相关基因的表达参与到25个不同的信号转导通路(P<0.01),并与24种疾病(P<0.01)的发生发展有关。多项研究表明,AD患者的大脑组织中有一个重要的神经病理学特征,即脑组织中的慢性炎症反应过程〔7,8〕,尽管伴发脑组织损伤的炎症反应也存在于其他神经疾病中,如帕金森病〔9〕、肌萎缩侧索硬化症〔10〕等,但是AD与慢性炎症之间的关系是与之不同的。流行病学研究发现慢性炎症可能是AD众多病因中的一个,长期应用大剂量非甾体类抗炎药(NSAIDs)可以降低AD发病概率〔11〕。在生物化学方面,可以发现AD患者脑组织中IL-1,IL-6,TNF-α和 S100β等细胞因子增多〔8〕。慢性炎症反应可加速AD的发生和恶化。有研究表明,多种炎症因子、抗炎因子及趋化因子及其受体可能通过细胞因子-细胞因子受体相互作用通路信号通路、趋化因子信号通路在AD的病理学过程中发挥重要作用〔12〕,同时也通过影响Aβ及Tau生成的过程参与AD的病理过程〔13〕;丝裂原活化蛋白激酶(MAPK)信号通路是近年来发现的广泛存在于各种动物细胞的一条信号转导途径,对于细胞周期的运行和基因表达具有重要的调控作用,MAPK信号通路也与AD的发生发展密切相关〔14,15〕。
通过构建基因网络,可以使基因之间的相互关系在全局的水平上得到直观的反应,同时也能反映基因调控网络的稳定性。Hub基因即是在网络中连接度高的基因。这些基因往往对网络的稳定性起到重要作用。一般认为Hub基因的重要性要高于普通基因,因为Hub会影响大部分基因,是基因调控的核心。故本研究将898个基因进行了网络构建及连接度分析。PIK3CG基因定位于7q22.3,长 37 kb,,包含 10 个外显子,其编码磷脂酰肌醇-3激酶PI3K其中的一个催化亚基,PI3K属于磷脂激酶家族,PI3K/Akt信号通路参与多种生物学过程,此通路的激活可以防止Aβ对神经细胞的毒性作用〔16〕。PIK3CG基因也通过影响Aβ的生成而与AD密切相关〔17〕。除此之外,其他的Hub基因如CBL〔18〕、JAK2〔19〕等也与AD的发生发展相关。
本研究对AD发生发展机制研究有较重要参考价值。但是,目前关于AD相关基因和信号通路的研究不多,对其的认识还很有限,未来需要更多更深入的研究来具体阐述相互之间的联系,从而帮助临床医生进行早期、有效的诊断和预防,为AD患者制定个体化治疗方案,提高AD患者的治疗效果。
4参考文献
1Thies W,Bleiler L,Alzheimer’s Association. Alzheimer’s disease facts and figures〔J〕.Alzheimers Dement,2013;9(2):208-45.
2杨文明,张荣信,杜卫东. 阿尔茨海默病相关基因研究进展〔J〕.中国老年学杂志,2013;33(2):455-9.
3Griffin WS.Inflammation and neurodegenerative diseases〔J〕.Am J Clin Nutr,2006;83(2):470S-474S.
4Galimberti D,Fenoglio C,Scarpini E. Inflammation in neurodegenerative disorders:friend or foe〔J〕?Curr Aging Sci,2008;1(1):30-41.
5Reddy VP,Zhu X,Perry G,etal.Oxidative stress in diabetes and Alzheimer’s disease〔J〕.J Alzheimers Dis,2009;16(4):763-74.
6Santos RX,Correia SC,Wang X,etal. Alzheimer’s disease:diverse aspects of mito-chondrial malfunctioning〔J〕.Int J Clin Exp Pathol,2010;3(6):570-81.
7Glass CK,Sajo K,Winner B,etal. Mechanisms underlying inflammation in neurodegeneration〔J〕.Cell,2010;140(6):918-34.
8Akiyama H,Barger S,Barnumetal S. Inflammation and Alzheimer’s disease〔J〕.Neurobiol Aging,2000;21(3):383-421.
9Nagatsu T,Sawada M. Inflammatory process in Parkinson's disease:role for cytokines〔J〕.Curr Pharm Des,2005;11(8):999-1016.
10Henkel JS,Beers DR,Zhao W,etal. Microglia in ALS:the good,the bad,and the resting〔J〕.J Neuroimmune Pharmacol,2009;4(4):389-98.
11Vlad SC,Miller DR,Kowall NW,etal. Protective effects of NSAIDs on the development of Alzheimer disease〔J〕.Neurology,2008;70(19):1672-7.
12Plata-Salaman CR,Ilyin SE,Gayle D. Brain cytokine mRNAs in anorectic rats bearing prostate adenocarcinoma tumor cells〔J〕.Am J Physiol,1998;275(2):R566-R573.
13Rubio-Perez JM,Morillas-Ruiz JM.A review:inflammatory process in alzheimer’s disease,role of cytokines 〔J〕.Sci World J,2012;2012:756357.
14Sonia AL Correa,Katherine L Eales. The Role of p38 MAPK and its substrates in neuronal plasticity and neurodegenerative disease〔J〕.J Signal Transduction,2012;2012:649079.
15Denner L,Rodriguez-Rivera J,Haidacher SJ. Cognitive enhancement with rosiglitazone links the hippocampal PPARγ and ERK MAPK signaling pathways〔J〕.J Neurosci,2012;32(47):16725-35.
16Burgos-Ramos E,Martos-Moreno GA,Lopez MG,etal. The N-terminal tripeptide of insulin-like growth factor-I protects against beta-amyloid-induced somatostatin depletion by calcium and glycogen synthase kinase 3 beta modulation〔J〕.J Neurochem,2009;109(2):360-70.
17Passos GF,Figueiredo CP,Prediger RD. Involvement of phosp- hoinositide 3-kinase gamma in the neuro-inflammatory response and cognitive impairments induced by beta-amyloid 1-40 peptide in mice〔J〕.Brain Behav Immun,2010;24(3):493-501.
18Hannibal L,DiBello PM,Yu M. The MMACHC proteome:hallmarks of functional cobalamin deficiency in humans〔J〕.Mol Genet Metab,2011;103(3):226-39.
19Chiba T,Yamada M,Sasabe J. Amyloid-beta causes memory impairment by disturbing the JAK2/STAT3 axis in hippocampal neurons〔J〕.Mol Psychiat,2009;14(2):206-22.
〔2014-03-19修回〕
(编辑安冉冉/曹梦园)