基于多重生物信息学分析阿尔茨海默病的调控网络及相关机制
2022-07-20曹亦楠刘嘉莉赵晓东魏慧军魏明清马亚茹黄存生薛旭升
王 维,曹亦楠,刘嘉莉,赵晓东,魏慧军,魏明清,马亚茹,黄存生,薛旭升
(1.北京中医药大学a.孙思邈医院脑病科,陕西 铜川 727031;b.孙思邈医院脑病研究所,陕西 铜川 727031;c.东直门医院脑病科三区,北京 100700;2.北京广安睡眠科学研究院,北京 100032)
阿尔茨海默病(Alzheimer’s disease,AD)是一种不可逆的神经退行性疾病,在老年人口中发病率较高,其导致人体认知和神经功能发生进行性减退,直至最终丧失独立生活能力,严重威胁着人类生命和健康。随着世界人口老龄化加剧,AD发病率随之逐年上升,目前全世界估计已有4400万人患有AD,预计2050年AD患者数量将增长为1.52亿[1]。目前关于AD发病机制的观点主要有β-淀粉样蛋白(Aβ)假说、Tau蛋白过度磷酸化以及胆碱能神经元损伤等[2],但AD具体发病机制仍未明确,因此积极探索AD的发病机制以及推动AD治疗进展一直是当今研究的热点和重点。
生物信息学是一门适应大数据需求的前沿交叉学科,该学科的高速发展为研究AD带来新的思路[3]。本研究基于多重生物信息学的整体思路,通过运用基因表达数据集(GEO)、mirTarBase、Starbase以及Targetscan等多个数据库的同时结合计算机R语言等工具筛选出AD的关键基因、microRNA(miRNA)、转录因子(TF)以及信号通路等信息,并从多角度、多层面且较系统地对AD的发生、发展机制展开探索,以期为未来AD的基础与临床研究提供有益的理论参考。
1 材料与方法
1.1 数据来源
美国国立生物中心建立的GEO数据库为全球最大且内容最丰富的公共数据资源平台,因此选择GEO数据库进行下载AD的基因芯片作为数据来源。以“Alzheimer’s disease”为检索词,在GEO数据库展开检索相关基因芯片数据集。
数据纳入标准:1)样本为人大脑组织;2)样本仅包含正常对照样本与AD组织样本;3)正常对照与AD组织的样本数均≥80;4)芯片数据为基因表达谱。
1.2 差异表达基因的数据处理与筛选
通过Bioconductor平台中的affy数据包对2个原始数据集进行背景校准、归一化以及基因表达值log2转换的预处理,同时当多个探针对应一个共同基因时,取平均值作为其表达值。另外运用SVA数据包消除2个数据集之间的批次效应和其他非必要变异。最后,应用limma包筛选差异表达基因(DEGs),筛选条件设置为P<0.05,log2Fold Change>0.5。
1.3 DEGs的疾病本体富集分析、基因本体功能注释和京都基因与基因组百科全书通路富集分析
疾病本体(DO)富集分析是研究目标基因是否在某个疾病或某类疾病中富集的一种分析方法,对于研究复杂疾病发病机制、新药研发具有重要作用[4]。使用DOSE数据包对DEGs进行DO富集分析,P<0.05被认为差异具有统计学意义。
基因本体(GO)是用于筛选3项独立类别的基因富集功能:生物过程(BP),细胞成分(CC)和分子功能(MF);京都基因与基因组百科全书(KEGG)是用于搜索与已筛选基因相关的通路。使用可视化和集成发现数据库(DAVID)在线工具,对筛选的DEGs进行GO功能注释和KEGG通路富集分析,每个项目的基因数≥5并且P<0.05被认为差异具有统计学意义。
1.4 蛋白质-蛋白质相互作用网络构建
将DEGs上传至STRING(the Search Tool for the Retrieval of Interacting Genes)数据库,以“highest confidence”(>0.4)作为最低相互作用阈值,并在隐藏断开节点后构建蛋白相互作用(PPI)网络。进一步使用Cytoscape3.8.0软件优化网络,应用插件CytoHubba计算各个蛋白质节点的度(degree),根据度的大小筛选潜在靶点。蛋白的度值代表与其具有相互作用的其他蛋白节点数目,因而可根据度值大小排名判断蛋白对整体网络的影响程度,并预测出AD的关键基因。
1.5 miRNA-TF-mRNA调控网络构建
运用mirTarBase、Starbase和Targetscan数据库预测AD关键基因的相关miRNA。为提高预测结果的可靠性,因此对以上3个数据库分别预测的miRNA取交集,筛选出共同miRNA作为AD关键基因的相关miRNA。另外运用Enrichr数据库预测AD关键基因的相关TF,并且以物种为智人以及P<0.05作为标准进行筛选。根据以上所获AD关键基因的miRNA与转录因子信息后,利用Cytoscape软件构建AD关键基因的miRNA-TF-mRNA调控网络。
2 结果
2.1 数据集信息以及DEGs筛选结果
经仔细筛选后下载芯片编号分别为GSE48350和GSE132903的芯片原始文件。数据集GSE48350基于GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array平台,具有173个正常对照样本,80个AD样本。数据集GSE132903基于GPL10558Illumina HumanHT-12 V4.0 expression beadchip平台,具有98个正常对照样本,97个AD样本。
使用R语言对2个原始数据集进行处理后开始筛选DEGs,选出符合条件的DEGs共有109个,其中44个为上调基因,65个为下调基因(图1)。
蓝色节点代表下调差异基因,红色节点代表上调差异基因,黑色节点代表无显著表达差异基因;Fold Change(差异倍数)表示试验组与对照组两者表达量的比值,即差异表达倍数。
2.2 DEGs的DO富集分析、GO功能注释和KEGG通路富集分析
DO富集分析结果显示DEGs与6种疾病显著相关,分别为躁郁症(bipolar disorder)、AD、Tau蛋白病变(tauopathy)、情绪障碍(mood disorder)、脑部疾病(brain disease)、癫痫综合征(epilepsy syndrome),见表1、图2。
图2 DEGs的DO富集分析
GO功能富集显示包括化学突触传递(chemical synaptic transmission)、运输(transport)、氯离子跨膜转运(chloride transmembrane transport)、大脑发育(brain development)、细胞外基质组织(extracellular matrix organization)、离子跨膜转运(ion transmembrane transport)等6项生物过程,质膜(plasma membrane)、胞外区(extracellular region)、质膜组成部分(integral component of plasma membrane)、细胞外间隙(extracellular space)、细胞连接(cell junction)、突触小泡(synaptic vesicle)、神经元投射(neuron projection)、突触囊泡膜(synaptic vesicle membrane)、细胞外基质(extracellular matrix)、树突(dendrite)、分泌颗粒(secretory granule)、突触(synapse)、突触后膜(postsynaptic membrane)等13项细胞成分以及神经肽激素活性(neuropeptide hormone activity)和激素活性(hormone activity)等2项分子功能,见表1,图3。
Rich Factor(富集因子)表示本研究中差异基因注释在某条代谢通路上的数目与人类所有基因注释到该通路上的数目的比值,数值越大表示富集程度越大;Rich Factor的计算来源为差异基因在DAVID数据库中进行的KEGG通路富集分析的结果。
KEGG通路富集分析显示主要涉及GABA能突触(GABAergic synapse)、逆行内源性大麻素信号(Retrograde endocannabinoid signaling)、神经活性配体-受体相互作用(Neuroactive ligand-receptor interaction)、丝裂原活化蛋白酶(MAPK)信号通路(MAPK signaling pathway)、催产素信号通路(Oxytocin signaling pathway)、钙信号通路(Calcium signaling pathway)、吗啡成瘾(Morphine addiction)、苯丙胺成瘾(Amphetamine addiction)等8条信号通路,见表1,图4。
表1 DEGs的DO富集分析、GO功能注释和KEGG通路富集分析
图4 DEGs的KEGG通路富集分析
2.3 PPI网络构建和关键基因筛选
通过Cytoscape 3.8.0软件对PPI网络进行可视化处理,得到PPI网络图,图中共有68个节点和173条边。根据Cytohubba插件对图中节点的度进行计算,并设置度越大的节点越靠近网络中心且颜色越深(图5)。选取度最高的前10个基因作为AD的关键基因,分别为胆囊收缩素(CCK)、FOS原癌基因(FOS)、γ-氨基丁酸A型受体亚基α1(GABRA1)、γ-氨基丁酸A型受体亚基γ2(GABRG2)、突触素(SYP)、生长抑素(SST)、神经肽Y(NPY)、胶质纤维酸性蛋白(GFAP)、突触素Ⅱ(SYN2)、嗜铬粒蛋白B(CHGB),见表2。
图5 DEGs的PPI网络
表2 PPI网络中的度排名前10的基因
2.4 miRNA-TF-mRNA调控网络分析
mirTarBase、Starbase和Targetscan数据库预测的AD关键基因的相关miRNA分别为103个、236个和3903个,通过构建Venn图筛选出共同miRNA为27个(图6),mRNA与miRNA的对应关系见表3。此外,运用Enrichr数据库预测得到的AD关键基因相关TF共有12个,TF与mRNA的对应关系见表4。根据AD关键基因及其相关的miRNA与TF信息构建miRNA-TF-mRNA调控网络(图7),在网络中可见FOS受多种miRNA调控,同时受作为转录因子的激活转录因子4(ATF4)、尿激酶型纤溶酶原激活因子(PLAU)和叉头盒A1(FOXA1)调控;GABRA1受has-miR-335-5p调控,同时受多种作为转录因子的Spi-B转录因子(SPIB)、髓性锌指1(MZF1)、GATA结合蛋白3(GATA3)、JUND原癌基因(JUND)、肝细胞核因子1B(HNF1B)、POU2级同源框2(POU2F2)、锌指蛋白281(ZNF281)、FOXA1调控;另外除HNF1B外,其余各个TF均调控多个关键基因的mRNA。总之,结果表明miRNA-TF-mRNA调控网络中mRNA与miRNA、TF之间具有一对多和多对一的对应关系,可见它们之间可能具有较复杂的调控关系。
图6 mirTarBase、Starbase和Targetscan数据库预测miRNA的Venn图
紫色三角形节点代表miRNA,椭圆形节点代表关键基因表达的mRNA(红色代表上调,绿色代表下调),黄色菱形节点代表TF。
表3 miRNA-TF-mRNA调控网络中mRNA与miRNA的对应关系
表4 miRNA-TF-mRNA调控网络中TF与mRNA的对应关系
3 讨论
尽管由于AD对个人和社会的巨大影响使其受到全世界广泛关注,但目前仍无有效根治AD的方法。美国食品药品管理局目前已批准了用于治疗AD的药物,但遗憾的是此类药物均以神经递质为基础制成,仅可缓解AD患者部分症状而无法修复AD患者已受损的神经元[5],因此有必要充分了解AD的发病机制进而为本病的治疗提供新的理论依据。此前有关AD的生物信息学研究大多受到方法单一、样本较小等限制,本研究基于多重生物信息学的整体思路,从多角度、多层面展开对AD的生物信息学研究。首先,本研究运用GEO、mirTarBase、Starbase以及Targetscan等多个数据库展开对AD关键基因、miRNA、转录因子以及信号通路等信息的探索,并且在AD研究中首次进行DO富集分析,充实了研究内容并增强了创新性。其次,本研究的样本量相对较大,总体样本数量为448,并且本研究运用R语言中的多种数据包对原始数据进行了严格的背景校准、归一化、消除批次效应等处理,保证了研究结果的可靠性。总之,本研究希望基于多重生物信息学思路为AD发生的分子机制以及临床治疗提供新的研究线索。
本研究共筛选出109个DEGs,其中44个为上调基因,65个为下调基因。根据DO富集分析显示,DEGs主要富集在躁郁症、AD、Tau蛋白病变等疾病,可见DEGs不仅与神经系统疾病关系密切,更与AD高度相关,此可反映出获得的DEGs以及DO分析结果的可靠性。GO功能富集中有关BP与CC的结果主要涉及突触传递、离子跨膜转运以及细胞外基质等方面,MF则主要涉及神经肽等激素活性方面。突触作为神经元与靶细胞之间传递信号的关键部位,当神经冲动传导时,神经递质将由突触小泡移至突触前膜进行释放并进一步与突触后膜上受体结合,从而完成一次信号传导。若突触功能受损,则会造成神经冲动传导受阻,进而诱发AD认知功能损害[5],并且已有研究[6]表明AD早期记忆丧失的主要原因是突触功能障碍而并非神经元丧失。AD的病理变化之一是淀粉样前体蛋白(APP)的不规则蛋白水解,这是导致淀粉样斑块、神经纤维缠结以及神经元丢失的重要步骤,而AD 中的淀粉样蛋白可修饰众多离子跨膜转运系统并形成异质离子通道,此将加重离子的渗透性并严重损害生物膜,进而促进AD进展[7]。细胞外基质是由细胞分泌的各种大分子组成的结构网络,有学者通过分析总结出在AD中细胞外基质作用强大,不仅参与Aβ斑块的形成和降解过程,还参与炎症反应以减轻AD中的神经炎症损伤,同时也可抵抗氧化应激以减轻神经损伤[8]。MF方面,NPY是一种36个氨基酸的肽,有研究[9]发现NPY 可通过抗凋亡、抗炎以及促吞噬作用来有效减缓AD病情进展。除神经肽激素外,有报道[10]指出脑胰岛素抵抗也会通过促进氧化应激、刺激Aβ产生以及加重Tau蛋白磷酸化并造成AD病情恶化。
KEGG通路富集结果显示DEGs主要富集在GABA能突触、逆行内源性大麻素信号、神经活性配体-受体相互作用、丝裂原活化蛋白酶(MAPK)信号通路、催产素信号通路、钙信号通路以及药物成瘾通路。GABA是人体大脑中最重要的抑制性神经递质,具有抑制大脑兴奋性神经元的作用。有研究[11]证明在AD中GABA可通过与Aβ肽的前体APP相互调节而影响Aβ在脑内沉积,并进一步影响人体认知功能。有关机制研究[12]表明在AD中通过调节内源性大麻素系统,可保护神经元免受淀粉样蛋白β损害,并减少Tau蛋白的磷酸化以及Aβ诱导的氧化应激等。另外,神经活性配体与细胞内受体相互作用同样与AD关系密切,其可影响神经元的学习与记忆能力、突触功能以及神经可塑性等方面[13]。MAPK信号通路作为重要的胰岛素信号通路,有研究[14]表明在AD中通过调控MAPK信号通路可减少Aβ沉积,以及改善Tau蛋白过度磷酸化、神经炎症和自噬水平影响AD发生、发展。催产素是一种含有9个氨基酸的小肽,对许多神经系统疾病具有神经保护作用,有学者[15]发现可通过调节催产素信号通路以减轻神经毒性来改善AD。钙信号通路的正常调控对于稳定神经元结构与功能至关重要,同时其参与AD的病理过程[16],对于探索AD的发病机制具有重要启示。此外,有研究指出对于吗啡等精神类药物的滥用会引起神经毒性和神经炎症,进而导致神经变性[17],这对预防AD提供了重要参考。
根据PPI网络相关信息进行筛选AD关键基因,并进一步预测与其相关的miRNA与TF,根据所得结果构建AD关键基因的miRNA-TF-mRNA调控网络。在调控网络中可见FOS受多种miRNA调控,FOS基因又称为c-FOS,其表达产物参与形成的激活蛋白-1(AP-1)在促进突触可塑性和长时记忆方面作用明显[18]。国外学者[19]通过动物实验在12个月大的AD小鼠腹侧海马中发现miR-181 的水平显著增高而c-FOS的水平均显著降低,并进一步通过细胞实验证明了miR-181的过表达可显著降低c-FOS的表达,由此充分证明了miR-181 可调节c-Fos的表达情况。本研究初步发现FOS 与miR-181以及ATF之间可能具有一定调控关系,但AD患者FOS表达量为上调的结果与上述动物实验结果相反。然而又有研究[20]发现右美托咪定可通过降低c-Fos蛋白水平而抑制核苷酸结合寡聚化结构域样受体蛋白3(NLRP3)基因表达以及其炎性体活化,进而减轻AD的神经炎症。因此,未来仍需进行深入研究以探索FOS基因及其相关分子在AD中的调控机制。网络中可见miR-335-5p与众多关键基因相连接,本研究发现AD患者脑组织中miR-335-5p分子的表达显著下调而Aβ蛋白水平显著上调,在进一步实验后发现miR-335-5p的过表达可显著降低Aβ蛋白水平并抑制了AD脑细胞凋亡,而抑制miR-335-5p则获得了相反的结果。此外,miR-335-5p的过表达显著提高了AD模型小鼠的认知能力[21]。调控网络提示miR-335-5p与FOS、GFAP、GABRA1、SYP、NPY基因以及除转录因子干扰素调节因子8(IRF8)外的所有转录因子都具有联系。GFAP可作为星形胶质细胞增生的标志物,其表达水平与Aβ的生成存在显著正相关性,并且与AD恶化程度密切相关[22]。GABRA1对大脑结构和功能产生显著影响,其可以抑制大脑中的神经传递,若其表达出现异常,则可能引起AD患者兴奋性与抑制性神经传递两者间的失衡[23]。SYP是一种可用于反映突触可塑性和突触传递的蛋白质,相关基础研究[24]表明SYP表达下调可能引起AD大鼠模型的突触可塑性丧失并减少突触传递,从而导致神经功能退化。另外NPY可通过抗凋亡、抗炎以及促吞噬作用减缓AD病情进展[9]。本研究结果表明miR-335-5p可能充当以上多个基因的桥梁,从多种途径对AD的发生、发展产生影响。另外,调控网络中的转录因子ATF4、IRF8及FOXA1与AD关系较为密切。ATF4属于激活转录因子家族,具有调节Aβ生成、Tau蛋白磷酸化和细胞凋亡的作用。目前有研究[25]表明ATF4蛋白在AD小鼠模型脑中明显上调,但ATF4与AD病理变化的具体因果关系仍需进一步研究。IRF8具有保护神经系统功能的作用,有报道[26]指出在AD中IRF8可促进炎性细胞因子白细胞介素1β(IL-1β)等物质表达而引起小胶质细胞激活与神经炎症。FOXA1 可促进人诱导多能干细胞衍生神经元,然而又有研究者[27]根据实验发现通过抑制FOXA1可减轻麻醉剂七氟醚对AD大鼠造成的认知功能损伤,可见FOXA1在AD中的作用机制尚未明确。通过以上分析,可见AD关键基因的miRNA-TF-mRNA调控网络中的生物分子信息极为复杂,后续应展开更加深入的研究以探索AD潜在机制。
综上所述,本研究基于多重生物信息学对AD相关机制进行探索,DO富集分析初步验证了DEGs的可靠性,KEGG通路富集结果表明AD的内在机制与GABA能突触、逆行内源性大麻素信号以及神经活性配体-受体相互作用等多条信号通路密切相关。在AD关键基因的调控网络中可见mRNA与miRNA、TF三者之间具有复杂的调控关系,miR-335-5p可能充当FOS、GFAP、GABRA1等多个基因的桥梁,通过调控以上基因的表达以影响AD发生、发展,因此miR-335-5p值得在未来进一步重点研究。此外本研究对网络中属于miRNA、基因及TF 3种层面的分子物质,如miR-181、FOS、GFAP、ATF4、IRF8等也进行了分析,并从不同角度对AD的内在机制进行了探讨,为日后明确AD机制以及研发药物提供一定借鉴。然而,本课题组后续仍应通过结合临床样本、细胞以及动物模型等相关数据进行验证,以期更加准确、深入地证实AD的相关分子机制。