生物节律紊乱与阿尔茨海默症关联基因的生物信息学挖掘
2020-05-21张浩婷宋桂芹崔若彤王文栋
张浩婷 宋桂芹 崔若彤 郝 敏 王文栋
河北北方学院医学检验学院,张家口,75000,中国
阿尔茨海默症(Alzheimer’s disease,AD)是一种常见的、进行性、神经退行性疾病,具有明显的神经病理学改变[1],患病率呈上升趋势[2]。AD 会引起神经系统疾病,例如冷漠、焦虑、抑郁[3]、饮食不佳、嗅觉下降或丧失和睡眠障碍等[4]。AD 与淀粉样β肽的积累和tau 蛋白过度磷酸化有关[5]。载脂蛋白E 基因型表达影响淀粉样蛋白β的清除和聚集,导致淀粉样蛋白β的沉淀,进而导致AD 的发展[6]。AD 患者的抑郁症状与皮质和海马萎缩有关[7]。有研究报道,AD 病例晚期发作可能是遗传和环境互作的结果[8]。此外,核骨架功能障碍是与AD 相关的体内神经变性原因[9]。另外,有研究报道生物衰老是AD 和其他痴呆的主要危险因素[10]。AD 中内嗅皮层和海马组成系统的退化与记忆和导航的严重损害有关[11]。
目前AD 发生的分子机制尚不明确,缺乏治疗的分子靶标,因此寻找AD 的治疗靶点尤为重要。本研究通过多层次数据挖掘和分析,寻找生物节律紊乱与AD 发生发展过程的关联基因,为实现AD 精准医疗提供数据平台。
1 材料与方法
1.1 AD 差异表达基因的挖掘
从GEO 数据库下载GSE28146 DNA 表达数据集[12]。在GSE28146 数据集中,有30 个大脑切片样本,其中健康对照组8 例,AD 患者22 例(包括7 例初期AD、8例中度AD 和7 例重度AD)。利用R 软件的limma 和pheatmap 包对GSE28146 芯片数据进行标准化处理、差异表达分析(P-Value <0.05;| log(fold-change)| >1)和聚类分析,获得差异表达基因的火山图和聚类热图。
1.2 生物钟紊乱基因挖掘
以哺乳动物的12 个核心生物钟基因,即CRY1、CRY2、CSNK1E、CLOCK、NPAS2、ARNTL、PER1、PER2、PER3、RORA、NR1D1 和NR1D2 为中心,通过文本挖掘、GeneCards 数据库(https://www.genecards.org/)[13]和STRING 11.0 蛋白质互作在线分析工具(https://stringdb.org/cgi/input.pl)[14]挖掘生物钟紊乱基因。
1.3 蛋白互作分析
使用STRING 11.0 筛选出的生物钟紊乱基因和AD 差异表达基因进行互作分析(Score >0.9),并利用Cytoscape 3.7.1[15]构建互作网络。
1.4 功能富集分析和KEGG 通路的分析
通过使用DAVID 数据库(Visualization,Annotation and Integrated Analysis,https://david.ncifcrf.gov)[16]和京都基因组学和基因组学百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路数据库(https://www.kegg.jp/)[17]对生物钟紊乱基因和AD 差异表达基因进行生物学功能注释和KEGG 信号通路分析。
1.5 染色体定位
利用UCSC 数据库(http://genome.ucsc.edu/cgi-bin/hgGateway)[18]对生物钟紊乱基因和AD 差异表达基因进行染色体定位,并使用MapGene2Chrom Web v2 在线分析工具(http://mg2c.iask.in/mg2c_v2.0)[19]建图。
2 结果
2.1 AD 中差异表达基因和生物钟紊乱基因
利用R 软件的limma 包对GSE28146 数据集进行差异表达基因筛选(P-Value <0.05;| log(fold-change)| >1),获得372 个差异表达基因,其中158 个上调基因,214个下调基因(Fig.1A)。Fig.1B 显示了前10 个差异表达基因(TGFB1l1、SERTM1、TIPARP-AS1、TEF、ZFP41、ULBP2、BOK、DEFB125、LIN28B、FGF6),其中TGFB1I1明显上调(log(fold-change)>2),LIN28B 基因明显下调(log(fold-change)<2.3)。通过文本挖掘、GeneCards 数据库和STRING 互作分析获得了64 个生物钟紊乱基因。
Fig.1 Volcano map of differentially expressed genes(A)and heatmap of the top 10 differentially expressed genes(B)
2.2 蛋白质互作网络
利用STRING 在线分析工具和Cytoscape 3.7.1 对372 个AD 差异表达基因与64 个生物钟紊乱基因的编码产物进行蛋白互作分析,Fig.2 显示网络中有78 个基因编码的蛋白互作,其中有43 个生物钟紊乱基因编码的蛋白(MCM2、MCM3、CDC45、MCM7、POLA1、CLSPN、RORB、TIMELESS、ATR、BLM、BHLHE40、PER1、DEC1、NRIP1、NCOR1、HDAC3、CEBPA、SIRT1、EP300、HIF1A、EPAS1、CIPC、SERPINE、RORA、CLOCK、PER3、NR1D2、CRY1、CRY2、PER2、RORC、MED1、DBP、NONO、NFIL3、CSNK1D、ARNTL、CSNK1E、GSK3B、BHLHE41、NPAS2、BTRC、NR1D1),34 个AD 差异表达基因编码的蛋白(HLA-DMB、TRIM68、CYP3A7、IRF4、FANCB、PITX2、KAT2B、IL1B、GRIP1、IFNG、SETD1A、TFF1、TFF3、IFNA21、COMMD8、VLDLR、FOSB、KIF15、CYP7A1、GORASP1、TPX2、HIST1H4D、KIF22、CAV1、UBE2C、MGRN1、CENPA、NEDD4、ASB13、SFN、PSMC4、PSMA8、UBE2M、DDB1),TIPIN 基因既是生物钟紊乱基因又是AD 差异表达基因。
此外,有14 个生物节律紊乱基因编码的蛋白(EP300、SIRT1、HDAC3、NCOR1、BTRC、BLM、SERPINE1、GSK3B、MED1、ATR、CSNK1D、CSNK1E、HIF1A、EPAS1)与19 个AD 基因编码的蛋白(KAT2B、SETD1A、DDB1、NEDD4、FOSB、GRIP1、FANCB、UBE2M、TFF1、VLDLR、CAV1、IL1B、CYP7A1、IFNA21、UBE2C、PSMA8、SFN、PSMC4、TFF3)直接互作。其中EP300、CLOCK、ARNTL、NPAS2、BTRC 是互作网络的中心节点(与之互作的蛋白数目>10 个)。
2.3 染色体定位
AD 差异表达基因和生物钟紊乱基因的染色体分配不均一。AD 差异表达基因主要分布在1 号、3 号、6 号、11 号、12 号、17 号和19 号染色体上,64 个生物钟紊乱基因主要分布在3 号、11 号、12 号和17 号染色体上,X 和Y 染色体上都存在AD 差异表达基因,表明男女均有患AD 的风险(Fig.3)。
2.4 差异表达基因的功能富集和通路分析
Fig.2 Interaction network diagram of AD differentially expressed genes and circadian clock disorder genes
Fig.3 Chromosome mapping of AD differentially expressed genes and circadian clock disorder genes
GO 富集分析主要包括生物过程,细胞成分和分子功能三个层面[20]。AD 差异表达基因参与多种生物过程,包括:多细胞生物发展(multicellular organism development),包含CDX2、ZFP41 和EGFL6 等在内的16 个基因;RNA 聚合酶Ⅱ启动子转录(transcription from RNA polymerase Ⅱ promoter),包含CDX2、POU6F2和FOSB 等在内的14 个基因;先天免疫应答(innate immune response),包含IFNA21、DEFB125 和GSDMD等在内的13 个基因;有丝分裂核分裂(mitotic nuclear division),包含KIF22、PLK5 和BOD1L2 等在内的8个基因;细胞骨架组织(cytoskeleton organization),包含PALM、MAST1 和EPB42 等在内的7 个基因;血管生成的正调控(positive regulation of angiogenesis),包含LRG1、NTRK1 和IL1B 等在内的6 个基因;对细菌的防御反应(defense response to bacterium),包含CFP、DEFB125 和IFNG 等在内的6 个基因。AD 差异表达基因在细胞组成方面为:细胞外体(extracellular exosome),包含DUOX2、CSPG4 和MVB12A 等在内的56 个基因;细胞外区域(extracellular region),包含ACR、FGF6 和IFNA21 等在内的47 个基因;细胞外空间(extracellular space),包含PRKAG3、FGF6 和IFNA21 等在内的42 个基因;内体(endosome),包含MAGEL2、CAV1 和RAB43 等在内的8 个基因;中间丝(intermediate filament),包含KRT16、KRT2 和KRT31等在内的6 个基因;线粒体外膜(mitochondrial outer membrane),包含RAB32,CYP27B1,BOK 等在内的6个基因。AD 差异表达基因分子功能主要为碳水化合物结合(carbohydrate binding),包含NOMO3、PRG3 和GRIP1 在内的7 个基因(Fig.4A)。
KEGG 通路分析显示(Fig.4B),AD 差异表达基因主要涉及炎症,其中3 个基因受到正调控,分别为防御素α6(DEFA6),角蛋白33(AKRT33A)和角蛋白16(KRT16),7 个基因负调控,分别是补体因子B(CFB),角蛋白31(KRT31),选择素P 配体c(SELPLG),补体C1q B 链(C1QB),桥粒蛋白1(DSG1),补体因子H(CFH)和主要组织相容性复合物II,DM beta(HLA-DMB)。
3 讨论
DNA 是一种高效且通用的核苷酸编码蛋白序列[20],当患者的磁共振成像(magnetic resonance imaging,MRI)显示视觉空间缺陷并且枕骨区域明显萎缩时,很可能会发生神经退行性病变,从而导致AD[21]。某些基因的失衡可能是视觉空间缺损和枕叶萎缩的原因。在本研究中,与健康人相比,在AD 患者中鉴定出158 个上调的差异表达基因和214 个下调的差异表达基因。GO分析表明AD 患者差异表达基因主要参与先天免疫应答等生物学过程。从染色体定位结果可以看出,第19号染色体上AD 差异表达基因和生物节律紊乱基因分布较多,可能具有连锁分布的特征,有助于理解生物节律紊乱和AD 之间关联。
KAT2B 是关键的转录调节因子,可通过控制代谢过程中未折叠的蛋白应答(UPR(er))来调节适应性β细胞的功能[22]。SETD1A 变异与精神分裂症的风险显著相关,可能导致一系列神经发育障碍[23]。DDB 1在病毒的泛素E3 连接酶中起着重要作用,并通过与HBx 不相关的机制刺激病毒的转录[24]。NEDD4 在调节膜受体,内源性机械成分和抑癌基因PTEN 中起着关键作用[25]。FosB 可能介导TGF-β1 对前列腺癌细胞的迁移和侵袭的影响[26]。人FANCB 是FA 核心复合物的一个组成部分,在泛素化中起着重要作用[27]。UBE2M 是应激诱导的基因。UBE2F 诱导的UBE2F降解导致CRL 5 失活和Noxa 的积累,进而抑制了肺癌细胞的生长[28]。三叶因子1(trefoil factor family 1,TFF 1)是在胃肠道中表达的一种小分泌蛋白,在保护黏膜和修复损伤中起着重要作用[29]。极低密度脂蛋白受体(very low density lipoprotein receptor,VLDLR)通过介导Reelin 信号转导在成年人的突触可塑性和大脑发育中起着非常重要的作用[30]。小窝蛋白(caeolin-1,CAV-1)是质膜的特殊结构,可调节乳腺癌细胞的溶酶体功能和自噬[31]。促炎细胞因子IL1B 是哺乳动物细胞分泌的非常规分泌蛋白的典型实例[32]。7-α胆固醇羟化酶1(cholesterol 7-alpha hydroxylase 1,CYP7A1)是由CYP7A1 基因编码的经典转化途径,可从胆固醇中合成胆汁酸;它的单核苷酸多态性(single-nucleotide polymorphisms,SNPs)影响血脂水平[33]。泛素结合酶2C(ubiquitin-conjugating enzyme 2C,UBE2C)是泛素蛋白酶体系统(ubiquitin-proteasomesystem,UPS)的关键组成部分,它可能是诊断胃癌的新指标,也是治疗胃腺癌的潜在靶标[34]。睾丸特异性蛋白酶体亚基α4s(PSMA8)位于突触复合体的中央区域,在精子发生中起作用[35]。分层蛋白(stratifin,SFN)是一种有丝分裂调节剂,一种细胞周期检查点蛋白,其表达与多种癌症有关[36]。PSMC4 是泛素蛋白酶体系的一部分,PSMC4基因失衡可能导致泛素-蛋白酶体衰竭,这可能导致帕金森氏病中的蛋白质错误折叠和积累[37]。TFF3 是内分泌反应的生物标志物,可刺激乳腺癌细胞的侵袭[38]。PTGFR 在人肿瘤血管中表达,是一种新的肿瘤内皮细胞标记物[39]。COMMD8 的稳定性与COMMD3,COMMD8 或COMMD3 损害B 细胞迁移和体液免疫反应有关[40]。TPX 2 与CCRCC 的高度分级和分期相关,并且是复发的独立预测因子[41]。BHLHE 40 基因敲除抑制原发性肿瘤生长和肺转移并在肝素结合表皮生长因子的转录激活中起作用[42]。
Fig.4 GO enrichment analysis of AD differentially expressed genes(A)and associated AD genes to KEGG inflammatory pathway
AD 差异表达基因是生物节律基因,TIPIN 在DNA损伤检查点应答中发挥作用,与复制解旋酶有关,可以保护细胞免受遗传因子的侵害[43]。
经研究筛选出多个AD 与生物节律关联的差异表达基因,为了解AD 潜在的治疗靶点提供了参考,但也有待进一步的分子实验验证。