心脏衰老相关基因与治疗药物的生物信息学筛选
2021-02-23刘奕清修成奎胡艳红于博文刘逸南王佳丽
刘奕清,雷 燕,杨 静,修成奎,王 雪,胡艳红,于博文,刘逸南,王佳丽,吴 丹,吴 烨
目前人口老龄化已成为全球广泛关注的问题,截至2018年底,我国65岁及以上人数接近1.67亿人,占总人口的11.9%[1],由年龄增长带来的退行性疾病如心血管疾病、骨质疏松、阿尔茨海默病等逐渐成为重大的社会健康问题[2]。众所周知,衰老是急慢性心血管疾病发生的主要危险因素[3],且疾病的发生率随年龄的增长呈指数上升:因心脏病致死人数占65~74岁总死亡人数的40%以上,占85岁以上总死亡人数的60%[4]。因此,探究衰老对心脏的影响及其作用机制对预防心血管疾病的发生,提高老年人群的生活质量具有非常重要的意义。目前,心脏衰老的分子调节机制主要包括线粒体功能障碍、端粒缩短、神经体液调节以及自噬下调等[5-6],但因心脏衰老涉及一系列复杂的生理过程变化,所以仍需对心脏衰老分子调控机制进行深入探究。
基因芯片作为凝结生命科学与信息科学研究成果的重要技术,已经成为大规模提取和探索生物分子信息的强有力手段。随着芯片技术的发展与普及,与疾病相关的基因表达数据储存在各大公共数据库中,海量差异基因可以轻易获得[7]。本研究从基因表达数据库(Gene Expression Omnibus, GEO)中获取数据集GSE12480,利用生物信息学方法筛选年轻小鼠和年长小鼠心室中的差异基因,然后对差异基因进行基因本体(gene ontology,GO)功能富集分析和京都基因与基因组百科全书(kyoto encyclopedia of genes andgenomes, KEGG)信号通路分析,并且构建蛋白质相互作用网络获得关键基因。使用关联性图谱(Connectivity map, CMap)筛选具有潜在治疗作用的小分子药物,为心脏衰老的早期诊断及发病机制提供重要的依据。通过以上分析,为进一步研究小鼠心脏衰老的分子机制提供新的思路。
1 资料与方法
1.1 数据来源 通过GEO数据库下载小鼠心室总RNA表达谱数据集GSE12480,其实验平台为基于Affymetrix的GPL1261平台。GSE12480数据集包括20个样本,均取自于小鼠的心室RNA,其中包括10只年轻(4~6个月)和10只年长(25~28个月)小鼠样本。
1.2 差异表达基因的筛选 通过使用R语言(3.5.3, www.r-project.org)的limma包筛选出数据集GSE12480中年轻小鼠和年长小鼠的差异表达基因,筛选标准为|log2FC|>1,FDR(false discovery rate)<0.01。对差异表达基因进行聚类分析,并绘制热图将结果可视化。
1.3 差异表达基因的GO功能富集和KEGG通路分析 使用DAVID(https://david.ncifcrf.gov/)在线分析工具,对差异表达基因进行GO功能富集分析和KEGG通路分析。其中GO功能富集分析主要从生物过程(biological process,BP)、细胞组分(cellular component, CC)和分子功能(molecular function, MF)这3个方面进行分析。同时使用R语言对GO功能富集和KEGG通路分析的结果进行可视化。
1.4 构建蛋白质相互作用网络筛选关键基因 使用STRING(https://string-db.org)在线分析工具构建差异表达基因的蛋白质相互作用网络。之后使用Cytoscape(http://cytoscape.org/download_old_versions.html)软件将蛋白质相互作用网络进行可视化分析,采用CytoHubba插件以节点自由度(Degree)>50筛选出关键基因。
1.5 差异表达基因的模块分析 使用Cytoscape中的MCODE插件对蛋白质相互作用网络进行模块分析,以MCODE分数>10且基因数>20为标准筛选出关键模块,并将关键模块的基因进行GO功能富集和KEGG通路分析。
1.6 关联图分析 CMap(http://www.broad.mit.edu/cmap)收集了1 309种化合物,含有7 000多个基因表达谱,揭示了疾病、基因和药物之间的联系,可用来发掘潜在治疗疾病的药物[8]。将差异表达基因上传到CMap数据库,筛选出关联系数评分(Score)负相关居前5位的小分子化合物[9]。
2 结 果
2.1 差异表达基因的筛选结果 使用R语言limma包对年轻小鼠和年长小鼠心室基因进行差异表达分析,共筛选出471个差异表达基因,包括437个在年长小鼠中上调的基因和34个在年长小鼠中下调的基因(见图1)。同时将差异最显著的前50个基因进行聚类热图分析,可视化差异表达基因在不同样本中的表达见图2。
图1 差异表达基因的火山图(红点和绿点分别表示在年长老鼠心室中表达水平上调的基因和下调的基因)
图2 年轻小鼠心室和年长小鼠心室中居前50个差异表达基因的聚类热图
2.2 差异表达基因的GO功能富集和KEGG通路分析结果 使用DAVID数据库对471个差异表达基因进行GO富集分析和KEGG通路分析,并且使用R语言将每个分析结果的前10位进行可视化(见图3)。从GO分析结果可以看出,在生物学过程的分析中(见图3A),差异表达基因主要富集于细胞黏附(cell adhesion)、炎症反应(inflammatory response)、细胞外基质组织(extracellular matrix organization)和血管生成的正调控(positive regulation of angiogenesis)等生物学过程。在细胞组分的分析中(见图3B),差异表达基因主要富集于细胞外空间(extracellular space)、细胞外泌体(extracellular exosome)和蛋白质细胞外基质(proteinaceous extracellular matrix)等。在分子功能的分析中(见图3C),枢纽模块基因主要富集于蛋白质结合(protein binding)、蛋白质均二聚活性(protein homodimerization activity)、钙离子结合(calcium ion binding)和肝素结合(heparin binding)等功能。从KEGG信号通路分析结果可以看出(见图3D),差异表达基因主要富集于PI3K-Akt信号通路(PI3K-Akt signaling pathway)、局灶性粘连(focal adhesion)和趋化因子信号通路(chemokine signaling pathway)等信号通路。
图3 差异表达基因的GO功能富集分析和KEGG通路分析(A为生物过程;B为细胞组分;C为分子功能;D为KEGG通路)
2.3 差异表达基因的蛋白质相互作用网络分析 将471个差异表达基因输入STRING在线分析工具,分析其蛋白质之间的相互作用关系。然后将获得的数据导入Cytoscape软件,形成可视化蛋白质相互作用网络,并利用插件CytoHubba,以Degree>50为标准筛选出5个关键基因(见图4),分别是纤维连接蛋白基因(fibronectin1,Fn1)、蛋白酪氨酸磷酸酶受体C(Ptprc)、基质金属蛋白酶组织抑制因子-1(tissue inhibitor of matrix metalloproteinases-1, TIMP-1)、胰岛素一号增长因子(insulin-like growth factors 1,Igf1)、内皮细胞表面Ⅷ因子抗原(vonWillebrand factor,VwF)。
图4 差异表达基因的蛋白质相互作用网络分析
2.4 差异表达基因的模块分析结果 使用Cytoscape中的MCODE插件以MCODE分数>10且基因数>20为标准分析出了2个重要的模块(见图5)。对两个模块中的基因进行GO功能富集和KEGG通路分析发现,模块1主要与补体和凝血级联、局灶性粘连、P53信号通路和PI3K-Akt信号通路相关(见图5A),模块2主要与趋化因子信号通路、细胞因子与细胞因子受体的相互作用和TNF信号通路相关(见图5B)。
图5 差异表达基因蛋白质相互作用网络的模块分析(A为模块1;B为模块2)
2.5 潜在治疗药物的筛选 CMap中的Score值处于-1~1,正值表示该药物对疾病有促进作用,负值表示该药物对疾病有抑制作用,绝对值越大则表明相关性越大。处理后的差异基因映射到CMap数据库,筛选出关联强度居前5位的负相关小分子化合物,这些化合物对心脏衰老基因表达有抑制作用,Score负相关排名居前5位的小分子化合物见表1。
表1 位居前5位的具有潜在治疗心脏衰老的小分子药物
3 讨 论
高龄已经被认为是心血管疾病如冠心病、中风、周围血管疾病和心力衰竭的主要危险因素[10],探究衰老对心脏的影响及其作用机制至关重要[11-12]。生物信息学综合运用计算机科学和生物学等工具,阐明和理解海量数据背后的生物学意义,作为一门新兴的交叉学科,如今已被广泛应用于生命科学领域中[13]。
本研究从GEO数据库中获取年轻小鼠和年长小鼠心室总RNA表达谱数据集GSE12480,利用生物信息学方法分析年轻小鼠和年长小鼠心室中表达具有显著差异的基因,共筛选出471个差异基因,包括437个在年长小鼠中上调的基因和34个在年长小鼠中下调的基因。同时对差异基因进行了GO功能富集分析和KEGG通路分析,并且通过构建蛋白质相互作用网络对差异基因所编码蛋白质间的调控网络进行了可视化分析,从而定义了Fn1、Ptprc、Timp1、lgf1、Vwf这5个关键基因。
通过对差异表达基因进行GO功能富集和KEGG通路分析,表明这些差异表达基因主要参与PI3K/Akt信号通路、局灶性粘连和趋化因子信号通路等作用。PI3K/Akt信号通路是细胞内作用广泛的一条通路[14],参与衰老心肌细胞凋亡、使核转录因子-κB(NF-κB)恢复转录活性、激活Bcl-2,从而起到抗衰老心肌细胞凋亡的作用[15]。PI3K主要通过激活Akt发挥促细胞存活和对抗凋亡的作用,Akt信号激活后可以抑制多种促凋亡因子[16]。有研究表明热量限制是通过激活PI3K/Akt途径,并部分改善心脏胰岛素敏感性来防止衰老引起的心肌收缩力下降[17]。Hao等[18]对新西兰大白兔进行研究,发现心脏收缩剂能够通过PI3K-Akt信号通路,对慢性心力衰竭治疗产生积极影响。细胞与纤维连接蛋白的局灶性粘连与血管僵硬有关[19]。研究表明对趋化因子的调控作用可以有效调节细胞衰老和相关心血管疾病[20-22]。本研究对筛选出来的差异表达基因的两个重要模块进行GO功能富集和KEGG信号通路分析,结果表明模块1主要与局灶性粘连和PI3K-Akt信号通路相关,模块2主要与趋化因子信号通路相关,证明这些信号通路与衰老的发生发展具有较高的相关性,值得进一步研究。
为了进一步分析与衰老相关度较高的关键基因,本研究通过蛋白质相互作用网络定义了Fn1、Ptprc、Timp1、lgf1、Vwf这5个关键基因。Fn1是细胞外基质的重要成分,能够促进心内膜分化[23],研究表明人主动脉内皮细胞在接近复制性衰老时变成四倍体,从四倍体内皮细胞的整体基因表达分析显示Fn1的基因表达增加[24]。Ptprc是类风湿性关节炎的遗传生物标志,曲卫玲等[25]研究发现,由生地、人参、茯苓和蜂蜜组成的琼玉膏,可纠正Ptprc蛋白的异常表达量,调节NF-κB通路,从而延缓衰老。Timp-1是Timp家族中的一员,Timp是一个多基因家族的编码蛋白,是基质金属蛋白酶活性的特异性抑制剂,基质金属蛋白酶活性与高血压、动脉粥样硬化和主动脉瘤等各种血管疾病有关[26]。Vigetti等[27]通过人主动脉平滑肌(AoSMC)连续传代的体外衰老模型,发现TIMP-1和TIMP-2在老年AoSMCs中的表达和活性升高,从而支持了老年细胞基质金属蛋白酶-2(MMP-2)活化受到抑制的假说。Igf-1被称作“促生长因子”,是一种在分子结构上与胰岛素类似的多肽蛋白物质,在舒张血管、促进细胞有丝分裂、促进细胞分化与创伤修复中起重要作用。从啮齿动物到人类,Igf-1信号通路已成为衰老过程的主要调节剂[28]。随着年龄的增长,脂肪组织中血管功能的改变会影响线粒体保护激素(如Igf-1)的合成与分泌[29]。VwF是第Ⅷ因子(factor Ⅷ, FⅧ)的载体蛋白,与动静脉血栓形成和出血性疾病的风险相关[30]。Atiq等[31]研究发现老年1型血管性血友病病人与VwF和FⅧ水平升高之间存在关联。
本研究通过CMap筛选了治疗心脏衰老的潜在小分子化合物,白屈菜碱存在于罂粟科植物白屈菜中,有罂粟碱样生物活性,具有抗肿瘤、抗菌、抗病毒等作用,白屈菜提取物和主要生物碱能够对hERG钾通道和犬心脏动作电位产生影响[32]。阿尔茨海默病与衰老有高度相关性[33],STOCK1N-35696在Md.Rezanur的研究中被确定为治疗阿尔茨海默病的新型潜在治疗剂[34]。白屈菜碱、STOCK1N-35696等可能成为治疗心脏衰老的新药物。
综上所述,本研究通过生物信息学方法研究表明差异表达基因主要参与PI3K/Akt信号通路、局灶性粘连和趋化因子信号通路等作用,并筛选出Fn1、Ptprc、Timp1、lgf1、Vwf这5个关键基因。白屈菜碱、STOCK1N-35696等可能成为治疗心脏衰老的新药物,为进一步探索心脏衰老的作用机制提供了新思路,但仍需进一步的实验来证实差异表达基因和小分子药物的功能。