基于GEO数据库筛选分析肌肉萎缩的相关靶点及通路*
2022-07-29邱凤喜郑晓栋仲荣洲褚立希
薛 艳,邱凤喜,郑晓栋,陈 斌,王 楠,王 雅,张 楠,仲荣洲,褚立希△
1.上海市养志康复医院/上海市阳光康复中心临床研究中心,上海 201600;2.上海市普陀区真如镇街道社区卫生服务中心,上海 200333
骨骼肌是人体功能活动的基础,能够进行运动和呼吸[1]。随着年龄的增长,血液供应减少,或肌肉固定,长时间失重,营养不良等会导致横纹肌营养障碍,肌肉纤维变细甚至消失等,使得肌肉体积缩小并且力量减退,最终引发肌肉萎缩[2-3]。肌肉萎缩如果未进行及时治疗,很可能引发其他并发症,因此肌肉萎缩不仅危害健康,还会降低日常生活质量[4]。但目前尚未有统一的治疗方案,很多药物的疗效也不太理想,因此研究者应当要重视其预防和治疗。在本研究中,通过对比GEO数据库中卧床前和卧床后受试者肌肉组织中的差异表达基因(DEGs),可以进一步明确肌肉萎缩的相关靶点及信号通路,由此可以为治疗肌肉萎缩提供新的思路和依据。
1 资料与方法
1.1一般资料 美国国立生物技术信息中心(NCBI)的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)是一个储存高通量测序数据的数据库。在本次研究中,以("Muscular Atrophy"[Mesh])作为关键词进行芯片数据检索,芯片类型为“Expression profiling by array”,种属为“Homosapiens”,检索时间截止于2020年9月。检索获得GSE148152数据集,其注释平台为GPL17586。
1.2数据分析方法 下载基因芯片数据GSE148152和GPL 17586-45144的芯片基因注释文件,运用KNN算法补全缺失值,构建基因表达矩阵,对数据进行归一化处理后,运用R软件中的limma包筛选符合|logFoldChange|>1且P<0.05的差异基因。筛选出差异基因后使用R软件中的ggplot2和pheatma程序包对DEGs进行可视化分析,绘制火山图和热图。
1.3蛋白质-蛋白质相互作用(PPI)网络构建 通过STRING(https://string.db.org/),一个已知的PPI网络数据库来进一步筛选核心靶点,并且绘制PPI的网络图。
1.4基因本体论(GO)富集分析和京都基因和基因组百科全书(KEGG)富集分析 使用R软件中的clusterProfiler GO和clusterProfiler KEGG软件包对DEGs进行GO和KEGG富集分析。GO分析主要分析差异基因的功能。KEGG富集可以获得差异基因的潜在生物学功能和所涉及的生物途径。
2 结 果
2.1原始数据的基本信息 选取GSE148152数据集中11名健康男性,进行84 d头朝下倾斜卧床休息(BR),即受试者始终保持6°头低位(即休息、淋浴、运输、运动训练、如厕等),但在用餐时可以用肘部休息,这样可以造成肌肉萎缩。所有受试者在卧床前(PRE)和卧床后(POST),即发生肌肉萎缩的前后均取股外侧肌的肌肉进行活检,其中PRE组的样本编号分别为GSM 4455104、GSM 4455106、GSM 4455108、GSM 4455110、GSM 4455112、GSM 4455114、GSM 4455116、GSM 4455117、GSM 4455119、GSM 4455120和GSM 4455121;POST组的样本编号分别为GSM 4455105、GSM 4455107、GSM 4455109、GSM 4455111、GSM 4455113、GSM 4455115、GSM 4455127、GSM 4455128、GSM 4455129、GSM 4455130和GSM 4455131。
2.2DEGs的筛选结果 运用R语言分析受试者卧床前后股外侧肌的肌肉组织中的基因表达,结果共获得100个DEGs,其中卧床后上调基因为51个,同时下调基因为49个。见图1。
注:图中三角形表示上调基因,方形表示下调基因,圆形表示未有明显改变的基因。
2.3DEGs的PPI网络构建 在String 数据库中,通过构建100个DEGs的PPI网络,然后运用网络拓扑特征分析,以“自由度”、“接近中心性”和 “介数”3个主要参数为基础,通过筛选各项参数的数值均>0的31个DEGs作为关键靶点,其中发生肌肉萎缩后肌肉组织中表达显著上调的基因为MYOZ2、MYH7B、TECRL、CASQ2、CKMT2、TNNT1、LDHB、MYL6B、GYS1、MYL3、SMPX、FABP3、MDH1、TNNI1、UQCR10、NDUFAB1、GOT2、ACSL1、FBP2、ATP5G1、HK2和COX5A,同时表达显著下调的基因为SESN1、ABCA1、FOXO3、MSTN、ADH1B、ACTN3、MYH1、PDK4和MYH8。
2.4DEGs的GO功能富集分析 GO数据库总共有三大类,分别是生物学过程(BP)、细胞定位(CC)和分子功能(MF),各自描述了基因产物可能行使的分子功能,所处的细胞环境,以及参与的生物学过程。通过R分析,将两组中的DEGs进行GO功能富集分析,总共获得43个具有显著意义的GO条目:在BP中,有21条显著富集条目(48.8%),主要涉及细胞过程、代谢过程和多细胞生物的过程等;在CC中,有12条显著富集条目(27.9%),主要涉及细胞、细胞部分和细胞器等;在MF中,有10条显著富集条目(23.3%),主要涉及结合、催化活性和结构分子活动等。
2.5DEGs的KEGG通路富集分析 首先通过对31个核心DEGs进行 KEGG 通路的聚类分析,发现肌肉萎缩前后的核心DEGs所属的信号通路主要集中于以下三大类:代谢、生物体系统和人类疾病,并且参与调控了能量代谢(包含3个基因)、内分泌系统(包含6个基因)、循环系统(包含4个基因)、环境适应(包含4个基因)、代谢疾病(4个基因)等相关生理病理机制,进一步通过富集分析发现DEGs具体涉及的通路主要是碳代谢、果糖和甘露糖代谢等代谢途径及过氧化物酶体增殖物激活受体(PPAR)、腺苷酸活化蛋白激酶(AMPK)等信号通路(图2)。
注:圆点的大小表示该条通路下DEGs的个数,圆点越大表示基因数越多,位置越靠上表示富集越明显。
3 讨 论
肌肉萎缩主要与年龄增长、运动损伤、疾病因素、营养不良及神经源性等原因相关[5-7]。其中老年性肌肉萎缩不容忽视,根据一项美国的横断面调查显示,60岁以上老年人肌肉萎缩的男女总发病率分别为75.5%和35.4%[8]。而随着我国人口老龄化日趋加重,肌肉萎缩的发病率也逐年攀高[9]。肌肉萎缩给家庭和个人带来的不良影响是巨大的,所以随着社会对健康要求的不断提高,已然是一个备受关注的问题[10]。因此为了进一步明确肌肉萎缩的病理机制,研究者借助GEO数据库中的基因芯片数据进行深入挖掘分析,共获得了31个核心DEGs,其中共同表达下调的DEGs有22个,共同表达上调的DEGs有9个,包括慢速骨骼肌型肌钙蛋白(TNNI1)、叉头蛋白转录因子3(FOXO3)、肌肉生长抑制素(MSTN)等关键基因。
TNN1是肌钙蛋白I(TnI)的同源基因编码的亚型之一,TnI是横纹肌细丝中的肌钙蛋白复合物的抑制亚单位,在钙调节收缩和舒张中发挥核心作用[11-12]。其中TNNI1可以通过抑制钙介导的肌动蛋白和肌球蛋白复合物的构象变化来抑制肌肉收缩,其表达的高低能反映骨骼肌内慢肌纤维的水平[13]。
FOXO3属于叉头基因转录因子家族(FOXO)的亚型,其与细胞凋亡和肌肉再生有关[14-15]。有研究报道,FOXO3可以通过同时调控泛素-蛋白酶体和自噬-溶酶体系统的蛋白质(萎缩基因)来触发骨骼肌肉萎缩[16]。AMPK是调节骨骼肌线粒体功能和氧化应激的关键因子,可通过影响骨骼肌的线粒体质量控制调节线粒体功能[17]。有研究发现,AMPK/FOXO3信号通路在骨骼肌肉萎缩中会被激活,而在阻断AMPK/FOXO3信号通路后,则可以有效逆转小鼠的肌肉萎缩[18],说明 FOXO3和AMPK二者在肌肉萎缩中起着重要的调节作用。
MSTN是肌肉生长的负调控因子,可以抑制成肌细胞的增殖和分化[19]。通过抑制MSTN基因的表达,能够抑制肌肉萎缩,增强肌力[20]。MSTN进入细胞核的主要途径是Smad激活途径和Akt抑制途径,有研究显示MSTN通过介导Akt/mTOR信号通路可引发肌肉萎缩[21-22]。另外还有一些研究发现PPAR参与全身炎症反应并且调节骨骼肌氧化代谢,而MSTN则可能通过调节PPAR来影响骨骼肌的脂肪生成[17,23]。
综上所述,本次研究主要利用生物信息学技术分析,获得了与肌肉萎缩病理机制相关的一些重要靶基因及信号通路,其中包含TNNI、FOXO3和MSTN等基因,这些靶点又可能通过调控AMPK、PPAR等信号通路引发肌肉萎缩,因此今后可开展针对这些特定的靶点及信号通路的相关疗效及病理机制研究。