肌营养不良小鼠关键基因和通路的生物信息学分析
2021-08-05廖子钰林金福
廖子钰, 李 欢, 王 倞, 林金福, 张 成
杜兴型肌营养不良症(Duchenne muscular dystrophy,DMD)是一种X-连锁隐性遗传性疾病。DMD基因定位于Xp21.2,编码具有抗牵拉作用的抗肌萎缩蛋白(dystrophin)[1]。患者出生后无明显症状,3~5岁时即出现行走、跑步异常,下蹲起立需扶膝,上楼困难,病程进展迅速,10岁左右不能行走,到20~30岁时死于心功能衰竭[2]。C57BL/10ScSn-Dmdmdx/J (mdx)小鼠是DMD最常用的动物模型[3]。mdx鼠由于Dmd基因第23号外显子无义突变,产生截短的、无功能的抗肌萎缩蛋白,导致肌肉收缩过程中肌膜容易受损,从而出现与人类患者相似的肌纤维坏死、细胞浸润、再生等病理变化[4]。
随着生物信息学技术的发展,微阵列技术逐渐应用于突变基因检测和差异表达基因筛查[5~7],对于研究许多疾病的发病原理、寻找生物标记物和治疗靶点有重要意义。
本研究从基因芯片公共数据库GEO下载了3组mdx鼠基因表达数据,对在以上3个数据集中均为差异表达的基因进行基因本体论分析和富集信号通路分析,筛选出其中起核心作用的关键基因,对探索影响DMD发病的分子机制、寻找新的治疗靶点具有积极意义。
1 材料与方法
1.1 基因微阵列数据集的筛选 筛选条件:对照组为未作其他干预处理的C57BL/10野生型小鼠,实验组为C57BL/10背景的mdx鼠,均为雄性,6~8周龄,取材部位为胫骨前肌或腓肠肌。以“Duchenne muscular dystrophy”和“mdx mouse”为检索词检索GEO DataSets数据库,获得3个符合条件的数据集。
1.2 差异表达基因的获取 在线工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)用于分析以上3组微阵列数据中mdx组小鼠和正常组的差异表达基因。筛选条件为:log2FC≥1或≤-1,即上调或下调的基因表达水平差异倍数(fold change,FC)≥2倍,以调整后P值<0.05为差异有统计学意义。将各数据集得出的差异表达基因输入venn diagram网站(http://bioinformatics.psb.ugent.be/webtools/Venn/),综合得出在3个数据集中均存在差异表达的基因。
1.3 差异表达基因本体论(Gene ontology,GO)和KEGG富集信号通路分析 GO分析从生物学过程(biological process,BP)、细胞成分(cellular component,CC)和分子功能(molecular function,MF)3个方面注释基因功能。KEGG数据库用于所富集信号通路分析,即差异表达基因位于某信号通路的基因数量。使用DAVID在线数据库(https://david.ncifcrf.gov/)对DEGs同时执行GO和KEGG分析,以P<0.05为差异有统计学意义。
1.4 蛋白质-蛋白质互作网络(proteins-protein interaction,PPI)与关键基因分析 使用在线网站STRING(https://string-db.org/,version 11.0)对DEGs构建PPI网络,然后将网络数据输入Cytoscape软件进行可视化分析。PPI网络中各DEG的相互作用关系用连接度(connective degree)表示,连接度高的基因是该网络的重要节点,称关键基因。使用Cytoscape中的CytoHubba插件,根据MCC算法筛选前10位的基因作为关键基因。
2 结 果
2.1 差异表达基因的筛选 纳入的3个数据集为:GSE7187、GSE52766、GSE64418,均使用了基因微阵列技术进行转录组学分析。其中GSE7187筛选出648个DEGs;GSE52766筛选出365个DEGs;GSE64418筛选出285个DEGs。把3组DEGs输入Venn diagram网站取交集,得出68个共同表达的DEGs(见图1)。3个数据集的交集68个DEGs即为mdx鼠的特征性基因。各DEG在以上数据集的变化趋势分别相同,其中61个基因上调,7个基因下调。
图1 3个mdx鼠数据集的差异表达基因。使用venn diagram网站分析3个mdx鼠数据集中共同的差异表达基因的数量
2.2 差异表达基因的GO功能注释分析及KEGG通路分析 通过DAVID网站(https://david.ncifcrf.gov/)分析以上68个DEGs的功能与定位。GO分析的结果表明:(1)在生物过程(biological process,BP)方面,DEGs与免疫系统的过程、免疫反应、先天免疫反应、中性粒细胞趋化性、ERK1和ERK2级联阳性调控等相关;(2)在细胞组分(cellular component,CC)方面,DEGs主要存在于细胞膜、外泌体、细胞外区域;(3)在分子功能(molecular function,MF)方面,DEGs与蛋白质结合、相同蛋白质结合、细胞因子激活、IgG结合等活动相关(P<0.05,见图2)。KEGG分析结果表明DEGs主要富集于金黄色葡萄球菌感染、吞噬体、肺结核、哮喘、抗原处理和递呈排斥等过程(P<0.05,见图3)。
图2 差异表达基因的Go功能注释分析。绿色柱代表BP:生物学过程(biological process),蓝色柱代表CC:细胞组分(cellular component),红色柱代表MF:分子功能(molecular function);纵轴代表富集基因数量
图3 差异表达基因的KEGG通路分析。该气泡图依次展示了P值最小的前20个信号通路,其值越小,显著程度越大。纵轴对应功能或通路,横轴对应该通路中的差异基因和通路中所有基因的比值(以Enrichmen-score值表示)。气泡颜色表示P值大小;气泡大小表示该通路中差异基因的数目
2.3 DEGs蛋白质-蛋白质相互作用网络(PPI)和模块化分析确定关键候选基因 经STRING v10网站构建DEGs的蛋白质相互作用(protein-protein interaction,PPI)网络,得到的PPI由29个节点、157条互作边构成(见图4)。选用Cytoscape的cytoHubba插件确定PPI网络中的关键节点,根据连接度由高到低筛选得到10个关键基因,依次为:Tyrobq、Emr1、C1qb、Ly86、C1qc、C1qa、Lyz2、Ms4a6d、Fcer1g和Fcgr3(见表1)。这些关键基因对mdx鼠的PPI网络的稳定性起重要作用。
表1 10个关键基因
图4 可视化分析的PPI网络。由29个节点、157条互作边构成。节点颜色表示该DEG变化趋势,红色为上调,蓝色为下调;互作边的宽度表示互作关系强度(即combined-score值)
3 讨 论
尽管假肥大型肌营养不良症是一种单基因遗传疾病,但相同的基因突变类型可以导致显著不同的临床表现,如DMD基因外显子3~7的缺失,有的患儿症状重为DMD,有的症状轻为BMD[8]。可能的原因为该病进展过程涉及多个基因的差异表达,其表型是多信号通路共同起效的结果。迄今,一些具有单核苷酸多态性的修饰基因,如SPP1、LTBP4、CD40、ACTN3和THBS1,已被证明对假肥大型肌营养不良症患者的表型产生影响[9]。因此,进一步探究发病过程中患者体内基因表达谱的改变,筛选共同的差异表达基因,阐明核心调控基因和所在的信号通路,有助于提供新的治疗靶点。
本研究基于公开数据库进行基因表达分析,探究DMD疾病发生的分子机制。通过生物信息学方法筛选出DMD模型mdx鼠的关键基因,包括:Tyrobq、Emp1、C1qb、C1qc、Ly86、Lyz2、Fcer1g、Fcgr3和Ms4a6d。Tyrobp基因编码的蛋白是许多细胞表面受体的信号适配器蛋白,在树突状细胞、破骨细胞、巨噬细胞和小胶质细胞的信号转导中发挥重要作用,在阿尔兹海默症患者的大脑中显著上调,具有重要调节作用。Tyrobp蛋白是一种免疫系统关键调节因子,可与阿尔茨海默氏病(AD)相关免疫受体(TREM2、SIRPβ1、CR3)的胞外域形成复合物[10],其作用主要为增强小胶质细胞的吞噬活性,促进小胶质细胞清除淀粉样蛋白-β(Aβ)肽和凋亡的神经元;此外,Tyrobp还通过抑制小胶质细胞介导的细胞因子的产生和分泌,参与抑制炎症反应[11]。降低TYROBP基因的表达可能通过调节免疫-炎症反应进而减缓甚至终止阿尔兹海默症的进展[12]。
C1qA-C1qC-C1qB 3个基因等比例表达的18个亚基构成人类补体蛋白C1q[13]。C1q结合包含IgG和IgM的免疫复合物并激活补体经典途径,负责清除免疫复合物和侵入病原体[14];此外,在自身免疫病和中枢神经系统炎症反应中有预防作用[15]。DMD患者C1QB基因异常表达,与钙离子大量内流导致肌肉坏死有关[16]。
Emr1又称Adgre1,属于粘附G蛋白偶联受体(ADGRE)的一个亚家族,该基因编码的F4/80抗原是小鼠单核细胞-巨噬细胞标记物[17],在CD8+调节T细胞的产生中起重要作用[18]。Ly86基因编码的蛋白是淋巴细胞抗原86,其在先天免疫系统和炎症反应的生理或病理调节中有重要作用[19]。小鼠溶菌酶2基因(Lyz2)在未成熟的巨噬细胞中中等表达,在成熟的巨噬细胞中高表达,参与宿主的免疫反应[20]。小鼠免疫球蛋白G Fc结构域受体基因(Fcer1g)则已被确认为大脑皮质免疫模块的关键基因,在β淀粉样蛋白病理沉积转基因小鼠的脑皮质中发挥重要作用[21]。Fcgr3基因系灵长类FCGR2A基因的直系同源基因[22],编码自然杀伤细胞上的免疫球蛋白G Fc段受体(FcγR III)[23]。FcR-γ基因敲除小鼠缺乏抗体介导的免疫反应,无法阻止体内肿瘤的生长,这表明Fc受体依赖性机制促进了细胞毒性抗体针对肿瘤的免疫作用[24]。跨膜4结构域亚家族A的成员6D基因(Ms4a6d)表达产物与巨噬细胞表面的免疫球蛋白超家族补体受体Vsig4相互作用形成表面抑制信号复合物(SISC),造成小鼠实验性自身免疫性脑脊髓炎(EAE)[25]。
本研究所得的10个关键基因主要是参加炎症或者免疫反应相关的基因。既往研究证明,炎症反应失调是DMD病理损害的重要机制[26]。DMD患者肌肉病理变化包括免疫学和炎性过程的异常、细胞自噬的缺陷和肌肉再生能力的丧失[27]。我们认为本研究的关键基因在DMD发病机制中亦是起调节炎症反应与免疫反应的作用。大部分关键基因在mdx鼠中呈上调表达,只有Emr1基因呈下调表达,可能原因为:一方面,各基因对炎症反应促进或抑制作用的共同效应导致了DMD的病理学改变趋向炎症反应增强;另一方面,DMD致病机制涉及的免疫反应途径具有一定特异性。
目前,针对DMD免疫机制的治疗如皮质激素、免疫抑制剂、免疫靶向药物等均能在一定程度上改善症状、延缓疾病进程[28]。本研究的所提出的差异表达基因和关键基因或能成为DMD免疫调节的特异性靶点,促进DMD免疫治疗的发展。这些关键基因在杜兴型肌营养不良症发病机制中的作用以及作为生物标志物的有效性,还需要进一步实验验证。
4 结 论
本研究通过对3个mdx鼠数据集进行全面的生物信息学分析,提示炎症反应和免疫反应相关分子机制在DMD的发病过程中起重要作用。筛选出的Tyrobq、Emr1、C1qb、Ly86、C1qc、C1qa、Lyz2、Ms4a6d、Fcer1g和Fcgr3等10个关键基因提示了DMD新的治疗靶点。