脑瘫差异表达基因生物信息学分析及脑瘫核心驱动基因筛选
2021-04-16曾杰徐林赵亚林邓博文于睿钦赵毅穆晓红
曾杰,徐林,赵亚林,邓博文,于睿钦,赵毅,穆晓红
北京中医药大学东直门医院,北京100700
脑性瘫痪(简称脑瘫)是最常见的儿童致残性疾病,是发育中的大脑中出现非进行性损伤引发永久性的运动和姿势发育障碍,进而导致患者活动受限,其中运动功能障碍是脑瘫的核心症状。欧洲部分国家数据显示,脑瘫总体患病率为2.08‰,其中极低出生体质量儿的患病率为42.4‰[1],加拿大儿童脑瘫患病为2.2‰,受到人口预期寿命延长的影响,脑瘫患病率仍在缓慢增加[2]。我国部分地区随机抽样调查显示,0~6 岁儿童脑瘫的患病率为 2.37‰[3]。脑瘫给医疗保障系统和家庭造成巨大压力,同时脑瘫患者自身生活质量也受到极其严重的影响。目前尚无能够治愈脑瘫的治疗方法,对脑瘫做到早期诊断和干预,探索脑瘫相关的差异表达基因和治疗靶点,对于降低脑瘫发病率、改善患者预后和降低残障率具有重要的意义。近年来,随着基因芯片和高通量测序技术的快速发展,研究者能够快速实现转录组和基因组的全貌细致分析,有力推动了生命科学的发展进步。随着针对脑瘫基因表达谱等相关研究的逐年增加和各类公共数据库的建立,可通过生物信息学方法对脑瘫进行更深层次的研究,进而拓展对脑瘫病理机制的认识。本研究通过检索国内外文献,获取脑瘫的差异表达基因,在此基础上进行生物信息学分析,并筛选出脑瘫核心驱动基因,为下一步研究提供方向。
1 资料与方法
1.1 脑瘫差异表达基因的获取 通过检索Pubmed(http://www. ncbi. nlm. nih. gov/pubmed/)数据库,检索与脑瘫差异表达基因相关的文献,检索式为:(cerebral palsy [MeSH]) and (polymorphism[MeSH]or genotype[MeSH]or alleles[MeSH])not(neoplasms[MeSH]),截至2020 年10 月5 日共检索到英文文献120 篇,通过阅读文献摘要,收集与人类相关的遗传关联研究,其后审阅选定文献的全文,确保其内容支持结论,最后纳入英文文献44 篇。同时,在中国知网检索获取脑瘫差异表达基因相关文献,检索主题词为“脑性瘫痪”“基因”“易感性”“多态性”,进行模糊匹配,排除综述、动物研究以及与脑瘫无关的研究后,最终得到有效中文文献12篇,阅读全文并获取文章中的脑瘫差异表达基因。
1.2 脑瘫差异表达基因的生物信息学分析
1.2.1 脑瘫差异表达基因的GO 功能富集分析利用 WebGestalt(http://www. webgestalt. org/)对脑瘫差异表达基因进行GO功能富集分析,以此探索参与脑瘫的主要生物学过程、细胞组分、分子功能,以错误发现率(FDR)<0.05的条目为显著富集标准。
1.2.2 脑瘫差异表达基因的KEGG 信号通路分析 将脑瘫差异表达基因上传至ToppGene(https://toppgene. cchmc. org/)进行 KEGG 信号通路分析,采用benjamini-hockberg 算法对显著性结果进行多重检验的校正,选择KEGG 数据库对脑瘫差异表达基因参与的信号通路进行注释,以FDR<0.01作为显著富集的通路。
1.2.3 脑瘫差异表达基因的通路串话分析 通路串话分析基于以下假设:如果两条信号通路之间共享2 个及以上脑瘫差异基因,那么这两条信号通路即具有通路串话关系。为准确描述每两条任意信号通路对之间的基因重合关系,本研究利用杰卡德相似系数(JC)和重叠系数(OC),将JC 和OC 的平均值作为衡量两条通路间基因重复关系的指标,然后利用Cytoscape 软件将具有串话关系的网络导入并进行可视化。以节点代表信号通路,网络中与某个信号通路具有串话关系的通路越多,则该信号通路的节点越大;以边代表通路对之间的串话关系,通路对之间重合基因越多,则连接两条通路的边越粗。
1.3 脑瘫核心驱动基因的筛选 将脑瘫差异表达基因上传至 STRING 11.0 软件(https://string-db.org/),构建蛋白质互作网络(PPI),随后将数据导入Cytoscape 软件,利用该软件中的cytoHubba 插件并使用最大团中心性(MCC)方法,筛选出蛋白间相互作用对数排名前10的差异表达基因,即为脑瘫核心驱动基因。
2 结果
2.1 脑瘫差异表达基因的获取结果 通过Pubmed和中国知网数据库检索得到298 个脑瘫差异表达基因 ,包 括 NOS2、IL1B、APOE、TUBA1A、SCN8A、KDM5C、AGAP1、KDM7A、MAST1、NAA35、IL6、SLC1A2、F5、TLR4、COL4A1、PRKG2等基因。
2.2 脑瘫差异表达基因的生物信息学分析结果
2.2.1 脑瘫差异表达基因的GO 功能富集分析结果 GO功能富集分析结果显示,脑瘫差异表达基因在生物学过程方面主要与免疫应答、防御反应、对含氧化合物的反应、细胞因子介导的信号通路、对生物刺激的反应、对其他生物体的反应、细胞活化、免疫反应调节、免疫系统进程调节、细胞对细胞因子刺激的反应、神经发生、神经元的产生等有关,在细胞组分方面主要与轴突、突触后膜、突触、细胞膜的固有成分、细胞连接等有关,在分子功能方面主要与蛋白聚糖结合、胶原结合、抗原结合、抗氧化活性、细胞骨架的成分、细胞因子受体结合、受体-配体活性等有关。
2.2.2 脑瘫差异表达基因的KEGG 信号通路分析结果 最终获得42 条显著富集的通路,涉及免疫系统和炎症反应的信号通路有Th17 细胞分化、Toll 样受体信号通路、NOD 样受体信号通路、肿瘤坏死因子信号通路、NF-κB信号通路、Th1和Th2细胞分化、趋化因子信号通路、自然杀伤细胞介导的细胞毒性、T 细胞受体信号通路、血管内皮生长因子信号通路、抗原处理和呈递等,涉及神经系统的信号通路有轴突导向、PI3K-Akt 信号通路、HIF-1 信号通路、缝隙连接等。此外,还富集得到一些感染性疾病如百日咳、丙肝、麻疹、美洲锥虫病等和炎症性肠病、类风湿性关节炎、I型糖尿病、癌症、肌萎缩性侧索硬化症等疾病的信号通路。KEGG 信号通路分析结果也表明,脑瘫的病理机制涉及到免疫系统、神经系统等多系统和多途径的信号转导过程。
2.2.3 脑瘫差异表达基因的通路串话分析结果 42条信号通路中经串话分析最终保留41条通路,即41 条信号通路中任意一条都与其他若干条信号通路共享2个及以上的基因。脑瘫差异表达基因的通路串话关系网络见图1。由图1可见,该网络包括41 个节点、477 条边,其中T 细胞受体信号通路、IL-17 信号通路、细胞因子和细胞因子受体相互作用、肿瘤坏死因子信号通路、流体剪切应力与动脉粥样硬化、癌症中的蛋白多糖、Th17细胞分化、NOD 样受体信号通路、Toll 样受体信号通路、NF-κB 信号通路、PI3K-AKT信号通路、HIF-1信号通路与其他的通路之间存在较多的串话关系,可能在脑瘫的病理机制中发挥重要作用。
图1 脑瘫差异表达基因的通路串话关系网络
2.3 脑瘫核心驱动基因的筛选结果 获得一个包含263 个节点、1585 条边的PPI 网络,其中蛋白间相互作用对数排名前10 的基因是IL-6、TNF、IFNG、CXCL8、TLR4、ICAM1、IL-4、IL-1β、CCL5、PTGS2,脑瘫差异表达基因的PPI 网络见图2。
图2 脑瘫差异表达基因的PPI网络图
3 讨论
目前尚不完全清楚脑瘫发病的具体病理机制,一般认为脑瘫的病因涉及产前、产中和产后的多个关节,与缺氧、早产、感染、黄疸、低出生体质量、新生儿脑病及遗传因素等有关[4],缺氧是脑瘫的主要病因[5]。借助基因组学、分子遗传学、蛋白组学等技术手段,人们对脑瘫的认识和研究不断推向深入,遗传因素和易感基因也走进了研究者的视野,成为脑瘫研究的热点领域。遗传因素可能会改变围产期炎症和神经发育障碍的易感性,诱导脑瘫等神经发育障碍性疾病的发生。此外,出生前后的环境暴露可影响婴儿的表观遗传标记物,生命早期的表观遗传标记物能够预测数年后的神经发育结果。基因靶向精准治疗已成为多种恶性肿瘤治疗的重要手段,基于表观遗传途径实现基因层面的调节也可能为脑瘫等疾病的新治疗策略提供有希望的方向[6-7]。
在本研究中,通过分析中英文相关文献,提取脑瘫差异表达基因298 个,并对该基因集进行富集分析和PPI 网络构建。GO 功能富集分析结果显示,差异表达基因主要汇集于免疫应答和神经发生等生物学过程,涉及到的细胞组分主要有轴突、突触后膜等,分子功能主要涉及蛋白聚糖结合、胶原结合等;KEGG 信号通路分析表明,差异表达基因富集于与免疫系统、炎症反应和神经系统相关的信号通路,如Th17细胞分化、Toll样受体信号通路、肿瘤坏死因子信号通路、NF-κB 信号通路、轴突导向、PI3K-Akt 信号通路、HIF-1 信号通路、缝隙连接等。对富集到的信号通路进行串话分析证实,T 细胞受体信号通路、IL-17 信号通路、细胞因子和细胞因子受体相互作用、肿瘤坏死因子信号通路等与其他信号通路具有较明显的串话关系。
本研究还通过构建差异表达基因PPI 网络,获得10 个核心驱动基因,分别是IL-6、TNF、IFNG、CX⁃CL8、TLR4、ICAM1、IL4、IL-1β、CCL5、PTGS2 等,说明上述基因可能在脑瘫发病的蛋白表达调控机制中扮演了重要角色。研究[8]发现,IL-6、IL-1β、IL-8、TNF-α是最能预测神经发育损伤的蛋白质生物标记物。IL-6 是脑室周围白质软化症(PVL)相关病变的独立预测因子,可增加早产儿对不良神经发育结局的易感性[9-10],IL-6 和 IL-8 均可明显增加脑瘫的患病风险[11]。此外,脑瘫患者血浆TNF-α 水平明显高于正常对照组,且TNF-α 水平与疾病严重程度显著相关[12]。IL-1β 在缺血缺氧性脑病的神经炎症机制中起关键作用。有研究[13]证实,在 IL-1β 基因启动子的511 位点携带单核苷酸多态性(SNIP),以及在NOS2A 启动子中CCTTT 微卫星的扩增,可能使患儿在缺血缺氧性脑病后更容易发生脑瘫。TLR4属I型跨膜蛋白,通过MyD88 依赖和非MyD88 依赖性途径被活化,其后激活巨噬细胞和内皮细胞,促进炎症和免疫调节因子基因表达。有临床研究[14]显示,TLR-4多态性有潜在的神经保护作用,可能与脑瘫风险降低有关。IFNG 具有重要的免疫调节功能,表现为当病原体入侵宿主时,IFNG 激活巨噬细胞使之杀灭病原体,形成免疫应答的第一道防线[15]。CCL5属于C-C趋化因子家族,可将白细胞募集到炎症部位中起抗炎作用。在大脑中,CCL5能够诱导少突胶质细胞系oli-neu细胞增殖,促进髓鞘形成,调节星形胶质细胞分化,抵抗神经毒素发挥神经保护作用[16]。ICAM1能够促进白细胞经内皮迁移到炎症部位,破坏血脑屏障,CAM1 的上调发生在多种疾病中,包括自身免疫性疾病、癌症、心血管疾病、神经系统疾病和炎性疾病等。在炎症条件下,ICAM1 升高会增加患儿脑白质受损和罹患脑瘫的风险[11]。PTGS2被认为是缓解疼痛和治疗炎症的靶标[17],在神经炎症反应中,星形胶质细胞和小胶质细胞中PTGS2 的表达显著增加,PTGS2 作为神经毒性介质,可能是导致神经变性、精神疾病和癫痫的病理因素[18]。
综上,本研究通过检索文献收集脑瘫差异表达基因数据,运用生物信息学方法,对差异基因进行富集分析发现,免疫应答等生物学过程和Th17细胞分化等信号通路可能参与了脑瘫的发病机制;通过构建差异表达基因PPI 网络,获取可能参与脑瘫发病的核心驱动基因。上述靶点和信号通路可能在脑瘫的发生发展过程中有重要的影响和作用,值得在下一步的研究中进行深入探讨。