腺泡状横纹肌肉瘤相关基因生物信息学分析*
2019-05-30张汝朋吕雷锋柏传毅王坤正党晓谦
张汝朋,吕雷锋,张 晨,柏传毅,王坤正,党晓谦
(西安交通大学第二附属医院骨一科,西安 710004)
横纹肌肉瘤(rhabdomyosarcoma,RMS)是儿童最常见的颅外实体瘤之一,也是儿童和青少年最常见的侵袭性软组织肉瘤,其预后较差[1]。腺泡状RMS(alveolar RMS,ARMS)是RMS的一种亚型,起源于间充质细胞,其在形态学上与肺组织的腺泡相似,故称为ARMS。 越来越多的证据表明,PAX3、FKHR、TAZ和PPP2R1A等基因的异常表达和突变参与了ARMS的发生和进展,以及相关抑癌基因的功能缺失和突变[2-3]。然而,由于在疾病早期缺乏有效的诊治方法,ARMS的病死率仍然很高。因此,了解ARMS发生、增殖和复发的确切分子机制,从而制订有效的诊断和治疗策略至关重要。在过去的几十年里,芯片与测序技术和生物信息学分析被广泛用于筛选基因组水平的基因改变,这有助于鉴定与ARMS的癌变和进展有关的差异表达基因(differentially expressed genes,DEGs)。本研究从基因表达合集(gene expression omnibus,GEO)中下载并分析ARMS基因表达分析数据集,得到ARMS组织与正常组织之间的DEGs。随后,本课题组进行了基因本体论(gene ontology,GO)、京都(日本)基因与基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)通路富集分析和蛋白-蛋白相互作用(protein-protein interaction network,PPI)网络分析,以帮助了解致癌和促进肿瘤发展相关基因的分子机制。
1 材料与方法
1.1材料 ARMS的基因芯片数据GSE2787从公共数据库GEO查找并下载(https://www.ncbi.nlm.nih.gov/geo/)。以Alveolar Rhabdomyosarcoma为数据检索关键词,研究类型为Expression profiling by array,限制种属为 Homo sapiens,是1组基于Human Array 2.0芯片平台GPL2011的数据组。此芯片共包含有14组ARMS肿瘤与正常对照样本。
1.2方法
1.2.1数据的提取、处理及差异表达基因分析 基因表达谱的原始数据集利用R语言的affy包进行处理,rma包进行标准化,limma包进行DEGs分析,筛选出ARMS与人类胎儿骨骼肌对照组之间的DEGs。DEGs需同时满足以下筛选条件:(1)采用t检验,定义P<0.01;(2) log2FC≤-1或log2FC≥1,FC表示DEGs差异倍数(fold change)。
1.2.2差异表达基因的GO功能富集分析 利用注释、可视与集成探索的数据库(Database for Annotation,Visualization and Integrated Discovery,DAVID 6.8)在线分析软件对DEGs进行GO分析,以P<0.01作为筛选条件。
1.2.3DEGs编码蛋白相互作用网络的构建及模块分析 采用STRING在线数据库,将参与GO功能富集的DEGs所编码的蛋白进行PPI网络分析。利用Cytoscape软件的插件MCODE对PPI进行模块分析,以MCODE分数大于5分作为显著性模块的筛选标准,并且利用DAVID在线分析工具对筛选出模块中的关键基因进行功能和通路分析。
1.2.4主要观察指标 观察经Cytoscape筛选出PPI网络中关键基因的功能与其所在信号通路。
2 结 果
2.1DEGs的筛选结果 利用R分析工具,以P<0.01,log2FC≤-1或log2FC≥1为筛选条件对DEGs进行筛选。 GSE2787数据集共筛选出DEGs 867个,其中表达上调基因737个,表达下调基因130个。
2.2DEGs的GO分析结果 通过GO功能基因富集分析,有45个基因富集分析结果呈显著性(P<0.01,FDR<0.01)。依P值列出最小3条,DEGs主要涉及肌原纤维、肌小节、收缩纤维、肌肉收缩、横纹肌薄丝、肌肉系统进程等功能类别,见表1。
2.3DEGs的PPI分析 为阐释涉及ARMS的DEGs相关分子机制,使用STRING在线数据库构建了PPI,PPI可视化图用Cytoscape软件绘制。PPI网络由752个节点和5 158个交互组成。PPI中交互最密集区域(图1)中包含35个中心节点蛋白,依次为:CSTF3、CWC25、DDX5、DHX9、ELAVL1、HNRNPA2B1、HNRNPA3、HNRNPD、HNRNPK、LSM2、LSM3、LSM7、NAA38、NCBP1、NHP2L1、PABPN1、POLR2G、POLR2I、POLR2J、PRCC、PRPF19、PRPF3、RBM5、RBM8A、SF3A3、SNRPB、SNRPD2、SNRPE、SNRPG、SRRM1、SRSF11、SRSF3、SRSF5、SRSF9、TRA2B。
2.4关键DEGs的GO分析与KEGG信号通路分析结果 通过GO功能基因富集分析,35个DEGs有21个富集分析呈显著性(P<0.01,FDR<0.01)和1条信号通路分析结果呈显著性(P<0.01,FDR<0.01),分析结果见表2。DEGs主要涉及RNA拼接、RNA代谢过程、腺苷酯交换反应RNA剪接等生物学过程,涉及核糖核蛋白复合体、剪接体、核内腔等细胞组件,涉及RNA结合等分子功能及剪接体信号通路。
表1 DEGs的GO功能分析结果(依P值取最小3个)
BP:生物学过程;CC:细胞组分;MF:分子功能
表2 关键DEGs的GO功能分析结果与KEGG信号通路分析结果(依P值取最小3个)
BP:生物学过程;CC:细胞组分;MF:分子功能;PW:信号通路;hsa:人
图1 关键差异基因构建的蛋白互作网络图
3 讨 论
1978年,林华安博士结合计算机科学与生物学,开创了生物信息学的新交叉领域[4]。随着测序技术的不断发展,测序数据呈现爆发式增长,信息的管理和分析成为限制测序数据使用的关键问题,生物信息学技术应运而生且实现快速发展。
本研究从GEO数据库下载ARMS的基因芯片数据GSE2787,其中包括14对ARMS肿瘤与正常对照样本,经数据整理、分析,按P<0.01,log2FC≤-1或log2FC≥1为筛选条件对DEGs进行筛选,共筛选出867个DEGs,其中上调737个,下调130个。构建PPI阐释涉及ARMS的DEGs分子机制,共得到CSTF3、CWC25、DDX5等35个中心节点蛋白,提示相应基因可能是与ARMS发生、发展密切相关的关键基因。对关键DEGs进行GO分析与KEGG信号通路分析,提示DEGs主要涉及RNA拼接、RNA代谢过程、腺苷酯交换反应RNA剪接等生物学过程,涉及核糖核蛋白复合体、剪接体、核内腔等细胞组件,涉及RNA结合等分子功能及剪接体信号通路。
与ARMS相关的功能基因研究已经有较多且深入的文献报道。有研究发现70%~80%的ARMS中存在特异性染色体易位t(2;13)(q35;q14)和t(1;13)(p36;q14),形成的融合基因PAX3/7-FKHR可以抵制肿瘤细胞凋亡,促使增殖,对于ARMS的发生机制研究、诊断、靶向治疗、预后判断等都具有重要意义[5-7]。有文献报道PAX3/FOXO1融合负调控的PPP2R1A促进PAX3/FOXO1阳性ARMS的侵袭行为[3]。染色质域解旋酶DNA结合蛋白4(CHD4)结合到PAX3-FOXO1靶基因的调控区域,CHD4的缺失降低了融合阳性细胞的生存能力,但未降低融合阴性细胞的生存能力,导致了体内融合阳性异种移植瘤的特异性回归,是PAX3-FOXO1活性的关键核心调控因子[8]。卷曲相关蛋白SFRP3可抑制ARMS细胞的生长,减少其增殖,同时伴有G1阻滞和p21的诱导,诱导细胞凋亡,抑制SFRP3除了增加肌源性分化和连环蛋白信号外,还将ARMS的生长和质量降低了3倍以上[9]。组蛋白乙酰转移酶P/CAF(KAT2B)在ARMS患者的原发性肿瘤中过表达,但是在融合阳性的ARMS细胞系中,P/CAF乙酰化并稳定PAX3-FOXO1,沉默P/CAF,或对其乙酰转移酶活性的药理学抑制,在移植瘤模型中下调PAX3-FOXO1水平,同时减少增殖和肿瘤负担[10]。然而,Sphingosine在PAX3-FKHR阳性ARMS细胞中,通过MYCN下调独立于TP53突变状态,发挥了抗增殖和促凋亡作用[11]。转录因子SNAIL表达在ARMS中升高,表现为肌原性分化程度低、侵袭性强,SNAIL水平与MYF5表达呈负相关,沉默SMAIL使MYF5重新表达和MYOD经典结合,促进ARMS细胞的肌原性分化,提示SNAIL是一种重要的肌源性分化调节剂[12]。TAZ抑制ARMS细胞增殖,诱导凋亡,支持肌原性分化,降低ARMS细胞活性,TAZ缺陷的ARMS细胞在细胞周期的G2-M期富集,提示TAZ是ARMS发生的致瘤因子[2]。GSK3β抑制或外源性表达的S160/164A突变肌原蛋白减少了RH30细胞在集落形成实验中的自主锚定生长,提示GSK3β抑制了肌源级联的关键调控步骤,导致ARMS未分化、增殖表型[13]。目前ARMS相关功能基因研究多关注于融合基因及肿瘤的肌原分化,与本研究通过生物信息学分析预测所得关键DEGs的肌肉收缩、核糖核蛋白复杂装配、大分子复杂亚基组织、单核苷酸突变、剪接体等功能类别相符。但是对本研究预测的功能相关可能性较高的RNA拼接、剪接、结合等功能类别研究较少,提示可以在将来研究中考虑RNA功能尤其是RNA拼接、剪接、结合等功能类别在ARMS发生、发展中的作用与相关机制。
与ARMS相关的信号通路研究报道却较少。有研究表明肝细胞生长因子(HGF)刺激不能促进ARMS细胞系的增殖,HGF刺激细胞的活力不是被ERK1 siRNA抑制,而是被ERK2 siRNA抑制,提示HGF/MET信号主要通过ERK2信号促进ARMS细胞的运动[14-15]。药物对NF-κB活性的抑制导致许多ARMS肿瘤培养物的细胞增殖减少;然而,用ARMS肿瘤细胞进行原位同种异体移植的小鼠在使用NF-κB抑制剂时肿瘤生长与对照组相比没有差异。当与NF-κB抑制剂联合使用时,navitoclax在减少人类和IKKbeta野生型小鼠ARMS细胞的生长方面具有协同作用,提示仅NF-κB的灭活可能不足以减少肿瘤的生长,但如果与另一种靶向治疗结合使用,可能具有益处[16]。本研究所预测的信号通路剪接体(hsa03040:Spliceosome)信号通路目前尚未有在ARMS中的研究报道,提示在将来进行ARMS发生与发展研究时可以考虑剪接体信号通路是否发挥作用及相关机制。
综上所述,本研究旨在识别可能参与ARMS发生或进展的DEGs。共鉴定867个DEGs和35个关键DEGs,可作为诊断ARMS的生物标志物的参考范围。然而,需要进一步研究和阐明这些基因在ARMS中的生物学功能。