应用生物信息学探索神经母细胞瘤转移的关键基因
2023-10-13张守华孟肖振邹海波李科浩李匡凡
张守华,孟肖振,邹海波,冯 丹,李科浩,李匡凡,占 敏,徐 晗
(1.江西省儿童医院普通外科; 2.南昌大学医学部,南昌 330006)
神经母细胞瘤(neuroblastoma,NB)起源于肾上腺髓质及交感神经节的原始神经嵴细胞,是儿童颅外最常见的恶性实体肿瘤,也是婴幼儿期最常见的恶性肿瘤[1-2],约占儿童肿瘤的7%~10%。NB的总体患病率大约是1/7000活产儿,男性发病率稍高,因NB死亡的患儿占儿童癌症相关死亡总数的15%。NB具有很高的转移潜力,多数患者在诊断时就已经发生远处转移,因而预后较差[3-4]。因此,阐明NB转移的机制,鉴定新的预后生物标志物和治疗靶点对NB的临床治疗有重要意义。近年来生物信息学技术不断发展,其在疾病诊断、预后预测和药物筛选等方面发挥了越来越重要的作用。依靠生物信息学技术,研究者能够了解NB细胞周期相关基因及其表达情况。肿瘤转移过程中参与调控的基因众多,并且调控基因之间相互作用,相互影响。生物信息学从宏观上分析大数据,可在多基因水平研究肿瘤,从而有可能更好地阐释癌症的发病机制。本研究应用生物信息学分析方法,筛选与NB转移相关的差异性表达基因,分析这些基因在NB中的表达模式和可能发挥的作用,以期为进一步阐明NB转移机制提供理论依据。
1 资料与方法
1.1 数据来源
NB基因表达数据集GSE112447(内含20个NB转移肿瘤组织样本、37个NB原发肿瘤组织样本)来自NCBI的Gene Expression Omnibus数据库(GEO,http://www.ncbi.nlm.nih.gov/geo/)[5]。该数据集的基因测序平台为Agilent-014850 Whole Human Genome Microarray 4x44KG4112F(GPL6480平台)。
1.2 基因筛选
利用在线分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r)[6]对数据进行基因表达差异分析,筛选标准:P<0.05,|logFC|>2(FC=变异倍数)。将logFC>2的基因为上调的差异表达基因(up-regulated differentially expressed genes,UDEGs),logFC<-2的基因作为下调的差异表达基因(down-regulated differentially expressed genes,DDEGs)。
1.3 GO和KEGG富集分析
利用具备注释和可视化功能的DAVID数据库(http://david.abcc.ncifcrf.gov/)[7]进行GO富集分析和KEGG通路分析[8-9],GO富集分析内容主要有生物学过程(biological process,BP)、细胞组成(cell composition,CC)和分子功能(molecular function,MF)。以FDR<0.05为集合有意义。
1.4 蛋白质相互作用网络的建立及筛选关键基因
将筛选出的差异表达基因导入到STRING数据库(https://string-db.org/)中分析蛋白间相互作用(protein-protein interaction,PPI)[10],将“minimum required interaction score”设定为“high confidence(0.7)”进行PPI网络构建。之后,利用Cytoscape软件对PPI网络进行可视化整合[11]。分别使用Cytoscape的插件“CytoHubba”中的MCC,DMNC和Stress算法筛选出PPI网络中排名前15的关键基因[12],3种算法得到的前15个基因取交集后得到的共同基因被认为是关键基因。
1.5 生存分析
使用UCSC Xena(https://xena.ucsc.edu/)数据库[13-14]对筛选出的候选关键基因进行总体生存分析[15],以P<0.05为差异有统计学意义。
1.6 单基因差异分析
以关键基因的相对表达中位值为界,将数据集中的病例样本分为高、低表达组,筛选2组之间的差异表达基因,认定为CCNB1的衍生基因。同时使用DAVID数据库对筛选出的差异表达基因进行KEGG通路富集分析,分析关键基因及其衍生基因可能参与信号通路。
2 结果
2.1 差异表达基因的筛选
利用GEO2R共筛选出NB转移和原发肿瘤组织间435个差异表达基因,其中表达上调基因296个,表达下调基因139个,差异表达基因的火山图见图1,进一步筛选出表达水平变化幅度排名前50的差异表达基因,差异表达基因的聚类热图见图2。
log3(FoldChange)图1 差异表达基因火山图
图2 差异基因热图
2.2 差异基因的功能富集分析
DAVID数据库GO分析结果显示:与差异基因相关的生物学过程主要富集在炎症反应、细胞黏附和补体激活中;差异基因主要分布于细胞外基质和细胞外泌体,与蛋白结合、丝氨酸型内肽酶活性和受体结合功能有关(表1)。KEGG通路富集分析结果显示,与差异基因有关的主要细胞通路为补体激活通路、PI3K-Akt信号通路和恶性肿瘤转录失调信号通路(表2)。GO及KEGG通路富集分析的可视化结果见图3。
表1 差异表达基因GO分析
表2 差异表达基因KEGG富集分析
图3 差异基因GO和KEGG富集分析可视化
2.3 差异基因的PPI网络和关键基因筛选
差异基因的PPI网络见图4。
图4 差异基因的PPI网络
利用STING数据库构建差异基因的PPI网络,过滤可信系数<0.7的关系对和孤立蛋白,最终获得的PPI网络包括281个节点及846条边。使用MCC算法,得到PPI网络中前15位差异基因为CCNB1、CCNB2、CDC45、CDCA8、BIRC5、CENPF、PTTG1、NCAPG、OIP5、MAD2L1、KIF23、KIAA0101、TYMS、CDC6、FAM64A(图5A);使用DMNC算法,得到的前15位差异基因为MAD2L1、OIP5、KIF23、TYMS、NCAPG、BIRC5、CENPF、PTTG1、KIAA0101、FAM64A、TROAP、TK1、CDC6、CCNB1、CCNB2(图5B);使用Stress算法,得到的前15位差异基因为CD34、BCL2、CCNB1、ITGAM、TNF、FCGR3A、MPO、TLR2、TYROBP、MMP9、HIST1H2BJ、HIST1H2BO、PTPRC、HIST1H2BL、HIST1H2BB(图5C)。对上述3种算法得到的基因集合取交集,得到唯一关键基因CCNB1(图5D)。
A:MCC算法得到的关键基因;B:DMNC算法得到的关键基因;C:Stress算法得到的关键基因;D:3种算法获得的关键基因韦恩图。
2.4 关键基因CCNB1的预后分析
利用UCSC Xena数据库分析关键基因CCNB1对NB的预后价值,绘制生存分析曲线(图6A)。结果显示CCNB1的表达水平与NB患者总体生存率显著相关(P=0.000 534 6),即CCNB1低表达的患者与生存率更高;CCNB1在肿瘤未分化或分化程度低的NB患者中的表达水平高于在肿瘤分化NB患者中的表达水平(图6B,P=0.030 08);CCNB1在MYCN拷贝数扩增的NB患者中的表达水平显著高于MYCN拷贝数未扩增的NB患者(图6C,P=0.000 246 5)。以上结果都说明CCNB1和NB患者的预后密切相关。
A:CCNB1基因表达水平高、低的NB患者生存曲线;B:不同分化程度的NB肿瘤间CCNB1基因表达水平比较;C:MYCN扩增程度不同的NB肿瘤间CCNB1表达水平比较。
2.5 CCNB1相关基因的鉴定与其生物学意义
以关键基因CCNB1数据集中的中位相对表达值(10.60,n=57)为界值,将患者分为CCNB1高表达组(29例)和低表达组(28例),对2组进行基因差异表达分析,筛选标准:P<0.05,|logFC|>2。随后对将筛选出的差异表达基因进行KEGG富集分析,结果表明CCNB1及其衍生基因与细胞周期、细胞衰老、p53信号通路等有显著的相互作用。见表3。
表3 CCNB1高、低表达组差异表达基因的KEGG富集分析
3 讨论
NB是儿童颅外最常见的恶性实体肿瘤,起源于肾上腺髓质及交感神经节的原始神经嵴细胞,具有很强的远处转移潜力。NB患者经常在确诊时即发现远处转移,NB晚期和转移患者的生存率较低。因此,寻找与NB远处转移有关的关键基因对NB的诊断和预后评估有重要意义。
GEO数据库中的GSE112447数据集中收录了20个NB转移肿瘤组织样本、37个NB原发肿瘤组织样本的基因表达数据。通过生物信息学手段,本研究筛选出在NB转移肿瘤组织和原发肿瘤组织间差异性表达的基因共435个,其中表达上调的基因296个,表达下调基因139个。对差异表达基因进行GO富集分析,结果显示差异基因主要参与了炎症反应、细胞黏附和补体激活等生物过程,主要分布于胞外基质、吞噬溶酶体和细胞外泌体[16-17]等细胞成分,并与蛋白结合、丝氨酸型内肽酶活性和受体结合等与肿瘤发生发展关系密切的分子功能有关[18-19]。同时,KGEE通路分析表明,差异基因主要富集于补体信号通路、中性粒细胞胞外杀菌网络(Nets)形成途径、ECM受体相互作用信号通路[20]、PI3K-Akt信号通路、IL-17信号通路、恶性肿瘤转录失调信号通路和造血细胞调控信号通路。上述信号通路与肿瘤的增殖、侵袭和迁移以及细胞凋亡密切相关[21-22],可能在NB转移过程中也发挥着重要作用。UBELLACKER等[23]研究显示,可以通过调节骨髓造血干细胞的功能和分化潜能影响造血微环境,从而抑制和预防骨髓转移性疾病,改善患者预后。结合KEGG富集分析结果,差异基因可能通过影响造血细胞调控信号通路在NB骨髓转移过程中发挥重要作用。本研究通过PPI网络构建和Cytoscape软件算法,从差异表达基因中筛选出了唯一的关键基因——CCNB1。有研究[24]表明CCNB1在NB组织中高表达,且其表达水平与NB患者的预后密切相关,提示CCNB1的表达量越低的患者的预后越好。由此可推测CCNB1可能在NB远处转移过程中发挥着重要作用,且与患者预后密切相关。
以TARGET数据集中151例NB样本的CCNB1基因的中位表达值为界值,将患者样本分为CCNB1高表达和低表达组。筛选CCNB1高、低表达组间差异表达的基因,并对其进行KEGG通路富集分析,结果表明CCNB1及其衍生基因与细胞周期、细胞衰老、p53信号通路等有显著富集。SONG等[25]的研究表明CCNB1在细胞周期调控和p53信号通路中起着重要作用,与NB密切相关。另外有研究[26]表明CCNB1通过促进P3泛素化促进HCC中的PI53K和AKT磷酸化并降低P53蛋白表达。参与细胞周期控制的基因表达失调会使细胞命运走向异常,有可能造成不受控制的细胞增殖,进而导致癌症的发生发展[27]。与笔者富集到的CCNB1及其衍生基因的生物学功能一致,说明CCNB1很可能通过细胞周期,p53信号通路影响NB的恶性程度,促进肿瘤细胞增殖和远处浸润转移。
CCNB1过表达造成的免疫相关信号通路失调可能直接促进肿瘤细胞的异常增殖和转移。此方向上的进一步深入研究可能揭示新的NB致病机制,靶向该通路的治疗方案可能成为未来NB治疗的新方向。有研究[28-29]表明,其他肿瘤中CCNB1的蛋白质表达水平高于正常组织。此外,与非侵袭性肿瘤相比,侵袭性肿瘤中的CCNB1表达水平也更高。CCNB1的敲低导致细胞活力和增殖能力显著降低,这与本研究分析结果一致。
本研究的局限性在于:1)关键基因CCNB1的重要性还需生物学实验验证;2)只对一个数据集进行了分析,样本数量较少;3)NB的远处转移是多因素共同作用的结果,本研究只从基因表达水平对其进行了单维度分析。
综上所述,CCNB1基因可能在NB转移过程中起重要作用,其高表达与患者生存率低相关,可能是评估NB预后的可靠生物学标志物。未来可能作为新的靶点,为NB诊断、治疗和预后评估提供新的可能。