星型胶质细胞瘤预后生物标志物的筛选
2020-08-12王圆圆义勇军
王圆圆 义勇军
广州市第一人民医院南沙医院(广州 511457)
星型胶质细胞瘤约占颅内肿瘤的24%,是颅内最常见的胶质瘤[1]。临床上大多星型胶质细胞瘤只需要手术切除,然而快速增长的星型胶质细胞瘤会导致颅内高压、脑水肿和脑疝等严重的并发症。目前,对于星型胶质细胞瘤的干预手段非常有限,主要是由于对于星型角质细胞瘤的发生发展机制的认识仍然处于探索阶段。相关研究表明,星形胶质细胞瘤与遗传有明显的相关性[2- 3]。然而目前,关于星型胶质细胞瘤发生发展的分子机制仍然不明确,很难为临床治疗提供指导。
近年来,基因芯片技术已经广泛应用于疾病机制的探究,通过对基因芯片数据进行生物信息学分析,可以预测参与疾病发生发展过程中重要的分子和通路,并结合临床预后生存资料对其预后价值和诊断价值进行评价。因此我们通过生物信息学分析探究星型胶质细胞瘤的预后生物标志物,从而为星型胶质细胞瘤提供新的治疗靶点和预后生物标志物。
1 材料与方法
1.1 基因芯片数据来源
本文分析的星型胶质细胞瘤基因芯片数据集均来自于GEO(gene expression omnibus,GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)。所有数据集中的基因芯片数据均基于GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array。将4个数据集中的人脑组织的样本分为星形胶质细胞瘤组(Astroglioma组)和正常组(Normal组),包括:162个星形胶质细胞瘤样本和32个正常脑组织样本。不同数据集中样本的分布,见表1。
表1 数据集中样本的分布
1.2 原始数据的质控和差异表达基因的筛选
用R语言将原始基因芯片数据按照不同的分组进行合并,通过R语言中的sva包处理来自不同数据集样本之间的批次效应(batch effects)。利用R语言中的limma包对原始数据进行标准化处理,并用ggplot2包可视化[4- 5]。应用limma包对处理后的基因表达数据进行差异分析,从而得到星型胶质细胞瘤组和正常组之间的差异表达基因(differentially expressed genes,DEGs),筛选标准:|log2(Fold change)|>1,P值<0.05。并用热图展示差异表达基因在不同组间的表达情况,用火山图展示差异表达基因的分布情况。
1.3 GO分析、KEGG分析和GSEA分析
GO(Gene ontology,GO)分析可从生物过程(biological process,BP)、细胞组成 (cellular component,CC) 和分子功能(molecular function,MF)三个方面对差异表达基因进行功能富集分析[6]。我们应用R语言中的enrichplot包对差异表达基因进行GO分析,并通过ggplot 2包可视化。KEGG(kyoto encyclopedia of genes and genomes,KEGG)分析是基于KEGG数据库对差异表达基因进行通路富集分析[7],我们应用KEGG数据库对差异表达基因进行通路富集分析,并用R语言进行可视化。为了弥补对差异表达基因进行富集分析的不足,我们使用clusterProfiler包对所有基因的表达数据进行了GSEA(gene set enrichment analysis,GSEA)分析。
1.4 PPI和Hub基因
STRING数据库可预测蛋白质之间的相互调控关系[8- 9]。我们应用STRING数据库构建差异表达基因之间的相互调控关系,并通过Cytoscape进行可视化。利用Cytoscape中的cytoscapehubba插件分析得到20个Hub基因。
1.5 Hub基因的诊断价值和预后价值
为了评价Hub基因诊断价值和预后价值,我们下载TCGA(the cancer genome atlas,TCGA)数据库(https://cancergenome.nih.gov/)中关于星型胶质细胞的基因表达数据和临床预后资料,其中包含167例不同生存时间的人样本。使用pROC包构建Hub基因的ROC曲线,筛选Hub基因中AUC>0.8的进行展示。利用COX回归模型对Hub基因与患者预后进行评价,筛选HR值最有意义的基因进行总生存分析(overall survival,OS)。
2 结 果
2.1 原始数据的处理和差异表达基因的筛选
用R语言合并不同数据集中的基因芯片数据,并且对基因芯片数据进行预处理。PCA分析结果显示(图1A、B),预处理后样本聚类更加清晰,样本可靠。密度图结果表明(图1C、D),预处理后两组基因表达拟合程度高,可用于后续的生物信息学分析。我们通过R语言中的limma包总共分析得到1 043个差异表达基因,其中:526个上调基因和517个下调基因。通过热图展示了差异表达基因在不同组中的表达情况,可见差异表达基因在不同分组中表达差异明显(图2A)。应用火山图展示了所有基因的分布情况,并标注了差异表达基因和Hub基因在所有基因中的位置(图2B)。
图1 原始数据预处理A.预处理前PCA分析;B.预处理后的PCA分析;C. 预处理前密度图;D.预处理后密度图
图2 差异表达基因的情况A.差异表达基因的热图;B.差异表达基因分布的火山图
2.2 GO分析、KEGG分析和GSEA分析
为了探索差异表达基因富集的功能区域,我们对差异表达基因进行GO分析和KEGG分析。差异表达基因GO分析结果表明(图3A):BP结果主要集中在突触组织的调节、突触结构或活性的调节、突触小泡循环、神经递质转运、调节神经递质水平、囊泡介导运输的调节、突触信号转导的调控、化学突触传递的调节和突触组织等过程;CC结果表明差异表达基因主要位于转运囊泡膜、胶原蛋白细胞外基质、突触后膜、轴突部分、运输小泡和神经细胞体;MF主要与GABA-A受体活性、GABA受体活性、配体门控离子通道活性、门控通道活动、离子门控通道活性、离子通道活性、底物特异度通道活性和被动跨膜转运蛋白活性等功能相关。KEGG分析结果表明差异表达基因主要富集于钙信号通路、cAMP信号通路、细胞因子-细胞因子受体相互作用、MAPK信号通路、神经活性配体-受体相互作用、PI3K-Akt信号通路、Rap1信号通路和Ras信号通路等通路(图3B)。通过对所有基因进行GSEA富集分析(图3C),结果主要富集于细胞因子-细胞因子受体相互作用、JAK-STAT信号通路、逆行内源性大麻素信号、神经活性配体-受体相互作用、GABA能突触和钙信号通路等通路。
图3 基因富集分析结果A.差异表达基因GO分析结果;B.差异表达基因KEGG分析结果;C.所有基因GSEA分析结果
2.3 PPI和Hub基因
将差异表达基因导入STRING数据库得到差异表达基因之间的PPI,用Cytoscape可视化(图4A),通过Cytoscape中的cytoHubba插件分析得到ADCY1、NPY1R、ANXA1、PENK、ADORA3、PRK1、SSTR2、APLNR、CCR1和CXCR4等20个hub基因(图4B)。
图4 PPI网络和Hub基因
2.4 Hub基因的预后价值和早期诊断价值
我们通过ROC曲线总共筛选得到8个诊断价值较高的基因:SST(AUC=0.863)、ADCY1(AUC=0.828)、C3AR1(AUC=0.842)、CXCL16(AUC=0.891)、GNB5(AUC=0.88)、GNG12(AUC=0.915)、GNG3(AUC=0.863)、OPRK1(AUC=0.837)、S1PR3(AUC=0.846)和SSTR2(AUC=0.839)。通过COX回归模型和OS分析对Hub基因与预后关系评价的结果表明:STT(HR=1.63,95%CI:1.15~2.32,P=0.005)的高表达与患者较差的预后强相关。
3 讨 论
图5 Hub基因的诊断价值和预后价值A. Hub基因的ROC曲线;B. SST与患者预后的关系
星型胶质细胞瘤是一种颅内常见的肿瘤,主要病理特点为星形细胞的胞体较小,突起很少,胶质纤维含量很少[10]。在星型胶质细胞瘤的分子机制中,NF1的低表达、BRAF过表达、MAPK/Erk通路等在发挥的作用早已明确[11-13]。然而星型胶质细胞瘤发生发展的机制是一个错综复杂的调控过程,因此很难对其分子机制的进行全面的阐述。随着星型胶质细胞瘤分子机制的探究,靶向治疗星型胶质细胞瘤带来了新的希望,然而对于分子机制认识始终是靶向治疗难以逾越的一道鸿沟。为了探究星型胶质细胞瘤分子机制,以便探索星型胶质细胞瘤新的治疗靶点,我们结合基因芯片数据和临床预后生存资料进行了生物信息学分析。
我们通过GO分析表明,差异表达基因主要通过影响了神经突触的作用而在星型胶质细胞瘤发生发展中发挥着重要的作用。通过KEGG分析发现星型胶质细胞瘤的分子机制主要与钙信号通路、cAMP信号通路、细胞因子-细胞因子受体相互作用、MAPK信号通路、神经活性配体-受体相互作用、PI3K-Akt信号通路、Rap1信号通路和Ras信号通路等通路相关。GSEA分析主要富集于细胞因子-细胞因子受体相互作用、JAK-STAT信号通路、逆行内源性大麻素信号、神经活性配体-受体相互作用、GABA能突触和钙信号通路等通路。PI3K-Akt 信号通路主要通过促进星型角质细胞瘤的增殖增强肿瘤细胞的侵袭和转移[14],与该信号通路作用类似,Ras信号通路作为细胞增殖的启动因子,也可促进星型角质细胞的增殖[15]。JAK-STAT信号通路主要与星型胶质细胞瘤中的炎症反应相关[16]。丝裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK)是细胞信号重要传递者,是一组能被不同的细胞外刺激激活的丝氨酸-苏氨酸蛋白激酶。相关研究表明[17-19],MAPK信号通路与星型胶质细胞瘤的增殖和侵袭性相关,抑制该通路可抑制肿瘤的生长。与其他肿瘤类似,细胞因子-细胞因子受体相互作用在星型胶质细胞瘤分子机制中的作用已经有了较为详细的阐述[20- 21]。钙信号通路和cAMP信号通路在星型胶质瘤中的早已有研究报道[22- 25],然而关于其具体的分子机制有待进一步的研究。以上的研究通过生物实验说明我们生物信息学分析的结果真实可靠,具有一定的参考价值。除此之外,我们还发现Rap1信号通路有可能在星型胶质细胞瘤的分子机制中发挥着重要的作用,有可能为星形胶质细胞瘤分子机制的研究提供新的方向,值得我们进一步的研究
我们通过构建PPI,用Cytoscape中的cytoscapehubba分析得到20个Hub基因:ADCY1、NPY1R、ANXA1、PENK、ADORA3、PRK1、SSTR2、APLNR、CCR1和CXCR4等。我们通过对这些分子的诊断价值进行评价,发现SST、ADCY1、C3AR1、CXCL16、GNB5、GNG12、GNG3、OPRK1、S1PR3和SSTR2具有较高的诊断价值。相关研究表明[26- 29],S1PR1、GNG12和ANXA1在星型胶质细胞中的表达高,但是与患者临床预后无关。神经营养因子是通过表面SIP受体1(S1PR1)介导的,我们分析结果表明S1PR1在星型胶质细胞瘤中高表达,S1PR1可能通过调节神经营养因子而在星型胶质细胞发生发展过程中发挥作用[28]。CXCR4可促进星型胶质细胞瘤的增殖和侵袭,但是其与患者的预后并未明显相关性[27]。ADCY1不仅与星型胶质细胞侵袭,也与患者预后相关[30]。星型胶质细胞中C3补体表达增高,该补体激活可增加星型角质细胞瘤与其他细胞的结合力[31- 32],从而促进星型胶质细胞瘤的侵袭和转移。以上基因的相关研究与我们分析的结果相似,说明我们的筛选的关键基因有一定参考价值。我们也通过生物信息学分析结果也表明ADORA3、SST、SSTR2、NPY1R、PENK、GNG3、NPY、C3AR1、OPRK1、APLNR、CCR1和CXCL16在星型胶质细胞瘤发生发展过程中有重要的作用,然而关于这些分子与星型胶质细胞瘤关系仍然不清楚,这为我们进行一步探究星型胶质细胞瘤的机制提供了新的思路。然而关于SST、ADCY1、C3AR1、CXCL16、GNB5、GNG12、GNG3、OPRK1、S1PR3和SSTR2的诊断价值目前也未涉及,这为我们筛选星型胶质细胞瘤的早期诊断标志物提供了参考。
我们通过对Hub基因的诊断价值和预后价值进行评估,发现SST不仅具有良好的诊断价值,而且与患者预后明显相关。SST是生长抑素家族的成员,该家族成员在多种肿瘤中发挥着重要的作用[33- 35]。目前关于该家族成员在星型胶质细胞瘤中的研究表明[27],SST2的高表达与星型胶质细胞瘤预后差相关,而SST3和SST5的高表达提示患者预后良好。因此我们大胆推测SST的表达与星型胶质细胞瘤的预后差相关,可作为其预后生物标志物。
综上所述,我们通过联合分析GEO数据库TCGA数据库中的基因芯片数据和临床预后资料,发现SST在星形胶质细胞瘤中既有良好的诊断价值,又与患者生存预后强相关,有可能成为星型胶质细胞瘤新的预后生物标志物,通过通路富集分析发现了Rap1信号通路可能在星型胶质细胞中发挥着重要的作用。这既为星型胶质细胞瘤分子机制的研究提供了新的思路,又有助于开发星形胶质细胞瘤预防和治疗的新策略。