基于TCGA数据库探究膀胱癌关键基因的表达及预后作用
2022-07-12张家俊
马 涛,陶 润,关 翰,张家俊
膀胱癌(BC)在泌尿系统侵袭性恶性肿瘤中的发生率最高,也是全球最常见的癌症之一[1]。全球每年约有165 000人因BC死亡,其生物学行为复杂,且极易复发和转移[2-3]。目前,BC的诊断和治疗仍存在很大的不足,其治疗方法和预后与是否存在肌层浸润有关。非肌肉浸润型BC(NMIBC)预后较好,而肌肉浸润型(MIBC)恶性程度很高[4]。对于后者,根治性膀胱切除加盆腔淋巴结清扫是标准治疗方案,但预后较差[3-5]。因此,迫切需要新的途径为BC的预后和治疗提供信息。本研究利用TCGA数据库分析BC的mRNA表达水平,从中筛选出差异表达的基因。并对差异基因进行系统性分析,为寻找更有效的分子治疗方法提供参考。
1 材料与方法
1.1 数据材料 从TCGA数据库下载BC的mRNA表达数据,截止时间为2019年12月29日,该数据集mRNA的表达数据来源于414个BC样本和19个相应的正常组织样本。本研究严格遵守TCGA发布的发表指导规范(https://cancergenome.nih.gov/pulications/publicationguidelines)。
1.2 数据处理
1.2.1 筛选差异基因 利用R version 3.6.2(https://www.r-project.org/)及其附带的“edgeR”包、“gplots”包筛选出BC组织与正常组织间差异表达的基因,将筛选标准设为|LogFC|≥3,FDR≤0.05。
1.2.2 功能和途径富集分析 利用线数据库DAVID 6.8对获得的差异基因进行了GO和KEGG富集分析。
1.2.3 构建编码蛋白相互作用网络(PPI)与选择关键基因 使用在线数据库STRING11.0(http://string.embl)对差异表达基因进行编码蛋白相互作用网络(protein-protein interaction network,PPI)的构建。使用Cytoscape_v3.7.0软件(https://cytoscape.org/download.html)可视化PPI网络。随后,同时利用其插件Cytohubba分析PPI网络中的关键基因。
1.2.4 关键基因差异表达验证 使用GEPIA、UALCAN数据库分析差异基因在BC中的表达水平。
1.2.5 关键基因的生存分析 应用在线工具Kaplan Meier Plotter(http://kmplot.com/analysis/)对关键基因进行预后价值分析。
1.2.6 关键基因的临床和病理相关性分析 利用R version 3.6.2(https://www.r-project.org/)及其附带的“limma”包、“ggplot2”包将筛选的目标基因与病人临床及病理资料做相关性分析。
2 结果
2.1 差异表达的mRNA的筛选结果 通过对TCGA数据库中414个BLCA样本和19个对应的对应的癌旁组织样本处理分析,得到1 538个差异表达基因,其中有1 088个为上调,450个下调。利用R软件绘制差异基因的火山图(见图1)。
2.2 差异基因的GO及KEGG富集分析结果
2.2.1 GO富集分析 应用数据库DAVID进行GO富集分析评估了差异基因的潜在生物学功能。发现差异基因在生物过程(biological process,BP)方面主要富集在:rDNA上的染色质沉默、DNA复制依赖的核小体组装、蛋白异构化、核小体组装、肌肉收缩、细胞蛋白代谢过程、端粒组织、肌丝滑动、女性妊娠等;在细胞组分(CC)方面主要富集在:细胞外间隙、核小体、Z盘、蛋白类细胞外基质、胞外基质、中间丝、胞外外泌体等;在分子功能(MF)方面主要富集在:结构分子活性、序列特异性结合、蛋白异二聚化活性等(见图2与表1)。
表1 差异表达基因的GO富集分析结果
2.2.2 KEGG富集分析 应用数据库DAVID进行KEGG富集分析检查了差异基因涉及的潜在信号通路。发现差异基因主要涉及癌症中的转录失调、酪氨酸代谢、cGMP-PKG信号通路、系统性红斑狼疮、酒精中毒、扩张型心肌病、肥厚型心肌病、神经活性配体-受体相互作用等(见图3和表2)。
表2 差异表达基因的KEGG富集分析结果
续表2
2.3 构建编码蛋白相互作用网络(PPI)与选择关键基因
2.3.1 构建PPI网络 为分析差异表达基因之间相互作用关系,利用在线数据库STRING11.0对1 538个差异表达基因进行PPI网络构建,将相互作用分数设置为0.7,得到了相互作用网络图(见图4)。
2.3.2 筛选关键基因 利用Cytoscape软件插件Cytohubba,采用Betweenness算法得出INS、ACTN2、ALB、KNG1、白细胞介素-6(IL-6)、IGF2、FOS、间皮素(MSLN)、DMD、APCS为PPI网络中的前10的关键节点基因(见图4),这10个关键基因中,INS、ALB、KNG1、IGF2、MSLN、APCS表达均为上调,ACTN2、IL-6、FOS、DMD下调(见图5)。
2.4 关键基因差异表达验证
2.4.1 UALCAN数据库验证差异表达 利用UALCAN数据库验证了10个关键基因在BC中的表达水平,结果显示,ACTN2、IL-6、FOS、DMD在BC中异常低表达(见图6A),而ALB、MSLN的表达高于正常膀胱组织(见图6B)。
2.4.2 GEPIA数据库验证差异表达 为了进一步探讨其在BC中的特异性表达。通过GEPIA数据库再次验证,分析结果与UALCAN数据库验证吻合,ACTN2、IL-6、FOS、DMD在BC中异常低表达(见图7A),而ALB、MSLN在BC中高表达(见图7B)。
2.5 差异基因对BLCA病人预后的影响 应用在线工具Kaplan Meier Plotter(http://kmplot.com/analysis/)对ACTN2、IL-6、FOS、DMD、ALB、MSLN等关键基因进行预后价值分析,发现基因 IL-6、MSLN的表达情况与BC预后相关有统计学意义,在BC中IL-6表达越高预后越好(HR=0.46,P<0.05),MSLN表达越高预后越差(HR=2.27,P<0.05)(见图8)。
2.6 关键基因的临床和病理相关性分析 应用R软件分析IL-6与MSLN mRNA表达与BC不同临床及病理参数的关系显示,IL-6 mRNA的表达与病人年龄、肿瘤生长部位及和病理分期T分期有关而与其他参数无关(见图9): 55岁以上的BC病人的IL-6 mRNA表达水平高于低年龄组(P<0.05);在BC病人病理分期T分期中,T1期病人的IL-6 mRNA表达水平低于于其他组(P<0.05);肿瘤位于膀胱后壁组的BC病人IL-6 mRNA表达水平高于位于膀胱侧壁组(P<0.05)。MSLN mRNA的表达与病人肿瘤生长部位及和病理分期N分期有关而与其他参数无关(见图9): 在BC病人病理分期N分期中,T3期病人的MSLN mRNA表达水平低于N0(P<0.05)、N2组(P<0.05);肿瘤位于膀胱前壁组的BC病人IL-6 mRNA表达水平高于位于膀胱侧壁组(P<0.05)。
3 讨论
近年来,BC的免疫靶向治疗越来越受到关注。以PD-1/ PD-L1抑制剂为代表的免疫靶向药物已在临床治疗BC取得了良好的结果[6-7]。肿瘤免疫正在成为癌症诊断和治疗领域的重要环节[8]。本研究通过生物信息学分析BC病人的mRNA表达,找出影响BC病人生存的因素。
在本研究中,我们筛选出的1 538个差异表达基因,构建了其编码蛋白相互作用网络,并进行富集分析。发现多条富集通路与肿瘤的发生发展相关。GO分析结果表明这些差异基因多为胞外外泌体、细胞外间隙、核小体、中间丝等CC。在生物功能方面主要参与核小体装配、染色质沉默、DNA复制等过程,在分子功能方面主要富集在结构分子活性、序列特异性结合、蛋白异二聚化活性等方面。核小体装配是指在核小体装配因子调节下,由DNA链和组蛋白组装成核小体的过程。DNA复制过程中的核小体装配与正在进行的DNA合成联系紧密。这一过程被称为DNA复制偶联核小体装配,是染色质复制所必需的过程,对维持基因组和表观遗传的稳定性都有很大影响[9]。结构分子活性被定义为有助于细胞内或细胞外复合物或组件的结构完整性的分子的作用。KEGG分析结果表明这些差异基因主要与癌症中的转录失调、钙信号通路、酪氨酸代谢、cGMP-PKG信号通路相关。我们通过在线工具对10个关键基因进行预后分析,发现MSLN、IL-6等基因的表达情况与BC预后显著相关,MSLN表达越高预后越差(P<0.05),IL-6表达越高预后越好(P<0.05)。
MSLN是一种由糖磷脂酰肌醇连接的细胞表面蛋白,通常在胸膜、腹膜和心包内的间皮细胞中表达。MSLN基因可编码71 000的前体蛋白,该蛋白可被加工成脱落蛋白巨核细胞增强因子和膜结合蛋白[10]。虽然目前MSLN的生物学功能仍不清楚,但在某些情况下,MSLN的表达与肿瘤侵袭性的增加和不良的临床预后有关。一些研究分析了MSLN的表达对结直肠癌(CRC)病人生存的不良影响[11-12]。INAGUMA等[13]的研究小组观察到MSLN在直肠癌中有明显表达,多达60%的病例表现出阳性。INOUE等[14]在研究中也分析了MSLN弥漫性表达对Ⅱ~Ⅳ期直肠癌病人生存的影响,并将其表达确定为潜在的独立危险因素,发现MSLN在结直肠肿瘤中高表达,表达强度与恶性程度呈正相关性,且MSLN表达程度越高预后越差;此外,他们还揭示了直肠癌的转移与MSLN阳性呈弱正相关;并且,MSLN在结肠癌的体外细胞增殖中具有积极作用。在其他肿瘤类型中也已经报道了使用MSLN免疫组织化学进行病人预后的预测。在乳腺癌和肺腺癌的情况下,MSLN的高表达常常预示着病人的预后不良[15-16]。相反,在卵巢浆液性瘤病人中,MSLN的表达与病人存活时间延长相关[17]。最近,HMELJAK等[18]通过对恶性胸膜间皮瘤进行全面分子分析,其也表现出MSLN的低表达。这些结果表明,MSLN的异常表达在不同肿瘤中可能存在不同的生物学作用。在过去的几年中,已经研究了几种关于使用MSLN治疗肿瘤的策略,包括在胰腺癌导管腺癌中使用针对MSLN的单克隆抗体或携带毒素或细胞毒剂的蛋白质,含有识别MSLN的可变片段的嵌合T细胞,以及可以诱导针对MSLN的T细胞免疫应答的特定疫苗[19-21]。抗间皮素CAR-T细胞也可有效抑制胰腺癌PDX模型的生长[22]。
IL-6是由各种细胞产生的一种多功能细胞因子,在信息传递,免疫细胞激活和调节,T和B细胞激活,增殖和分化以及炎症反应中起重要作用[23],其与包括乳腺癌[24]、肺癌[25]和卵巢癌[26]等在内的多种肿瘤类型相关。IL-6的抗凋亡和促血管生成作用可能在各种恶性肿瘤类型的发生,发展和转移密切相关[27]。有研究[28-29]显示,IL-6的异常表达与非小细胞肺癌病人的肿瘤进展和总生存时间相关。降低IL-6的表达可以抑制肺癌干细胞的增殖[30]。并且,术后血清IL-6水平越高,预示非小细胞肺癌病人术后早期复发的风险越高[31]。目前,IL-6已被证实会影响肝癌的增殖,并在肝癌的发展和复发中发挥重要作用[32]。据报道,IL-6可能通过介导各种信号通路来促进肿瘤类型的发展,其中最主要的机制是诱导STAT3磷酸化。IL-6/STAT3信号转导通路对于恶性肿瘤类型的发生和发展至关重要[33]。IL-6介导的STAT3激活可能显著上调与肿瘤细胞增殖、凋亡、缺氧反应、转移和血管生成有关的许多基因的表达,并可能下调促凋亡基因的表达[34-36]。IL-6可以结合糖蛋白130、诱导Janus激酶磷酸化,从而促进肝癌的发展[37-38]。
综上所述,本研究利用生物信息学分析方法筛选出MSLN、IL-6等在BC中可能存在预后价值的关键基因,可以帮助我们进一步探究解BC潜在的分子发生发展机制,其靶向治疗价值和意义有待后续研究证实。