APP下载

膀胱癌关键基因的筛选及预后相关性分析

2022-02-13张淑芳

感染、炎症、修复 2022年3期
关键词:差异基因膀胱癌关键

高 鑫 张淑芳

(1. 中南大学湘雅医学院附属海口医院中心实验室,海南 海口 570208;2.中国医学科学院北京协和医学院(清华大学医学部)研究生院,北京 100005;3.吉首大学附属第四医院怀化市第一人民医院检验科,湖南 怀化 418000)

膀胱癌是男性的第四大常见癌症,也是全球女性的第7位常见的实体瘤[1]。近年来,膀胱癌发病率仍有不断上升趋势,而且具有较高的复发率。在膀胱癌中非肌肉浸润性膀胱癌约占75%,其中约80%的患者在初始治疗后5年内复发;另25%为肌肉浸润性膀胱癌,即使在进行根治性膀胱切除术后,该类患者的预后仍然很差[2]。膀胱癌局部浸润转移是膀胱癌复发和致死的重要原因[3]。然而,膀胱癌发生、发展和复发的机制仍不完全清楚,因此,探讨膀胱癌细胞凋亡、增殖、转移和侵袭所涉及的分子机制对于膀胱癌预防、诊断和治疗具有重要价值。基因芯片也称微阵列,近年来得到了极大发展,现已成为肿瘤机制研究的新方法。GEO(Gene Expression Omnibus)数据库是庞大的基因芯片表达谱数据库,可以提供大量具有挖掘价值的高质量芯片表达谱数据集。本研究中我们先通过GEO数据库发掘具有研究价值的基因表达谱数据集,筛选与膀胱癌发生发展相关的差异基因并取交集,得到共同差异基因,然后借助DAVID在线分析工具对共同差异基因进行功能及通路富集分析,并通过STRING数据库构建蛋白质-蛋白质互作网络(protein protein interaction network,PPI网络)来筛选关键基因,最后通过Oncomine数据库和GEPIA在线分析工具分别对关键基因进行表达分析和预后分析,旨在了解所筛选的关键基因在膀胱癌中的作用和预后意义,为寻找膀胱癌治疗靶点和药物开发提供重要参考。

1 资料与方法

1.1 芯片数据的获取 在GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中使用关键词“bladder cancer”检索膀胱癌相关的基因表达谱芯片数据集,挑选按照正常组织和膀胱癌组织分组的数据集,下载它们的基因表达谱矩阵文件,同时下载相应数据集的平台文件。在得到原始矩阵文件后使用Perl语言将基因ID与平台文件的Gene symbol进行转换,得到含有国际标准化基因名的表达矩阵,以便于后续差异基因分析。

1.2 差异基因筛选 使用R语言软件3.5.0(http://bioconductor.org/biocLite.R)对两套数据集进行标准化处理,然后通过R语言limma包(http://www.bioconductor.org/)对两个数据集分别进行差异基因筛选,并绘制韦恩图(Venn diagram),取交集,得到两个数据集共同差异表达的基因。差异基因筛选条件设置为矫正P值(djustP)<0.05且取|log2FC|>1,其中FC为变化倍数(fold change)。

1.3 差异基因GO和KEGG通路富集分析 使用DAVID数据库6.7版(https://david.ncifcrf.gov/)这一目前常用的基因功能注释数据库,将所得的共同差异基因进行GO功能注释和KEGG通路富集分析,GO分析分为生物学过程(biological process,BP)、 分 子 功 能(molecular function,MF)和细胞组分(cellular component,CC)3个部分。分析完成后下载分析结果进行后续分析处理,结果均以P<0.05为差异有统计学意义。

1.4 PPI网络构建及关键基因挑选 使用STRING数据库(https://string-db.org/)分析蛋白质间的相互作用关系。将共同差异基因数据导入STRING数据库进行PPI网络分析,下载分析结果数据,使用Cytoscape 3.6.1对结果进行可视化,按照度数(degree)、贴近度(closeness)和中介度(betweenness)条件筛选各自的排名前10位的基因,最后取交集,得到同时出现在3个筛选条件排名前10位的基因即为关键基因[4]。

1.5 关键基因的膀胱癌表达分析 基于癌症基因组 图 谱(the cancer genome atlas,TCGA)数据库中膀胱癌标准化的mRNA表达值计算关键基因在膀胱癌和正常组织的表达差异。通过t检验估计P值并通过错误发现率(false discovery rate,FDR)进一步校正。

1.6 关键基因与膀胱癌患者的预后分析 在得到关键基因后需要进一步了解其在临床的预后意义,以便于分析其在临床的应用价值。预后分析采用由北京大学开发的GEPIA在线分析工具(http://gepia.cancer-pku.cn/index.html)分 析,该分析工具可将TCGA数据库和基因-组织表达(genotype-tissue expression,GTEx)项目的数据联合起来分析。采用Kaplan-Meier法计算生存率,应用Log Rank法比较生存率,可信区间为95%,P<0.05为差异具有统计学意义。

2 结 果

2.1 获取的芯片数据 在GEO数据库中按照研究条件选择GSE37815数据集和GSE65635数据集,正常组织一共10个样本,肿瘤组织一共26个样本。GSE37815的平台为GPL6102,GSE65635的平台为GPL14951,见表1。

表1 GEO数据集信息

2.2 差异基因的筛选 在对两个表达谱数据集标准化后,按照djustP<0.05且|log2FC|>1条件筛选各个数据集的差异基因。GSE37815数据集共得到780个差异基因,其中包括247个上调表达基因,533个下调表达基因。GSE65635数据集共得到1 759个差异基因,其中包括773个高表达基因,986个低表达基因。通过绘制Venn图筛选两个数据集共同差异基因,共同上调表达差异基因为113个,共同下调表达差异基因为274个,见图1。

图1 GSE37815和GSE65635共同差异基因筛选

2.3 共同差异基因GO功能和KEGG通路分析通过使用DAVID数据库对共同差异基因进行GO功能注释,选择BP、CC和MF 3个部分各自排名前5位的富集项目,发现共同差异基因在BP中主要富集在调节细胞增殖(regulation of cell proliferation),CC中主要富集在质膜(plasma membrane),MF中主要富集在细胞骨架蛋白结合(cytoskeletal protein binding)。GO前15个富集结果见图2。KEGG通路富集主要涉及的前5位的通路有黏着斑通路(focal adhesion)、血管平滑肌收缩(vascular smooth muscle contraction)、紧密连接(tight junction)、细胞周期(cell cycle)和补体-凝血级联(complement and coagulation cascades),见图3。

图2 共同差异基因排名前15位的GO功能富集结果

图3 共同差异基因KEGG通路富集

2.4 PPI网络分析和关键基因筛选 利用STRING数据库对共同差异基因进行PPI网络分析后,使用Cytoscape 3.6.1软件按照度数、贴近度和中介度3个条件筛选各自前10位的基因,然后取交集,得到4个关键基因,分别为血管内皮生长因子A(vascular endothelial growth factor A,VEGFA)、拓扑异构酶Ⅱα[topoisomerase(DNA) Ⅱ alpha ,TOP2A]、细胞周期蛋白 B1(cyclin B1,CCNB1)和α-平滑肌肌动蛋白(actin α 2, α-smooth muscle actin,ACTA2),见表2。PPI网络见图4。

表2 3个筛选条件下得到的4个关键基因

图4 共同差异基因的PPI网络(划线标记为关键基因所在位置)

2.5 关键基因的表达分析 CCNB1和TOP2A在膀胱癌组织中显著高表达(FDR分别为0.000 32和0.000 045);ACTA2在膀胱癌中显著低表达(FDR=0.008 7);VEGFA在膀胱癌中的表达与正常组织相比差异并无显著性(FDR=0.83),见图5。

图5 关键基因在膀胱癌组织和正常组织中表达的分析结果

2.6 关键基因与膀胱癌患者预后相关性分析 采用GEPIA在线分析工具分析,根据4个关键基因分别在膀胱癌中表达的中位值,将膀胱癌患者分为201例高表达患者和201例低表达患者,分别分析这些基因在膀胱癌中的预后作用,从而了解关键基因在膀胱癌患者临床预后判断中的应用价值。该分析工作的数据来源和临床资料均来自于TCGA数据库。分析结果显示,4个关键基因中有2个关键基因的表达与膀胱癌患者预后相关,分别为ACTA2(P=0.007 6)和VEGFA(P=0.019 0),见图6。

图6 关键基因ACTA2(A)和VEGFA(B)的表达与膀胱癌患者预后分析

3 讨 论

膀胱癌是一种常见的恶性肿瘤,具有高侵袭性和高复发率,往往导致患者预后较差。生物信息学是一门计算机与医学结合的综合性学科,在近年随着基因芯片技术的迅速发展和大数据时代的来临而得到广泛应用。膀胱癌基因水平的生物信息学分析可以对该疾病的发生和发展机制的研究提供新的角度。

在本研究中,我们使用GEO数据库中的膀胱癌微阵列数据集GSE37815和GSE65635筛选出了两个数据集中的共同差异基因。在GO分析中我们发现,共同差异基因在BP中主要富集在调节细胞增殖,CC中主要富集在质膜,MF中主要富集在细胞骨架蛋白结合,提示这些差异基因主要影响膀胱癌细胞的增殖和转移功能。KEGG分析主要涉及的前5位的通路有黏着斑通路、血管平滑肌收缩、紧密连接、细胞周期和补体-凝血级联。黏着斑是一种具有将肌动蛋白细胞骨架和整联蛋白链接并与细胞外基质链接的质膜相关大分子集合,在维持细胞在运动过程中的张力以及细胞生存的信号传递中发挥重要作用。众多研究表明,黏着斑相关结构分子参与调控肿瘤细胞上皮-间质转化(epithelialmesenchymal transition,EMT)进程,促进肿瘤侵袭和转移[7-9]。Kong等[10]研究表明,黏着斑激酶可参与膀胱癌侵袭和迁移的致癌信号转导。紧密链接在人体中不仅起到屏障作用,还可控制离子和溶质的细胞旁扩散,在维持细胞间黏附作用和组织完整性方面发挥重要作用[11]。紧密连接蛋白1(tight junction protein 1,TJP1)是一种膜相关蛋白,在调节细胞-细胞接触中发挥作用。Tsai等[12]发现,TJP1高水平表达与淋巴结转移和预后不良显著相关,敲低TJP1基因表达可导致膀胱癌T24细胞的生长和侵袭能力显著降低。以往的研究同样发现补体-凝血级联通路在膀胱癌发展中发挥了调控作用[13-14]。综上所述,我们筛选的共同差异基因主要通过影响黏着斑通路、血管平滑肌收缩、紧密连接、细胞周期和补体-凝血级联通路参与了膀胱癌细胞的生长周期调控和膀胱癌的进展,本研究结果有助于我们进一步了解膀胱癌进展的相关机制。

此外,我们还通过构建PPI网络筛选出4个关键基因VEGFA、TOP2A、CCNB1和ACTA2。生存分析发现,ACTA2和VEGFA的表达与膀胱癌患者预后相关。VEGFA能够促进血管新生,在血管生成中的功能最明确,占有最重要的地位[15]。Pignot等[16]的研究结果提示,VEGFA在膀胱癌组织中高表达,T3~T4期膀胱肿瘤和VEGFA过度表达的患者最有可能从抗血管生成疗法中受益。VEGFA是一种很有前景的治疗靶点,因而可能是肌肉浸润性膀胱癌的良好预后因素。本研究的定量分析结果显示,VEGFA在膀胱癌组织中的表达水平是高于正常组织的,但差异无显著性,可能是由于本研究使用了更为严格的FDR校正的P值。TOP2A是一种在转录过程中控制和改变DNA拓扑状态的酶。Kim等[17]发现TOP2A的增强表达与非肌肉浸润性膀胱癌的高复发率和进展率呈正相关,TOP2A可能成为非肌肉浸润性膀胱癌的预后监测标志物。但TOP2A在膀胱癌的发生和进展中的确切作用机制仍需进一步研究。CCNB1属于细胞周期蛋白(CCN)基因家族。研究表明,CCNB1在多种肿瘤(如乳腺癌、结直肠癌和肝细胞癌)中过表达并促进肿瘤增殖[18-19]。ACTA2有助于维持细胞产生的机械张力和细胞形状。ACTA2已被发现在肺癌中与肿瘤进展有关[20],但ACTA2在膀胱癌中的具体调节作用机制及预后尚不完全清楚,仍需进一步研究。

我们还注意到,目前国际上也有与我们类似的研究发表。Sarafidis等[21]通过荟萃分析,将来自GEO数据库的18个微阵列基因表达数据集整合成一个合并的数据集,确定了815个稳健的差异表达基因。然后同样通过基于差异表达基因的PPI和WGCNA分析,筛选了膀胱癌患者尿液和血浆样品中关键基因作为标志物,其中包括了VEGFA和TOP2A。此外,Zheng等[22]用类似的方法鉴定出包括CCNB1在内的膀胱癌患者预后关键基因。与类似的研究得到类似的研究结果,说明我们的结果是可靠的,与这些研究存在不同结果的可能原因是不同的研究采用的数据来源和算法有所不同,引入的批次效应不同,从而造成结果和结论并不完全一致。不过,我们的研究和前人的研究均证实了所筛选出的关键基因和通路在膀胱癌患者预后中的重要性。

总之,本研究通过生物信息学对膀胱癌进展相关的差异基因和通路进行了深入分析,筛选出了几个关键基因和通路,有助于我们对膀胱癌发生和发展机制的理解,为临床寻找膀胱癌治疗靶点提供了重要的理论基础,同时也为将来膀胱癌的研究提供了思路。本研究的局限性在于样本量较少并缺少实验验证相关结果,未来还将进行大量样本研究验证。

猜你喜欢

差异基因膀胱癌关键
硝酸甘油,用对是关键
新形势下深化改革开放的关键一招
VI-RADS评分对膀胱癌精准治疗的价值
高考考好是关键
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
Analysis of compatibility rules and mechanisms of traditional Chinese medicine for preventing and treating postoperative recurrence of bladder cancer
膀胱癌患者手术后症状簇的聚类分析
miRNA-148a在膀胱癌组织中的表达及生物信息学分析
SSH技术在丝状真菌功能基因筛选中的应用
生意无大小,关键是怎么做?