基于生物信息学途径探究卵巢癌关键预后基因
2021-02-03许梦莹张广美
许梦莹 张广美
卵巢癌的病死率居妇科肿瘤首位[1],因其发病隐匿,缺乏有效的早期诊断方法,超过70%的患者就诊时已为晚期[2-3],并且大多数已经发生了远处转移。大多数患者在2年内经历疾病复发,且复发性卵巢癌缺乏有效的治疗方案。随着DNA和RNA测序、DNA微阵列、高通量蛋白质组学和代谢组学等技术的日益普及,需要新的方法将这些新类型的数据转化为新信息,因此,通过高通量的基因芯片技术和生物信息学寻找卵巢癌有效的肿瘤标志物、关键预后基因,探索卵巢癌发生发展的机制具有重要意义,为卵巢癌患者的靶向治疗提供契机。考虑到基因芯片结果假阳性的可能,本研究综合几个基因芯片数据进行了分析。
资料与方法
一、基因芯片数据采集
从基因表达数据库GEO(www.ncbi.nlm.nih.gov/geo)中下载得到ID号为GSE14407、GSE18520[4]、GSE66957及GSE54388的浆液性卵巢癌及正常卵巢细胞mRNA芯片数据。其中GSE14407包含12例正常卵巢表面上皮细胞和12例浆液性卵巢癌上皮细胞,GSE18520包含10例正常卵巢表面上皮细胞和53例浆液性卵巢癌上皮细胞,GSE66957包含12例正常卵巢表面上皮细胞和57例浆液性卵巢癌上皮细胞,GSE54388包含6例正常卵巢表面上皮细胞和16例浆液性卵巢癌上皮细胞。
二、研究方法
1. 共同差异基因的筛选:将GSE14407、GSE18520、GSE54388和GSE66957芯片数据导入R语言(https://www.r-project.org/)软件中,使用affy包对上述数据集的原始数据进行标准化处理,并运用Limma包(http://www.bioconductor.org/package/release/bioc/html/limma.html/)对GEO芯片数据进行差异计算,筛选阈值设为校正后P<0.05,差异表达倍数|logFC|≥2[5],并使用ggplot 2绘制各数据集差异基因的火山图,运用R VennDiagram对四个数据集中表达均为上调或下调的差异基因取交集得到共同差异基因,运用R heatmap对表达上调和下调的共同差异基因绘制热图。以下的生物信息学分析对象均为共同差异基因。
2.共同差异基因的功能富集:运用R clusterProfiler包(http://www.bioconductor.org/package/release/bioc/html/clusterProfiler.html/)对共同差异基因进行GO功能及KEGG通路富集[6](以P<0.05作为显著性富集的阈值)。
3. 建立蛋白质互作用网络:运用STRING(https://string-db.org)构建共同差异基因的蛋白相互作用(protein-protein interaction,PPI)网络[7],将最低互作用分值设置成高度可信(high confidence=0.8)[8],并将使用Cytoscape软件进行可视化分析,选出节点较多的关键基因并构建PPI核心网络。
4. 统计方法:使用survival包、survminer包分析关键差异基因的表达对卵巢癌患者生存率(病人样本来自TCGA数据库,以表达中位数为界,分为高表达组和低表达组)的影响,并用survminer包绘制生存曲线,通过Log-rank检验法比较生存曲线的差异,设置参数P<0.05为差异有统计学意义。
结 果
一、筛选出的共同差异基因
在GSE14407筛选得到共同差异基因6 572个,其中上调基因4 953个、下调基因1 619个;在GSE18520筛选得到共同差异基因3 648个,其中上调基因2 012个、下调基因1 636个;在GSE66957筛选得到共同差异基因9 342个,其中上调基因5 814个、下调基因3 528个;在GSE54388筛选得到共同差异基因2 435个,其中上调基因1 512个、下调基因923个(校正后P<0.05,差异表达倍数|logFC|≥2)。各数据集差异基因火山图见图1。四个数据集共筛选得到305个差异基因,其中250个表达上调的共同差异基因和55个表达下调的共同差异基因,韦恩图及热图见图2。
二、共同差异基因富集分析
富集分析结果(P<0.05)显示,在卵巢癌中表达上调的共同差异基因主要富集于染色体分离、细胞周期G1/S转变、细胞黏附、细胞间连接、磷脂酰肌醇-3-激酶/丝苏氨酸蛋白激酶(PI3K-AKT)信号通路和Rap1信号通路等;表达下调的共同差异基因则主要富集于细胞增殖调控、粘附斑激酶信号通路等,见表1及图3、图4。
(A) GSE14407;(B) GSE18520;(C) GSE66957; (D)GSE54388. (The red dot indicates the differentially expressed up-regulated genes, the blue dot indicates the differentially expressed down-regulated genes, and the black dots indicate genes that are not significantly differentially expressed.)
图2 共同差异基因热图及韦恩图Figure 2 Heatmap and Venn diagram of common DEGs
表1 共同差异基因的GO功能和KEGG通路Table 1 GO function and KEGG pathway analysis of common DEGs
三、蛋白质相互作用网络分析
蛋白互作用分析,将最低互作用分值设置成高度可信(high confidence=0.8)[8],得到包含51个节点的PPI网络。其中,PPI核心网络由相互作用关系较高的14关键基因构成,分别为ZWINT、CENPF、CDCA8、KIF18A、KIF15、KIF11、CDCA3、ESPL1、TPX2、DLGAP5、PTTG1、UBE2C、CEP55、MELK,提示上述基因在卵巢癌中起关键作用,见图5。
四、生存分析
分析ZWINT、CENPF、CDCA8、KIF18A、KIF15、KIF11、CDCA3、ESPL1、TPX2、DLGAP5、PTTG1、UBE2C、CEP55、MELK关键基因的表达水平与卵巢癌患者生存率之间的关系。其中仅UBE2C的表达高低与卵巢癌患者的生存率呈负相关。即UBE2C高表达患者的生存率明显低于该基因低表达患者,见图6。
图3 共同差异基因的GO功能分析Figure 3 GO functional analysis of common DEGs
图4 共同差异基因的KEGG通路富集分析Figure 4 KEGGpathway analysis of common DEGs
图5 蛋白质相互作用网络分析Figure 5 Protein-protein interaction network
图6 UBE2C的表达与卵巢癌患者生存率的生存曲线Figure 6 The relationship between the expression of UBE2C and the overall survival time of patients with ovarian cancer
讨 论
卵巢癌是女性生殖系统最致命的恶性肿瘤,是导致女性癌症患者死亡的第五大原因[1]。此外,其高转移率和化疗耐药引起的疾病复发是卵巢癌死亡的主要原因。因此,寻找可靠的肿瘤标志物,探索卵巢癌的分子机制对卵巢癌的诊断、治疗和预后具有重要意义。在本研究中,使用生物信息学方法整合了四个基因芯片数据集:GSE14407、GSE18520、GSE54388和GSE66957,使用R语言软件中的软件包筛选共得到305个共同差异基因,其中250个表达上调基因,55个表达下调基因。GO与KEGG分析显示共同差异基因主要富集于染色体分离、细胞周期G1/S转变、细胞黏附、细胞间连接、磷脂酰肌醇-3-激酶/丝苏氨酸蛋白激酶(PI3K-AKT)信号通路、Rap1信号通路、细胞增殖调控和粘附斑激酶信号通路等。
本研究通过在线数据库STRING对共同差异基因进行蛋白质相互作用分析,筛选得到节点较多的14个关键基因,对关键基因进行分析,其中仅泛素结合酶E2C(UBE2C)的高表达与卵巢癌患者的生存率呈负相关。UBE2C是泛素-蛋白酶体系统(ubiquitin-proteasome system,UPS)中泛素偶联酶E2家族的主要成员之一,泛素化酶主要分为3类:泛素激活酶(E1),负责激活泛素分子;泛素连接酶(E3),负责与靶蛋白结合;泛素结合酶(E2),在E3酶的介导下将泛素传给靶分子[9]。1997年Townsley等人初次克隆了人类的UBE2C基因[10],该基因位点位于20q13.12,编码的泛素结合酶由179个氨基酸组成,分子量为19.6KD[11],是人类细胞中被识别的第十个泛素结合酶基因,可通过激活有丝分裂后期促进复合物形成[12],通过参与泛素依赖的蛋白水解过程在细胞周期、信号转导、细胞分化[13]等多种正常细胞过程中发挥重要作用。UPS介导的泛素酶解过程依赖于其成员泛素活化酶E1、泛素结合酶E2、泛素连接酶E3酶链的顺序激活,UBE2C与经E1活化的泛素形成中间复合物,与E3相识别并在E3的催化作用下把泛素呈递给底物蛋白,如此反复最终将多泛素化的底物蛋白(如cyclinsA和cyclinsB等细胞周期相关蛋白)呈递给26S蛋白酶体并迅速分解[14],使得细胞进入正常有丝分裂中,通过终止纺锤体检查点信号使得细胞由中期进入后期,直至染色体正常分离,细胞完成正常有丝分裂。然而UBE2C异常高表达,使细胞染色体不稳定性增加,使得细胞逃离纺锤体检查点的监控作用,染色体不能正常分离或延迟分离而发生染色体紊乱,最终使得细胞不能完成正常分裂,形成非整倍体,这也是细胞癌变的特点之一[15]。Dai认为染色体延迟分离是UBE2C过表达导致染色体紊乱的主要原因[16]。Okamoto等通过实验研究表明UBE2C在肺癌、结肠癌、乳腺癌、胰腺癌、骨肉瘤等多种肿瘤中高表达,并促进细胞的增殖和恶变从而发生致癌基因的作用[17],尤其是恶性程度高、分化程度低、转移倾向高的癌症,往往表现为UBE2C高表达、患者低生存率[18]。Martinez-canales基于生物信息学在卵巢癌中的研究发现,在6%的卵巢癌组织中发现了UBE2C基因的上调和扩增,是具有治疗干预潜力的基因[19]。
本研究应用生物信息学方法综合分析了浆液性卵巢癌共同差异基因,结果得到了关键基因UBE2C,其与卵巢癌患者生存率成负相关,即UBE2C高表达患者的生存率明显低于低表达患者,提示其可能是改善卵巢癌患者预后的生物学靶点,但在卵巢癌中的分子机制尚不明确,需进一步研究。