APP下载

高级别卵巢浆液性囊腺癌差异基因的生物信息挖掘

2021-03-03

青岛大学学报(医学版) 2021年1期
关键词:浆液关键样本

(青岛大学医学部基础医学院慢病研究院,山东 青岛 266071)

卵巢浆液性囊腺癌(OV)是比良性浆液性囊腺瘤和交界性浆液性囊腺瘤(SBT)严重的一种卵巢上皮性癌亚型[1]。根据美国KURMAN教授提出的卵巢癌“二元模型”理论,可以将OV分为两种类型:Ⅰ型的低级别浆液性囊腺癌(LGSC)和Ⅱ型的高级别浆液性囊腺癌(HGSC)[2]。目前认为,HGSC发病起源于输卵管,与LGSC在分子学和组织学水平上存在明显差异[3-4]。相较于LGSC,HGSC具有发病年龄较晚(55~65岁)、发病率高、生存率低、对化疗药物敏感性高且易复发等特点,因此对HGSC预后判断和治疗策略的深入研究也显得尤为迫切。本研究运用生物信息学的方法,从GEO(Gene Expression Omnibus)数据库获取OV基因芯片数据,从中挖掘HGSC的差异表达基因(DEGs),进行基因本体(GO)富集分析和KEGG信号通路分析,构建蛋白质相互作用(PPI)网络,筛选出关键基因,并分析关键基因表达与HGSC预后的关系,从而为HGSC的靶向治疗提供一定的理论依据。

1 资料与方法

1.1 数据来源

从GEO数据库(http://www.ncbi.nlm.nih.gov/GEO/)中检索并下载的OV相关数据集有5个(GSE10971、GSE14001、GSE18521、GSE27651、GSE12470)[5-6],其中前4个数据集对应的检测平台为GPL570,而最后1个数据集对应的检测平台为GPL887。在每个GSE数据集中,只选择HGSC样本以及与之匹配的正常样本数据。其中GSE10971数据集中包含肿瘤样本13个和正常样本12个,GSE14001数据集中包含肿瘤样本10个和正常样本3个,GSE18521数据集中包含肿瘤样本53个和正常样本10个,GSE27651数据集中包含肿瘤样本22个和正常样本6个, GSE12470数据集中包含肿瘤样本35个和正常样本10个[7-11]。利用GEO2R (http://www.ncbi.nlm.nih.gov/geo/geo2r)分析工具进行在线分析,将结果汇总在Excel表格中,去除没有基因名称或基因探针以及同一个基因对应多个基因探针的数据。

1.2 DEGs的筛选

使用R 3.6.2软件(https://www.r-pro-ject.org/)中的edgeR包对数据进行标准化处理,之后对数据进行筛选。筛选标准如下:P<0.01,差异倍数logFC≥1或≤-1[12]。然后再对筛选出的DEGs进行火山图的可视化分析。

1.3 上调基因和下调基因的筛选

将上一步筛选的DEGs数据,按照logFC>1为上调基因的标准、logFC<-1为下调基因的标准,进行再次筛选。然后,将5个数据集中的上调基因或下调基因全部导入Bioinformatics & Evolutionary Genomics(http://bioinformatics.psb.ugent.be/webtools/Venn/)在线数据库中,以寻找5个数据集中上调基因或着下调基因的交集[13]。

1.4 GO和KEGG富集分析

利用DAVID 6.8(Database for Annotation,Visualization and Integrated Discovery, https://david.ncifcrf.gov/)数据库分析基因组规模数据集的生物信息,并进行基因和蛋白质的功能信息的可视化[14]。GO分析用于分析大量注释基因的生物学过程、分子功能及细胞组成[15]。KEGG(Kyoto Encyclopedia of Genes and Genomes)分析是从分子水平上了解基因和蛋白质所参与的信号通路和生物学功能。GO和KEGG富集分析均以P<0.05为差异有统计学意义。

1.5 PPI网络的构建及关键基因的筛选

将全部的DEGs导入String数据库(http://string-db.org)[16]中进行分析,以置信度≥0.4为PPI显著。将分析结果导入Cytoscape 3.7.2软件中进行可视化分析[17]。应用Cytoscape软件中的cytoHubba插件从PPI网络中筛选关键基因,选择度定位≥12的DEGs作为关键基因。

1.6 关键基因的生存预后分析

通过在线生存分析工具Kaplan-Meier plotter(http://kmp lot.com/analysis/),根据上述筛选条件,按照关键基因排名从上至下进行生存预后分析,评估每个关键基因在OV中的预后意义[18]。根据基因的表达中值,将病人样本分为两组(高表达组和低表达组)进行分析,参数设置为默认,以P<0.05为差异有统计学意义。

2 结 果

2.1 从5个数据集中筛选出的DEGs

本文从GSE18521数据集中筛选出了6 669个DEGs(共有45 118个基因),从GSE12470数据集中筛选出了6 068个DEGs(共有18 819个基因),从GSE27651数据集中筛选出了6 593个DEGs(共有45 118个基因),以及从GSE14001数据集中共筛选出了12 408 个DEGs(共有45 118个基因),从GSE10971数据集中筛选出了5 612个DEGs(共有45 118个基因),其结果通过火山图直观展示,红色代表高表达基因,绿色代表低表达基因,黑色表示表达水平差异并不显著的基因(图1)。

进一步对5个独立数据集进行交集分析,找出5个数据集的共同DEGs,其中表达上调基因94个(logFC>1,P<0.05),下调基因为40个(logFC<-1,P<0.05)(图2),具体的基因名称见表1。

图1 从5个数据集中筛选出DEGs

图2 上调和下调基因中的共同DEGs

表1 5个数据集中筛选出的共同上调DEGs和下调DEGs

2.2 DEGs的GO和KEGG富集分析

在生物过程上,上调DEGs大多参与RNA代谢过程和其他代谢过程的调节,RNA转录和DNA模板的调控以及分子功能调节,大分子代谢过程和氮化合物代谢过程的调节;而下调DEGs大多参与细胞过程、细胞蛋白质代谢过程、蛋白质修饰过程和蛋白质磷酸化过程的调控(图3A)。在细胞成分上,上调DEGs属于细胞内细胞器成分、膜结合细胞器成分、细胞内膜结合细胞器成分、细胞质成分抑或属于细胞外成分;而下调DEGs分布于细胞核、细胞外基质、细胞质和质膜上(图3B)。在分子功能上,上调DEGs一般具有丝氨酸型内肽酶活性、蛋白质二聚活性、内肽酶活性、微管蛋白结合和蛋白质均聚活性等;而下调DEGs一般具有polyA结合功能和一氧化氮合酶结合功能(图3C)。在KEGG信号通路上,上调DEGs多数参与细胞周期及细胞周期中的有丝分裂过程,细胞周期检验点过程,DNA修复和M期信号途径;而下调DEGs多参与STAT信号通路、黏附斑粘连途径、Epstein-Barr病毒感染和肿瘤信号途径等(图3D)。

A~C为GO分析;D为KEGG分析。

2.3 5个数据集的交互分析及关键基因的筛选

为了从系统角度发现和分析相关DEGs之间的相互作用,通过String在线数据库分析得到5个数据集的134个DEGs之间的PPI交互网络(图4A)。在PPI网络中,存在一些基因能够与其他基因发生强的相互作用,而往往这些基因还处于PPI网络中的关键位置,因此被称为关键基因,它们也被认为是疾病发生的潜在驱动因子[19]。为找出导致HGSC发生的关键基因,我们使用Cytoscape软件插件过滤出69个DEGs,再根据排名筛选出前12个关键基因,颜色由红至黄,红色越深表示关键基因在PPI中具有的作用越大(图4B)。

图4 5个数据集的交互分析及关键基因的筛选

2.4 关键基因的生存预后分析

通过Kaplan Meier-plotter网站对筛选出的12个关键基因进行生存预后分析,其中6个基因对HGSC预后有显著影响,分别为BUB1B(r=1.20,P<0.05)、CENPF(r=1.25,P<0.05)、BIRC5(r=0.87,P<0.05)、UBE2C(r=1.15,P<0.05)、ASPM(r=1.55,P<0.05)、TOP2A(r=1.20,P<0.05)(图5)。这些上调基因的高表达会显著降低HGSC病人的生存率。

3 讨 论

目前认为,LGSC由卵巢上皮性包涵体(OEI)至良性囊腺瘤再至SBT连续发展而来,而HGSC由输卵管远端发展而来,即使二者在起源上有相似之处,但目前普遍认为,两种疾病在临床上具有不同的病理特征,这意味着寻找能鉴别LGSC和HGSC的肿瘤标志物极为重要[20]。

有研究表明,50%的HGSC与DNA修复缺陷有关[21]。根据GO和KEGG富集分析,本研究显示上调DEGs参与DNA模板的调控和DNA修复,这可以作为寻找HGSC靶基因的依据。之后通过生物信息学分析找到6个与预后显著相关的基因,这6个基因在HGSC中都表现为表达上调。有研究结果表明,BUB1B基因的GLEBS结构域对治疗胶质母细胞瘤有重要作用,并且PTTG3P-FOXM1-BUB1B信号轴上调成为肺腺瘤的治疗靶点[22-23];CENPF基因相关级联信号轴的失调促进前列腺癌的转移[24];BIRC5基因的高表达对淋巴瘤的细胞活力具有重要作用,使用相关药物降低BIRC5在淋巴瘤中的表达具有潜在靶向治疗作用[25];在高风险的乳癌病人中,UBE2C基因高表达者具有不良预后[26];ASPM基因可作为肝细胞癌血管侵袭、早期复发和预后不良的新型标记物[27];在早期乳癌病人中检测到TOP2A基因表达异常[28]。目前研究发现BUB1B基因在高级别肿瘤疾病中的表达较高,并与长期预后有关[29],这与本研究生物信息学分析的结果一致。虽然上述基因在卵巢癌中的研究甚少,但是根据它们在其他肿瘤中的研究,我们猜测这些基因处于肿瘤信号通路的某个关键节点上,影响机体的正常生理功能,从而引起肿瘤的发生。

综上所述,本研究通过对5个数据集进行生物信息学分析,挖掘出了与HGSC有关的DEGs共134个,其中与HGSC预后显著相关的基因6个,这6个基因可能对HGSC的临床治疗及预后判断具有潜在的指导价值,并为后续的实验研究提供新的思路。但是,对于本研究筛选出的这些基因是否能够有效鉴别LGSC和HGSC,还需要在今后的研究中进一步探讨。

猜你喜欢

浆液关键样本
考虑滤过作用及黏度时变性的盾构壁后注浆扩散模型研究
硝酸甘油,用对是关键
胰腺实性浆液性囊腺瘤1例
高考考好是关键
吸收塔浆液品质简化定量分析模型及应用
粉煤灰掺量对盾构隧道同步注浆浆液性能的影响试验研究
规划·样本
随机微分方程的样本Lyapunov二次型估计
蒋百里:“关键是中国人自己要努力”
生意无大小,关键是怎么做?