子宫内膜癌相关基因的生物信息学分析
2020-10-14赵车冬
赵车冬,张 键,赵 娜,陶 丹,陈 葳
(1.西安交通大学第一附属医院 检验科,陕西 西安 710061;2.西安交通大学第一附属医院 皮肤科,陕西 西安 710061)
子宫内膜癌是女性生殖系统最常见的恶性肿瘤之一。晚期子宫内膜癌的预后较差,III期和IV期患者的5年生存率分别为47%~69%和15%~17%[1]。因此亟需寻找新的子宫内膜癌早期诊断标志物和治疗靶点。将公共平台的芯片数据加以整合,能够高效的筛选出新的肿瘤相关基因[2]。本研究选择基因表达数据库(Gene Expression Omnibus,GEO)中的两个数据集进行整合分析,筛选子宫内膜癌相关基因,并对其相关通路进行预测,为深入研究子宫内膜癌的分子机制、寻找新的诊断标志物和治疗靶点奠定基础。
1 材料和方法
1.1 微阵列数据来源 微阵列数据集GSE17025和GSE39099均来自GPL570平台([HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array),分别包括91例子宫内膜癌和12例正常子宫内膜组织、20例子宫内膜癌和10例正常子宫内膜组织(见表1)。
表1 GSE17025和GSE39099样本信息
1.2 差异表达基因(Differentially expressed genes,DEGs)筛选 利用在线分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)分别对两个数据集进行分析,筛选在子宫内膜癌中差异表达的基因,筛选条件为|logFC| ≥ 1和P< 0.05。利用在线软件Bioinformatics & Evolutionary Genomics构建韦恩图(http://bioinformatics.psb.ugent.be/ webto ols/Venn/),两个数据集的交集被认为是共同DEGs,logFC>0为表达上调的基因,logFC<0为表达下调的基因。
1.3 基因本体(Gene Ontology,GO)和信号通路富集分析 分别对表达上调和下调的DEGs进行GO分析和信号通路富集分析。利用DAVID(The database for annotation,visualization and integrated discovery)v6.8(https://david.ncifcrf.gov/)[3-4]对差异基因进行功能注释,包括生物过程、细胞组分和分子功能的GO分析以及KEGG信号通路富集分析,定义为P<0.05。
1.4 蛋白-蛋白相互作用(Protein-protein interaction,PPI)网络分析和核心网络分析 PPI网络分析利用STRING(v 11.0)在线工具(https://string-db.org/)[5]对差异表达编码蛋白进行分析(参数Minimum required interaction score设置为中等(≥0.4))。将该网络导入Cytoscape进行可视化,并进一步利用MCODE app对该网络进行模块化分析,参数设置为degree cutoff = 2,max.Depth = 100,k-core = 3,node score cutoff = 0.2。
1.5 核心基因的生存分析 利用Kaplan Meier-plotter(http://kmplot.com/analysis/)[6]对核心基因在子宫内膜癌中表达与生存相关性进行分析。选择Kaplan Meier-plotter中的子宫内膜癌数据集,该数据集包含542例子宫内膜癌患者的RNA测序数据和生存数据。P<0.05表示生存差异具有统计学意义。
1.6 核心基因的表达分析 GEPIA(Gene expression profiling interactive analysis)[7]是一个分析来自TCGA和GTEx的RNA测序数据的交互式网页工具,利用GEPIA分析核心基因在子宫内膜癌和正常组织中的表达差异,选择子宫内膜癌数据集,参数设置为|Log2FC| Cutoff ≥ 1,P<0.05。
2 结果
2.1 子宫内膜癌差异表达基因筛选 差异表达基因筛选结果如图1A、B所示,对于数据集GSE17025,有2462个差异基因,其中1010个基因表达上调,1452个基因表达下调;对于数据集GSE39099,有1488个差异基因,其中801个基因表达上调,687个基因表达下调。分别对表达上调的基因和表达下调的基因取交集,两个数据集中共同上调的基因有101个,共同下调的基因有128个(见图1,表2)。
A:GSE17025差异表达基因火山图;B:GSE39099差异表达基因火山图;C:LogFC>0代表表达上调的基因;D:LogFC<0代表表达下调的基因。图1 子宫内膜癌数据集差异表达基因筛选
表2 数据集GSE17025和GSE39099的差异表达基因(DEGs)
2.2 共同DEGs的GO和KEGG信号通路富集分析 利用DAVID在线软件对229个共同差异表达基因进行GO和KEGG信号通路富集分析。结果显示,上调的DEGs主要位于胞核,富集于细胞增殖、蛋白质结合、细胞周期等信号通路,下调的DEGs主要位于胞外区域,富集于药物反应、金属离子结合、cAMP信号通路(见图2,表3)。
A:差异表达上调基因的富集分析;B:差异表达下调基因的富集分析。图2 共同DEGs的GO分析
表3 共同DEGs的GO和KEGG信号通路富集分析
2.3 PPI网络分析 共同DEGs的PPI网络纳入了142个node(基因)和498条edge(相互作用),其中表达上调的基因有74个,表达下调的基因有68个(见图3A)。使用Cytoscape 3.7.1里的MCODE模块对PPI网络进一步分析,结果显示在142个结点中,构成了两个核心模块。核心模块1有26个核心结点,即包括26个核心基因和304条相互作用关系(MCODE score = 24.32),且26个核心基因均为表达上调的基因(见图3B)。核心模块2有6个核心节点,即包括6个核心基因和12条相互作用关系(MCODE score = 4.8),其中有3个核心基因在子宫内膜癌中表达上调,3个核心基因在子宫内膜癌中表达下调(见图3C)。根据MCODE算法构建的基因模块中,扩展出基因模块的种子节点位置基因,即为关键基因,模块1中关键基因为含DEP 结构域的蛋白质1(DEP domain containing 1,DEPDC1),模块2中的关键基因为趋化因子C-X-C基序配体8(C-X-C motif chemokine ligand 8,CXCL8)。
A:共同DEGs的PPI网络;B:核心模块1;C:核心模块2;红色代表表达上调的基因,蓝色代表表达下调的基因。图3 DEGs 的PPI网络分析
2.4 关键基因的表达与子宫内膜癌患者的预后分析 利用Kaplan Meier-plotter对两个核心模块的关键基因在子宫内膜癌中的表达与患者生存的相关性进行分析。如图4所示,关键基因DEPDC1和CXCL8的表达与患者的不良预后相关(P<0.05)。
A:DEPDC1的表达与患者预后的生存曲线;B:CXCL8的表达与患者预后的生存曲线。图4 核心模块的关键基因表达与子宫内膜癌患者的预后分析
2.5 关键基因在子宫内膜癌中的表达分析 GEPIA数据库中子宫内膜癌数据集包括174例肿瘤组(T)和91例正常对照组(N)。通过子宫内膜癌组织与正常子宫内膜组织比较,关键基因DEPDC1和CXCL8在肿瘤组织中的表达高于正常对照组,差异具有统计学意义(P<0.05,见图5)。
A:DEPDC1的表达差异;B:CXCL8的表达差异;红色为肿瘤组(T),灰色为正常对照组(N);*:P<0.05。图5 核心模块的关键基因在子宫内膜癌和正常对照中的表达分析
3 讨论
尽管治疗手段不断进步,晚期子宫内膜癌的预后仍然较差。在全球,2018年预计有38万新发病例,8.9万人死于子宫内膜癌[8]。多个研究发现,子宫内膜癌中多种分子参与了肿瘤的进展,如编码基因PIK3CA、K-RAS、TP53等[9],以及microRNA[10]和长非编码RNA[11]等。但是目前尚无子宫内膜癌特异的诊断标志物[12],因此寻找新的子宫内膜癌标志物,对于早期诊断和新的药物开发都具有十分重要的意义。
本研究利用生物信息学分析方法,将GEO数据库中的两个子宫内膜癌相关数据集GSE17025和GSE39099进行整合,共纳入111例子宫内膜癌组织和22例正常组织,筛选出229个差异表达基因,其中表达上调的基因有101个,表达下调的基因有128个。通过对差异表达基因的GO和KEGG分析,上调的DEGs主要位于胞核,富集于细胞增殖、蛋白质结合、细胞周期等信号通路,下调的DEGs主要位于胞外区域,富集于药物反应、金属离子结合、cAMP信号通路。进一步利用PPI网络分析和MCODE分析手段,将这些差异表达基因构建了两个核心模块,其中的种子基因即两个模块的关键基因,分别是DEPDC1基因和CXCL8基因。利用TCGA数据库的数据,发现DEPDC1基因和CXCL8基因在子宫内膜癌组织中的表达升高,并且与患者的不良预后有关。结果提示,DEPDC1基因和CXCL8基因可能是子宫内膜癌中发挥重要调控作用的关键基因靶点。
DEPDC1基因最初发现在膀胱癌中高表达,利用siRNA敲低DEPDC1基因表达,可以抑制膀胱癌细胞的生长[13]。之后的多项研究发现DEPDC1基因参与多种肿瘤的发生发展。Zhao等研究发现在乳腺癌中,DEPDC1基因能够促进乳腺癌细胞的恶性表型,并且能预测乳腺癌患者的不良预后[14]。另有一项研究发现DEPDC1基因在肝癌组织中表达升高,并且高表达的DEPDC1基因与肝癌的进展和不良预后相关[15]。另有学者发现,在子宫内膜癌中,DEPDC1基因可能作为原钙粘蛋白10的下游分子参与子宫内膜癌的发生发展[16]。但是DEPDC1基因在子宫内膜癌中的功能及作用机制仍不明确。
CXCL8基因编码的蛋白也称为白细胞介素8(Interleukin 8,IL-8),主要由单核细胞、T淋巴细胞、中性粒细胞、自然杀伤细胞、成纤维细胞以及上皮细胞分泌。它主要通过两个特异性的趋化因子受体CXCR1和CXCR2介导炎症反应。近年来的研究也表明,CXCL8与肿瘤发生发展也有密切关系。肿瘤细胞分泌的CXCL8与肿瘤微环境中的CXCR1/2之间的相互作用对肿瘤的进展和转移至关重要[17]。有研究发现,相对于健康者,胰腺癌患者的血清CXCL8水平明显升高,并与淋巴结转移相关。通过比较其诊断特异性和敏感性,血清CXCL8作为胰腺癌的诊断标志物甚至优于常规诊断标志物如CA19-9和CEA[18]。但是CXCL8在子宫内膜癌中的研究尚不多见。有研究发现在子宫内膜癌中,由肿瘤相关的巨噬细胞驱动的CXCL8通过HOXB13来诱导雌激素受体α的抑制,从而促进肿瘤细胞的侵袭和转移[19]。CXCL8是否能作为子宫内膜癌的分子诊断标志物或治疗靶点仍需进一步研究。
综上所述,本研究利用公共数据平台的子宫内膜癌多组芯片数据,从基因层面分析子宫内膜癌相关分子和信号通路,筛选出两个关键基因DEPDC1和CXCL8,可能在子宫内膜癌中发挥着重要作用。尽管两个分子在子宫内膜癌的功能和机制仍需要进一步实验验证,但我们的研究结果为子宫内膜癌新的生物标志物和治疗靶点筛选提供一定研究思路。