基于GEO数据库的胃癌差异表达基因的生物信息学分析①
2020-11-10邱洁萍孙梦雨左瑞东王耀群
邱洁萍 孙梦雨 左瑞东 王耀群 陈 博
(安徽医科大学第一临床医学院,合肥 230000)
胃癌是目前具有侵袭性和致死性的恶性肿瘤之一[1]。大多数胃癌是在晚期被诊断出来的[2]。尽管针对胃癌的疗效有所改善,但晚期胃癌患者5年生存率仍低于20%,而如果早期发现胃癌,其5年生存率可高达90%,所以,胃癌的早期诊断十分重要[3,4]。研究表明,许多生化分子标志物参与肿瘤的发生发展,可用于肿瘤的早期筛查[5]。因此,有必要进一步发掘胃癌发生发展过程中新的、特异性高的诊断标志物。近年来,生物信息学已成为癌症基因表达谱数据挖掘的一种有效工具[6]。本研究从GEO数据库中下载原始数据,通过比较胃癌样本与正常组织样本的基因表达谱筛选出差异表达基因(differentially expressed genes,DEGs),对其进行生物信息学分析并结合Kaplan-Meier plotter数据库进行预后分析,为胃癌的诊断、靶向药物研究及预后评价提供有价值的信息。
1 资料与方法
1.1资料 基因芯片数据的获取:根据样本来自人胃组织标本、有病例对照组、样本数≥20这3个条件,从NCBI的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中筛选出3套胃癌数据集(GSE54129、GSE29998、GSE79973),以保证数据集的代表性。其中数据集GSE79973、GSE54129基于GPL570平台,数据集GSE29998基于GPL6947平台。GSE54129包含癌组织21例,正常组织111例;GSE79973包含癌组织和正常组织各10例;GSE29998包含癌组织50例,正常组织49例。
1.2方法
1.2.1DEGs的筛选 利用GEO数据库自带的在线分析工具GEO2R处理原始数据,将数据分为胃癌组和正常组进行分析。DEGs筛选标准:①校正后P<0.05;②|logFC|>1.5。将logFC<1.5的基因作为上调差异基因(UDEGs),logFC<-1.5的基因作为下调差异基因(DDEGs)。使用在线工具Draw Venn diagram(bioinformatics.psb.ugent.be/webtools/Venn/)确定3组数据的相交部分。
1.2.2DEGs的基因本体论(gene ontology,GO)富集分析与京都基因与基因组百科全书(the kyoto encyclopedia of genes and genomes,KEGG)通路分析 GO分析是基因功能富集研究的常用方法,基因功能被分成生物过程(biological process,BP)、分子功能(molecular function,MF)和细胞组分(cellular component,CC)3类。KEGG是1个整合了大量关于基因组、疾病、生物途径和系统功能信息的数据库。本研究采用David(https://david.ncifcrf.gov/)数据库对筛选出的DEGs进行GO和KEGG分析。
1.2.3蛋白互作网络的构建和核心基因的筛选 利用String(http://string-db.org/)数据库构建差异基因的蛋白互作网络(PPI),互作评分>0.4作为阈值条件。将PPI网络导入Cytoscape软件进行可视化,计算节点的连通度。具有较高连通度的节点在疾病发生发展过程中具有更加重要的意义。本研究选取连通度前10位的DEGs作为核心基因进行后续预后分析对象。
1.3核心基因的预后分析 使用Kaplan-Meier plotter(http://kmplot.com/analysis/)数据库评估核心基因的预后价值。每个基因根据mRNA表达值自动将癌症患者分为高表达和低表达两组进行比较,P<0.05为差异具有统计学意义。
2 结果
2.1筛选DEGs 经筛选后得到DEGs 2 773个,其中包括1 423个UDEGs,1 350个DDEGs。3个数据集均有交集的基因共61个,其中上调基因26个,下调基因35个(见表1、2)。
表1 胃癌上调差异表达基因Tab.1 UDEGs in gastric cancer
表2 胃癌下调差异表达基因Tab.2 DDEGs in gastric cancer
2.2胃癌DEGs的生物过程分析 GO富集分析显示,胃癌UDEGs主要分布在细胞外区、蛋白质细胞外基质、细胞外基质等组织,参与了细胞黏附、生物黏附、防御反应等生物过程,主要有细胞外基质结构成分、糖胺聚糖结合等分子功能;胃癌DDEGs主要分布在细胞顶端部分、细胞外区域等组织,参与消化、脂质分解、金属离子反应等生物学过程,主要有类固醇结合、辅酶结合等分子功能。表3、4列出了P值最小的前10位上调及下调差异基因的GO分析结果。
表3 胃癌上调差异表达基因的GO分析Tab.3 GO analysis of UDEGs in gastric cancer
表4 胃癌下调差异表达基因的GO分析Tab.4 GO analysis of DDEGs in gastric cancer
2.3胃癌DEGs参与的信号通路分析 由KEGG分析得到的P值最小的前10位显著富集的UDEGs和DDEGs路径如表5、6所示。UDEGs在黏着斑、ECM受体相互作用、白细胞经内皮迁移等信号途径中高表达,而DDEGs在细胞色素P450对异种生物的代谢、药物代谢、视黄醇代谢等通路中富集表达。
表5 胃癌上调差异表达基因通路富集分析Tab.5 Enrichment analysis of UDEGs pathways in gastric cancer
表6 胃癌下调差异基因通路富集分析Tab.6 Enrichment analysis of DDEGs pathways in gastric cancer
2.4PPI网络构建和核心基因鉴定 利用String数据库预测DEGs间的相互作用,并将61个在3个数据集中都差异表达的DEGs的信息导入Cytoscape软件进行可视化研究。PPI网络共涉及61个节点和105条边,如图1所示。选取PPI网络中连通度排序前10的为核心基因。结果表明,最具代表性的基因为COL1A1,连通度为18,其次分别为COL1A2、BGN、THBS2、COL5A2、CDH11、COL5A1、COL12A1、COL6A3、TIMP1。见图1、表7。
图1 胃癌差异表达基因编码蛋白作用网络图Fig.1 Protein-protein interaction network for products of DEGs in gastric cancerNote:Each dot represents a protein,and interaction between proteins is indicated by a line.Orange represents UDEGs,and green represents DDEGs.Circle size is for connectivity.
2.5核心基因的预后分析 用Kaplan-Meier plotter进行预后分析,对于每个基因根据mRNA表达值自动将癌症患者分为高表达和低表达两组进行比较,P<0.05对胃癌患者总体生存率具有显著影响。在Kaplan-Meier绘图仪平台上共有876例GC患者可用于分析总生存率。分析结果显示,除COL5A2的上调(P=0.187 5)对胃癌患者总体存活率无显著影响,其余9个核心基因(COL1A2、BGN、THBS2、COL1A1、CDH11、COL5A1、COL12A1、COL6A3、TIMP1)的上调差异表达均显著影响胃癌患者的总体生存率。见图2、表7。
表7 核心基因的连通度及探针选择Tab.7 Degree and probe selection of core genes
图2 胃癌核心基因的预后分析Fig.2 Prognostic analysis of core genes in gastric cancer
3 讨论
胃癌是中国地区癌症患者死亡的重要原因之一,及早进行筛查和诊断治疗具有重要意义。因此,探究胃癌发生发展过程中的潜在诊疗靶点十分必要。
本研究从GSE54129、GSE29998、GSE79973 3个数据集中共筛选出61个在3个数据集中差异表达的基因,其中有7个差异基因属于胶原蛋白(COL)家族,且COL1A1、COL1A2、COL5A1、COL5A2、COL12A1、COL6A3均为连通度排名前10的核心基因,这表明胶原蛋白基因与胃癌的侵袭和进展关系密切,是胃癌的潜在靶点。研究表明胶原蛋白参与肿瘤细胞的黏附和细胞外基质(extracellular matrix,ECM)的形成[7]。COL1A1是Ⅰ型胶原的主要成分,研究显示COL1A1在癌组织和细胞中的表达上调[8]。Wang等[9]认为miR-129-5p通过抑制COL1A1抑制胃癌细胞的侵袭和增殖。以往的生物信息学研究表明,COL5A1是胃癌的一个关键因素[10]。COL6A3通过调节hippo和wnt信号来促进肿瘤生长,且COL6A3是结直肠癌的特异性预后标志物,提示COL6A3也可能是胃癌的潜在靶点[11,12]。据报道,COL12A1与多种癌症有关,如卵巢癌、乳腺癌和结肠癌[13-15]。Duan等[16]的研究显示,COL12A1的高表达与胃癌患者预后不良显著相关,这提示COL12A1也可能是胃癌的1个新的潜在标志物。
血小板反应蛋白(thrombospondins,THBS)是一种细胞外糖蛋白,在细胞间相互作用中发挥多种作用[17]。THBS2被报道与调节细胞凋亡、细胞增殖和黏附相关[18]。有研究显示,THBS2高表达与胃癌细胞株低增殖率相关[19]。所以THBS2可能是胃癌潜在的预后因子。
细胞外基质(ECM)是一种蛋白质复合物,在细胞迁移和增殖以及癌症发展中发挥重要作用[20]。BGN作为ECM的一个组成部分,被认为是癌细胞获得迁移和侵袭能力的途径[21]。有研究显示,在GC组织中BGN的表达与相邻正常胃组织中BGN相比明显上调[22]。这些研究结果显示,BGN是胃癌的1个关键因素,可作为胃癌早期诊断标志物。
CDH11属于钙黏着蛋白超家族,介导同种细胞间黏附[23]。Kalluri等[24]报道CDH11与EMT有关,这表明CDH11在癌症进展中起着关键作用。Chen等[25]的研究表明,CDH11可能调节生物黏附,与GC的进展和预后相关。以上研究成果提示CDH11可能是胃癌早期诊断的1个新型标志物。
研究表明,组织抑制剂基质金属蛋白酶1(TIMP1)在细胞增殖和抗凋亡的调节中发挥重要作用[26-28]。Wang等[29]的研究显示,高TIMP1表达水平可能是胃癌复发的不良预后因素。以上结果显示,TIMP1可能是胃癌筛查、诊断、预后和监测的潜在生物标志物。