APP下载

基于生物信息学的胃癌预后基因的筛选和分析

2021-01-11程晓成肖竞英焦作义

医学研究杂志 2020年12期
关键词:基因芯片胞外基质胃癌

程晓成 李 凡 肖竞英 焦作义

胃癌(gastric carcinoma,GC)是消化系统最常见的恶性肿瘤之一,其发生率和病死率高居全球恶性肿瘤的第3位[1]。由于胃癌患者早期无明显临床症状,所以多数患者发现时已是晚期,错过最佳治疗时间[2]。虽然,手术和放化疗能在一定程度上延长患者的生存时间,但癌细胞的侵袭和转移能力又促进胃癌患者术后的复发及死亡,导致其术后的5年生存率仅为5%~15%,预后监测在胃癌治疗中起着至关重要的作用[3,4]。近年来,由于基因芯片技术和生物信息学的快速发展,为探讨胃癌的致病分子机制提供了便利[5]。本研究希望通过从公共基因数据库(gene expression omnibus, GEO,http:∥www. ncbi. nlm. nih. gov/geo/)中下载的GSE54129、GSE81948、GSE118916这3个基因芯片进行数据挖掘,利用生物信息学的相关分析方法筛选出胃癌预后相关的基因,为胃癌的预后监测供新的诊断指标和新靶点,也为胃癌靶向药物研发提供候选标志物和理论依据。

资料与方法

1.数据来源:从GEO数据库中下载胃癌基因芯片数据集GSE54129、GSE81948、GSE118916。GSE54129包含111个胃癌标本和21个正常组织标本,GSE81948包含15个胃癌标本和5个正常组织标本,GSE118916包含15个胃癌标本和15个正常组织标本。

2.差异表达基因的筛选:利用GEO数据库自带的分析工具GEO2R对GSE54129、GSE81948、GSE118916 3个基因芯片数据集进行分析,以P<0.05,|log2FC(fold change)|>1作为筛选标准,分别对3个数据集进行差异表达基因(differen- tially expressed genes,DEGs)的筛选。将筛选后DEGs包含上调基因和下调基因,以火山图的形式展现,并用韦恩图取交集。

3.DEGs的GO和KEGG通路富集分析:本研究将筛选后的DEGs利用在线软件DAVID(https:∥david.ncifcrf.gov/)进行基因本体论(gene ontology,GO)包括细胞成分、分子功能、生物学过程3个方面的功能富集分析,并使用京都基因与基因组百科全书(kyoto encyclopedia of genes and geno- mes,KEGG)进行通路富集分析[6,7]。以P<0.05为差异有统计学意义。

4.PPI网络图和hub 基因筛选:使用在线网站STRING (http:∥string-db.org) 将筛选的DEGs进行PPI网络构建,并使用Cyto- scape 3.6.1 (http:∥www. cytoscape.org/) 软件绘制PPI可视化网络图,然后通过CytoHubba插件筛选hub基因,以最大相关标准(maximal clique centrality,MCC)算法筛选出分数前10位DEGs基因作为本次研究的hub基因。

5.hub基因预后和表达分析:运用KaplanMeier-plotter(https:∥kmplot.com/analysis/) 基于GEO数据库验证hub基因的生存分析。使用GEPIA数据库(http:∥gepia.cancer- pku.cn/detail.php)基于TCGA and GTEx data对预后相关的hub基因进行表达水平分析。

结 果

1.DEGs的分析:从GSE54129、GSE81948、GSE118916 3个数据集中分别筛选出3894、1074、1820个DEGs(图1);取交集后获得362个总DEGs(图2A),其中356个DEGs有着共同的表达趋势,包含164个上调基因(图2B),192个下调基因(图2C)。

图1 反映胃癌基因芯片数据集中差异表达基因的火山图(红色代表上调基因,绿色代表下调基因)A.GSE54129;B.GSE81948;C.GSE118916

图2 GSE54129、GSE81948、GSE118916中差异表达基因取交集A.总差异表达基因;B.上调差异表达基因;C.下调差异表达基因

2.DEGs在GO和KEGG中的富集分析:以P<0.05,筛选出富集程度前10位的GO功能,结果显示DEGs组成细胞外空间、细胞外区域、细胞外基质(extracellular matrix, ECM)、细胞外泌体和蛋白质细胞外基质等细胞成分,参与细胞外基质的组织、细胞黏附和胶原蛋白分解过程等生物学过程,发挥胶原蛋白结合和细胞外基质结构组成的分子功能,由此可见差异表达基因GO功能富集主要在细胞外基质和胶原蛋白(表1)。以P<0.05,筛选出富集程度前10位的KEGG信号通路分析结果,DEG主要参与的信号通路包括ECM-受体相互作用、胃酸分泌、蛋白质的消化吸收、阿米巴病、局部黏附、疟疾、PI3K-Akt信号通路、细胞色素P450对异生物的代谢、金黄色葡萄球菌感染和醛固酮调节钠的重吸收(表2)。胃癌预后基因主要参与ECM-受体相互作用、蛋白质的消化吸收、阿米巴病、PI3K-Akt信号通路和局部黏附这4条信号通路去调控胃癌的生物学过程。

表1 胃癌中差异表达基因的前10条GO功能富集分析

表2 胃癌中差异表达基因的前10条KEGG通路富集分析

3.PPI网络分析与hub基因的筛选:将DEGs导入在线STRING数据库构建出PPI网络,并使用Cytoscape软件可视化PPI网络。该网络由292个节点和1233个边构成,网络中红色为上调基因,绿色为下调基因(图3A)。MCC算法筛选出COL1A1、COL3A1、FN1、MMP2、COL5A1、BGN、COL4A1、COL4A2、FBN1和COL6A3这个10个hub基因(表3),颜色越深,相关程度越高(图3B)。

图3 差异表达基因蛋白互作网络图(红色表示上调基因,绿色表示下调基因)A.编码蛋白互相作用网络;B.插件确认的10个hub基因

表3 胃癌基因芯片中10个hub基因表达特点

4.hub基因和胃癌预后的关系:使用KaplanMeier-plotter在线数据库对10个hub基因进行K-M生存分析,发现COL1A1、COL3A1、FN1、MMP2、COL5A1、BGN、COL4A1、COL4A2和COL6A3这9个基因和胃癌生存预后相关(P<0.05,图4),并且高表达组预后差,5年生存时间更短,低表达组预后好,5年生存时间长(P<0.05)。GEPIA数据库对这9个hub基因进行表达水平分析发现,与正常胃组织比较,这些基因在胃癌组织中均呈高表达水平(图5,P<0.05)。

图4 hub基因表达水平与胃癌患者生存时间的关系A.COL1A1;B.COL3A1;C.FN1;D.MMP2;E.COL5A1;F.BGN;G.COL4A1;H.COL4A2;I.COL6A3

图5 预后基因在胃癌和正常胃组织中的表达水平(红色代表肿瘤组织,灰色代表正常组织)A.COL1A1;B.COL3A1;C.FN1;D.MMP2;E.COL5A1;F.BGN;G.COL4A1;H.COL4A2;I.COL6A3;*P<0.05

本研究通过分析从GEO数据库下载的3个基因芯片表达数据集,共筛选出362个DEGs。之后对DEGs进行GO和KEGG富集分析,发现筛选的胃癌预后基因主要参与的GO 功能富集为细胞外基质和胶原蛋白(表1),参与的KEGG信号通路富集主要在ECM-受体相互作用、蛋白质消化吸收、阿米巴病、局部黏附和PI3K-Akt信号通路(表2)。细胞外基质(ECM)是一种为细胞提供生化和基本结构支持的复杂网络结构,在致癌过程中,ECM被重塑,胶原蛋白与层粘连蛋白和纤维连接蛋白一起作为ECM的主要成分,形成癌细胞用于生长,存活和迁移的微环境[8~11]。胃癌中ECM的作用已被证实在疾病的所有阶段,从肿瘤开始到转移[12]。胶原蛋白是肿瘤细胞外基质的主要成分,参与肿瘤细胞外基质(ECM)受体相互作用和局灶性黏附信号通路,在胃癌的侵袭和转移中起着至关重要的作用[13,14]。PI3K-Akt信号通路在细胞生长、蛋白翻译、凋亡的调控中均发挥重要作用,在胃癌中PI3K-Akt信号通路和预后相关,抑制该信号通路后发现胃癌的生长受到限制[15~17]。局灶黏附信号通路在传递细胞黏附信号、调整细胞骨架重组及细胞存活和凋亡等各种重要生物学过程中起作用,参与肿瘤的生长和转移[18,19]。

通过构建蛋白互作网络,共筛出10个核心基因,通过生存分析发现COL5A1、COL4A1、COL4A2、COL1A1、COL3A1、COL6A1、FN1、MMP2和BGN这9个基因参与胃癌的发生,也影响其预后。已有的研究表明COL1A1、COL4A1、COL4A2、COL6A3、MMP2和FN1与胃癌预后相关[14,20,21]。但COL5A1、COL3A1和BGN与胃癌的预后关系尚不清楚。本研究发现,COL5A1和COL3A1参与ECM-受体相互作用和PI3K-Akt信号通路。这两条信号通路均是胃癌发生关键通路,前者伴随着胃癌发生和转移,后者与胃癌预后相关。虽然BGN与胃癌预后的关系尚未定论,但本研究发现该基因参与和维持细胞外基质。因此,对于这3个基因与胃癌发病机制的关系,值得进一步研究。

COL5A1基因是编码哺乳动物中较小的纤维胶原,关于COL5A1的研究主要集中在单核苷酸多态性、运动损伤和结缔组织损伤。在癌症研究中很少有COL5A1的研究报道,目前已有的研究表明该基因在乳腺癌、卵巢癌和肾癌中差异表达,并且被用于乳腺癌的预后监测和诊断标志物[11]。COL3A1是Ⅲ型胶原蛋白的主要成分之一,主要在血管扩张和皮肤等结缔组织中表达[22]。目前已经研究表明COL3A1在胃癌、膀胱癌和胶质母细胞瘤等多种癌症中表达,且高表达显示膀胱癌和胶质母细胞瘤预后不佳。研究还表明COL3A1表达上调与胶质瘤分期直接相关,且表达沉默可导致细胞增殖和迁移的抑制[23]。

BGN是一种双糖链蛋白多糖,在肿瘤组织中的异常表达提示其在肿瘤迁移和侵袭中起致癌作用。BGN不仅直接触发促炎性TLR和炎性小体信号转导,而且还刺激促炎性细胞因子和ROS的产生,而促炎性细胞因子和ROS是癌症炎症和血管生成的关键介质。尽管人们开始认识到BGN可能影响癌症的发展依赖于炎症,但BGN与胃癌坏死的关系仍有待揭示。也有相关研究表明胃癌组织中BGN表达上调,提示胃癌的侵袭性将增强,预后可能不佳。目前,Guo等[24]研究发现雷公藤红素(celastrol)可以降低BGN的表达,从而诱导胃癌细胞坏死和改善炎症,有抑制肿瘤发展的作用,所以雷公藤红素以BGN作为基因靶点可能作为治疗胃癌的一种潜在的有效药物。

综上所述,本研究利用生物信息学方法筛选和分析了参与胃癌调控的差异表达基因,找到了10个胃癌核心基因。进一步分析发现BGN、COL3A1和COL5A1这3个基因可能成为胃癌预后的新的标志物。虽然这些基因在胃癌中参与的发病机制仍需要通过大量的基础实验和临床研究验证,但本研究也为胃癌的诊疗提供了一些新颖的预后监测指标和靶点,也为研究胃癌的靶向治疗提供了新的候选基因和理论依据。

猜你喜欢

基因芯片胞外基质胃癌
脱细胞外基质制备与应用的研究现状
出生时即可预判发育潜力 基因芯片精准筛选肉牛良种
关于经络是一种细胞外基质通道的假说
基因芯片技术在生物研究中的应用进展
P53及Ki67在胃癌中的表达及其临床意义
基因芯片快速检验细菌的临床应用
胃癌组织中LKB1和VEGF-C的表达及其意义
胃癌组织中VEGF和ILK的表达及意义
水螅细胞外基质及其在发生和再生中的作用
中医辨证结合化疗治疗中晚期胃癌50例